Agentes de IA vulnerables a phishing, advierten investigadores
Nueva investigación indica que los agentes de IA de código abierto, diseñados para automatizar tareas, son susceptibles a tácticas comunes de phishing. Un estudio de Varonis revela que estos agentes, incluso con estrictos protocolos de seguridad, pueden ser engañados para divulgar datos confidenciales de la empresa, reflejando vulnerabilidades humanas.

Los agentes de inteligencia artificial, si bien prometen una mayor productividad, están demostrando una preocupante susceptibilidad a los ataques de phishing que han afectado a los usuarios humanos durante mucho tiempo. Una investigación reciente de la firma de seguridad **Varonis** destaca cómo estos sistemas autónomos, construidos sobre modelos de lenguaje grandes (LLMs), pueden ser manipulados para comprometer datos confidenciales.
La investigación se centró en un framework de agente de IA de código abierto **OpenClaw**, que permite a los LLMs interactuar con sistemas del mundo real. **Varonis Threat Labs** configuró un agente **OpenClaw**, llamado **Pinchy**, conectándolo a una bandeja de entrada de Gmail, herramientas de navegador, APIs de **Google Workspace** y fuentes de datos simuladas de la empresa. Este entorno sintético incluía información altamente sensible como credenciales de AWS, credenciales de bases de datos, exportaciones de CRM y comunicaciones internas.
### Probando la Resiliencia del Agente
El agente fue probado bajo dos configuraciones: un perfil genérico con instrucciones de productividad estándar y un 'modo estricto' que incorporaba conciencia explícita sobre phishing y procedimientos de verificación de identidad. El framework utilizó dos LLMs prominentes: **Google Gemini 3.1 Pro** y **OpenAI GPT-5.4**.
"**Varonis Threat Labs** exploró si las mismas técnicas de phishing que han engañado a los humanos durante décadas también funcionarían en los agentes de IA que trabajan en su nombre", declaró el informe. "Creamos un agente de IA **OpenClaw** llamado **Pinchy** para probar si el agente pasaría o fallaría versiones de simulaciones de phishing clásicas".

*Descripción general del ataque simulado
Fuente: Varonis*
### Escenarios de Phishing Simulados y Resultados
Los investigadores llevaron a cabo cuatro ataques de phishing simulados, arrojando resultados mixtos:
1. **Líder de equipo suplantado**: Un atacante, suplantando a un líder de equipo, solicitó acceso a un entorno de staging durante un problema de producción fabricado. El agente, tanto en modo genérico como estricto, **localizó y envió por correo electrónico** claves de AWS IAM, credenciales de bases de datos y detalles de acceso SSH a una cuenta externa de Gmail.
2. **Solicitud de exportación de cliente**: Un atacante solicitó una exportación de cliente para una presentación remota. El agente **recuperó y envió** una exportación de CRM que contenía registros de clientes, información de contacto y datos de ingresos sin verificar la identidad del remitente.
3. **Correo electrónico falso de tarjeta de regalo**: El agente recibió un correo electrónico de phishing con un enlace a una tarjeta de regalo. La configuración genérica visitó el sitio, intentó canjear la tarjeta de regalo con credenciales falsificadas y finalmente identificó la página como maliciosa. La configuración estricta bloqueó el ataque de inmediato.
4. **Aplicación OAuth maliciosa**: Los investigadores crearon una aplicación **Google OAuth** maliciosa disfrazada de plataforma de hojas de tiempo. El agente inspeccionó el flujo OAuth, analizó el destino, identificó la aplicación como sospechosa y se negó a otorgar acceso.
Crucialmente, los dos primeros escenarios vieron fallar el modo estricto a pesar de las salvaguardas mejoradas. **Varonis** señaló que "Tanto los perfiles Genérico como Estricto fallaron porque el paso de verificación aún colapsó cuando la solicitud parecía operativamente urgente".

*La respuesta del agente en el escenario 2 exponiendo datos del cliente
Fuente: Varonis*
### Vulnerabilidades Clave y Recomendaciones
**Varonis** concluyó que, si bien los agentes de IA son excelentes para detectar URLs sospechosas, páginas de inicio de sesión falsas y aplicaciones OAuth maliciosas, luchan con la verificación de identidad, la pérdida de contexto y la aplicación de principios de confianza cero a las interacciones sociales. El estudio también observó que **Google Gemini** mostró una mayor disposición a interactuar, mientras que **OpenAI GPT-5.4** adoptó una postura más cautelosa.
Para mitigar estos riesgos, **Varonis** recomienda varias medidas críticas:
* Requerir explícitamente que los agentes verifiquen las identidades de los remitentes.
* Evitar que los agentes envíen correos electrónicos a nuevos destinatarios externos sin aprobación humana explícita.
* Implementar limitaciones estrictas en el acceso de los agentes a datos internos.
* Requerir aprobación humana para acciones de alto riesgo, como compartir credenciales, solicitudes de datos financieros y comunicaciones por primera vez.
Estos hallazgos subrayan la importancia de consideraciones de seguridad robustas a medida que los agentes de IA se integran cada vez más en las operaciones empresariales, enfatizando la necesidad de un enfoque de múltiples capas para proteger la información confidencial.