La confianza de ChatGPT en Markdown abre la puerta a ataques 'ChatGPhish'
Investigadores descubrieron una vulnerabilidad en **OpenAI ChatGPT** que explota la confianza de la IA en enlaces e imágenes de Markdown. Denominada 'ChatGPhish', la técnica permite inyecciones de prompts y ataques de phishing al aprovechar contenido recuperado automáticamente.
Investigadores de ciberseguridad han revelado detalles de una vulnerabilidad en **OpenAI ChatGPT** que aprovecha la confianza implícita del asistente de inteligencia artificial (IA) en los enlaces e imágenes de Markdown para desencadenar inyecciones de prompts y abrir la puerta a ataques de phishing.
La técnica ha sido denominada **ChatGPhish** por **Permiso Security**.
"El renderizador de respuestas de chatgpt.com confía en los enlaces de Markdown y las URLs de imágenes de Markdown que se originan en una página de terceros que el asistente acaba de resumir. Recupera automáticamente esas imágenes y muestra esos enlaces como elementos activos y clicables dentro de la interfaz de usuario del asistente de confianza", dijo el investigador de seguridad Andi Ahmeti en un informe compartido con The Hacker News.

### El Escenario del Ataque
En un escenario de ataque hipotético, un actor malicioso puede adjuntar una pequeña carga útil a cualquier página web que la víctima luego pida a ChatGPT que resuma. Esto provoca que se filtre su IP, User-Agent y detalles de Referer cuando las imágenes alojadas por el atacante incrustadas en la página se recuperan automáticamente al renderizar la respuesta.
Además, los enlaces maliciosos de Markdown pueden renderizarse como elementos activos y clicables dentro de la respuesta del asistente. Esto puede servir como falsas alertas de seguridad del sistema o un código QR de un bucket S3 de un atacante, engañando a la víctima para que lo escanee a través de su dispositivo móvil y evadiendo los filtros de URL de escritorio y los controles de seguridad empresariales.
### La Resumen como Superficie de Ataque
El último hallazgo demuestra cómo el resumen puede emerger como una superficie adversaria. A principios de marzo, **Permiso** también reveló cómo un correo electrónico controlado por un atacante que contenía instrucciones especialmente elaboradas, al ser resumido por **Microsoft Copilot**, podría influir en su salida a través de una inyección de prompt cruzada (XPIA) o inyección de prompt indirecta.
Lo que hace de ChatGPhish una técnica de ataque digna de mención no es la inyección de prompt en sí, sino la forma en que se siguen las instrucciones incrustadas en una página web y se presentan al usuario como parte del resumen.
En otras palabras, una página web normal resumida con ChatGPT es suficiente para renderizar enlaces de phishing, alertas de cuenta falsificadas, imágenes remotas y códigos QR directamente dentro de una interfaz de IA de confianza. A medida que las organizaciones utilizan cada vez más ChatGPT para investigación y resumen, esta vulnerabilidad significa que cualquier página web maliciosa que un empleado pida al chatbot de IA que procese podría contener una carga útil que transforme ChatGPT en una superficie de phishing.
"El cambio del correo electrónico al navegador expande significativamente la superficie de ataque potencial. Un usuario ya no tiene que abrir un archivo adjunto malicioso o interactuar con un mensaje sospechoso", dijo Permiso. "Simplemente resumir una página durante la actividad normal de navegación puede introducir instrucciones controladas por el atacante en el contexto del modelo y, en última instancia, en la respuesta renderizada".
### Agentes de Codificación de IA Bajo Fuego: SymJack y TrustFall
La divulgación se produce mientras **Adversa AI** documentó dos técnicas de ataque denominadas **SymJack** y **TrustFall** dirigidas a agentes de codificación de IA y CLIs de codificación agentic que permiten a los atacantes lograr la ejecución de código y el compromiso completo de la máquina.
SymJack es "un único patrón de ataque [que] permite a un repositorio malicioso lograr la ejecución remota de código a través de asistentes de codificación de IA", dijo el investigador de seguridad Rony Utevsky. "El agente es engañado para realizar una copia de archivo de apariencia benigna que sobrescribe secretamente su propia configuración, y el próximo reinicio ejecuta código del atacante con privilegios completos de usuario".
Específicamente, un repositorio manipulado engaña al agente para que copie un archivo aparentemente inofensivo, donde el destino es un enlace simbólico que apunta a la configuración del propio agente, haciendo que la carga útil del atacante se escriba en la configuración. En el próximo reinicio, un servidor malicioso de Model Context Protocol (MCP) se inicia y ejecuta código arbitrario con privilegios completos de usuario.
TrustFall, por otro lado, es un ataque de ejecución remota de código de un clic a través de un repositorio malicioso que puede enviar una configuración que aprueba automáticamente y lanza un servidor MCP sin la aprobación explícita de un usuario o sin requerir una llamada a herramienta del agente.
En otras palabras, todo lo que un actor de amenazas necesita para llevar a cabo el ataque es crear un repositorio que incluya un servidor MCP malicioso y configuraciones que lo aprueben automáticamente para ejecutarse. Cuando un desarrollador clona o abre el repositorio en la herramienta de codificación de IA y presiona "Enter" en la indicación de confianza de la carpeta, la herramienta de codificación de IA termina lanzando el código controlado por el atacante con los privilegios completos del sistema del desarrollador.
"En el momento en que una víctima clona el repo, ejecuta Claude y hace clic en el diálogo genérico 'Sí, confío en esta carpeta', el servidor MCP se inicia como un proceso nativo del sistema operativo con privilegios completos de usuario", señaló **Adversa AI**. "La carga útil se ejecuta al inicio del servidor, antes de cualquier llamada a herramienta y sin indicaciones adicionales".
### Vectores de Ataque de IA Recientes
Los hallazgos coinciden con el descubrimiento de una serie de métodos de ataque contra modelos de IA en los últimos meses:
* El uso de un enfoque novedoso de jailbreak llamado Involuntary In-Context Learning (IICL) que "explota la tensión entre el aprendizaje en contexto (ICL) y la alineación de seguridad" para eludir las restricciones de seguridad de GPT-5.4.
* Las barreras de seguridad de los LLM pueden ser eludidas si un usuario engaña al modelo para que tenga una conversación de múltiples turnos. "La evaluación de múltiples turnos importa por una razón: es donde los atacantes realmente viven", dijo **Cisco**. "Los adversarios reales iteran. Replantearon las negativas, descompusieron tareas a lo largo de los turnos, adoptaron personas y escalaron gradualmente. Un benchmark de un solo turno no puede ver nada de eso".
* Una vulnerabilidad en **Anthropic Claude Code** que emplea un cambio de configuración a nivel de usuario en "~/.claude.json" para reescribir los puntos finales de MCP a través de un paquete npm malicioso para colocar a un atacante entre Claude Code y un servidor MCP respaldado por OAuth, lo que permite al actor malintencionado capturar tokens utilizados para el acceso a SaaS posterior.
* El uso de un mecanismo de actualización remota que permite que una habilidad de OpenClaw parezca benigna en el momento de la instalación, pero luego permite al atacante influir en el agente a través de archivos de espacio de trabajo al instruir al usuario durante la configuración de la habilidad para agregar instrucciones específicas al archivo HEARTBEAT.md.
* El uso de texto oculto con contenido extraído de un boletín legítimo o una novela romántica en correos electrónicos de phishing para confundir a un sistema de seguridad de correo electrónico basado en IA para que marque el mensaje como benigno.
* Una vulnerabilidad en la extensión de Chrome de Claude llamada ClaudeBleed permite que cualquier extensión, incluso aquellas sin permisos especiales, la secuestre y engañe al asistente de IA para que realice acciones agentic activas en su nombre. "La falla se deriva de una instrucción en el código de la extensión que permite que cualquier script que se ejecute en el navegador de origen se comunique con el LLM de Claude, pero no verifica quién está ejecutando el script", dijo **LayerX**. "Como resultado, cualquier extensión puede invocar un script de contenido (que no requiere permisos especiales) y emitir comandos a la extensión de Claude".
* Un estudio de **Cisco** ha encontrado que el texto adversarial renderizado como imágenes, un ataque conocido como inyección de prompt tipográfico, puede usarse para eludir los filtros de seguridad en modelos de lenguaje de visión (VLM). "Cuando un modelo no puede leer la imagen original (fuente pequeña, mucho desenfoque, rotación), una perturbación acotada puede recuperar el contenido semántico en la representación interna del modelo sin restaurar la legibilidad visual para un humano", dijo **Cisco**. "Esto significa que un atacante puede crear imágenes que parezcan ruido o distorsión ilegible para cualquier filtro de contenido basado en OCR, pero que contengan instrucciones completamente legibles para el VLM objetivo".
* Un conjunto de vulnerabilidades en **Microsoft Semantic Kernel** (**CVE-2026-25592** y **CVE-2026-26030**) que podrían convertir una inyección de prompt en ejecución remota de código a nivel de host.
* El uso del ataque de inyección de prompt Neural Exec y la función Unicode de derecha a izquierda (right-to-left-override).