Vulnerabilidade no ChatGPT Permite Ataques 'ChatGPhish' via Confiança em Markdown
Pesquisadores descobriram uma vulnerabilidade no **ChatGPT da OpenAI** que explora a confiança da IA em links e imagens Markdown. Apelidada de 'ChatGPhish', a técnica permite injeções de prompt e ataques de phishing, aproveitando o conteúdo buscado automaticamente.
Pesquisadores de segurança cibernética divulgaram detalhes de uma vulnerabilidade no **OpenAI ChatGPT** que explora a confiança implícita do assistente de inteligência artificial (IA) em links e imagens Markdown para acionar injeções de prompt e abrir portas para ataques de phishing.
A técnica foi codinomeada **ChatGPhish** pela **Permiso Security**.
"O renderizador de respostas do chatgpt.com confia em links e URLs de imagens Markdown originados de uma página de terceiros que o assistente acabou de resumir. Ele busca automaticamente essas imagens e as exibe como elementos ativos e clicáveis dentro da interface confiável do assistente", disse o pesquisador de segurança Andi Ahmeti em um relatório compartilhado com The Hacker News.

### O Cenário do Ataque
Em um cenário de ataque hipotético, um ator malicioso pode anexar uma pequena carga útil a qualquer página da web que a vítima posteriormente solicite ao ChatGPT para resumir. Isso faz com que ele vaze detalhes de IP, User-Agent e Referer quando imagens hospedadas pelo atacante, incorporadas na página, são buscadas automaticamente ao renderizar a resposta.
Além disso, links Markdown maliciosos podem ser renderizados como elementos ativos e clicáveis dentro da resposta do assistente. Isso pode exibir alertas de segurança falsos no estilo do sistema ou um QR code do bucket S3 de um atacante, enganando a vítima a escaneá-lo por meio de seu dispositivo móvel e contornando filtros de URL de desktop e controles de segurança corporativos.
### Sumarização como Superfície de Ataque
A descoberta mais recente demonstra como a sumarização pode emergir como uma superfície adversarial. No início de março, a **Permiso** também revelou como um e-mail controlado por um atacante, contendo instruções especialmente elaboradas, quando resumido pelo **Microsoft Copilot**, poderia influenciar sua saída por meio de uma injeção de prompt cruzada (XPIA) ou injeção de prompt indireta.
O que torna o ChatGPhish uma técnica de ataque notável não é a injeção de prompt em si, mas a maneira como as instruções incorporadas em uma página da web são seguidas e apresentadas ao usuário como parte do resumo.
Em outras palavras, uma página da web comum resumida com o ChatGPT é suficiente para renderizar links de phishing, alertas de conta falsificados, imagens remotas e QR codes diretamente dentro de uma interface de IA confiável. À medida que as organizações usam cada vez mais o ChatGPT para pesquisa e sumarização, essa vulnerabilidade significa que qualquer página da web maliciosa que um funcionário peça ao chatbot de IA para processar pode conter uma carga útil que transforma o ChatGPT em uma superfície de phishing.
"A mudança do e-mail para o navegador expande significativamente a superfície de ataque potencial. Um usuário não precisa mais abrir um anexo malicioso ou interagir com uma mensagem suspeita", disse a Permiso. "Simplesmente resumir uma página durante a atividade normal de navegação pode introduzir instruções controladas pelo atacante no contexto do modelo e, finalmente, na resposta renderizada."
### Agentes de Codificação de IA Sob Fogo: SymJack e TrustFall
A divulgação ocorre enquanto a **Adversa AI** documentou duas técnicas de ataque codinominadas **SymJack** e **TrustFall**, visando agentes de codificação de IA e CLIs de codificação agentic, que permitem aos atacantes obter execução de código e comprometimento total da máquina.
SymJack é "um único padrão de ataque [que] permite que um repositório malicioso obtenha execução remota de código por meio de assistentes de codificação de IA", disse o pesquisador de segurança Rony Utevsky. "O agente é enganado em uma cópia de arquivo de aparência benigna que secretamente sobrescreve sua própria configuração, e a próxima reinicialização executa código do atacante com privilégios totais de usuário."
Especificamente, um repositório com armadilha engana o agente para copiar um arquivo aparentemente inofensivo, onde o destino é um link simbólico apontando para a própria configuração do agente, fazendo com que a carga útil do atacante seja escrita na configuração. Na próxima reinicialização, um servidor malicioso do Model Context Protocol (MCP) é iniciado e executa código arbitrário com privilégios totais de usuário.
TrustFall, por outro lado, é um ataque de execução remota de código com um clique via um repositório malicioso que pode enviar uma configuração que aprova automaticamente e inicia um servidor MCP sem a aprovação explícita do usuário ou exigindo uma chamada de ferramenta do agente.
Em outras palavras, tudo o que um ator de ameaça precisa para realizar o ataque é criar um repositório que inclua um servidor MCP malicioso e configurações que o aprovem automaticamente para execução. Quando um desenvolvedor clona ou abre o repositório na ferramenta de codificação de IA e pressiona "Enter" na solicitação de confiança da pasta, a ferramenta de codificação de IA acaba lançando o código controlado pelo atacante com os privilégios totais do sistema do desenvolvedor.
"No momento em que uma vítima clona o repositório, executa o Claude e clica na caixa de diálogo genérica 'Sim, confio nesta pasta', o servidor MCP é iniciado como um processo nativo do sistema operacional com privilégios totais de usuário", observou a **Adversa AI**. "A carga útil é executada na inicialização do servidor, antes de quaisquer chamadas de ferramenta e sem prompts adicionais."
### Vetores de Ataque de IA Recentes
As descobertas coincidem com a descoberta de vários métodos de ataque contra modelos de IA nos últimos meses:
* O uso de uma nova abordagem de jailbreak chamada Involuntary In-Context Learning (IICL) que "explora a tensão entre o aprendizado em contexto (ICL) e o alinhamento de segurança" para contornar as restrições de segurança do GPT-5.4.
* As barreiras de segurança dos LLMs podem ser contornadas se um usuário enganar o modelo para ter uma conversa de vários turnos. "A avaliação de múltiplos turnos é importante por um motivo: é onde os atacantes realmente vivem", disse a **Cisco**. "Adversários reais iteram. Eles reformulam recusas, decompõem tarefas entre turnos, adotam personas e escalam gradualmente. Um benchmark de turno único não consegue ver nada disso."
* Uma vulnerabilidade no **Anthropic Claude Code** que emprega uma alteração de configuração no nível do usuário em "~/.claude.json" para reescrever endpoints MCP por meio de um pacote npm malicioso para colocar um atacante entre o Claude Code e um servidor MCP com autenticação OAuth, permitindo que o ator malicioso capture tokens usados para acesso a SaaS downstream.
* O uso de um mecanismo de atualização remota que permite que uma habilidade OpenClaw pareça benigna no momento da instalação, mas posteriormente permite que o atacante influencie o agente por meio de arquivos de workspace, instruindo o usuário durante a configuração da habilidade a anexar instruções específicas ao arquivo HEARTBEAT.md.
* O uso de texto oculto com conteúdo extraído de um boletim informativo legítimo ou um romance em e-mails de phishing para confundir um sistema de segurança de e-mail baseado em IA, fazendo com que a mensagem seja sinalizada como benigna.
* Uma vulnerabilidade na extensão do navegador Chrome do Claude chamada ClaudeBleed permite que qualquer extensão, mesmo aquelas sem permissões especiais, a sequestre e engane o assistente de IA para realizar ações agentic ativas em seu nome. "A falha decorre de uma instrução no código da extensão que permite que qualquer script em execução no navegador de origem se comunique com o LLM do Claude, mas não verifica quem está executando o script", disse a **LayerX**. "Como resultado, qualquer extensão pode invocar um script de conteúdo (que não requer permissões especiais) e emitir comandos para a extensão do Claude."
* Um estudo da **Cisco** descobriu que texto adversarial renderizado como imagens, um ataque conhecido como injeção de prompt tipográfico, pode ser usado para contornar filtros de segurança em modelos de linguagem visual (VLMs). "Quando um modelo falha em ler a imagem original (fonte pequena, borrão pesado, rotação), uma perturbação limitada pode recuperar o conteúdo semântico na representação interna do modelo sem restaurar a legibilidade visual para um humano", disse a **Cisco**. "Isso significa que um atacante pode criar imagens que parecem ruído ou distorção ilegível para qualquer filtro de conteúdo baseado em OCR, mas carregam instruções totalmente legíveis para o VLM alvo."
* Um conjunto de vulnerabilidades no **Microsoft Semantic Kernel** (**CVE-2026-25592** e **CVE-2026-26030**) que poderiam transformar uma injeção de prompt em execução remota de código em nível de host.
* O uso do ataque de injeção de prompt Neural Exec e da função Unicode right-to-left-override.