La confiance de ChatGPT dans le Markdown ouvre la porte aux attaques 'ChatGPhish'
Des chercheurs ont découvert une vulnérabilité dans **OpenAI's ChatGPT** qui exploite la confiance de l'IA dans les liens et images Markdown. Baptisée 'ChatGPhish', cette technique permet des injections de prompt et des attaques de phishing en tirant parti du contenu automatiquement récupéré.
Des chercheurs en cybersécurité ont révélé les détails d'une vulnérabilité dans **OpenAI ChatGPT** qui exploite la confiance implicite de l'assistant d'intelligence artificielle (IA) dans les liens et images Markdown pour déclencher des injections de prompt et ouvrir la porte aux attaques de phishing.
La technique a été nommée **ChatGPhish** par **Permiso Security**.
"Le moteur de rendu des réponses de chatgpt.com fait confiance aux liens Markdown et aux URL d'images Markdown provenant d'une page tierce que l'assistant vient de résumer. Il récupère automatiquement ces images et affiche ces liens comme des éléments actifs et cliquables à l'intérieur de l'interface de l'assistant de confiance", a déclaré le chercheur en sécurité Andi Ahmeti dans un rapport partagé avec The Hacker News.

### Le Scénario d'Attaque
Dans un scénario d'attaque hypothétique, un acteur malveillant peut ajouter une petite charge utile à n'importe quelle page Web que la victime demande ensuite à ChatGPT de résumer. Cela entraîne la fuite de leurs détails IP, User-Agent et Referer lorsque les images hébergées par l'attaquant, intégrées dans la page, sont automatiquement récupérées lors du rendu de la réponse.
De plus, des liens Markdown malveillants peuvent être rendus comme des éléments actifs et cliquables dans la réponse de l'assistant. Cela peut servir de fausses alertes de sécurité de type système ou d'un code QR provenant d'un bucket S3 d'un attaquant, incitant la victime à le scanner via son appareil mobile et contournant ainsi les filtres d'URL de bureau et les contrôles de sécurité d'entreprise.
### La Synthèse comme Surface d'Attaque
La dernière découverte démontre comment la synthèse peut émerger comme une surface d'attaque. Plus tôt en mars, **Permiso** a également révélé comment un e-mail contrôlé par un attaquant contenant des instructions spécialement conçues, lorsqu'il était résumé par **Microsoft Copilot**, pouvait influencer sa sortie via une injection de prompt inter-prompt (XPIA) ou une injection de prompt indirecte.
Ce qui rend ChatGPhish une technique d'attaque remarquable, ce n'est pas l'injection de prompt elle-même, mais la manière dont les instructions intégrées dans une page Web sont suivies et présentées à l'utilisateur dans le cadre du résumé.
En d'autres termes, une page Web ordinaire résumée avec ChatGPT suffit à rendre des liens de phishing, des alertes de compte falsifiées, des images distantes et des codes QR directement à l'intérieur d'une interface d'IA de confiance. Alors que les organisations utilisent de plus en plus ChatGPT pour la recherche et la synthèse, cette vulnérabilité signifie que toute page Web malveillante qu'un employé demande au chatbot IA de traiter pourrait contenir une charge utile qui transforme ChatGPT en une surface de phishing.
"Le passage de l'e-mail au navigateur élargit considérablement la surface d'attaque potentielle. Un utilisateur n'a plus besoin d'ouvrir une pièce jointe malveillante ou d'interagir avec un message suspect", a déclaré Permiso. "La simple synthèse d'une page lors d'une activité de navigation normale peut introduire des instructions contrôlées par l'attaquant dans le contexte du modèle et, finalement, dans la réponse rendue."
### Agents de Codage IA sous le Feu des Projecteurs : SymJack et TrustFall
La divulgation intervient alors qu'**Adversa AI** a documenté deux techniques d'attaque nommées **SymJack** et **TrustFall** ciblant les agents de codage IA et les CLIs de codage agentiques qui permettent aux attaquants d'obtenir l'exécution de code et un compromis complet de la machine.
SymJack est "un seul modèle d'attaque [qui] permet à un dépôt malveillant d'obtenir l'exécution de code à distance via des assistants de codage IA", a déclaré le chercheur en sécurité Rony Utevsky. "L'agent est trompé dans une copie de fichier d'apparence bénigne qui écrase secrètement sa propre configuration, et le redémarrage suivant exécute le code de l'attaquant avec tous les privilèges utilisateur."
Plus précisément, un dépôt piégé trompe l'agent pour qu'il copie un fichier apparemment inoffensif, où la destination est un lien symbolique pointant vers la configuration de l'agent, provoquant l'écriture de la charge utile de l'attaquant dans la configuration. Au redémarrage suivant, un serveur malveillant de protocole de contexte de modèle (MCP) démarre et exécute du code arbitraire avec tous les privilèges utilisateur.
TrustFall, quant à lui, est une attaque d'exécution de code à distance en un clic via un dépôt malveillant qui peut fournir une configuration qui approuve automatiquement et lance un serveur MCP sans l'approbation explicite de l'utilisateur ou sans nécessiter un appel d'outil de la part de l'agent.
Autrement dit, tout ce dont un acteur de menace a besoin pour mener l'attaque est de créer un dépôt qui inclut un serveur MCP malveillant et des paramètres de configuration qui l'approuvent automatiquement pour l'exécution. Lorsqu'un développeur clone ou ouvre le dépôt dans l'outil de codage IA et appuie sur "Entrée" sur l'invite de confiance du dossier, l'outil de codage IA finit par lancer le code contrôlé par l'attaquant avec tous les privilèges système du développeur.
"Au moment où une victime clone le dépôt, exécute Claude et clique sur la boîte de dialogue générique 'Oui, je fais confiance à ce dossier', le serveur MCP démarre en tant que processus natif du système d'exploitation avec tous les privilèges utilisateur", a noté **Adversa AI**. "La charge utile s'exécute au démarrage du serveur, avant tout appel d'outil et sans invites supplémentaires."
### Vecteurs d'Attaque IA Récents
Les découvertes coïncident avec la découverte d'un certain nombre de méthodes d'attaque contre les modèles d'IA ces derniers mois :
* L'utilisation d'une nouvelle approche de jailbreak appelée Apprentissage Involontaire en Contexte (IICL) qui "exploite la tension entre l'apprentissage en contexte (ICL) et l'alignement de sécurité" pour contourner les contraintes de sécurité de GPT-5.4.
* Les garde-fous de sécurité des LLM peuvent être contournés si un utilisateur trompe le modèle pour qu'il ait une conversation multi-tours. "L'évaluation multi-tours est importante pour une raison : c'est là que les attaquants vivent réellement", a déclaré **Cisco**. "Les adversaires réels itèrent. Ils reformulent les refus, décomposent les tâches sur plusieurs tours, adoptent des personas et escaladent progressivement. Un benchmark à tour unique ne peut pas voir tout cela."
* Une vulnérabilité dans **Anthropic Claude Code** qui utilise un changement de configuration au niveau de l'utilisateur dans "~/.claude.json" pour réécrire les points de terminaison MCP via un package npm malveillant afin de placer un attaquant entre Claude Code et un serveur MCP basé sur OAuth, permettant à l'acteur malveillant de capturer les jetons utilisés pour l'accès aux SaaS en aval.
* L'utilisation d'un mécanisme de mise à jour à distance qui permet à une compétence OpenClaw d'apparaître bénigne à l'installation, mais permet plus tard à l'attaquant d'influencer l'agent via des fichiers d'espace de travail en instruisant l'utilisateur lors de la configuration de la compétence d'ajouter des instructions spécifiques au fichier HEARTBEAT.md.
* L'utilisation de texte caché présentant du contenu extrait d'une newsletter légitime ou d'un roman d'amour dans des e-mails de phishing pour tromper un système de sécurité de messagerie basé sur l'IA afin qu'il marque le message comme bénin.
* Une vulnérabilité dans l'extension Chrome de Claude appelée ClaudeBleed permet à n'importe quelle extension, même celles sans permissions spéciales, de l'intercepter et de tromper l'assistant IA pour qu'il effectue des actions agentiques actives en son nom. "La faille découle d'une instruction dans le code de l'extension qui permet à tout script s'exécutant dans le navigateur d'origine de communiquer avec le LLM de Claude, mais ne vérifie pas qui exécute le script", a déclaré **LayerX**. "Par conséquent, toute extension peut invoquer un script de contenu (qui ne nécessite aucune permission spéciale) et émettre des commandes à l'extension Claude."
* Une étude de **Cisco** a révélé que le texte contradictoire rendu sous forme d'images, une attaque connue sous le nom d'injection de prompt typographique, peut être utilisé pour contourner les filtres de sécurité dans les modèles de langage visuel (VLM). "Lorsqu'un modèle ne parvient pas à lire l'image d'origine (petite police, fort flou, rotation), une perturbation bornée peut récupérer le contenu sémantique dans la représentation interne du modèle sans restaurer la lisibilité visuelle pour un humain", a déclaré **Cisco**. "Cela signifie qu'un attaquant peut créer des images qui ressemblent à du bruit ou à une distorsion illisible pour tout filtre de contenu basé sur l'OCR, mais qui contiennent des instructions entièrement lisibles pour le VLM cible."
* Un ensemble de vulnérabilités dans **Microsoft Semantic Kernel** (**CVE-2026-25592** et **CVE-2026-26030**) qui pourraient transformer une injection de prompt en exécution de code à distance au niveau de l'hôte.
* L'utilisation de l'attaque par injection de prompt Neural Exec et de la fonction Unicode de droite à gauche (right-to-left-override).