ChatGPTs Markdown-Vertrauen öffnet Tür für 'ChatGPhish'-Angriffe
Forscher haben eine Schwachstelle in **OpenAI's ChatGPT** aufgedeckt, die das Vertrauen der KI in Markdown-Links und Bilder ausnutzt. Die Technik, die als 'ChatGPhish' bezeichnet wird, ermöglicht Prompt-Injections und Phishing-Angriffe durch die Nutzung automatisch abgerufener Inhalte.
Cybersicherheitsforscher haben Details zu einer Schwachstelle in **OpenAI ChatGPT** veröffentlicht, die das implizite Vertrauen des KI-Assistenten in Markdown-Links und Bilder ausnutzt, um Prompt-Injections auszulösen und die Tür für Phishing-Angriffe zu öffnen.
Die Technik wurde von **Permiso Security** unter dem Codenamen **ChatGPhish** entwickelt.
"Der chatgpt.com Response Renderer vertraut Markdown-Links und Markdown-Bild-URLs, die von einer Drittanbieterseite stammen, die der Assistent gerade zusammengefasst hat. Er ruft diese Bilder automatisch ab und zeigt diese Links als live, anklickbare Elemente innerhalb der vertrauenswürdigen Benutzeroberfläche des Assistenten an", sagte der Sicherheitsforscher Andi Ahmeti in einem Bericht, der mit The Hacker News geteilt wurde.

### Das Angriffsszenario
In einem hypothetischen Angriffsszenario kann ein böswilliger Akteur eine kleine payload an jede Webseite anhängen, die das Opfer später von ChatGPT zusammenfassen lässt. Dies führt dazu, dass die IP-, User-Agent- und Referer-Details des Opfers preisgegeben werden, wenn vom Angreifer gehostete Bilder, die in die Seite eingebettet sind, automatisch abgerufen werden, wenn die Antwort gerendert wird.
Darüber hinaus können bösartige Markdown-Links als live, anklickbare Elemente innerhalb der Antwort des Assistenten gerendert werden. Dies kann gefälschte System-ähnliche Sicherheitswarnungen oder einen QR-Code aus dem S3-Bucket eines Angreifers anzeigen, wodurch das Opfer getäuscht wird, ihn über sein Mobilgerät zu scannen und Desktop-URL-Filter und Unternehmenssicherheitskontrollen zu umgehen.
### Zusammenfassung als Angriffsfläche
Die neueste Erkenntnis zeigt, wie die Zusammenfassung als eine gegnerische Angriffsfläche entstehen kann. Anfang März deckte **Permiso** auch auf, wie eine vom Angreifer kontrollierte E-Mail mit speziell gestalteten Anweisungen, wenn sie von **Microsoft Copilot** zusammengefasst wurde, dessen Ausgabe über eine Cross-Prompt-Injection (XPIA) oder indirekte Prompt-Injection beeinflussen konnte.
Was ChatGPhish zu einer bemerkenswerten Angriffstechnik macht, ist nicht die Prompt-Injection selbst, sondern die Art und Weise, wie die in einer Webseite eingebetteten Anweisungen befolgt und dem Benutzer als Teil der Zusammenfassung präsentiert werden.
Mit anderen Worten, eine normale Webseite, die mit ChatGPT zusammengefasst wird, reicht aus, um Phishing-Links, gefälschte Kontoalarme, Remote-Bilder und QR-Codes direkt in einer vertrauenswürdigen KI-Oberfläche zu rendern. Da Organisationen zunehmend ChatGPT für Forschung und Zusammenfassung nutzen, bedeutet diese Schwachstelle, dass jede bösartige Webseite, die ein Mitarbeiter den KI-Chatbot verarbeiten lässt, eine payload enthalten könnte, die ChatGPT in eine Phishing-Oberfläche verwandelt.
"Die Verlagerung von E-Mail zum Browser erweitert die potenzielle Angriffsfläche erheblich. Ein Benutzer muss keine bösartige Anhänge mehr öffnen oder mit einer verdächtigen Nachricht interagieren", sagte Permiso. "Das einfache Zusammenfassen einer Seite während normaler Browsing-Aktivitäten kann vom Angreifer kontrollierte Anweisungen in den Modellkontext und letztendlich in die gerenderte Antwort einbringen."
### KI-Codierungsagenten unter Beschuss: SymJack und TrustFall
Die Veröffentlichung erfolgt, während **Adversa AI** zwei Angriffstechniken unter den Codenamen **SymJack** und **TrustFall** dokumentierte, die auf KI-Codierungsagenten und agentische Coding CLIs abzielen und es Angreifern ermöglichen, Codeausführung und vollständige Maschinenkompromittierung zu erreichen.
SymJack ist "ein einzelnes Angriffsmuster, das es einem bösartigen Repository ermöglicht, Remote Code Execution über KI-Codierungsassistenten zu erreichen", sagte der Sicherheitsforscher Rony Utevsky. "Der Agent wird zu einer harmlos aussehenden Datei-Kopie verleitet, die heimlich seine eigene Konfiguration überschreibt, und der nächste Neustart führt Angreifercode mit vollen Benutzerprivilegien aus."
Insbesondere täuscht ein präpariertes Repository den Agenten, eine scheinbar harmlose Datei zu kopieren, wobei das Ziel ein Symlink ist, der auf die eigene Konfiguration des Agenten zeigt, wodurch die payload des Angreifers in die Konfiguration geschrieben wird. Beim nächsten Neustart wird ein bösartiger Model Context Protocol (MCP) Server gestartet und beliebiger Code mit vollen Benutzerprivilegien ausgeführt.
TrustFall hingegen ist ein Ein-Klick-Remote-Code-Ausführungsangriff über ein bösartiges Repository, das eine Konfiguration liefern kann, die einen MCP-Server automatisch genehmigt und startet, ohne die ausdrückliche Zustimmung des Benutzers oder die Anforderung eines Tool-Aufrufs vom Agenten.
Anders ausgedrückt, alles, was ein Bedrohungsakteur benötigt, um den Angriff durchzuführen, ist die Erstellung eines Repositories, das einen bösartigen MCP-Server und Konfigurationseinstellungen enthält, die dessen Ausführung automatisch genehmigen. Wenn ein Entwickler das Repository klont oder in dem KI-Codierungstool öffnet und auf die Ordnervertrauensaufforderung klickt, startet das KI-Codierungstool den vom Angreifer kontrollierten Code mit den vollen Systemprivilegien des Entwicklers.
"In dem Moment, in dem ein Opfer das Repo klont, Claude ausführt und auf den generischen Dialog 'Ja, ich vertraue diesem Ordner' klickt, startet der MCP-Server als nativer OS-Prozess mit vollen Benutzerprivilegien", bemerkte **Adversa AI**. "Die payload wird beim Serverstart ausgeführt, bevor irgendwelche Tool-Aufrufe erfolgen und ohne zusätzliche Aufforderungen."
### Aktuelle KI-Angriffsvektoren
Die Ergebnisse fallen mit der Entdeckung einer Reihe von Angriffsmethoden gegen KI-Modelle in den letzten Monaten zusammen:
* Die Verwendung eines neuartigen Jailbreak-Ansatzes namens Involuntary In-Context Learning (IICL), der "die Spannung zwischen In-Context Learning (ICL) und Sicherheitsausrichtung ausnutzt", um die Sicherheitsbeschränkungen von GPT-5.4 zu umgehen.
* Die Sicherheitsleitplanken von LLMs können umgangen werden, wenn ein Benutzer das Modell zu einer Multi-Turn-Konversation verleitet. "Die Multi-Turn-Evaluierung ist aus einem Grund wichtig: Hier leben Angreifer tatsächlich", sagte **Cisco**. "Reale Gegner iterieren. Sie formulieren Ablehnungen neu, zerlegen Aufgaben über mehrere Runden, nehmen Personas an und eskalieren schrittweise. Ein Single-Turn-Benchmark kann all das nicht sehen."
* Eine Schwachstelle in **Anthropic Claude Code**, die eine Benutzerkonfigurationsänderung in "~/.claude.json" verwendet, um MCP-Endpunkte über ein bösartiges npm-Paket neu zu schreiben, um einen Angreifer zwischen Claude Code und einem OAuth-gestützten MCP-Server zu platzieren, wodurch der böswillige Akteur Token erfassen kann, die für nachfolgenden SaaS-Zugriff verwendet werden.
* Die Verwendung eines Remote-Update-Mechanismus, der es einer OpenClaw-Skill ermöglicht, bei der Installation harmlos zu erscheinen, aber später dem Angreifer ermöglicht, den Agenten über Workspace-Dateien zu beeinflussen, indem der Benutzer während der Skill-Einrichtung angewiesen wird, spezifische Anweisungen an die HEARTBEAT.md-Datei anzuhängen.
* Die Verwendung von verstecktem Text mit Inhalten, die aus einem legitimen Newsletter oder einem Liebesroman stammen, in Phishing-E-Mails, um ein KI-basiertes E-Mail-Sicherheitssystem zu verwirren und die Nachricht als harmlos zu kennzeichnen.
* Eine Schwachstelle in Claudes Chrome-Browsererweiterung namens ClaudeBleed ermöglicht es jeder Erweiterung, auch solchen ohne spezielle Berechtigungen, diese zu kapern und den KI-Assistenten zu täuschen, aktive agentische Aktionen in ihrem Namen durchzuführen. "Der Fehler beruht auf einer Anweisung im Code der Erweiterung, die es jedem Skript, das im Ursprung-Browser läuft, erlaubt, mit Claudes LLM zu kommunizieren, aber nicht überprüft, wer das Skript ausführt", sagte **LayerX**. "Infolgedessen kann jede Erweiterung ein Content-Skript (das keine speziellen Berechtigungen benötigt) aufrufen und Befehle an die Claude-Erweiterung ausgeben."
* Eine Studie von **Cisco** hat ergeben, dass als Bilder gerenderter adversarieller Text, ein Angriff, der als typografische Prompt-Injection bekannt ist, verwendet werden kann, um Sicherheitsfilter in Vision Language Models (VLMs) zu umgehen. "Wenn ein Modell ein Originalbild nicht lesen kann (kleine Schrift, starke Unschärfe, Drehung), kann eine begrenzte Störung semantische Inhalte in der internen Darstellung des Modells wiederherstellen, ohne die visuelle Lesbarkeit für einen Menschen wiederherzustellen", sagte **Cisco**. "Das bedeutet, dass ein Angreifer Bilder erstellen kann, die für jeden OCR-basierten Inhaltsfilter wie Rauschen oder unleserliche Verzerrungen aussehen, aber vollständig lesbare Anweisungen für das Ziel-VLM enthalten."
* Eine Reihe von Schwachstellen in **Microsoft Semantic Kernel** (**CVE-2026-25592** und **CVE-2026-26030**), die eine Prompt-Injection in eine Host-Level Remote Code Execution verwandeln könnten.
* Die Verwendung des Neural Exec Prompt Injection Angriffs und der Unicode Right-to-Left-Override-Funktion