OpenClaw KI-Agent anfällig für verdeckte Codeausführung und 'Agenten-Phishing'
Aktuelle Forschung von Sicherheitsteams bei **Imperva** und **Varonis** hat kritische Schwachstellen in **OpenClaw**, dem beliebten selbst gehosteten KI-Agenten, aufgedeckt. Diese Erkenntnisse zeigen, wie scheinbar harmlose Eingaben manipuliert werden können, um Angreifer-kontrollierten Code auszuführen oder die Exfiltration sensibler Daten zu ermöglichen, was erhebliche Bedenken für IT-Sicherheitsexperten und datenschutzbewusste Benutzer aufwirft.
Zwei unabhängige Sicherheitsforschungsarbeiten, die diese Woche veröffentlicht wurden, zeigen, dass **OpenClaw**, ein weit verbreiteter selbst gehosteter KI-Agent, durch gewöhnlich aussehende Eingaben dazu gebracht werden kann, bösartigen Code auszuführen oder sensible Informationen preiszugeben.
**Imperva** demonstrierte, wie versteckte Anweisungen, die in geteilten Kontakten, vCards und Standortmarkierungen eingebettet sind, vom Agenten ohne Wissen des Opfers ausgeführt werden konnten. Gleichzeitig gelang es **Varonis**, einen Testagenten, der mit synthetischen Geschäftsdaten vorab geladen war, dazu zu verleiten, über eine einzige, einfache E-Mail Mock-AWS-Schlüssel und einen gefälschten Kundenexport weiterzuleiten.
Während die von **Imperva** entdeckte Schwachstelle in **OpenClaw** Version 2026.4.23 behoben wurde, unterstreicht die Phishing-Schwachstelle von **Varonis** eine tiefere architektonische Herausforderung, die nicht mit einem einfachen Patch gelöst werden kann. Beide Angriffe unterstreichen eine grundlegende Schwäche: das inhärente Vertrauen des Agenten in eingehende Daten, das in Kombination mit seinen Zugriffsrechten einen wirkungsvollen Angriffsvektor darstellt.
## Versteckte Befehle in einem geteilten Kontakt
**Imperva**-Forscher **Yohann Sillam** untersuchte, wie **OpenClaw** Messaging-Daten für sein zugrunde liegendes Large Language Model (LLM) verarbeitet. Das Kernproblem liegt in der internen Handhabung von Nachrichtenobjekten durch den Agenten.
Wenn **OpenClaw** geteilte Kontakte, vCards oder Standorte an das LLM übermittelt, flacht es diese Objekte direkt in den Prompt-Text ab. Entscheidend ist, dass Nachrichtenobjekte im Gegensatz zu Webinhalten, die als nicht vertrauenswürdig markiert sind, diese kritische Grenze nicht aufweisen.
Nur bestimmte Felder werden an das Modell gesendet, eine Schwäche, die vom Angriff ausgenutzt wird. Beispielsweise sendet ein geteilter Kontakt nur das Namensfeld, serialisiert als `<contact: name, number>`. Winkelklammern sind in Namen zulässig, was es für das Modell unmöglich macht, zwischen einem legitimen Namen und einer injizierten Anweisung zu unterscheiden. Darüber hinaus wird der Kontaktname sowohl in **WhatsApp** als auch in der empfangenden Anwendung auf dem Bildschirm abgeschnitten, wodurch die bösartige payload für das Opfer effektiv verborgen bleibt.
Diese Technik erweist sich auch über das Vollnamenfeld einer vCard, das von **WhatsApp** nativ unterstützt wird, und über das Label eines geteilten Standortmarkers als wirksam.
In den Tests von **Imperva** gegen **Google Gemini 3.1 Pro** (Vorschauversion) wies der versteckte Text den Agenten erfolgreich an, ein Skript von einem vom Forscher kontrollierten Server herunterzuladen und auszuführen. Während Versuche, Anweisungen in einfachen Bildern einzubetten, fehlschlugen (wahrscheinlich, weil die Modelle gegen solche gängigen Angriffe trainiert wurden), war der Weg über Nachrichtenobjekte aufgrund seiner Neuheit erfolgreich.

**Imperva** warnt, dass bei standardmäßig aktivierter **OpenClaw**-Speicherung ein einzelnes, weit verbreitetes Inhaltselement mit einer versteckten Anweisung un-sandboxed Agenten, die es aufnehmen, heimlich kompromittieren könnte.
Nach der Offenlegung durch **Imperva** veröffentlichte **OpenClaw** in Version 2026.4.23 einen Fix, der nun Kontakt-Namen, vCard-Felder und Standort-Labels über einen separaten, nicht vertrauenswürdigen Metadatenkanal leitet. **Imperva** stellte ähnliche Abflachungsmuster in anderen persönlichen KI-Assistenten fest, was auf ein breiteres Branchenproblem hindeutet.
## Eine normale E-Mail reicht aus
**Varonis Threat Labs** näherte sich **OpenClaw** aus der Perspektive der Social Engineering. Unter der Leitung von **Itay Yashar** entwickelte ihr Team einen Agenten namens **Pinchy** auf der Plattform, verband ihn mit einem **Gmail**-Postfach, das mit realistischen, synthetischen Geschäftsdaten und Mock-Geheimnissen gefüllt war. Anschließend unterzogen sie **Pinchy** vier Phishing-Simulationen mit **Google Gemini 3.1 Pro** und **OpenAI Codex GPT-5.4**.
**Varonis** unterscheidet zwischen Prompt-Injection, die Anweisungen in Daten verbirgt, und dem, was sie als 'Agenten-Phishing' bezeichnen: eine glaubwürdige Anfrage, die über einen normalen Kanal übermittelt wird und erfolgreich ist, weil der Agent ohne ordnungsgemäße Absenderüberprüfung handelt.
Der Agent scheiterte bei beiden Exfiltrationstests. Im ersten Szenario bat eine Nachricht, die angeblich von einem Teamleiter namens Dan stammte und von einer externen **Gmail**-Adresse gesendet wurde, während eines simulierten Produktionsvorfalls um Staging-Zugriff. **Pinchy** lokalisierte die Anmeldeinformationen und leitete Mock-AWS-IAM-Zugriffsschlüssel, Datenbankverbindungszeichenfolgen und SSH-Anmeldeinformationen im Klartext weiter.

Der zweite Vorwand war eine sanftere Anfrage nach dem wöchentlichen Kundenexport, angeblich für ein QBR-Deck. Der Agent sendete dann einen synthetischen Datensatz von 247 Unternehmenskunden, einschließlich Kontakten und Vertragswerten. Beide Fehler traten auf, obwohl ein strenges Profil konfiguriert war, um zuerst Absender zu verifizieren; in einem Fall überschrieb die Dringlichkeit die Regel, im anderen die Routine.
Der Agent schnitt bei technischen Bedrohungen besser ab als bei sozialen. Er interagierte mit einer Geschenkkarten-Phishing-Seite, gab aber keine tatsächlichen Anmeldeinformationen preis und markierte sie schließlich; das strenge Profil blockierte die Seite vollständig. Als er mit einem bösartigen **OAuth**-Zustimmungsbildschirm konfrontiert wurde, der als Zeiterfassungs-App getarnt war, untersuchte er das Weiterleitungsziel, hielt es für verdächtig und stoppte, bevor er den Zugriff gewährte.
Dies unterstreicht die wichtigste Erkenntnis von **Varonis**: Der Agent ist oft geschickter als Menschen bei der Identifizierung bösartiger URLs und gefälschter Anmeldeportale, aber deutlich schlechter im sozialen Urteilsvermögen, das einen Menschen dazu veranlasst, innezuhalten, wenn ein Kollege eine ungewöhnliche Anfrage nach Anmeldeinformationen stellt. Der inhärente Antrieb des Agenten, hilfreich zu sein, erweist sich als kritische Angriffsfläche.

**Varonis** stellte fest, dass **OpenAI Codex GPT-5.4** vorsichtiger war als **Gemini 3.1 Pro**, wenn es darum ging, Daten ohne Bestätigung an externe Websites zu übermitteln oder einzugeben, obwohl beide den sozialen Vorwänden erlagen.
## Die Schwachstelle hinter beiden Angriffen
**Varonis** ordnet beide Angriffsvektoren **Simon Willison**s Konzept des 'tödlichen Trios' zu: ein Agent, der private Daten lesen, nicht vertrauenswürdige Inhalte aufnehmen und Daten exfiltrieren kann. **OpenClaw** verfügt über alle drei Fähigkeiten, was erklärt, warum ein vergifteter Kontakt und eine scheinbar harmlose E-Mail zur gleichen Kompromittierung führen können.
Dieses Vertrauensgrenzenproblem erstreckt sich über Prompt-Probleme hinaus und manifestiert sich im Code von **OpenClaw**. Eine separate Analyse von **InfoSec Write-ups** wandelte frühere **OpenClaw**-Beratungen in statische Analyse-Regeln um und deckte anschließend fünf zusätzliche Schwachstellen in seinen **Slack**-, **Discord**-, **Matrix**-, **Zalo**- und **Microsoft Teams**-Kanalerweiterungen auf.
Alle fünf Schwachstellen hatten eine gemeinsame Ursache: Der Startcode löste die Whitelist jedes Kanals anhand des veränderlichen Anzeigenamens anstelle einer stabilen ID auf. Dies ermöglichte es einem Angreifer, sich umzubenennen, um einem erlaubten Benutzer zu entsprechen, und so unbefugten Zugriff und Kontrolle über den Agenten zu erlangen. **OpenClaw** hat diese Probleme inzwischen behoben.
**OpenClaw** wird mit umfangreichem Zugriff auf Dateien, Shells und über zwanzig Messaging-Plattformen ausgeliefert und steht seit seiner Einführung Ende letzten Jahres im Fokus ständiger Warnungen vor Prompt-Injection und Datenexfiltration.
Die **niederländische Datenschutzbehörde**, die **Autoriteit Persoonsgegevens**, hat eine klare Haltung eingenommen und rät Benutzern und Organisationen davon ab, **OpenClaw** auf Systemen mit sensiblen Daten auszuführen, und verweist auf erhebliche Risiken für Datenpannen und Kontoübernahmen.
## Was ist dagegen zu tun?
Organisationen, die **OpenClaw** betreiben, sollten sofort auf Version 2026.4.23 oder höher aktualisieren, um die Korrektur für Nachrichtenobjekte anzuwenden. Über das Patchen hinaus sind die verbleibenden Abwehrmaßnahmen architektonischer Natur, nicht nur die Formulierung von Prompts. **Varonis** skizziert vier kritische Kontrollen:
1. **Behandeln Sie die Anweisungsdatei des Agenten als eine erzwungene, versionskontrollierte Richtlinie, nicht als Vorschlag.**
2. **Implementieren Sie ein Tor für ausgehende E-Mails:** Verbieten Sie erstmalige Sendungen an unbekannte Adressen ohne ausdrückliche Genehmigung, um zu verhindern, dass ein kompromittierter Agent Phishing-Versuche von einem vertrauenswürdigen Konto weiterleitet.
3. **Der Zugriff auf Konnektoren sollte das Vertrauensniveau der verbundenen Entität widerspiegeln.**
4. **Sandboxing des Agenten.**