ChatGPTのMarkdown信頼性を悪用した「ChatGPhish」攻撃の脆弱性
OpenAIのChatGPTに、AIがMarkdownリンクや画像を信頼することを悪用する脆弱性が発見されました。「ChatGPhish」と名付けられたこの手法は、自動的に取得されるコンテンツを利用して、プロンプトインジェクションやフィッシング攻撃を可能にします。
サイバーセキュリティ研究者らが、**OpenAI ChatGPT**における脆弱性の詳細を明らかにしました。この脆弱性は、AIアシスタントがMarkdownリンクや画像を暗黙的に信頼することを悪用し、プロンプトインジェクションを引き起こし、フィッシング攻撃への道を開くものです。
この手法は、**Permiso Security**によって**ChatGPhish**と名付けられました。
「chatgpt.comのレスポンスレンダラーは、アシスタントが要約したばかりのサードパーティページから提供されたMarkdownリンクやMarkdown画像URLを信頼します。これらの画像は自動的に取得され、信頼されたアシスタントUI内でライブでクリック可能な要素として表示されます」と、セキュリティ研究者のAndi Ahmeti氏はThe Hacker Newsに共有されたレポートで述べています。

### 攻撃シナリオ
架空の攻撃シナリオでは、悪意のあるアクターは、被害者が後でChatGPTに要約を促す任意のWebページに小さなpayloadを付加できます。これにより、ページに埋め込まれた攻撃者がホストする画像が、回答がレンダリングされる際に自動的に取得されると、IPアドレス、User-Agent、Refererの詳細が漏洩します。
さらに、悪意のあるMarkdownリンクは、アシスタントのレスポンス内でライブでクリック可能な要素としてレンダリングされる可能性があります。これにより、偽のシステムスタイルのセキュリティアラートや、攻撃者のS3バケットからのQRコードが表示され、被害者はモバイルデバイスでスキャンするように誘導され、デスクトップURLフィルターやエンタープライズセキュリティコントロールをバイパスできます。
### 要約が攻撃サーフェスに
最新の発見は、要約がどのように敵対的なサーフェスとして出現しうるかを示しています。今年の3月には、**Permiso**は、攻撃者が制御する特別に細工された指示を含む電子メールが、**Microsoft Copilot**によって要約された際に、クロスプロンプトインジェクション(XPIA)または間接プロンプトインジェクションを通じてその出力を影響を与える可能性があることを明らかにしました。
ChatGPhishを注目すべき攻撃手法としているのは、プロンプトインジェクションそのものではなく、Webページに埋め込まれた指示がどのように従われ、要約の一部としてユーザーに提示されるかという方法です。
言い換えれば、ChatGPTで要約された通常のWebページがあれば、フィッシングリンク、偽装されたアカウントアラート、リモート画像、QRコードを信頼されたAIインターフェース内に直接レンダリングするのに十分です。組織が研究や要約のためにChatGPTをますます使用するにつれて、この脆弱性は、従業員がAIチャットボットに処理を依頼する悪意のあるWebページに、ChatGPTをフィッシングサーフェスに変えるpayloadが含まれる可能性があることを意味します。
「電子メールからブラウザへの移行は、潜在的な攻撃サーフェスを大幅に拡大します。ユーザーはもはや悪意のある添付ファイルを開いたり、疑わしいメッセージにインタラクトしたりする必要はありません」とPermisoは述べています。「通常のブラウジングアクティビティ中にページを要約するだけで、モデルコンテキストに、そして最終的にはレンダリングされたレスポンスに、攻撃者が制御する指示を導入できます。」
### AIコーディングエージェントが標的に:SymJackとTrustFall
この開示は、**Adversa AI**が、AIコーディングエージェントおよびエージェンティックコーディングCLIを標的とする**SymJack**と**TrustFall**と名付けられた2つの攻撃手法を文書化したのと同時期に行われました。これらの手法により、攻撃者はコード実行や完全なマシン侵害を達成できます。
SymJackは「単一の攻撃パターンであり、悪意のあるリポジトリがAIコーディングアシスタントを通じてリモートコード実行を達成できます」と、セキュリティ研究者のRony Utevsky氏は述べています。「エージェントは、無害に見えるファイルコピーに誘導されますが、実際には自身の設定を秘密裏に上書きし、次の再起動時にフルユーザー権限で攻撃者コードを実行します。」
具体的には、罠が仕掛けられたリポジトリが、エージェントを無害に見えるファイルのコピーに誘導します。そのコピー先は、エージェント自身の構成ファイルへのシンボリックリンクであり、攻撃者のpayloadが構成ファイルに書き込まれます。次の再起動時に、悪意のあるModel Context Protocol(MCP)サーバーが起動し、フルユーザー権限で任意のコードを実行します。
一方、TrustFallは、悪意のあるリポジトリを介したワンクリックのリモートコード実行攻撃であり、ユーザーの明示的な承認なしに、またはエージェントからのツール呼び出しを必要とせずに、MCPサーバーを自動承認して起動する構成を配信できます。
言い換えれば、脅威アクターが攻撃を実行するために必要なのは、悪意のあるMCPサーバーと、それを実行することを自動承認する構成設定を含むリポジトリを作成することだけです。開発者がAIコーディングツールでリポジトリをクローンまたは開いて、フォルダの信頼プロンプトで「Enter」を押すと、AIコーディングツールは開発者の完全なシステム権限で攻撃者が制御するコードを起動することになります。
「被害者がリポジトリをクローンし、Claudeを実行し、一般的な『はい、このフォルダを信頼します』ダイアログをクリックした瞬間、MCPサーバーはネイティブOSプロセスとしてフルユーザー権限で起動します」と**Adversa AI**は指摘しています。「payloadは、ツール呼び出しの前、追加のプロンプトなしで、サーバー起動時に実行されます。」
### 最近のAI攻撃ベクトル
これらの発見は、ここ数ヶ月でAIモデルに対する数々の攻撃方法が発見されたことと一致しています。
* Involuntary In-Context Learning(IICL)と呼ばれる新しいジェイルブレイクアプローチの使用。「ICL(In-Context Learning)と安全性の整合性の間の緊張を悪用して」GPT-5.4の安全制約をバイパスします。
* LLMの安全ガードレールは、ユーザーがモデルを多ターンの会話に誘導した場合に回避される可能性があります。「多ターン評価は重要です。なぜなら、そこが攻撃者が実際に活動する場所だからです」と**Cisco**は述べています。「実際の敵対者は反復します。彼らは拒否を再構成し、タスクをターンを跨いで分解し、ペルソナを採用し、徐々にエスカレートします。単一ターンのベンチマークでは、それらのどれも見ることができません。」
* **Anthropic Claude Code**における脆弱性。これは「~/.claude.json」でのユーザーレベルの構成変更を利用して、不正なnpmパッケージを介してMCPエンドポイントを書き換え、攻撃者をClaude CodeとOAuthバックのMCPサーバーの間に配置し、悪意のあるアクターが下流のSaaSアクセスに使用されるトークンをキャプチャできるようにします。
* OpenClawスキルがインストール時には無害に見えるリモートアップデートメカニズムの使用。しかし、後で攻撃者は、スキルセットアップ中にユーザーにHEARTBEAT.mdファイルに特定の指示を追記するように指示することで、ワークスペースファイルを通じてエージェントに影響を与えることができます。
* フィッシングメールで、AIベースのメールセキュリティシステムを混乱させてメッセージを無害としてフラグ付けさせるために、正規のニュースレターやロマンス小説から取得したコンテンツを含む隠しテキストの使用。
* ClaudeのChromeブラウザ拡張機能であるClaudeBleedにおける脆弱性。これにより、特別な権限を持たない拡張機能でも、それをハイジャックし、AIアシスタントを欺いて、その代理でアクティブなエージェンティックアクションを実行させることができます。「この欠陥は、拡張機能のコード内の指示に起因しており、ブラウザのオリジンで実行される任意のスクリプトがClaudeのLLMと通信することを許可しますが、スクリプトを実行している主体は検証しません」と**LayerX**は述べています。「その結果、任意の拡張機能がコンテンツスクリプト(特別な権限を必要としない)を呼び出し、Claude拡張機能にコマンドを発行できます。」
* **Cisco**の調査によると、タイポグラフィプロンプトインジェクションとして知られる、画像としてレンダリングされた敵対的なテキストが、ビジョン言語モデル(VLM)の安全フィルターをバイパスするために使用できることが判明しました。「モデルが元の画像を読み取れない場合(小さなフォント、重度のぼかし、回転)、境界線のある摂動は、人間の視覚的な判読性を回復することなく、モデルの内部表現で意味論的なコンテンツを回復できます」と**Cisco**は述べています。「これは、攻撃者がノイズや判読不能な歪みのように見える画像を、OCRベースのコンテンツフィルターには作成できるが、ターゲットVLMには完全に判読可能な指示を運ぶことができることを意味します。」
* **Microsoft Semantic Kernel**における一連の脆弱性(**CVE-2026-25592**および**CVE-2026-26030**)。これらは、プロンプトインジェクションをホストレベルのリモートコード実行に変換する可能性があります。
* Neural Execプロンプトインジェクション攻撃とUnicode右から左へのオーバーライド機能の使用。