自律型AIシステムにおける失敗モードの分類更新：実運用から得られた知見

解説

これまで、大規模言語モデル（LLM）を搭載した「自律型エージェント」（Agentic AI）は、新しい脅威に対する共有の言葉（語彙）として「失敗モードの分類法」が策定されてきました。この初期バージョンでは、エージェント特有の新たな危険性や、従来のAIシステムで起きる失敗がどのように増幅されるかという観点から課題を整理していました。

しかし、約1年間の実際の運用データとレッドチームによる攻撃シミュレーションを通じて、この分類法は大幅に更新されました。特に、オープンソースの自律型フレームワークが急激に普及したことや、外部ツール連携の標準化（MCP）が進んだことにより、理論上のリスクから「実際に機能する脆弱性」へと変化しました。

最大の変化は、単なるプロンプト注入といった表面的な攻撃だけでなく、「エージェントの目標そのものを乗っ取る」「複数エージェント間の信頼関係を悪用する」など、システム構造や利用フロー全体にわたる高度な攻撃パターンが可視化された点です。

これらの進化は、防御側に対し、単発のセキュリティチェックではなく、システム全体の行動履歴（コンテキスト）や構成要素すべて（サプライチェーン）に跨がる多層的な対策を求めます。実運用データに基づいた今回の更新は、エージェントシステムの設計・開発段階からゼロトラストの考え方を取り入れる必要性を強く示唆しています。

ポイント

自律型AIシステム（Agentic AI）の脅威分類が、実運用データに基づいて大幅に更新され、新たな失敗モード7つが追加された。
主な新リスクとして、「エージェント目標の乗っ取り」「複数エージェント間の権限昇格」や「グラフィカルなインターフェースを通じた攻撃」などが特定されている。
対策としては、開発初期段階からのサプライチェーン全体の管理（SBOMなど）と、各機能・エージェント間での信頼性の検証（ゼロトラスト）が必須となっている。

情シスへの影響

【アーキテクチャ設計・導入フェーズ】

サプライチェーンのセキュリティ強化: 外部から接続するすべてのプラグインやツール、プロンプトテンプレートを安全なソフトウェア部品として扱う必要があります。特に、自然言語での指示（インストラクション）が埋め込まれた形で機能に悪用されるリスクに対応するため、ツールの入手元や改ざんがないかを検証する必要があります。
エージェント間の信頼性の分離: 複数の自律型エージェントが連携する場合、あるエージェントが不正な権限を主張したり、虚偽の身元を装ったりしても、それがシステム全体に悪影響を与えないよう、各ステップでの「信憑性検証（ゼロトラスト）」を仕組みとして導入する必要があります。
コンテキスト管理とログ監視: エージェントが長時間の多段階的な作業を行う中で、初期段階で入力された不正なデータが後の判断を歪める「コンテキスト汚染」を防ぐため、セッションの経過履歴やデータの出所（プロパンス）を追跡し、異常な経緯の変化がないかを監視する仕組みが必要です。

【運用・防御対策】

人間による確認プロセス（HitL）の高度化: 自動実行に頼りすぎず、承認が必要なステップが複数段階に分かれているか、単なる同意疲れや手続き上の抜け穴を利用されるリスクがないかを検証し、制御を強化する必要があります。

重要度

★★★★★

対象者

セキュリティ担当者
ネットワーク管理者
M365管理者
Entra管理者
AD管理者

優先度

早めに対応

推奨対応

自律型エージェントまたはLLM連携システムを導入・運用している場合、本資料で示される新たな失敗モード（特に目標の乗っ取りやコンテキスト汚染）がないか、設計レビュー及びペネトレーションテストを通じて重点的に検証を実施してください。
外部から参照するすべてのツール群やプラグインについて、提供元と改ざん履歴を追跡できる管理体制（SBOMなど）の構築に着手し、セキュリティパイプラインに組み込むことを検討してください。
複数エージェント連携が必要なワークフローでは、一つ一つのステップで「役割に基づいた最小限の権限」のみが付与されるゼロトラスト原則を徹底するよう、アーキテクチャの見直しを行ってください。

Post Views: 0