危険なツール呼び出し（Agentic AI）の制御方法

投稿日 2025年12月17日
更新日 2025年12月26日
著者 azure-recipe-user
カテゴリー AdventCalendar2025
カテゴリー agenticai
カテゴリー Security
カテゴリーセキュリティ対策
カテゴリー生成AI

■ 1. Agentic AIとは何か──“行動できるAI”のリスク

ChatGPT に代表される LLM は、「文章を生成するAI」から「外部ツールを操作するAI」へ進化しました。この Agentic AI（エージェント型AI） は、以下のような行動が可能です。

Web検索
API実行（例：会計システム、CRM、Slack）
ファイル読み書き
コード生成→そのまま実行

便利ですが、そのまま本番環境で動作させると次のような事故につながります。

◯ 想定されるリスク

誤操作でデータ削除・上書き
誤ったAPI呼び出しで外部サービスに通知
自律的に連続実行して暴走（DoS的挙動）
プロンプトインジェクションからの権限濫用
意図しない外部送信（データ漏えい）

Day3 のプロンプトインジェクション、Day14 の実行時検査など、これまで扱ってきた脅威が ツール実行では一気に重大化する のがポイントです。

Day3

プロンプトインジェクション最新パターンと効く防御レイヤ

🧩 この記事でわかることプロンプトインジェクションは MITRE ATLASでも最重要脅威として位置づけら…

azure-recipe.kc-cloud.jp

Day14

プロンプトの“静的検査”と“実行時検査”の組み合わせ

■ はじめに：プロンプト攻撃は“入力だけ”の問題ではない生成AIのセキュリティ事故は、入口（プロンプト）だけ…

azure-recipe.kc-cloud.jp

本記事のテーマは 「エージェントを“安全に制御する”ための設計原則」 です。

■ 2. 最小権限 & ホワイトリスト ── “AIに何をさせないか”を先に決める

エージェントに機能を自由に与えると危険です。まずやるべきは 最小権限（Least Privilege）」と「ホワイトリスト」 の徹底。

◆ 原則①：使えるツールは“必要最小限”に限定

例：許可するツール（ホワイトリスト）

ツール名	用途	許可理由（日本語注記）
`search_documents()`	文書検索・参照のみ	読み取り専用のため安全性が高い。更新・削除を伴わないため、誤操作によるデータ破壊リスクがない。
`calculate()`	数値計算	外部システムへ影響を与えない純粋関数。ビジネスロジック補助として利用可能だが、副作用が無いことが前提。
`get_weather_api()`	外部API（読み取り専用）	読み取り専用APIで、外部リソースを書き換えない。ネットワークアクセスは必要最小限に制限し、APIキーも権限縮小版を使用。

禁止するべきツール例

シェルコマンド実行（os.system 系）
ファイル削除・書き込み
DBへの更新系クエリ
広範囲のネットワークアクセス

◆ 原則②：APIキーは“エージェント専用・低権限”で発行

エージェントに使わせる認証情報は、必ず 機能限定 / 権限縮小 / 期限付き にします。

例：

CRM読取専用キー
S3読み取り専用IAMロール
SMTP送信不可のメールAPIキー

「人間と同じ権限」を渡すのは絶対に禁止 です。

■ 3. サンドボックス環境で“隔離”する ── 万一の暴走を封じる

Agentic AI が最も危険なのは、“コードをそのまま実行できる”ことです。この能力は強力ですが、本番への直接実行はリスクが高すぎます。

そこで必要なのが サンドボックス化 が必要となります。

◆ 主な対策

● コンテナ隔離（Docker / Firecracker）

OSアクセス制限（seccomp, AppArmor）
書き込み禁止ファイルシステム
外部ネットワークを遮断

● リソース制限

CPU / メモリ上限
実行時間（time limit）
無限ループ防止用のステップ数制限

● 隔離されたテスト環境での実行

エージェントのコード実行は「本番ではなくステージング」で
機密データにはアクセス不可

◆ なぜサンドボックスが重要か

たとえ最小権限に絞っても、 プロンプトインジェクション → 意図しないコード生成 → 暴走 というパスは常に残ります。

サンドボックスは “AIの暴走を物理的に封じ込める最後の防壁” として機能します。

■ 4. モニタリング & インターセプト ── “監視・停止・承認”の三点セット

AIに自律行動を任せる以上、リアルタイムモニタリング と 行動インターセプト（介入） が不可欠です。

◆ ① エージェントの全行動ログを取得

ログに残すべきもの：

AIが実行しようとしたツール名
引数・パラメータ
実行時の返値
実行結果を次の推論にどう使ったか（Chain-of-Thought不要、decision logのみ）

これにより、「なぜAIがこう判断したか」 が後から追跡できます（Day15のLineageにも連動）。

◆ ② 異常実行の検知 → 自動停止（キルスイッチ）

以下のような挙動を検知したら 即停止 する仕組みが必要です。

想定外のツール呼び出し
特定APIへの連続アクセス
実行結果がポリシー違反
リソース急増（暴走の兆候）

停止後は管理者通知 → 手動解除という運用が一般的です。

◆ ③ 重要アクション前には“人間の承認”を挟む

特に以下の操作は、AI単独で実行させてはいけない領域です：

データ削除
外部送信
課金が発生するAPI
書き込み・更新系処理

例：
「メール送信」「顧客DB更新」「契約ステータス変更」は 必ず“承認ワークフロー”を設けるべきです。（ヒューマン・イン・ザ・ループの実装：AIや自動化システムにおいて、人間が意図的にプロセスに関与し、監督・判断・フィードバックを行う仕組みが重要）

■ 5. まとめ：Agentic AI の安全性は“設計”で決まる

Agentic AI は、企業生成AIの次の主戦場です。
自律実行能力は強力ですが、同時に 従来のチャットbotより桁違いに危険 です。

だからこそ必要なのが以下の原則：

最小権限（Least Privilege）
ホワイトリスト方式
サンドボックスによる隔離
ログ監視とキルスイッチ
重要処理は人間の承認

これらを組み合わせることで、
Agentic AI を “安全に”“責任を持って”“再現性高く” 運用できます。

本記事は、ナレッジコミュニケーションによる生成AIセキュリティ支援の実務知見をもとに執筆しています。
安全にAIを活用するための導入支援・運用設計をご希望の方は、ぜひご相談ください。

👉 AIセキュリティ支援サービス

https://www.knowledgecommunication.jp/product/ai-security.html

この記事を書いた人

azure-recipe-user

記事一覧