anthropicのシステムプロンプト流出、4.1万⭐の本当の意味

GitHubで『system_prompts_leaks』というリポジトリが4万1132スターを集め、急上昇している。AnthropicのOpus 4.7・4.6、Sonnet 4.6、OpenAIのChatGPT 5.5系、Gemini、Grok、GitHub Copilotの内部指示文が並ぶ。これを『教材』と呼ぶ前に、経営者は冷静に考えるべきだ。これは祝祭ではない。AI業界全体のガバナンス崩壊の兆候である。

何が起きたか

asgeirtjという開発者が公開したリポジトリには、主要LLMの「システムプロンプト」、つまりユーザーには見えない内部の振る舞い指示が抜き出されて並んでいる。対象はAnthropicのClaude Opus 4.7、Opus 4.6、Sonnet 4.6、OpenAIのChatGPT 5.5 Thinking、GPT 5.5 Instant、Gemini、Grok、GitHub Copilot。スター数は4万1132で、AI開発者コミュニティの注目を集めている。

抽出手法は明示されていないが、巧妙なプロンプトインジェクションでモデル自身に内部指示を吐き出させたものと推定される。各社は本来これを企業秘密として扱っており、数百行に及ぶ指示文には「どんなトピックを避けるか」「どう謝罪するか」「ツール呼び出しの優先順位」といった製品の核心が記されている。

なぜこのニュースが重要か

表向きの解説は「設計思想が学べる教材」だが、私は逆を言う。これは、各社が「モデルの安全性」を語る一方で、実態はテキストの注意書きでなだめているだけだという事実が露呈した事件だ。

考えてほしい。AnthropicはAI安全性を看板に掲げ、2025年時点で推定ARR数十億ドル規模に達した企業である。そのOpus 4.7の挙動が、平文の指示文で制御されており、しかもそれが流出する。これはセキュリティ設計として原始的すぎる。本来、モデルの安全行動は重み自体に焼き込まれているべきで、システムプロンプトはあくまで補助であるべきだ。「プロンプトで守る」段階に留まっているなら、安全性の議論は半分は演出にすぎない。

加えて、自社でAIエージェントを構築している企業も他人事ではない。自社のシステムプロンプトが同じ手法で抽出されれば、業務ロジック・取引先名・内部ルールが丸見えになる。「LLMに渡した情報は流出する」という前提で再設計する局面に来ている。

過剰評価への反論

ナレーションは「教材として価値がある」と肯定的に締めているが、ここに私は強く反対する。

第一に、流出プロンプトを真似て自社AIを設計するのは、模倣としては低品質だ。Anthropicの指示文はAnthropicのモデル特性、RLHFの傾向、ツール群を前提に最適化されている。それを切り貼りして自社の別モデルに貼っても、副作用と矛盾を抱えるだけだ。「巨人の肩」ではなく「巨人の靴下」を履くようなものである。

第二に、この4万1千スターという数字を「市場の知的好奇心」と読むのは甘い。スターの大半は、自社AIへの攻撃手法を探している開発者、競合分析をしたい企業、そして単純な野次馬だ。健全な知の流通ではなく、ジェイルブレイクの参照実装として機能している側面が大きい。

第三に、Anthropic・OpenAIがこの流出にどこまで本気で対応するかも疑わしい。過去にも類似の抽出は繰り返されており、各社は「プロンプトはセキュリティ境界ではない」と公式には言いつつ、実態としては営業上の差別化要因として扱っている。この二枚舌が続く限り、流出は構造的に止まらない。教材として消費する前に、「なぜこれが何度も起きるのか」を問うべきだ。

経営者として次に取るべき動き

第一に、自社で運用中のAIエージェントのシステムプロンプトを、流出前提で監査せよ。固有名詞、取引条件、社内ルールが平文で書かれているなら、48時間以内に抽象化・外部化する。プロンプトは「いつか公開される文書」として扱う。

第二に、AIベンダー選定基準を見直せ。Anthropic、OpenAIを問わず、「プロンプトに依存しない安全性をどこまで重みに焼き込んでいるか」をRFPで問う。回答できないベンダーは、安全性の本気度が足りないと判断してよい。

第三に、流出プロンプトを社内で参考にする場合は、必ず「自社モデルでは挙動が異なる」前提で実験ログを残せ。模倣ではなく差分検証として使う。それが、教材を消費する側ではなく、設計する側に回る唯一の道だ。