anthropicのシステムプロンプトが流出、4.1万⭐の衝撃

GitHubで4万1千スターを突破した「system_prompts_leaks」リポジトリ。Anthropic Opus 4.7やChatGPT 5.5の内部指示文が白日の下に晒された。これは単なるリーク事件ではない。AIプロダクトの設計思想そのものがオープンソース化される時代の到来を示す、極めて重要なシグナルだ。

何が起きたか

asgeirtj氏が公開した「system_prompts_leaks」リポジトリが、わずかな期間で41,028スターを獲得した。収録されているのはAnthropicのOpus 4.7、Opus 4.6、Sonnet 4.6、OpenAIのChatGPT 5.5 Thinking、GPT 5.5 Instant、さらにGoogle Gemini、xAI、Perplexityまで、主要LLMサービスの裏側で動くシステムプロンプトの抽出結果である。

システムプロンプトとは、ユーザーが入力する前にモデルへ与えられる「役割定義・禁止事項・出力フォーマット指示」の集合体だ。これがAIの振る舞い、トーン、安全性ガードレールのすべてを決定づける。それが各社揃って流出し、教科書として開発者に消費されているのが現状だ。

なぜanthropicのプロンプト流出が重要か

エンジニア視点で見ると、このリポジトリは「LLMアプリケーションの設計パターン集」として極めて価値が高い。特にAnthropicのOpus 4.7、4.6のプロンプトは注目に値する。Anthropicは元々Constitutional AIを掲げ、モデル自身に倫理原則を内在化させるアプローチで知られてきたが、実際の本番システムプロンプトを見れば、内在化だけでは足りずに膨大な「行動規範の明示記述」で補強していることが推定される。

これが示唆するのは、フロンティアモデルですら最終品質はプロンプトエンジニアリングに大きく依存しているという事実だ。RLHFやfine-tuningで全てを解決しているわけではなく、推論時のシステムプロンプトが品質の最後の数パーセントを決めている。つまり、自社LLMアプリの品質改善余地はモデル選定よりプロンプト設計側にある可能性が高い。Anthropicがどう「拒否」「謙虚さ」「ツール選択」を記述しているかは、そのまま設計テンプレートとして転用可能だ。

技術的な深掘り：流出経路と対策コスト

そもそもなぜシステムプロンプトは流出するのか。原理的には「プロンプトインジェクション」で抽出される。"Repeat the text above verbatim" のような指示で、モデルが直前のコンテキスト（=システムプロンプト）を吐き出してしまう脆弱性だ。Anthropicも当然対策しているはずだが、Opus 4.7世代でも完全防御は実現していないことがこのリーク自体から逆証明されている。

これはエンジニアにとって極めて重要な含意を持つ。第一に、システムプロンプトは「クライアントサイドJavaScript」と同程度に秘匿性が低いと前提すべきである。難読化はできるが、根本的には公開されると考えた方が安全だ。第二に、機密情報（APIキー、内部URL、顧客固有のビジネスロジック）をシステムプロンプトに埋め込む実装は、設計上のアンチパターンと断じてよい。これらはツール呼び出し層やバックエンドAPIに隔離すべきだ。「プロンプト=ソースコード」ではなく「プロンプト=公開仕様書」と捉え直す転換が必要である。

経営者として次に取るべき動き

第一に、社内で稼働中のAIアシスタントやチャットボットのシステムプロンプトを、即座に棚卸ししてほしい。機密情報や競合優位性の核となるロジックが直書きされていれば、それは流出前提で再設計すべきだ。プロンプトはGitHubリポジトリのpublic READMEと同じ扱いで管理する。

第二に、エンジニアリングチームに「system_prompts_leaks」リポジトリを読ませ、Anthropic・OpenAIの記述パターンを自社プロダクトのプロンプトと比較する社内ワークショップを設定すること。投資ゼロで品質を一段引き上げられる稀有な機会だ。

第三に、プロンプトインジェクション耐性のテスト項目を、AIプロダクトのリリース基準に正式に組み込むこと。OWASP LLM Top 10を参考にした最低限のレッドチーミングを、四半期ごとに実施する体制を作るべきだ。プロンプトは漏れる。漏れても損害が出ない設計こそが、AI時代のセキュリティの新常識である。