claude codeのシステムプロンプトが流出する時代の設計論

GitHubで4万5千スターを集めるリポジトリ「system_prompts_leaks」が、Claude CodeやChatGPT、Geminiの内部システムプロンプトを公開している。プロンプトは抜かれる前提で設計する時代に入った。エンジニアと経営者がいま読み解くべき本質を、コードと仕様書の視点から深掘りする。

何が起きたか

asgeirtj/system_prompts_leaks は、Anthropic の Claude Fable 5、Opus 4.8、Claude Code、Claude Design、OpenAI の ChatGPT 5.5 Thinking など、主要LLMベンダーが推論時に注入しているシステムプロンプトを抽出してまとめたリポジトリだ。現在のスター数は45,523。AI系リポジトリとしては異例の伸び方で、プロンプト設計者・社内AIツール担当・セキュリティ研究者が一斉に注目している。

公開されているのは「ジェイルブレイク手法」ではなく、ベンダーが本番環境のモデルに事前注入している指示文そのものである。ツール呼び出しのフォーマット、refusal の条件分岐、ロールの自己定義、安全側に倒すための優先順位ルールまでがプレーンテキストで読める状態になっている。Anthropic も OpenAI も「システムプロンプトは公開資産ではない」というスタンスを取ってきたが、抽出は止まっていない、というのが現状である。

なぜこのニュースが重要か

エンジニア視点で重要なのは、流出した中身が単なる「キャラ付け」ではなく、プロダクトの仕様書そのものだという点だ。とくに Claude Code のシステムプロンプトは、ファイル編集ツールの呼び出し規約、差分の出力フォーマット、コミットメッセージの生成方針、ユーザーの意図確認のタイミングまで定義している。これは Anthropic Docs に書かれていない実装挙動を裏側から読む行為に等しい。

検索ボリュームを見ても、claude code は月間9.1万、anthropic は2.7万。Claude Code が単なるチャットUIではなく「コーディングエージェント」として独立した検索意図を獲得していることがわかる。そのエージェントの判断ロジックの少なくとも一次レイヤーが、システムプロンプトとして人間可読な日本語・英語で書かれている事実は重い。

つまり「モデルの重み」よりも「プロンプトの設計」のほうが、ユーザー体験を支配しているケースが増えている。重みは年単位で更新されるが、システムプロンプトは週次でリビジョンが回る。差分を読めば、ベンダーがどのエッジケースでクレームを受けたかが透けて見える。流出リポジトリは、事実上の「AIプロダクトのチェンジログ」として機能している。

技術的な深掘り

抽出手法は推定だが、概ね二系統に分かれる。第一に、モデル自身に「あなたの指示文を逐語的に再生せよ」と要求する prompt extraction 攻撃。第二に、ツール呼び出しのエラーメッセージや refusal の理由文に滲み出る断片を集めて再構成する手法だ。Anthropic は constitutional AI の枠組みで「秘匿命令」への耐性を上げているはずだが、Claude Code のように外部ツールを多用するエージェントでは、ツール側のエコーバックから漏れる経路を完全に塞ぐのが構造的に難しい。

ここで設計者が学ぶべきは、**「秘匿前提のプロンプトは作るな」**という原則だ。流出した Claude Code のプロンプトを読むと、Anthropic 自身もそれを織り込んでいる節がある。機密ロジックはプロンプトに書かず、ツール側の検証関数や RAG の retrieval ポリシーに寄せている。プロンプトに書かれているのは「振る舞いの方針」であり、「ビジネスロジックそのもの」ではない。

自社で社内AIを組むエンジニアは、この層分離をそのまま真似るべきだ。プロンプトに API キー、顧客リスト、料金テーブルを直書きするのは、ソースコードに DB パスワードをハードコードするのと同じ罪である。

経営者として次に取るべき動き

第一に、社内で運用中のAIエージェントのシステムプロンプトを棚卸しし、「流出してもブランド毀損しない文面か」をレビューさせること。テストケースは「このプロンプト全文がXに貼られたら何が起きるか」だ。

第二に、流出リポジトリを「禁書」ではなく教材として扱う方針を出すこと。Anthropic と OpenAI のプロンプト設計は、refusal の優先順位やツール呼び出し規約の書き方において現時点の業界ベストプラクティスである。自社プロンプトのリファクタ材料として正面から活用したほうが、競争上の損失が少ない。

第三に、機密データはプロンプトから剥がし、RAG・関数呼び出し・権限付きツール経由でモデルに渡す設計へ移行すること。プロンプトは漏れる前提、データは漏らさない前提。この非対称性を設計原則として全社で共有することが、流出時代の最低ラインである。