OpenAIが2025年に投入した「Codex」は、もはや単なるコード補完ではない。クラウド側のサンドボックスでタスクを並列実行し、Pull Requestまで仕上げる自律型コーディングエージェントとして再定義されている。本稿ではCLI/IDE/Cloudの3面構成、内部で動くモデル「codex-1 / GPT-5-Codex」の挙動、そして実装現場での導入手順と落とし穴を、エンジニア視点で解説する。
何ができるか
現行のCodexは、2021年に廃止された旧Codex API(code-davinci-002系)とは別物だ。OpenAIが2025年5月以降に展開している新Codexは、以下の3つのサーフェスで構成される。
- Codex CLI: ターミナルで動くOSS製エージェント(github.com/openai/codex、Rust実装)。
codexコマンド一発で対話セッションが立ち上がる。 - Codex IDE Extension: Visual Studio Code / Cursor / Windsurf向け拡張。エディタ内のコンテキスト(開いているファイル、選択範囲、diff)を直接渡せる。
- Codex Cloud: ChatGPT上から起動するクラウドサンドボックス。リポジトリをcloneした隔離コンテナで複数タスクを並列実行し、結果をGitHubのPRとして提出する。
内部モデルは、汎用GPT-5から派生してソフトウェアエンジニアリングタスクで強化学習した GPT-5-Codex が中核。OpenAIの公表ベンチではSWE-bench Verifiedで高いスコアを出しており、特筆すべきはタスクの難易度に応じて思考時間を動的に変える点だ。簡単なリファクタは数秒、大規模な機能追加では最大7時間程度の自律実行も報告されている。
具体的にできることは以下のような領域である。
- リポジトリ全体を読んだ上での機能追加・バグ修正
- failing testを起点にした自動デバッグ(
pytestやvitestの実行結果をフィードバックループに使う) - コードレビュー(PRのdiffに対してインラインコメントを生成)
- マイグレーション作業(例:Python 3.9→3.12、React Class Component→Hooks変換)
- スクリーンショットや図を渡しての画面実装(マルチモーダル入力)
# 最小例:CLIで対話開始
npm i -g @openai/codex
codex
> "src/api 配下のExpressハンドラをHono移行して、テストも書いて"
経営者として知っておきたいポイント
第一に、課金体系がChatGPTサブスクリプションに統合された点が重要だ。Codex CLI/IDE/CloudはChatGPT Plus(月20ドル)・Business・Pro・Enterpriseのいずれかに含まれ、別途API契約なしで利用できる。APIを叩く従量課金パスも残るが、社内展開時は「ChatGPT Businessを契約すれば全社員がCodexを使える」という整理がしやすい。
第二に、生産性指標の取り方が変わる。OpenAI社内では、社内エンジニアのPRの相当割合がCodex経由で作成されているとされる。重要なのは「行数」ではなく「1人のシニアが並列に走らせるエージェント数」がスループットを決める点で、KPI設計は「エンジニア数×タスク数/週」から「エンジニア数×並列エージェント数×成功率」に書き換える必要がある。
第三に、競合(Anthropic Claude Code、Google Gemini CLI、Cursor、Devin)との選定軸は、(1)既存のChatGPT契約資産の有無、(2)クラウドサンドボックス実行の必要性、(3)IDE統合の深さ、の3点で考えるのが実務的だ。Claude CodeがローカルCLI中心なのに対し、CodexはCloud側の並列実行にプロダクトの重心がある。
実装/活用の最小ステップ
最短で本番運用に乗せる手順を示す。
Step 1: CLIで個人検証(30分)
npm i -g @openai/codex
cd your-repo
codex
# ChatGPTアカウントでOAuthログイン
~/.codex/config.toml でモデルや承認モードを切り替えられる。デフォルトは「ファイル編集とコマンド実行の都度承認」だが、--full-auto で自動承認に切り替わる。
Step 2: AGENTS.mdの整備(1日)
リポジトリルートに AGENTS.md を置くと、Codexはこれをシステム指示として読む。README.md がヒト向けなのに対し、AGENTS.md はエージェント向けの「お作法集」だ。
# AGENTS.md
## Setup
- Node 20 / pnpm 9 を使う
- `pnpm install && pnpm test` でテストが通ることを必ず確認
## Conventions
- 新規ファイルは src/features/<domain>/ 配下に作る
- DBアクセスは必ず repository 層を経由
- console.log を本番コードに残さない
## Forbidden
- prisma migrate reset の実行禁止
- .env / secrets/ の読み書き禁止
Step 3: Codex Cloud + GitHub連携(半日)
ChatGPTのCodex画面でGitHub App連携を行い、対象リポジトリを許可。タスクを投げると隔離コンテナでcloneされ、AGENTS.md の手順でセットアップ後にPRが作られる。レビューはGitHub上で通常通り行えばよい。
Step 4: CIへの組み込み
PRに対する自動レビューを codex CLIで回す例:
# .github/workflows/codex-review.yml
- run: npm i -g @openai/codex
- run: codex exec --full-auto "このPRのdiffをレビューして問題点を出して" > review.md
- uses: actions/github-script@v7
# review.mdをPRコメントに投稿
注意点・落とし穴
1. 旧Codex APIと混同しない: 検索すると2021〜2023年の code-davinci-002 記事が大量にヒットするが、現行Codexとは別物。/v1/completions で叩く旧APIはすでにdeprecatedで、現在のCodexはChatGPT統合かCLIが正規ルートだ。
2. シークレットの取り扱い: Cloudサンドボックスは隔離されているが、リポジトリに .env をコミットしているとそれごと読まれる。AGENTS.md で禁止指定するだけでなく、Secret Scanning(GitHub Advanced Security)と組み合わせること。社内コード規程に「エージェント実行時の機密データ取り扱い」を明文化する企業も増えている。
3. 長時間タスクのコスト: 「7時間自律実行」は強力だが、その間トークンを消費し続ける。Businessプランでもレート制限はあり、codex CLIで /status を叩いてリミット残量を確認する習慣をつけたい。
4. テスト基盤がない領域では精度が落ちる: Codexは「テスト実行→失敗→修正」のループで強くなるモデル。テストが薄いレガシーコードベースでは、生成コードがそれっぽいが動かない、いわゆるhallucinationが出やすい。先にスモークテストを整備してからCodexを入れる順序が、ROIを最大化する鉄則だ。
5. レビュー文化を捨てない: 並列で10本PRが上がってきても、人間レビューを省略してはいけない。Codexが書いたコードのバグはCodexにレビューさせるより、異なるモデル(例:Claude)にクロスレビューさせる運用が事故を減らす、という現場知見も出始めている。
Codexは「AIにコードを書かせる」フェーズから「AIエージェント群をマネジメントする」フェーズへ開発組織を押し上げるツールだ。導入の本丸は、モデルそのものではなく AGENTS.md と CI、そしてレビュー文化の再設計にある。
