OpenAIが2026年5月15日、自然言語からコードを生成・実行する開発エージェント「Codex」を、ChatGPTモバイルアプリから操作可能にした。CIに似た非同期実行モデルの上に、スマホからの指示出し・差分レビュー・承認を載せる設計で、エンジニアの作業フローが「机に縛られる時間」から解放される。詳細はWork with Codex from anywhereで公開されている。
何が起きたか
OpenAIはCodexを、ChatGPTのiOS/Androidアプリから直接操作できる機能を正式リリースした。Codexは2025年に登場した「クラウド上で動くソフトウェアエンジニアリングエージェント」で、リポジトリをコンテナにクローンし、自然言語の指示に基づきブランチを切ってコード変更・テスト実行・PR作成までを担当する仕組みだ。
これまでCodexの操作は基本的にデスクトップのChatGPT WebまたはVS Code拡張、codex CLIが主戦場だった。今回のアップデートで、モバイル側からも以下が可能になった。
- 新規タスクの起票(「このIssueを直して」「ログイン画面のa11y警告を潰して」など)
- 実行中タスクの進捗監視・ログ閲覧
- 生成された差分(diff)のレビューと承認
- 複数タスクの並列モニタリング
ポイントは、モバイルが単なるリモコンではなく「タスクキューのインボックス」として機能する点だ。Codexはバックグラウンドで動き続け、人間は通知が来たタイミングで意思決定だけを返す、という非対称な役割分担になる。
なぜこのニュースが重要か
このリリースの本質は「スマホでコードが書ける」ことではない。承認ワークフローのレイテンシ短縮にある。
現在の生成AI開発フローには、見落とされがちなボトルネックがある。エージェントがコードを生成しても、人間のレビュー・承認が入るまでマージされない。レビュアーがPCの前にいない夜間や移動中、エージェントの作業は数時間〜半日単位で停滞する。AnthropicのClaude CodeやGitHubのCopilot Coding Agentも同じ課題を抱えており、業界全体が「人間のレビュー帯域」をどう広げるかに収斂しつつある。
モバイル承認は、このレビュー帯域を物理的に2〜3倍に拡張する打ち手だ。Vercelが2024年から進めるPreview Comments、Linearのモバイル通知統合と同じ流れで、「意思決定の遅延を地理的制約から外す」設計思想に近い。
エンジニア視点・実装影響
実装エンジニアとして気にすべき点は次の3つだ。
1. タスク粒度の再設計が必要になる
スマホで承認可能なPRは、画面で差分が読める粒度に収まっている必要がある。経験則として、モバイルで安全にレビューできるのはおおむね±200行、3〜5ファイル程度。これを超える変更は結局PCに戻ることになる。Codexに投げる指示は、AGENTS.md(Codexのプロジェクト設定ファイル)で「1タスクあたりの変更範囲」を明示的に制約する運用が現実的だ。
# AGENTS.md
## Task constraints
- Limit changes to <= 200 LOC per task
- Split refactors into atomic commits
- Always add tests for behavior changes
2. CIとの結合点
Codexは内部でサンドボックスコンテナを立て、pytest / npm test などを実行できる。モバイル承認の前段で、テストが緑になっているかをサマリ表示するのが鉄則だ。GitHub Actionsのstatus checkを必須にしておけば、スマホから「Approve」を押す瞬間のリスクは大幅に下がる。
3. シークレットと権限分離
外出先からの承認には、セッションハイジャック・肩越し覗き見・紛失端末経由の不正マージといった新しい脅威が乗る。最低限、以下は組織ポリシーに入れたい。
- ChatGPT EnterpriseのSSO/SCIM連携を必須化
- 本番デプロイ権限を持つリポジトリへの変更は、モバイル承認を不可にする(GitHub branch protectionで
require deploymentsを活用) - OAuth tokenのスコープを
repo:read+pull_request:write止まりに絞り、workflowスコープは付与しない
CVE-2024-9487(GitHub Enterpriseの認証バイパス)のような事例を踏まえると、エージェント経由の自動マージは「人間の承認」だけでなく「実行環境の信頼境界」も再検証する必要がある。
経営者・読者として次に取るべき動き
スマホからの開発承認は、エンジニア組織のKPIに直接効く。具体的にはLead Time for Changes(変更のリードタイム、DORA四指標の一つ)が短縮される。レビュー待ちで滞留していたPRが、移動中の15分で消化されるからだ。
経営層が今週中に確認すべきは次の3点に集約される。
- 自社のChatGPTプラン(Plus / Business / Enterprise)で本機能が有効か、ロールアウト範囲はどうか
- どの業務領域でCodex的なエージェントが効くか(社内ツール、データ変換スクリプト、ドキュメント生成あたりが初手として安全)
- 承認権限の電子的な統制(誰が、どこから、何をマージしてよいか)の見直し
「コードを書くAI」が珍しくなくなった今、競争軸はAIの賢さからAIを安全に走らせ続けるオペレーションに移っている。モバイル承認はその走り続けるための補給線であり、ここを整備できる組織から、開発スループットの差が開いていくはずだ。
動画でも詳しく
動画は記事冒頭の埋め込みからフル尺で視聴できます。
