Microsoftが「AIエージェントの運用コストは人間の従業員より高い」と公式に認めた。トークン課金という従量モデルの宿命が、いま大企業の経費精算書の上で牙を剥いている。事務作業の自動化どころか、派遣社員より高い請求書が届く時代に、エンジニアと経営者は何を読み解くべきか。コードと仕様書の両側から本質を掘り下げる。
何が起きたか
Fortuneの報道によれば、Microsoftは自社のAIエージェント運用において、人間の従業員を雇うよりもコストが高くつくケースがあると認めた。原因はシンプルだ。AIエージェントはユーザーの代わりにPC操作や調査を自走でこなすが、その内部処理はすべて「トークン」という単位で課金される。エージェントが長く考え、複数ツールを呼び出し、長い文脈を保持するほど、入出力トークンは指数関数的に膨らむ。結果として、定型業務を肩代わりさせるはずだったエージェントが、月末には派遣社員の月額単価を超える請求書を発行してくるという逆転現象が、エンタープライズ導入の現場で発生している。AI推進の旗振り役だったMicrosoft自らがこれを認めた意味は重い。
なぜこのニュースが重要か
これは「AIは万能だが高い」という単純な話ではない。エージェント型AIのコスト構造が、従来のSaaSとは根本的に異なることをMicrosoftが認めたという点に本質がある。SaaSは1ユーザー1シート月額固定で、限界費用はほぼゼロに収束する。一方、エージェントは1タスクごとに推論コストが発生し、しかもReAct的なループで「考える→ツールを叩く→結果を読む→また考える」を繰り返すため、コンテキストウィンドウが滑車のように膨張する。1回の調査タスクで数十万トークンを消費するのは珍しくない。GPT-4クラスのフラッグシップモデルで100万入力トークンあたり数ドル、出力トークンはその3倍前後。これを1日100タスク×20営業日で回せば、1エージェントの月額が数百ドル〜千ドル超に達するのは算術的に自明だ。派遣社員の時給換算と並ぶのは当然で、Microsoftの「告白」は、業界全体が薄々気づいていた不都合な真実を可視化したにすぎない。
技術的な深掘り
エンジニア視点で見るべきは「なぜトークンが膨らむのか」のメカニズムだ。エージェントの推論ループにおいて、過去の試行錯誤、ツール呼び出しの結果、エラーメッセージ、再試行のログ──これらすべてがコンテキストとして毎ターン再送信される。つまりO(n²)のコストカーブを描く。100ステップのタスクは10ステップのタスクの10倍ではなく、100倍に近い課金になる。さらに厄介なのは、最近のフラッグシップモデルが採用するreasoning tokens(思考トークン)だ。ユーザーには表示されないが、課金には含まれる「内部独白」が、見えないところで請求額を押し上げる。
対策の方向性は明確だ。第一にコンテキスト圧縮──要約・スクラッチパッド分離・RAGによる外部メモリ化。第二にモデルルーティング──Haiku/Flash/4o-mini級でドラフトを書き、難所だけOpusやo1に渡すカスケード設計。第三にツールI/Oの構造化で、JSONスキーマを締めて返答長を物理的に削る。これらを「最初から仕込んでおく」のと、PoC後に後付けで入れるのとでは、運用コストが一桁変わる。仕様書の段階でトークン会計を設計に組み込めるかが、AI時代のアーキテクトの腕の見せどころだ。
経営者として次に取るべき動き
第一に、導入前のトークン量シミュレーションを必須化すること。「月にこのタスクを何回、平均何ステップで回すか」を想定し、想定単価×ボリュームで月次コストを試算する。これをやらずにPoCをGoする企業が多すぎる。第二に、AIに丸投げしない役割分担の再設計だ。判断・例外処理は人間、反復処理だけAIという線引きを明文化する。エージェントを「全自動社員」と位置づけた瞬間に予算は破綻する。第三に、モデル切替を前提としたアーキテクチャを採用すること。プロンプトとロジックをモデルAPIから疎結合にし、GPT-4クラスから軽量モデルへいつでも切り替えられる設計を初期から仕込む。Microsoftの告白は、終わりの始まりではなく、設計力で差がつく時代の幕開けだ。コスト逆転を嘆く前に、自社のエージェント設計図を今夜開き直すべきである。
