Claude自動振分け時代、AIコストは3割動く

AIを、自動で使い分ける時代が来た。ワークウィーブがハッカーニュースで公開した新しいルーターは、Claude、Codex、Cursorといった開発AIに対し、質問の難易度に応じて最適なモデルへ自動で振り分ける。簡単な作業は安いモデル、難しい設計は高性能モデル。経営者にとっては、AI調達戦略の前提が変わる一報だ。

何が起きたか

ワークウィーブが公開した「Router」は、Claude、Codex、Cursorといった開発AIに対し、プロンプトの難易度を判定して最適なモデルへ自動振分けするツールだ。これまでエンジニアは「この修正は安いモデルでいい」「この設計は最上位モデルに任せたい」と手動で切り替えていたが、その判断をルーター側に委譲する。

ハッカーニュースのShow HN経由で公開されており、GitHubでソースが閲覧可能だ。ねらいは明快で、AI利用料金の圧縮にある。一方、現場のエンジニアからは「モデルを切り替えるとプロンプトキャッシュが効かなくなり、トータルではむしろ高くつくケースがある」との指摘も出ている。コスト最適化ツールが、別の軸でコストを膨らませる構造的なトレードオフだ。

なぜこのニュースが重要か

経営者がここで読み取るべきは、AIコストの「構造」が変わったことだ。

第一に、モデル選択次第でAIランニングコストは3割前後動くフェーズに入った。Claudeの最上位モデルと軽量モデルではトークン単価が桁で違うケースもあり、開発組織が1日1万回呼び出すような企業では、月次コストに直接効く。

第二に、「1社のAIに絞る」という調達戦略が、もはや経済合理性を持たない。Claude、Codex、Cursor、それぞれに得意領域とコスト構造がある。複数契約・自動振分けが前提となれば、ベンダー1社契約を続けることは「割高な選択」を意味する。

第三に、これは特定ベンダーへの依存度を経営指標として可視化すべき、というメッセージでもある。「Claude依存度70%」「Codex依存度20%」といった構成比を経営会議で確認する時代が来る。ロックイン解除のオプション価値を、財務サイドが評価する局面だ。検索ボリューム53万を誇るClaudeは依然として中核だが、中核であるがゆえに依存リスクの管理対象になる。

経営判断への含意

ただし、私は単純な「自動振分け万歳」論には与しない。現場が指摘するキャッシュ問題は本質的だ。

Claudeを含む主要LLMはプロンプトキャッシュで実効コストを大幅に下げる設計になっており、同じモデルを連続で使うほど割安になる。ルーターがタスクごとにモデルを切り替えれば、キャッシュヒット率は崩れ、見かけのトークン単価は下がっても合計請求額は増える、という逆転が起きうる。コスト最適化を謳うツールが、キャッシュ経済を破壊する構図だ。

つまり経営者が問うべきは「振分けで安くなるか」ではなく、「自社の利用パターンが振分けに向いているか」だ。タスクが多様で短く、キャッシュが効きにくい組織には効く。一方、長文コンテキストを継続的に扱う設計レビュー型の組織では、むしろ単一モデル固定のほうが安い。ROI判断を一律に下すと事故る領域である。

オープンソースで公開された点も注目に値する。クラウド型のAIゲートウェイ商用サービス(LiteLLM等)に対し、自社ホスト型のルーターという選択肢が増えた意味は大きい。データを外部ゲートウェイに流したくない金融・医療領域の経営者にとっては、調達の自由度が上がる一報だ。

経営者として次に取るべき動き

第一に、AI利用料金の内訳を「モデル別・タスク別」で可視化せよ。多くの企業で請求書は「Claude合計」「OpenAI合計」のレベルで止まっている。タスク粒度で見なければ、振分けで得する領域と損する領域を切り分けられない。

第二に、CTOとCFOを同席させ「ベンダー依存度ダッシュボード」を月次で確認する仕組みを作れ。Claude、Codex、Cursorの構成比、キャッシュヒット率、モデル別単価をKPI化する。これは技術KPIではなく財務KPIだ。

第三に、自動振分けは「全社一斉導入」ではなく特定チームでのPoCから始めよ。コーディング支援チームの1か月実測で、キャッシュ崩壊を含めた実コストを検証する。3割削減という触れ込みが、自社で1割増になる可能性まで織り込んだ上で、横展開を判断すべきだ。AI調達は、もはや情シス案件ではなく経営アジェンダである。