Gemini APIが半額、用途別契約でAIコスト構造が変わる

Googleが2026年5月26日、Gemini APIに新料金プラン「Flex」と「Priority」を追加した。Flexは即応不要の処理を標準の半額でさばき、Priorityは顧客対応のような即応処理を優先的に返す上位プランだ。AIコストを用途別に分解して契約する時代が、ついに本格化する。

何が起きたか

Googleは今回、Gemini APIの料金体系を二層に拡張した。新設されたのは標準価格の半額で利用できる「Flex」と、優先処理を保証する上位プラン「Priority」の2つだ。Flexは社内議事録の要約、大量文書の分類、ナレッジベースの一括ベクトル化など、レスポンス遅延が許容される処理を半額でさばける。一方のPriorityは、顧客対応チャットや営業支援のリアルタイムレコメンドのように、応答速度がユーザー体験を左右する処理を優先的に返す。従来の単一料金プランから「即応性をいくら払って買うか」を選ぶ構造へと、APIの売り方そのものが変わった。OpenAIのBatch API（50%割引）に対する追随とも読めるが、Googleは「Flex／標準／Priority」の三層で値付けの粒度を一段細かくしてきた点が異なる。

なぜこのニュースが重要か

経営者が見るべきは「半額」という表面的な数字ではない。重要なのは、AI APIのコスト構造が電力料金のような「時間帯別・用途別の従量制」に近づいたという事実だ。これまでAI導入のROI試算では、推論コストを一律単価で計算するしかなかった。だが今後は、社内向けバッチ処理は半額のFlexに寄せ、顧客接点だけPriorityに振り分ける設計が標準になる。仮に月間API費用が500万円の企業で、バッチ処理が全体の6割を占めるなら、Flex移行だけで月150万円、年間1,800万円のコスト削減が即座に視野に入る。これはAI投資の損益分岐点を大きく前倒しする数字だ。逆に言えば、一律プランを漫然と使い続ける企業は、何もしないだけで競合より割高なコスト構造を抱え込むことになる。AIコスト最適化は、もはやインフラ部門の小さな改善活動ではなく、PLに直接効く経営マターへ昇格した。

経営判断への含意

私が経営者の立場で最も警戒すべきと考えるのは、「AIコストを誰が設計するか」という社内責任の空白だ。Flex／Priorityの使い分けは、技術判断であると同時に、顧客体験とコストのトレードオフを決める経営判断でもある。エンジニアに丸投げすれば、安全側に倒してPriority中心の設計になりがちで、半額メリットを取り逃す。逆にCFO直下のコスト削減プロジェクトに任せれば、顧客対応までFlexに寄せて応答遅延を招き、解約率を悪化させる。必要なのは「どの業務プロセスにいくらの即応性を払う価値があるか」を、事業責任者が定量的に判断する仕組みだ。さらに長期視点で言えば、今回の二層化はAPI市場全体の値付け競争の号砲でもある。AnthropicやOpenAIが追随すれば、半額がやがて標準価格に再定義される。今のうちにFlexで運用ノウハウを蓄積した企業だけが、次の値下げ局面でも先行者利益を取れる。

経営者として次に取るべき動き

第一に、自社のAPI利用ログを業務単位で棚卸しし、「即応が必須か否か」で全処理を二分類せよ。議事録要約、文書分類、ナレッジ生成、夜間バッチはFlex候補だ。多くの企業で利用量の5割以上がここに該当すると推定する。第二に、Priorityに残すべき処理は顧客接点と意思決定支援に限定し、SLAを明文化する。応答速度がKPIに直結する処理だけを上位プランに振り、他は容赦なく半額側に寄せる設計思想を徹底すべきだ。第三に、AIコスト管理の責任者をCIOやCTOではなく、事業部門の責任者に紐づけよ。コストと顧客体験のトレードオフを判断できるのは、PLを持つ事業責任者だけだ。今夜から動けば、来月のAPI請求書は確実に変わる。