iPhoneでQwen3.5が動く時代、Phone上のAIが変える設計思想

iOS 27で正式提供された Apple Core AI に、コミュニティ製のモデル動物園 coreai-model-zoo が登場した。Qwen3.5 と Gemma 4 を iPhone 17 Pro の GPU/ANE で end-to-end 動作検証済み。クラウドAPIに頼らず、Phone単体でLLM推論を完結させる選択肢が、ついに「実装の現実解」として並んだ。

何が起きたか

GitHubトレンドに john-rocky/coreai-model-zoo が浮上した。star数は現時点で60と小粒だが、内容は重い。iOS/macOS 27 で導入された Apple Core AI ランタイム向けに、Qwen3.5 と Gemma 4 をそれぞれ変換し、実機で推論が通るところまで一気通貫でまとめた「実践集」だ。

検証環境は iPhone 17 Pro。GPU と Apple Neural Engine（ANE）の両系統で動作確認済みとされており、変換手順、量子化設定、サンプルコードがリポジトリにまとまっている。これまで Apple 公式のサンプルは Apple Intelligence の純正モデル中心で、サードパーティの代表格である Qwen 系・Gemma 系を「どう刻んで、どう載せるか」のノウハウは個人ブログ単位で散逸していた。それを一つの場所に集約した、というのが今回の実質的な貢献である。

なぜこのニュースが重要か

エンジニア視点で見ると、これは「オンデバイスLLMがPoCを卒業した」というシグナルだ。

これまで iPhone上でLLMを動かす試みは、llama.cpp 系のMetalバックエンドか、Core ML への手動変換が主戦場だった。前者はApp Store審査の動的コード生成ポリシーで揉めやすく、後者はトランスフォーマーの KV キャッシュや回転位置埋め込み（RoPE）を Core ML の静的グラフに落とし込む地獄が待っていた。Apple Core AI は iOS 27 でこの摩擦を一段下げ、ANEを正面から叩けるAPI体系を提供している。そこに「Qwen3.5 と Gemma 4 が end-to-end で通った」という既製の答案が公開された意味は大きい。

数字で言えば、クラウドLLMのAPI単価はGPT-4o級で入力100万トークンあたり数ドル規模だが、Phoneのオンデバイス推論はその限界費用がゼロに張り付く。100万ユーザーに毎日10往復させても、追加コストは電池とサーマルだけだ。SaaSの従量課金モデルが前提とする「利用が伸びれば原価も伸びる」線形構造が、配布アプリ側では崩れる。

技術的な深掘り

仕様書ベースで読むと、肝は ANE への載せ方だ。ANE は16ビット浮動小数（fp16）とINT8の混在演算が得意で、メモリ帯域は GPU より細いがエネルギー効率は数倍。Qwen3.5 クラス（推定3B〜7Bパラメータ）を ANE で実用速度に乗せるには、weight-only INT4 量子化と、attention の一部を GPU にオフロードするハイブリッド構成が現実解になる。リポジトリが「GPU と ANE で動作確認」と明記しているのは、おそらくこのハイブリッドを前提とした検証である（推定）。

もう一つの読みどころは、配布形態だ。Core AI のモデルパッケージは .mlpackage 系のバイナリで、App Store の追加ダウンロード枠（On-Demand Resources）に乗せれば、アプリ本体サイズを膨張させずに7Bモデルを後から取得できる。ここに Qwen3.5 のApache 2.0系ライセンスが乗ると、商用アプリへの同梱が法務的にも軽くなる。Gemma 4 は Gemma 利用規約があるため、商用配布前にライセンス条項の精読が必要だ。この「ライセンス×サイズ×ANE適合性」の3軸で、どのモデルを採用するかの意思決定が変わる。

逆に言えば、今リポジトリに載っていない領域、たとえばマルチモーダル（画像入力付きQwen-VL系）や、Speculative Decoding を ANE 上で組む話は、まだコミュニティが手をつけきれていない。ここに次の60 starが生まれる余地がある。

経営者として次に取るべき動き

第一に、自社プロダクトの「LLM呼び出し回数 × API単価」を棚卸しすること。月間API費用が数百万円規模で、かつ機能の8割が要約・分類・抽出のような定型タスクなら、オンデバイス化のROIは6ヶ月以内に出る公算が高い。

第二に、機密データを理由にAI導入を見送ってきた医療・金融・法務領域の社内案件を、いますぐ再起動すること。Phone内処理は通信ログそのものが発生しないため、「データを外に出さない」要件をアーキテクチャレベルで満たせる。監査対応のコストが一段下がる。

第三に、SaaS課金モデルの再設計に着手すること。クラウド推論の従量課金で利益を取っていたプロダクトは、競合が「買い切り＋オンデバイス」で殴り込んでくる前に、サブスクの提供価値をデータ統合・継続学習・運用代行に組み替える必要がある。Phone上の推論が無料化する時代、課金の根拠は「演算」ではなく「文脈」に移る。