Metaの著作権訴訟が、AI業界の「データ調達問題」を経営トップの責任問題へと押し上げた。Mark Zuckerberg CEO自らが海賊版書籍を学習データに使うことを承認していたと訴状で指摘され、スコット・トゥローら著名作家と出版社が集団訴訟に踏み切った。LLM開発の暗部に光が当たった今、企業のAI導入戦略にも見直しが迫られている。

何が起きたか

Varietyの報道によれば、原告側は、MetaがLLaMA系モデルの学習に「LibGen」とされる海賊版書籍データセットを使用したこと、そしてその使用をZuckerberg本人が承認・推奨していたとする内部文書を訴状に添付した。出版社側にはScott Turow(『推定無罪』の作者で全米作家協会の元会長)など重量級の作家が名を連ね、Hacker Newsでも127ポイント・79コメントを集めるなど技術コミュニティの注目度も高い。

これまでのAI著作権訴訟(New York Times対OpenAI、Getty対Stability AIなど)はあくまで「企業の判断」として争われてきたが、今回はCEO個人の関与が文書証拠として持ち出された点で位相が異なる。コーポレートベール(法人格による経営者保護)を貫通しうる訴訟設計だ。

なぜこのニュースが重要か

これは単なる一社のスキャンダルではない。AI業界が長年「触れずに済ませてきた」データ調達の不透明性が、ついに法廷で剥がされ始めたという意味で、構造的な転換点である。

過去20年のテック業界には類例がある。2000年代前半のNapsterとRIAAの戦い、YouTube初期のViacom訴訟、Uberの「まず違法、あとで合法化」戦略——いずれも「先に普及させて事後的に法的決着をつける」モデルだった。生成AI各社が暗黙に踏襲してきたのも、まさにこのプレイブックだ。fair use(公正利用)の傘の下、書籍・画像・コードを大規模に取り込み、収益化を先行させてきた。

しかし、Napsterが最終的に消滅し、YouTubeが莫大なライセンス費用とContent IDという仕組みの構築を強いられたように、「事後決着」には常に高い代価が伴う。Metaの今回の件は、その清算の始まりに見える。

過熱するAIナラティブへの冷や水

「学習データの著作権問題はfair useで決着がつく」「クリエイター側が騒いでも結局はライセンス契約で落とし込まれる」——シリコンバレー周辺ではこうした楽観論が根強い。だが、その前提はかなり脆い。

第一に、CEO個人の関与が証拠化された場合、企業の交渉カードは大きく毀損する。「組織として知らなかった」「現場の判断だった」という弁明は通用しない。Theranosの裁判でElizabeth Holmesが個人責任を問われたように、トップの認識を示す内部メモは破壊的だ。

第二に、これまでAIスタートアップが評価されてきた「データの規模」が、今後は逆に負債(contingent liability)として計上され始める可能性がある。買収デューデリジェンスにおいて、学習データの来歴(provenance)が監査対象になれば、評価額は一気に変動する。

第三に、業界が好む「open weights は社会貢献」というナラティブも揺らぐ。海賊版データで学習されたモデルをオープンに配布した場合、その下流ユーザーまで法的リスクが波及する余地が残る。LLaMA系モデルを基盤に据えた多くの日本企業にとっても他人事ではない。

過剰評価されてきたのは、生成AIそのものというより「データ調達は何とかなる」という暗黙の前提だった。その前提が崩れたとき、現行モデルのコスト構造(とくに次世代モデル学習費用)は別物になる。

経営者として次に取るべき動き

日本企業の多くは「海外メガテックがやっている話」と距離を置きがちだが、影響は確実に及ぶ。取るべき動きは三つある。

一つ目は、利用中の生成AIベンダーへの学習データ来歴の照会である。 OpenAI、Anthropic、Google、Metaそれぞれが提供する商用APIの利用規約には、出力物に関する免責条項やインデムニティ(補償条項)が含まれているが、その内容と上限額は大きく異なる。とくにオンプレ・ファインチューニング用にopen weightsモデルを採用している場合、補償の傘が及ばないことが多い。

二つ目は、自社で生成AIを使ったコンテンツやコードを生み出している場合の、内部統制の整備だ。 「どのモデルで」「どのデータを入力し」「どの成果物を出したか」のログを取れる体制を組まないと、将来の訴訟リスクに対応できない。GitHub Copilotを巡る訴訟が示したように、コードであっても著作権紛争の対象になる。

三つ目は、契約面でのクリーンデータ条項の挿入だ。 ベンダー選定時に「学習データが第三者の権利を侵害しないことの表明保証」「侵害が認定された場合の補償上限の明示」「モデル差し替え義務」を契約に盛り込むのが標準になりつつある。米国大手企業の調達部門ではすでに必須項目だ。

Metaの訴訟がどう決着するかは数年単位の話だが、「学習データの倫理は問われない」という前提で動いてきたAI業界の前提条件は、すでに静かに書き換えられている。経営者が見るべきは判決そのものではなく、判決を待たずに変わり始める契約実務と保険料率のほうである。


動画でも詳しく

動画は記事冒頭の埋め込みからフル尺で視聴できます。

主な出典