

非営利団体 Common Crawl は、10 年以上にわたってインターネットの大規模なアーカイブを構築してきました。このペタバイト規模のデータベースは研究目的で自由に利用できますが、米国の月刊誌 The Atlantic が指摘したように、近年、OpenAI、Google、Meta、Amazon などの AI 企業が大規模言語モデル (LLM) のトレーニングに使用していることが物議を醸しています。
Common Crawl は AI 業界の汚い仕事を行っている – The Atlantic
https://www.theatlantic.com/technology/2025/11/common-crawl-ai-training-data/684567/
The Atlantic の調査によると、Common Crawl は AI 企業に、大手ニュース サイトのペイウォールの背後にある記事への「バックドア」を提供していることが判明しました。 Common Crawlは「無料で利用できるコンテンツ」のみを収集し、「ペイウォールの背後には行かない」と明言しているが、ペイウォールの背後では閲覧できないはずの有料記事のコンテンツも取得している。多くのペイウォールは「ブラウザが記事の全文を読み込んだ後、ユーザーが購読者であるかどうかをチェックするコードを実行し、ユーザーが購読者でない場合は記事を非表示にする」という仕組みですが、Common Crawlのスクレイパーはユーザーが購読者であるかどうかをチェックするコードを実行せずにペイウォール内の記事の全文を取得します。
さらに、アトランティック紙は、コモン・クロールがアーカイブの内容を出版社に虚偽報告した疑いがあると主張した。
2023 年 7 月、ニューヨーク タイムズは Common Crawl に対し、以前に収集されたコンテンツを削除するよう要請しました。 Common Crawl はこれに応じたかのように見えましたが、The Atlantic がそのアーカイブを調査したところ、記事の多くがまだ存在していることが判明しました。デンマーク権利同盟(DRA)や他の出版社も同様の経験をしており、Common Crawlは「50%完了」「80%完了」などと説明しているが、技術調査の結果、アーカイブのコンテンツファイルが少なくとも2016年以降に変更された形跡はなく、過去9年間にコンテンツが削除されていない可能性が示唆されている。

コモン・クロールのエグゼクティブ・ディレクターであるリッチ・スクレンタ氏は、削除要求が「面倒」であることを認めたが、アーカイブのファイル形式は「不変」であり「何も削除できない」と付け加えた。
一方、スクレンタ氏は、AIがインターネット上のあらゆるものに無料でアクセスできるようにすべきだとアトランティック紙に対し、「ロボットも人間だ」と語り、コンテンツの削除を求める出版社に対しては「コンテンツはインターネット上にあるべきではなかった」と述べた。

Common Crawlは近年、AI業界との関係を深めている。 2023年にはOpenAIから25万ドル(約3,840万円)、Anthropicから25万ドル(約3,840万円)の寄付を受け、NVIDIAのAIトレーニングデータセットのホスティングなどデータ流通にも協力する。
Skrenta氏は、パブリッシャーの削除要請は「オープンウェブを殺す」ことになると主張しているが、The Atlanticは、むしろ生成AI企業による搾取的なスクレイピングがパブリッシャーのペイウォール強化を促し、オープン性を損なっていると主張している。スクレンタ氏は、人類滅亡に備えてコモン・クロールのアーカイブを「文明の記録」として月に送りたいと述べたが、アトランティック紙を含む特定のジャーナリズムの価値を軽視する発言をしているとアトランティック紙を批判した。
+= 2
この記事のタイトルとURLをコピーします
・関連記事
「容赦ないAIスクレイピングがインフラに負担をかけている」とウィキメディア財団が発表 – GIGAZINE
X/Old Twitterが「サードパーティのAIモデルをユーザーデータでトレーニングできる」ようプライバシーポリシーを更新、オプトアウトが可能かは不明 – GIGAZINE
Cloudflareが学習データを一括収集するAIボットをブロックする機能をリリース – GIGAZINE
