
生成AIの発達により、テキストプロンプトを入力するだけで誰でも簡単に画像を生成できるようになりました。画像生成AIは一見、多様で自由な表現ができるように思えますが、AIが自律的に画像生成を繰り返すと、当初は多様に見えた画像が最終的にわずか12種類のスタイルに収束する可能性があることがスウェーデンの研究者らによって発表された研究結果で示されています。
自律的な言語と画像の生成ループは、一般的な視覚モチーフに収束します: パターン
https://www.cell.com/patterns/fulltext/S2666-3899(25)00299-5
AI画像ジェネレーターのデフォルトは同じ12種類の写真スタイル、研究結果
https://gizmodo.com/ai-image-generators-default-to-the-same-12-photo-styles-study-finds-2000702012
スウェーデンのダーラナ大学のデータ分析専門家アーレンド・ヒンツェ氏率いる研究チームは、AIの自己参照ループを利用して「AIの創造性」をテストした。研究では、画像生成AI「安定拡散XL画像を認識してチャットするAI「」溶岩」を使用して、人間の介入なしで機能するテキスト -> 画像 -> テキスト -> 画像のサイクルを作成します。
たとえば、「自然に囲まれて一人で座っていたら、8 ページの古い本に出会いました。忘れられた言語で書かれた物語が含まれており、読まれて理解されるのを待っています。」というような短いプロンプトを与えて、Stable Diffusion XL に画像を生成するよう依頼することから始めます。生成された画像は LLaVA に提示され、LLaVA は画像を読み取り、画像のテキストによる説明を提供します。その説明は Stable Diffusion XL に送信され、新しいイメージを生成するように求められます。このプロセスを 100 回以上繰り返す間に画像がどのように変化するかを調査しました。
サイクル中、伝言ゲームをプレイしているときのように、元の画像はすぐに失われます。さらに、人間同士の伝言ゲームでは、それぞれのメッセージの伝わり方や受け取り方に個人の偏見や好みが反映され、結果に大きなばらつきが生じます。一方で、元のメッセージがどれほどユニークであっても、AIは常に限られた種類のメッセージしか選択できないため、伝言ゲームのように「創造性は予期せぬ方向に広がることはなく」、少数の視覚的なモチーフに収束してしまうと研究者らは報告しています。
「結果は驚くべきもので、直観に反するものだった」とヒンツェ氏は語った。 「画像生成とテキスト記述の両方の確率的な性質にもかかわらず、自律型 AI の創造サイクルは一貫して驚くほど類似した出力に収束します。多様な意味論的な開始点やサンプリング パラメーターに関係なく、独立した軌跡は、一般的で商業的に実行可能な美学を特徴とする、ほぼ同一のビジュアルとテキストのエンドポイントに進化します。」私たちはこれを「ビジュアルエレベーターミュージック」と呼んでいます。」
2000回以上実施されたすべての実験条件において、結果はわずか12個の視覚モチーフに収束したことが明らかになりました。 1000 回以上の実験で、生成された画像の 1 つに次のモチーフが常に含まれていました。
・スポーツとアクション
・フォーマルな室内空間
・海or灯台
・雰囲気のある照明による都会の夜景
・ゴシック様式の大聖堂の内部
・高級感のあるインテリアデザイン
・インダストリアルとヴィンテージのテーマ
・素朴な建築空間
・家庭風景や料理のイメージ
・装飾建築の宮殿内部
・田園風景と集落
・自然の風景と動物たちをドラマティックな照明で彩る
研究によると、収束した画像に共通するのは「人間がよく撮影するテーマ」または「画像を生成する際にデータセットでよく使われるビジュアル」だという。
この研究の結果は、モデルやプロンプトに関係なく、個々のアーキテクチャを超えた AI から AI への創造的なプロセスにおいて、創造性に対する根本的な制約があることを示唆している可能性があります。 AI画像生成は広告、デザイン、映画、ゲームなどで活用されていますが、たとえ独自のプロンプトを入力したとしても「AIの創造性の限界により、画像はある程度収束してしまい、同じモチーフに偏ることでオリジナリティや文化的多様性の喪失につながる危険性がある」と研究者らは指摘しています。
この記事のタイトルとURLをコピーします



