
推論モデルは、AIの世界では珍しいものではない。OpenAIの「o3」やGoogleの「Gemini 2.5」など、多くの企業が推論モデルを保有している。そのような中、画像・動画生成AIを手掛けるLuma AIは、同社初となる推論機能を備えたAI動画生成モデル「Ray3」を発表、提供開始した。
推論モデルとは、リクエストの処理により多くの計算リソースを使い、深い思考ができるAIモデルの一種だ。一般的に、推論モデルはより詳しい、または誤りの少ない、より優れた回答を生成する。
Ray3の場合、その推論能力によって、より複雑なアクションシーケンスを含む動画を作成できる。通常、AI生成動画の長さは5~10秒程度だ(少なくとも、それが最適な長さであり、それより長い動画はおかしくなりがちだ)。プロンプトにアクションシーケンスを詰め込むと、エラーが発生する可能性が高くなる。Ray3はプロンプトの処理により多くの時間を費やせるため、そうした高度なシーンをより適切に生成できる。
This is Ray3. The world’s first reasoning video model, and the first to generate studio-grade HDR. Now with an all-new Draft Mode for rapid iteration in creative workflows, and state of the art physics and consistency. Available now for free in Dream Machine. pic.twitter.com/qm29hkDA14
— Luma AI (@LumaLabsAI) September 18, 2025
Luma AIの最高経営責任者(CEO)であるAmit Jain氏は、推論モデルはテキストをピクセルに変換する以上のことができると述べた。
「『これは良くない』とか、『この部分はこのようにもっと良くする必要がある』といった評価や判断ができる」と、同氏は米CNETのインタビューで語った。
チャットボット向けの推論モデルと同様に、ユーザーはモデルが処理を進める各ステップを確認できる。新しい視覚的な注釈ツールが、モデルが何を行っているかを表示する。例えば、調整を加えるキャラクターや、現状のまま維持する領域がマーキングされる。また、この機能を使って画像に直接書き込み、変更を指示することも可能だ。
その他のアップグレードも、より高品質な動画の生成に役立つ。これには、16ビットHDRで生成する機能も含まれており、より高い解像度によって動画のディテールと鮮明さが向上する。また、新しい「Draft Mode」(下書きモード)も利用でき、アイデアを素早く試して低解像度でショットを生成できる。Jain氏の説明によると、同モードでは20秒で動画を生成でき、準備ができたらそれを高解像度の動画にアップスケールできるという。こちらの生成には約2~5分かかる。
動画制作は、生成AIの用途としてますます一般的になっている。MidjourneyからGoogleの「Veo 3」に至るまで、多くの大手ハイテク企業がこの1年でAI動画モデルをリリースしてきた。これらのモデルはすべて、制作活動を強化することを目指しており、最近の改良では、より高品質な生成、音声の追加(Veo 3の場合)、そして全体的なレベルアップによって、AI愛好家だけでなくプロのクリエイターをも惹きつけようとしている。
しかし、プロのクリエイターは、特にAIモデルのトレーニングと実装をめぐって、AIが生成したコンテンツについて多くの懸念を表明している。アーティストによる複数の集団訴訟も、AI企業に対して起こされている。Luma AIのプライバシーポリシーには、ユーザーが提供した情報を同社のサービス改善のために利用する場合があると記載されている。
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。