
大規模な言語モデルの中には「推論モデル」と呼ばれるものもあり、最終的な出力を生成する前に思考のステップを追加することで最終的な精度を高めます。シカゴ大学とグーグルの研究チームは、推論モデルが「異なる性格特性や専門知識を持つ複数のエージェント間の会議」をシミュレートすることで高いパフォーマンスを発揮するという研究結果を報告した。
[2601.10825] 推論モデルが思考社会を生成する
https://arxiv.org/abs/2601.10825
社内の議論をシミュレートする AI モデルは、複雑なタスクの精度を劇的に向上させます。ベンチャービート
https://venturebeat.com/orchestration/ai-models-that-simulate-internal-debate-dramatically-improve-accuracy-on
研究チームは、DeepSeek-R1やQwQ-32Bなどの主要な推論モデルによって実行される推論ステップを分析したところ、明示的な指示がなくても内部会議のシミュレーションを自律的に開発していることが判明した。この社内会議は「思想社会」と呼ばれ、多様な視点、性格特性、専門知識を含むマルチエージェント会議を模擬したものです。
「思考の社会」の根底にある仮定は、推論モデルが社会的なマルチエージェント相互作用を模倣することによって論理を洗練するということです。この仮説は、人間の理性は、さまざまな視点との議論や関与を通じて問題を解決する社会的プロセスとして進化してきたという考えに基づいています。
研究者らは、「専門知識や性格特性の多様性から生じる認知的多様性は、特に真の反対意見が含まれる場合に、問題解決能力を高める」と主張している。さまざまな内部エージェント間の会話をシミュレートすることにより、推論モデルは推論の正しさと問題をチェックし、望ましくない偏見やお世辞などの落とし穴を回避できます。
DeepSeek-R1のような推論モデルでは、「思考社会」が推論の過程で自然に現れるため、社内会議のシミュレーションを強制するための別のモデルやプロンプトは必要ないと研究チームは述べています。
研究チームが実際にDeepSeek-R1に複雑な有機化学合成問題を与えたところ、DeepSeek-R1は「プランナー」や「クリティカル検証者」を含む複数の内部エージェントによる議論をシミュレートした。
計画立案者は当初、標準的な対応経路を提案しましたが、誠実性が高く、同意性が低い批判的な検証者が介入して、彼らの仮定に異議を唱え、新しい事実を提示しました。この対立的な議論を通じて、DeepSeek-R1 は理論の誤りを発見し、対立する見解を調整し、合成ルートを修正しました。
また、「私は憎しみを燃え盛る火に投げ込んだ」という文章を書き換えるクリエイティブタスクでは、推論モデルで「クリエイティブアイデア作成者」と「意味忠実度チェッカー」という2つの異なるエージェントを作成し、クリエイティブアイデア生成者の当初の意見に対して意味忠実度チェッカーが「原文から逸脱しすぎている」などとコメントし、最終的な結論を導き出す議論をシミュレーションした。
数学的パズルを与えられたテストでは、トレーニングの初期段階の推論モデルは独白アプローチを使用して問題を解決しようとしましたが、トレーニングが進むにつれて自発的に 2 つの異なるペルソナに分裂し、互いに話し合いながら答えを導き出すようになったと報告されています。
これらの結果は、推論モデルの思考を長く行うほど精度が向上するという従来の前提に疑問を投げかけ、「異なる視点から答えを見る」「以前の仮定を検証する」「後戻りする」「代替案を探す」などのさまざまなプロセスが精度の向上を促進することを示唆しています。
開発者は、大規模な言語モデルに「思考社会」を採用するよう指示することで、その推論力を強化できますが、単にモデルに内部会議の開催を奨励するだけでは十分ではありません。論文の共著者、シカゴ大学教授ジェームズ・エヴァンス彼は、「ただ議論するだけでは十分ではありません。議論を避けられないものにし、選択肢を模索し、区別できるようにするために、異なる視点や考え方を持つことが重要です。」とコメントしています。
テクノロジーメディアのVentureBeatは、「開発者は一般的な役割ではなく、『リスク回避のコンプライアンス責任者』と『成長志向のプロダクトマネージャー』など、相反する資質を割り当てるプロンプトを設計して、モデルがオプションを区別できるようにする必要がある」と述べた。
また、この研究は、大規模な言語モデルを訓練・調整する際には、「答えへのまっすぐな道を導くデータ」だけでなく、「答えに到達するために議論されたデータ」が重要であることを示唆しており、実際、エヴァンス氏らが「不正解に至る会話データ」を用いてモデルを訓練したところ、「正解に至るデータ」で訓練した場合と同等の精度を示したという。
さらにエバンス氏は、推論モデルによって行われた社内会議をユーザーが利用できるようにすべきだと主張する。 「正しい答えを見つける作業に参加できるように、内部の議論を体系的に視覚化する新しいインターフェースが必要です。」
この記事のタイトルとURLをコピーします


