
2025年1月、中国のAIスタートアップであるDeepseekは、独自の強力な推論モデルを発表しました。Deepseek R1「リリースされました。リリース直後、アメリカの株式市場が暴落しますDeepSeek R1は、AIモデルに匹敵する視点に匹敵するほど費用対効果が高くなりましたが、Deepseekは、謎に包まれているDeepseek R1のトレーニングコストなどの詳細を明らかにしました。
Deepseek AIモデルの秘密は、画期的な論文で明らかにされています
https://www.nature.com/articles/D41586-025-03015-6
中国のDeepseekは、HIT AIモデルのトレーニングにわずか294,000ドルかかると言います|ロイター
https://www.reuters.com/world/china/chinas-deepseek-says-its-hit-ai-model-cost-just-294000-train-2025-09-18/
Deepseekは、試行錯誤を使用してAI ‘推論をボルスターします
https://www.theregister.com/2025/09/18/chinas_deepseek_ai_rainsing_research/
Deepseekは、AIモデルのトレーニングにわずか294,000ドルの費用がかかると言います:レポート
https://www.proactiveinvestors.com/companies/news/1078747/deepseek-says-ai-model-cost-just-294k-to-train-report-1078747.html
DeepSeek R1は、数学やコーディングなどのより良い推論タスクを実行するように設計されたAIモデルであり、アメリカのテクノロジー企業が開発した競争力のあるAIモデルよりも低コストで開発されたため、多くの注目を集めました。 Deepseek R1はオープンウェイトモデルであり、誰でもダウンロードできます。これは、AIコミュニティプラットフォームで最も人気のあるAIモデルの1つであり、執筆時点で既に10.9百万回以上ダウンロードされています。
DeepseekはOpenaiの3%のコストでO1をどのように上回りましたか? – ギガジン
2025年9月17日、Deepseekは、Scientific Journal Natureの推論モデルDeepseek R1に関する査読済みの論文を発表しました。このペーパーでは、DeepSeekが推論タスクに対応するために通常の大規模言語モデル(LLM)を強化した方法を説明しています。さらに、DeepSeek R1のトレーニングコストは、補足資料で初めて明らかにされ、294,000ドル(約4400万円)の費用がかかりました。
Deepseekは、Deepseek R1の基礎となるLLMを開発するために600万ドル(約8億9000万円)を費やしましたが、競合他社のAI開発コストよりもはるかに安いです。 Deepseekはまた、Deepseek R1のトレーニングに使用されるAIチップは、合計80時間トレーニングされた512 Nvidia H800チップのクラスターであると指摘しました。
この論文の出版により、Deepseek R1はピアレビュープロセスを受ける最初の著名なLLMになりました。 「これは非常に歓迎すべき先例です」と、Hugging Faceの機械学習エンジニアであるLewis Tanstill氏は語りました。 「プロセスの大部分を公に共有する慣行なしに、これらのシステムが保持するリスクを評価することは非常に困難です。」
Tanstillのピアレビューコメントに応えて、DeepSeek開発チームは、モデルの説明から擬人化表現を減らし、トレーニングデータや安全性の種類などの技術的な詳細を追加しました。 「厳格なピアレビュープロセスがAIモデルの有効性と有用性を検証することは確かです」と、米国のオハイオ州立大学のAI研究者として働いているHuang Sang氏は述べ、「他の企業は同じ方法で査読されるべきです」と述べています。
Deepseekの主な革新は、「純粋な強化学習」と呼ばれる自動試験とエラー技術を使用して、Deepseek R1を訓練したことです。このプロセスは、推論の人間選択例を教えることではなく、AIモデルを設計して、正しい答えに達した場合に報酬を獲得できるようにすることです。 Deepseekによると、これはAIモデル自体が「人間によって教えられた方法を追跡することなく、独自の作業を検証する」などの推論戦略を学習することにつながりました。
さらに、DeepSeekは「グループ相対ポリシー最適化(GRPO)」と呼ばれる手法を使用して、トレーニング効率を向上させます。これには、個別のアルゴリズムを使用せずに、各試験の推定値と自己評価を独立して実行することが含まれます。
「AIの研究者の間ではかなり大きな影響を与えました」とSunはDeepseek R1について語り、「2025年にLLMに補強学習を適用した研究のほとんどすべてが、Deepseek R1の影響を受けた可能性があります。」
この記事のタイトルとURLをコピーします



