ChatGPT新モデル「GPT-5.2」公開何が変わった？–資料作りなど知的労働の代替加速

ChatGPT新モデル「GPT-5.2」公開　何が変わった？–資料作りなど知的労働の代替加速 – CNET Japan

ChatGPT新モデル「GPT-5.2」公開　何が変わった？--資料作りなど知的労働の代替加速 - CNET Japan

　OpenAIは日本時間12月12日未明、新たな生成AIモデル「GPT-5.2」を発表した。前のモデル「GPT-5.1」から大幅に性能を引き上げ、専門的な知識労働や長時間動作する自律型AIエージェントの利用を見据えた改良が進んでいるという。

ChatGPT

※クリックすると拡大画像が見られます

　焦点となったのは、実務能力の向上だ。企業の資料作りやスプレッドシートの構築など、実際の職務に近い44種類の業務を評価したところ、人間の専門家と比べて、およそ7割で同等かそれ以上の成果を示したとしている。しかも、同じ品質の成果物を、人間よりはるかに短い時間と低いコストで作れるとしており、知的労働の生産性向上を前面に打ち出している。

　コーディングの性能も強化した。実際のソフトウェア開発に近い課題を集めた評価「SWE-Bench Pro」で、前世代のGPT-5.1を上回り、複数のプログラミング言語をまたぐバグ修正や機能追加に対応できると説明している。日常的な利用の場面でも、大規模な既存コードのリファクタリングや、バグの自動修正、コードレビューなどを、より少ない手戻りでこなせるとしており、とくにフロントエンドや3D表現を含む複雑なUIの実装で性能が上がったとアピールしている。

　「間違えにくさ」も改善点として挙げている。チャットの実際の問い合わせをもとにした内部評価では、誤回答を含む応答の割合がGPT-5.1に比べて3割程度減ったとしている。検索ツールを併用したときだけでなく、ツールを使わない場合でも誤りが減っており、リサーチや文章作成、分析、意思決定の補助など、日常的な知識仕事での信頼性が高まったと強調している。

　長い文書の取り扱いも改善した。多数の文書をまたぐ推論を評価する指標では、最大256kトークンの入力でも高い正答率を示し、レポートや契約書など膨大な資料を扱う作業への適性が高まった。

　画像理解では、科学論文のグラフや業務アプリの画面を読み解く能力が強化され、誤りがおおむね半減した。画面上のボタンやチャートの位置関係をより正確に把握できるとしている。

　外部ツールを使いながら応対する「エージェント」としての動作も向上した。通信業のサポート業務を模した評価では、ツール呼び出しの正確さが過去最高となり、複雑な条件が絡む問い合わせでも対応が途切れにくくなったという。

　科学・数学分野でも、大学院レベルの理数系問題を集めた「GPQA Diamond」や、高度な数学問題を解く「FrontierMath」で、いずれも過去最高レベルのスコアを記録したと説明する。統計学の未解決問題の一部で、モデルが提案した証明を研究者が検証し、有望な成果が得られた事例も紹介し、専門研究の現場での活用を意識した内容になっている。

　抽象的な推論力を測る「ARC-AGI」シリーズでも、GPT-5.2は前世代を大きく上回った。とくに難度を高めた「ARC-AGI-2」で、連続的に思考を展開するタイプのモデルとしては新たな最高スコアを記録したとしており、未知の課題に対しても筋道を立てて解決策を探る力が向上したとアピールしている。

　安全性の確保も進めたとしていて、自殺や自傷行為を示唆する発言などに対する不適切な応答を抑える調整を行った。未成年の利用者には自動でコンテンツ制限をかけるため、年齢推定モデルの導入も始めたという。

　提供と価格面では、ChatGPTの有料プラン（Plus、Pro、Go、Business、Enterprise）向けにGPT-5.2の各モデルを順次提供する。APIでは、Thinking版を「gpt-5.2」、高速なInstant版を「gpt-5.2-chat-latest」、最上位のPro版を「gpt-5.2-pro」として利用できる。価格は標準モデルのGPT-5.2で入力100万トークンあたり1.75ドル、出力100万トークンあたり14ドルと、GPT-5.1より高めだが、トークン効率の向上により、同じ品質を得るのに必要な総コストはむしろ下がるケースも多いと説明している。

　オープンAIは、GPT-5.2について「知性と生産性の両面で大きな前進だが、まだ改善すべき点は多い」としており、チャットでの過度な拒否応答の見直しなど、ユーザー体験と安全性の両立に向けた調整を今後も続ける方針を示している。

Source link