
Claudeの開発元であるAnthropicは「エージェントのコーディングベンチマークはインフラ構成によって数パーセント異なる」と報告しており、この差が人気AIモデルのベンチマークリーダーボードの差に影響を与えているようだ。
エージェントコーディング評価におけるインフラストラクチャノイズの定量化 \ Anthropic
https://www.anthropic.com/engineering/infrastructor-noise
SWEベンチまたはターミナルベンチエージェント コーディングなどのエージェント コーディング ベンチマーク テストは、最先端の AI モデルのソフトウェア エンジニアリング能力を比較するために広く使用されています。
これらのベンチマーク リーダーボードの上位のランキングには、わずか数パーセントの差があることがよくあります。ベンチマークスコアは、AIモデルの相対的な能力を正確に測るための指標として扱われることが多く、導入するモデルを決定する際の重要な情報として利用されます。
ただし、Anthropic は、インフラストラクチャの構成だけで、リーダーボード上のわずかな差を超える違いを生む可能性があると報告しました。 Anthropic の内部実験では、ターミナルベンチ 2.0 でリソースが最も多い構成とリソースが最も少ない構成の差は 6 パーセント ポイントでした。
静的ベンチマークは AI モデルの出力を直接評価するため、実行環境は結果に影響を与えません。一方、エージェントによるコーディング評価は異なります。モデルには、プログラムの作成、テストの実行、依存関係のインストール、および複数回の反復を行うための完全な環境が与えられます。ランタイムはもはや受動的なコンテナーではなく、問題解決プロセスの不可欠な部分です。リソースの予算と時間の制約が異なる 2 人のエージェントが同じテストを受けることはありません。
評価開発者はこれを考慮し始めています。たとえば、ターミナルベンチ 2.0 では、最新の 2.0 リリースでタスクごとに推奨される CPU と RAM が指定されるようになりました。ただし、リソースを指定することは、リソースを一貫して強制することと同じではありません。さらに、施行方法によってベンチマークが実際に計測する内容が変わる可能性があることも判明したようです。
Anthropic がこれに気づいたのは、 Terminal-Bench 2.0 を導入したときです。Google Kubernetes エンジン実行してみると、設定を調整しているうちに「スコアが公式のベンチマークリーダーボードと一致しない」「インフラストラクチャのエラー率が驚くほど高い」ことに気づいたという。
その後、スコアの不一致は強制適用によるものであることが判明しました。 Google Kubernetes Engineでは各タスクのリソース仕様を下限と上限の両方として扱っているようです。つまり、各コンテナには一定量のリソースが保証されているものの、それを超えた瞬間にコンテナが強制終了されてしまうという問題がありました。また、コンテナー ランタイムは、2 つの異なるパラメーターを使用してリソースを強制終了します。1 つは事前に予約されたリソースの割り当ての保証、もう 1 つはコンテナーを強制終了させるハード制限です。
これを念頭に置いて、ターミナルベンチのリーダーボードは、より柔軟な実装を備えた別のサンドボックス プロバイダーを使用します。どうやら、このプロバイダーは、コンテナーを終了せずに一時的な過剰割り当てを許可することで、インフラストラクチャの安定性を優先しているようです。
このとき、「リソース構成は評価スコアにどの程度影響するのか?」という疑問が生じ、リソース構成の違いがベンチマーク結果にどの程度影響するかを定量化するため、6つのリソース構成で Terminal-Bench 2.0 を実行して実験を行った。彼らは、リソース制限が増加するにつれてタスクの成功率が増加することを発見しました。
また、リソース割り当てをターミナルベンチ仕様の 3 倍以上に設定すると、エージェントが解決できなかったタスクを解決するために追加のリソースが積極的に役立つこともわかりました。言い換えれば、ベンチマークテストのスコアにも影響します。
無駄のない効率的なコードを非常に迅速に作成するエージェントは、厳しい制約下でも優れたパフォーマンスを発揮します。一方で、強力なツールを使用して強引に解決策を見つけるエージェントは、寛大な制約の下でも良好なパフォーマンスを発揮できます。 「どちらも有効なテスト対象ですが、リソース構成を指定せずにそれらを 1 つのスコアに結合すると、現実世界への一般化可能性を解釈することが困難になります」と Anthropic 氏は指摘しました。
AI モデルが異なればデフォルトのアプローチも異なり、どのアプローチが成功するかはリソース構成によって決まります。効果の方向は一貫していましたが、大きさにはばらつきがあるようで、Anthropic は「同じ傾向がクロード以外の AI モデルにも当てはまるようですが、厳密にはテストしていません」と説明しています。
Anthropic 氏によると、ベンチマーク スコアに影響を与えるのはリソースの割り当てだけではありません。特定の設定では、時間制限もスコアに影響します。
そのため、Anthropic氏はエージェントコーディングベンチマークについて、「理想的なシナリオは、まったく同じハードウェア条件で各評価を実行し、全面的に完全な再現性を確保することだ」と述べたが、これが必ずしも現実的ではないことも理解している。
Anthropic氏は、「ベンチマークスコアは意思決定ツールとして利用されることが増えているが、この注目の高まりは必ずしもベンチマークスコアの実施や報告方法の厳格さを伴うわけではない」と述べた。現在、リーダーボードでの 2 パーセント ポイントのリードは、実際の能力の差を反映している可能性があります。あるいは、単に、より優れたハードウェアでベンチマークを実行しているか、より都合の良い時間帯にベンチマークを実行していることを反映しているだけかもしれません。」
ベンチマーク管理者は、推奨されるリソース仕様を公開することで大きなメリットが得られ、適用方法を明確にすることで、Anthropic によって特定されたようなギャップを埋めることができます。ベンチマーク結果を使用する人にとって重要な点は、エージェントの評価における小さなスコアの差が、報告された数値の精度が示唆するよりも大きな不確実性と関連していることを理解することです。
この記事のタイトルとURLをコピーします


