AI Tech News
By D.L.

すべてのモデルが88%を記録するとき:ベンチマーク飽和がAI評価を破壊している理由

誰もが認めたくなかった問題

最先端のモデルはMMLUで88%を記録し、推定される人間専門家の上限である89.8%に近づいている。これは、エンタープライズAI調達に携わるすべての関係者が静かに直面している飽和信号である:ほぼ同じテストスコアを持つモデルの山積みで、実際にあなたの本番環境でどのモデルが機能するのかについては何も教えてくれない。 皮肉なことに、その状況は極めて厳しい。MMLUが立ち上がった当初、GPT-3 175Bは43.9%を記録していたが、2024年までに最先端モデルは88%に到達していた。そのギャップは実際の進歩を表していた。しかしヘッドラインの数字が人間の上限に達すると、ベンチマークは新しいものを測定することをやめてしまう。専門家である人間の上限が89.8%のテストを使って、90%のモデルと88%のモデルを区別することはできない。 連鎖反応はすでに全体で明らかになっている。最先端のモデルはMMLUで88%以上に飽和しており、GPT-5.3 Codexは現在93%を記録しているため、MMLUスコアはもはやリーディングモデル間で差別化できなくなっている2024年までに、GPT-4o、Claude 3.5、Gemini 1.5はすべてGSM8Kで90%を超えた。現在、GPT-5.3 Codexは99%を記録している。そして大学院レベルの科学ベンチマークであるGPQA Diamondは最先端モデルで94.3%に、MATH-500は96%に達しており、GSM8KとMMLUを無意味にしたのと同じ上限に近づいている。 CTOとプロダクトリーダーが基盤モデルを評価する場合、これは実質的な問題を生み出す。つまり、リーダーボードの数字はマーケティングの見せ物になってしまったということだ。

ベンチマーク崩壊の経済的現実

飽和があなたの組織に何をもたらすかを説明しよう。すべての最先端モデルが標準テストで88~94%の範囲に集まるとき、あなたは主要な判断信号を失う。公開されているベンチマークスコアのみに頼ることは、公開テストセットの分布があなたの本番ワークロードと一致していること、汚染がスコアを膨らませていないこと、ベンチマークがスコア差がノイズになるほど飽和していないことを信じることを意味する。しかしほとんどのエンタープライズアプリケーションにおいて、これらの仮定のどれも成り立たない。 ラボと本番環境のギャップは驚くほど大きい。エンタープライズ的なエージェントAIシステムは、ラボベンチマークスコアと実世界の導入パフォーマンスの間に37%のギャップを示しており、同等の精度でも50倍のコスト変動がある。リーダーボードを支配するモデルであっても、あなたの実際のワークロードでは失敗する可能性があり、統合コストをすでに支払うまでそれを知ることはできない。 飽和の問題のほか、汚染という問題がある。2024年にScale AIが実施した研究では、1,250個の小学校レベルの数学問題の並列データセットを作成し、両方のデータセットに対して主要なモデルをベンチマークした。最悪のパフォーマンスを示したモデルでさえ、新しいデータセットではGSM8Kと比べて13%の精度低下を示した。これは進歩ではない。これは推論に偽装した丸暗記だ。

ベンチマークのライフサイクル:有用から無用へ12~24カ月で

最先端マーカーになるすべてのベンチマークは12~24カ月以内に消費される。その理由は偶然ではなく、構造的なものだ。研究者、ベンダー、チームがどのベンチマークが重要かを知ると、トレーニングの圧力はそこに集中する。モデルは均一に改善するのではなく、測定されているテストに最適化される。 ベンチマークヘルスインデックスというある監査フレームワークでは、静的ベンチマークの中央値的な判別可能寿命は天井効果がランキング信号を損なわせるまでの2年未満であることが判明した。静的なベンチマークから有用な信号を得るのはおおよそ24カ月であり、その後はマーケティング数字になってしまう。 大学院レベルの科学ベンチマークであるGPQA Diamondは、最先端モデルが90%以上を記録し、飽和に近づいている「Humanity's Last Exam」は2025年初頭に最高のモデルが10%未満で立ち上がったが、2026年初頭までに最先端モデルは30~35%を記録した。「未解決」なベンチマークであっても、急速に進展している。

これがあなたの評価スタックにとって何を意味するか

この分野には対応がある。MMLUは飽和しており、もはや最先端モデルを差別化することができない。代わりに、科学的推論にはGPQA Diamond、コーディングにはSWE-bench VerifiedまたはSWE-bench Pro、数学的推論にはAIME 2025、抽象的推論にはARC-AGI 2、最も難しい推論タスクにはHumanity's Last Exam、ツール/関数呼び出しにはBFCL v4、全体的な人間の選好にはLMSYSのArena Eloを使用する。 しかしこれは単なるダメージコントロールに過ぎない。構造的な解決策は異なる。つまり、単一の静的ベンチマークがあなたが知る必要があるものを教えてくれるという仮定から離れることだ。 CLEARフレームワークの研究では、ラボベンチマークスコアと実世界の導入パフォーマンスの間に37%のギャップが記録されており、本番環境への対応可能性には層状の評価が必要である:カバレッジのための自動メトリクス、スクリーニングのためのLLM-as-a-judge、そしてあなたのユーザーにとって最も重要な正確性のためのドメイン専門家によるレビュー最も強力な主張は、単一のスナップショットではなく、ベンチマークポートフォリオに対して評価し、トレンドを監視することである

不均等な飽和問題

すべてのベンチマークが同じ速度で飽和するわけではない。人間が作成したベンチマークは、合成またはハイブリッドのものよりもパフォーマンス飽和に対する耐性がより高い。人間がキュレーションした評価は通常、より豊かな問題の多様性と、より深い概念的課題を含む。人間によって導入された多様性と意図的な複雑性により、モデルが表面的な規則性を悪用することで「ベンチマーク課題を解く」ことが難しくなる。 言い換えれば、あなたの評価戦略がLLM生成の合成ベンチマークに依存している場合、あなたは短期的な信号を買っているのだ。モデルはより速くオーバーフィットし、あなたの数字は膨らみ、3カ月でベンチマークはもはや有用ではなくなるだろう。

ベンチマーク 立ち上げ時の最先端スコア 現在の最先端スコア(2026年) 飽和状態 有用な用途
MMLU 43.9%(GPT-3、2020年) 88~94% 飽和 最先端以下のモデルの比較
GSM8K 35%(GPT-3、2021年) 99% 完全に飽和 最先端との比較にはもはや有用ではない
GPQA Diamond 39%(GPT-4、2023年) 94.3% 飽和に近づいている 依然として差別化できるが、上限が近づいている
MATH-500 N/A 96% 飽和に近づいている 競技レベルの数学評価
Humanity's Last Exam 最高:<10%(2025年初頭) 30~35% 活発な差別化 最先端の推論比較
AIME 2025 N/A 91.3%~94% 飽和に近づいている 年次更新により汚染リスクが軽減される

これがあなたのチームにとって何を意味するか

本番システムのために最先端モデル間で選択するという立場にある場合、ベンチマークリーダーボードは必要だが不十分な入力である。リーダーボードを支配するモデルは本番環境でしばしばパフォーマンスが低下する。ベンチマーク飽和とデータ汚染は予測力を損なわせる。 実践的なワークフローは以下の通りである。まず、依然として差別化できるベンチマークから始める。Humanity's Last Examまたはあなたのドメインに関連したタスク固有の評価を使用する。その後すぐに自分のデータに移行する。つまり、本番分布を表す合成データ、または実際のワークロードから手動でラベル付けされた小さな検証セットを使用する。最後に、コミットする前に、実際のトラフィックで上位2~3の候補との時間制限付きのパイロットを実行する。 リーダーボードはあなたに最先端がどこにあるかを教える。あなた自身の評価スタックは、最先端がどこにあなたの問題に適用されるかを教える。