AI Tech News

WELCOME

最新記事

毎日更新される最新情報をお届けします。

すべてのモデルが88%を記録するとき:ベンチマーク飽和がAI評価を破壊している理由
Technology

すべてのモデルが88%を記録するとき:ベンチマーク飽和がAI評価を破壊している理由

誰もが認めたくなかった問題 最先端のモデルはMMLUで88%を記録し、推定される人間専門家の上限である89.8%に近づいている。これは、エンタープライズAI調達に携わるすべての関係者が静かに直面している飽和信号である:ほぼ同じテストスコアを持つモデルの山積みで、実際にあなたの本番環境でどのモデルが機能するのかについては...

1 min read

観測中データ

AIインテリジェンス指数(主要3モデル)

全データセットを見る
01531466105-1706-0106-08Claude Opus 4.7 (Adaptive Reasoning, Max Effort) — Anthropic: 57 (2026-05-17)Claude Opus 4.8 (Adaptive Reasoning, Max Effort) — Anthropic: 61 (2026-06-01)Claude Opus 4.8 (Adaptive Reasoning, Max Effort) — Anthropic: 61 (2026-06-08)61GPT-5.5 (xhigh) — OpenAI: 60 (2026-05-17)GPT-5.5 (xhigh) — OpenAI: 60 (2026-06-01)GPT-5.5 (xhigh) — OpenAI: 60 (2026-06-08)60Gemini 3.1 Pro Preview — Google DeepMind: 57 (2026-05-17)Gemini 3.1 Pro Preview — Google DeepMind: 57 (2026-06-01)Gemini 3.1 Pro Preview — Google DeepMind: 57 (2026-06-08)57
  • Anthropic
  • OpenAI
  • Google DeepMind

Intelligence Index — Trend

各点にホバーすると、その時点のモデル名(バージョン)が表示されます。

最終更新: 2026-06-08 · 3 データ点 · artificialanalysis.ai

最新ニュース

すべて見る