AI Tech News

WELCOME

最新文章

每日更新,精选洞察。

当每个模型都得分88%:基准测试饱和为何破坏了AI评估
Technology

当每个模型都得分88%:基准测试饱和为何破坏了AI评估

一个没人想承认的问题 前沿模型现在在MMLU上得分88%,接近人类专家天花板的预估值89.8%。这是企业AI采购部门已经悄悄遇到的饱和信号:一堆模型的测试成绩几乎完全相同,这些成绩据说无法告诉你哪一个在你的生产环境中真正有效。 讽刺之处残酷无比。MMLU推出时,GPT-3 175B得分43.9%;到2024年,前沿模型...

1 min read

追踪数据

AI智能指数 — 前沿3模型

查看所有数据集
01531466105-1706-0106-08Claude Opus 4.7 (Adaptive Reasoning, Max Effort) — Anthropic: 57 (2026-05-17)Claude Opus 4.8 (Adaptive Reasoning, Max Effort) — Anthropic: 61 (2026-06-01)Claude Opus 4.8 (Adaptive Reasoning, Max Effort) — Anthropic: 61 (2026-06-08)61GPT-5.5 (xhigh) — OpenAI: 60 (2026-05-17)GPT-5.5 (xhigh) — OpenAI: 60 (2026-06-01)GPT-5.5 (xhigh) — OpenAI: 60 (2026-06-08)60Gemini 3.1 Pro Preview — Google DeepMind: 57 (2026-05-17)Gemini 3.1 Pro Preview — Google DeepMind: 57 (2026-06-01)Gemini 3.1 Pro Preview — Google DeepMind: 57 (2026-06-08)57
  • Anthropic
  • OpenAI
  • Google DeepMind

Intelligence Index — Trend

将光标悬停在每个点上,可查看该日期对应的具体模型版本。

最后更新: 2026-06-08 · 3 数据点 · artificialanalysis.ai

最新资讯

查看全部