#benchmark saturation

当每个模型都得分88%：基准测试饱和为何破坏了AI评估

一个没人想承认的问题前沿模型现在在MMLU上得分88%，接近人类专家天花板的预估值89.8%。这是企业AI采购部门已经悄悄遇到的饱和信号：一堆模型的测试成绩几乎完全相同，这些成绩...

核心问题：基准测评的有效性正在下降根据2025年3月的SuperCLUE基准测评数据，国内大模型的成熟度差异显著。文本理解与创作的成熟度指数达到0.89（高成熟度），但智能体Ag...