2026-07-02当每个模型都得分88%:基准测试饱和为何破坏了AI评估一个没人想承认的问题 前沿模型现在在MMLU上得分88%,接近人类专家天花板的预估值89.8%。这是企业AI采购部门已经悄悄遇到的饱和信号:一堆模型的测试成绩几乎完全相同,这些成绩...