2026-06-0488%的MMLU成绩为何已过时:从知识评估到智能体压力测试的转变基准测试的天花板问题 当多数前沿AI模型在MMLU基准上达到88%以上的准确率时,一个尴尬的事实浮出水面:衡量AI性能变得越来越困难。这不是因为AI停止了进步,而是因为我们用来评估...