#MMLU saturation

88%的MMLU成绩为何已过时：从知识评估到智能体压力测试的转变

基准测试的天花板问题当多数前沿AI模型在MMLU基准上达到88%以上的准确率时，一个尴尬的事实浮出水面：衡量AI性能变得越来越困难。这不是因为AI停止了进步，而是因为我们用来评估...