#Frontier Models

88%的MMLU成绩为何已过时：从知识评估到智能体压力测试的转变

基准测试的天花板问题当多数前沿AI模型在MMLU基准上达到88%以上的准确率时，一个尴尬的事实浮出水面：衡量AI性能变得越来越困难。这不是因为AI停止了进步，而是因为我们用来评估...

价格不再反映能力——分化的新时代已经到来谷歌最新发布的Gemini 3.5 Flash标志着一个重要转折：输入Token成本为每百万Token 1.50美元，输出成本为9.00美...