2026-06-0488%的MMLU成绩为何已过时:从知识评估到智能体压力测试的转变基准测试的天花板问题 当多数前沿AI模型在MMLU基准上达到88%以上的准确率时,一个尴尬的事实浮出水面:衡量AI性能变得越来越困难。这不是因为AI停止了进步,而是因为我们用来评估...
2026-06-01Gemini 3.5 Flash的1.5美元定价:揭示前沿AI模型如何按速度-成本权衡分层,而非原始能力竞争价格不再反映能力——分化的新时代已经到来 谷歌最新发布的Gemini 3.5 Flash标志着一个重要转折:输入Token成本为每百万Token 1.50美元,输出成本为9.00美...