2026-05-17基准测评的真相:为什么跑分好的大模型在生产环境里可能"不听话"核心问题:基准测评的有效性正在下降 根据2025年3月的SuperCLUE基准测评数据,国内大模型的成熟度差异显著。文本理解与创作的成熟度指数达到0.89(高成熟度),但智能体Ag...