2026-06-04MMLU 88%スコアがフロンティアAIベンチマークを陳腐化させた理由:エージェントストレステストへのシフトスコア飽和の現実:ベンチマークの限界が露呈 AI言語モデルの評価指標として長年信頼されてきたMMUL(Massive Multitask Language Understandin...