#MMLU saturation

MMLU 88%スコアがフロンティアAIベンチマークを陳腐化させた理由：エージェントストレステストへのシフト

スコア飽和の現実：ベンチマークの限界が露呈 AI言語モデルの評価指標として長年信頼されてきたMMUL（Massive Multitask Language Understandin...