2026-07-02すべてのモデルが88%を記録するとき:ベンチマーク飽和がAI評価を破壊している理由誰もが認めたくなかった問題 最先端のモデルはMMLUで88%を記録し、推定される人間専門家の上限である89.8%に近づいている。これは、エンタープライズAI調達に携わるすべての関係...