2026-06-04MMLU 88%スコアがフロンティアAIベンチマークを陳腐化させた理由:エージェントストレステストへのシフトスコア飽和の現実:ベンチマークの限界が露呈 AI言語モデルの評価指標として長年信頼されてきたMMUL(Massive Multitask Language Understandin...
2026-06-01Gemini 3.5 Flashの$1.50がもたらすもの——フロンティアAIはいま「能力」から「速度とコスト」へ階層化している割高になったフラッシュモデルが示唆すること Googleが2026年に投入したGemini 3.5 Flashの価格構造を見ると、一見すると矛盾がある。入力トークンあたり$1.50...