#benchmark saturation

Cuando Todos los Modelos Alcanzan 88%: Por Qué la Saturación de Benchmarks Está Rompiendo la Evaluación de IA

El Problema que Nadie Quería Admitir Los modelos de frontera ahora alcanzan 88% en MMLU, a...

El misterio de los números que no cuadran Existe un gap documentado del 37% entre el score...