2026-06-04Por qué las puntuaciones del 88% en MMLU hacen obsoletos los benchmarks tradicionales de IA: El cambio hacia pruebas de estrés agénticasEl problema con celebrar puntuaciones del 88% en MMLU Cuando un modelo de lenguaje alcanza...