AI Tech News

WELCOME

Últimos artículos

Perspectivas frescas, actualizadas diariamente.

Cuando Todos los Modelos Alcanzan 88%: Por Qué la Saturación de Benchmarks Está Rompiendo la Evaluación de IA
Technology

Cuando Todos los Modelos Alcanzan 88%: Por Qué la Saturación de Benchmarks Está Rompiendo la Evaluación de IA

El Problema que Nadie Quería Admitir Los modelos de frontera ahora alcanzan 88% en MMLU, acercándose al techo estimado de expertos humanos del 89,8%. Esta es la...

7 min read

Datos rastreados

Índice de Inteligencia IA — Top 3 Modelos Frontera

Ver todos los conjuntos de datos
01531466105-1706-0106-08Claude Opus 4.7 (Adaptive Reasoning, Max Effort) — Anthropic: 57 (2026-05-17)Claude Opus 4.8 (Adaptive Reasoning, Max Effort) — Anthropic: 61 (2026-06-01)Claude Opus 4.8 (Adaptive Reasoning, Max Effort) — Anthropic: 61 (2026-06-08)61GPT-5.5 (xhigh) — OpenAI: 60 (2026-05-17)GPT-5.5 (xhigh) — OpenAI: 60 (2026-06-01)GPT-5.5 (xhigh) — OpenAI: 60 (2026-06-08)60Gemini 3.1 Pro Preview — Google DeepMind: 57 (2026-05-17)Gemini 3.1 Pro Preview — Google DeepMind: 57 (2026-06-01)Gemini 3.1 Pro Preview — Google DeepMind: 57 (2026-06-08)57
  • Anthropic
  • OpenAI
  • Google DeepMind

Intelligence Index — Trend

Pase el cursor sobre cada punto para ver la versión específica del modelo en esa fecha.

Última actualización: 2026-06-08 · 3 puntos de datos · artificialanalysis.ai

Últimas noticias

Ver todo