Home Tecnología Synthetic Evaluation revisa su Índice de Inteligencia de IA, reemplazando los puntos...

Synthetic Evaluation revisa su Índice de Inteligencia de IA, reemplazando los puntos de referencia populares con pruebas del “mundo actual”

17
0

La carrera armamentista para construir modelos de IA más inteligentes tiene un problema de medición: las pruebas utilizadas para clasificarlos se vuelven obsoletas casi tan rápido como los modelos mejoran. Los lunes, Análisis artificialesuna organización independiente de evaluación comparativa de IA cuyas clasificaciones son seguidas de cerca por desarrolladores y compradores empresariales, lanzó una importante revisión de su Índice de inteligencia eso cambia fundamentalmente la forma en que la industria mide el progreso de la IA.

el nuevo Índice de Inteligencia v4.0 Incorpora 10 evaluaciones que abarcan agentes, codificación, razonamiento científico y conocimientos generales. Pero los cambios van mucho más allá de mezclar los nombres de las pruebas. La organización eliminó tres puntos de referencia básicos: MMLU-Pro, OBJETIVO 2025y Banco de códigos en vivo – que han sido citados durante mucho tiempo por las empresas de inteligencia synthetic en sus materiales de advertising. En su lugar, el nuevo índice introduce evaluaciones diseñadas para medir si los sistemas de IA pueden completar el tipo de trabajo por el que realmente se les paga a las personas.

“Este cambio en el índice refleja una transición más amplia: la inteligencia se mide menos por el recuerdo y más por la acción económicamente útil”, observó Aravind Sundarun investigador que respondió al anuncio en X (antes Twitter).

Por qué los puntos de referencia de IA están rompiendo: el problema con las pruebas que los mejores modelos ya dominan

La revisión de los puntos de referencia aborda una disaster creciente en la evaluación de la IA: los modelos líderes se han vuelto tan capaces que las pruebas tradicionales ya no pueden diferenciarlos de manera significativa. El nuevo índice deliberadamente hace que la curva sea más difícil de escalar. De acuerdo a Análisis artificialeslos mejores modelos ahora obtienen una puntuación de 50 o menos en la nueva escala v4.0, en comparación con 73 en la versión anterior: una recalibración diseñada para restaurar el margen de mejora para futuras mejoras.

Este problema de saturación ha afectado a la industria durante meses. Cuando cada modelo de frontera obtiene una puntuación en el percentil 90 en una prueba determinada, la prueba pierde su utilidad como herramienta de toma de decisiones para las empresas que intentan elegir qué sistema de IA implementar. La nueva metodología intenta resolver esto ponderando cuatro categorías por igual (agentes, codificación, razonamiento científico y common) al tiempo que introduce evaluaciones en las que incluso los sistemas más avanzados todavía tienen problemas.

Los resultados bajo el nuevo marco muestran la capacidad de OpenAI GPT-5.2 con un esfuerzo de razonamiento extendido reclamando el primer puesto, seguido de cerca por Anthropic Claude Opus 4.5 y de google Géminis 3 Pro. OpenAI describe GPT-5.2 como “la serie de modelos más capaz hasta el momento para el trabajo de conocimiento profesional”, mientras que Claude Opus 4.5 de Anthropic obtiene una puntuación más alta que GPT-5.2 en SWE-Bench verificadoun conjunto de pruebas que evalúa las capacidades de codificación del software program.

GDPval-AA: el nuevo punto de referencia que prueba si la IA puede hacer su trabajo

La incorporación más significativa al nuevo índice es PIBval-AAuna evaluación basada en OpenAI Conjunto de datos del PIB que prueba modelos de IA en tareas económicamente valiosas del mundo actual en 44 ocupaciones y 9 industrias principales. A diferencia de los puntos de referencia tradicionales que piden a los modelos que resuelvan problemas matemáticos abstractos o respondan trivias de opción múltiple, GDPval-AA mide si la IA puede producir los resultados que los profesionales realmente crean: documentos, diapositivas, diagramas, hojas de cálculo y contenido multimedia.

Los modelos reciben acceso al shell y capacidades de navegación net a través de lo que Synthetic Evaluation llama “Stirrup”, su arnés agente de referencia. Las puntuaciones se derivan de comparaciones ciegas por pares, con las calificaciones ELO congeladas en el momento de la evaluación para garantizar la estabilidad del índice.

Bajo este marco, GPT-5.2 de OpenAI con razonamiento extendido lidera con una puntuación ELO de 1442, mientras que la variante no pensante Claude Opus 4.5 de Anthropic le sigue con 1403. Claude Sonnet 4.5 le sigue con 1259.

En la evaluación GDPval unique, GPT-5.2 superó o empató a los mejores profesionales de la industria en el 70,9% de las tareas bien especificadas, según OpenAI. La empresa reclamos GPT-5.2 “supera a los profesionales de la industria en tareas de trabajo de conocimiento bien especificadas que abarcan 44 ocupaciones”, y empresas como Notion, Field, Shopify, Harvey y Zoom observan “razonamiento de largo plazo y rendimiento de llamadas de herramientas de última generación”.

El énfasis en una producción económicamente mensurable es un cambio filosófico en la forma en que la industria piensa sobre la capacidad de la IA. En lugar de preguntar si un modelo puede aprobar un examen de la abogacía o resolver problemas matemáticos de competencia (logros que generan titulares pero no necesariamente se traducen en productividad en el lugar de trabajo), los nuevos puntos de referencia preguntan si la IA realmente puede realizar trabajos.

Los problemas de física a nivel de posgrado exponen los límites de los modelos de IA más avanzados de la actualidad

Mientras PIBval-AA mide la productividad práctica, otra nueva evaluación llamada críticoPT revela cuán lejos están los sistemas de IA del verdadero razonamiento científico. El punto de referencia prueba modelos de lenguaje en tareas de razonamiento inéditas a nivel de investigación en toda la física moderna, incluida la materia condensada, la física cuántica y la astrofísica.

críticoPT fue desarrollado por más de 50 investigadores activos de física de más de 30 instituciones líderes. Sus 71 desafíos de investigación compuestos simulan proyectos de investigación a gran escala en el nivel inicial, comparables a los ejercicios de preparación que un investigador principal práctico podría asignar a estudiantes de posgrado. Cada problema se selecciona a mano para producir una respuesta verificable por máquina y resistente a las conjeturas.

Los resultados son aleccionadores. Los modelos actuales de última generación aún están lejos de resolver de manera confiable los desafíos a escala de investigación. GPT-5.2 con razonamiento extendido lidera el Tabla de clasificación CritPT con una puntuación de sólo el 11,5%, seguido por Gemini 3 Professional Preview de Google y la variante Claude 4.5 Opus Considering de Anthropic. Estos puntajes sugieren que, a pesar de los notables avances en las tareas de cara al consumidor, los sistemas de inteligencia synthetic todavía luchan con el tipo de razonamiento profundo que se requiere para el descubrimiento científico.

Tasas de alucinaciones de la IA: por qué los modelos más precisos no siempre son los más confiables

Quizás la nueva evaluación más reveladora sea AA-Omniscienciaque mide el recuerdo de hechos y las alucinaciones a través de 6000 preguntas que cubren 42 temas económicamente relevantes dentro de seis dominios: negocios, salud, derecho, ingeniería de software program, humanidades y ciencias sociales, y ciencia/ingeniería/matemáticas.

La evaluación produce una Índice de omnisciencia que recompensa el conocimiento preciso al tiempo que penaliza las respuestas alucinadas, proporcionando información sobre si un modelo puede distinguir lo que sabe de lo que no. Los hallazgos exponen una verdad incómoda: una alta precisión no garantiza una baja alucinación. Los modelos con mayor precisión a menudo no logran liderar el Índice de Omnisciencia porque tienden a adivinar en lugar de abstenerse cuando no están seguros.

de google Vista previa de Géminis 3 Pro lidera el Índice de Omnisciencia con una puntuación de 13, seguido de Claude Opus 4.5 Considering y Gemini 3 Flash Reasoning, ambos con 10. Sin embargo, el desglose entre precisión y tasas de alucinaciones revela un panorama más complejo.

En cuanto a precisión bruta, los dos modelos de Google lideran con puntuaciones del 54% y 51% respectivamente, seguidos por Claude 4.5 Opus Pensamiento al 43%. Pero los modelos de Google también demuestran tasas de alucinaciones más altas que los modelos de sus pares, con puntuaciones del 88% y el 85%. Claude 4.5 Sonnet Considering y Claude Opus 4.5 Considering de Anthropic muestran tasas de alucinaciones del 48% y 58% respectivamente, mientras que GPT-5.1 con un alto esfuerzo de razonamiento alcanza el 51%, la segunda tasa de alucinaciones más baja probada.

Tanto la precisión de la omnisciencia como la tasa de alucinaciones contribuyen con una ponderación del 6,25 % cada una al índice de inteligencia common v4.

Dentro de la carrera armamentista de la IA: cómo se comparan OpenAI, Google y Anthropic bajo nuevas pruebas

La reorganización de los índices de referencia llega en un momento especialmente turbulento en la industria de la IA. Los tres principales desarrolladores de modelos fronterizos han lanzado importantes modelos nuevos en tan solo unas pocas semanas, y Géminis 3 todavía ocupa el primer lugar en gran parte de las tablas de clasificación LMArenauna herramienta de evaluación comparativa ampliamente citada que se utiliza para comparar LLM.

El lanzamiento de Gemini 3 por parte de Google en noviembre provocó OpenAI declarará un esfuerzo de “código rojo” para mejorar ChatGPT. OpenAI cuenta con su familia de modelos GPT para justificar su Valoración de 500 mil millones de dólares y más 1,4 billones de dólares en gastos previstos. “Anunciamos este código rojo para indicarle realmente a la empresa que queremos reunir recursos en un área en specific”, dijo Fidji Simo, director ejecutivo de aplicaciones de OpenAI. altman le dijo a CNBC esperaba que OpenAI saliera de su código rojo en enero.

Anthropic respondió con Claude Opus 4.5 el 24 de noviembre, logrando un SWE-Bench verificado puntuación de precisión del 80,9 %: recuperar la corona de codificación de ambos GPT-5.1-Codex-Max y Géminis 3. El lanzamiento marcó el tercer lanzamiento importante de un modelo de Anthropic en dos meses. Desde entonces, Microsoft y Nvidia han anunciado inversiones multimillonarias en Anthropic, aumentando su valoración a aproximadamente $350 mil millones.

Cómo el análisis synthetic prueba los modelos de IA: una mirada al proceso de evaluación comparativa independiente

Análisis artificiales destaca que todas las evaluaciones se realizan de forma independiente utilizando una metodología estandarizada. La organización afirma que su “metodología enfatiza la equidad y la aplicabilidad en el mundo actual”, estimando un intervalo de confianza del 95% para el Índice de Inteligencia de menos de ±1% basado en experimentos con más de 10 repeticiones en ciertos modelos.

La organización publicó metodología outline términos clave que los compradores empresariales deben comprender. Según la documentación de la metodología, Synthetic Evaluation considera que un “punto closing” es una instancia alojada de un modelo accesible a través de una API, lo que significa que un único modelo puede tener múltiples puntos finales en diferentes proveedores. Un “proveedor” es una empresa que aloja y proporciona acceso a uno o más sistemas o terminales modelo. Fundamentalmente, Synthetic Evaluation distingue entre modelos de “pesos abiertos”, cuyos pesos se han publicado públicamente, y modelos verdaderamente de código abierto, señalando que muchos LLM abiertos se han publicado con licencias que no cumplen con la definición completa de software program de código abierto.

La metodología también aclara cómo la organización estandariza la medición de tokens: utiliza tokens OpenAI medidos con el paquete tiktoken de OpenAI como unidad estándar en todos los proveedores para permitir comparaciones justas.

Qué significa el nuevo Índice de Inteligencia de IA para las decisiones tecnológicas empresariales en 2026

Para los tomadores de decisiones técnicas que evalúan los sistemas de IA, el Índice de Inteligencia v4.0 proporciona una imagen más matizada de la capacidad que las compilaciones de puntos de referencia anteriores. La igual ponderación entre agentes, codificación, razonamiento científico y conocimiento common significa que las empresas con casos de uso específicos pueden querer examinar puntuaciones específicas de categorías en lugar de depender únicamente del índice agregado.

La introducción de la medición de las alucinaciones como un issue distinto y ponderado aborda una de las preocupaciones más persistentes en la adopción de la IA empresarial. Un modelo que parece muy preciso pero que con frecuencia alucina cuando es incierto plantea riesgos significativos en industrias reguladas como la atención médica, las finanzas y el derecho.

El Índice de Inteligencia de Análisis Synthetic se describe como “un conjunto de evaluación del idioma inglés de solo texto”. La organización compara modelos para entradas de imágenes, entradas de voz y rendimiento multilingüe por separado.

La respuesta al anuncio ha sido en gran medida positiva. “Es fantástico ver cómo el índice evoluciona para reducir la saturación y centrarse más en el rendimiento agente”, escribió un comentarista en un publicación de X.com. “Incluir tareas del mundo actual como GDPval-AA hace que las puntuaciones sean mucho más relevantes para el uso práctico”.

Otros dieron una nota más ambiciosa. “La nueva ola de modelos que está a punto de llegar los dejará a todos atrás”, predijo un observador. “A finales de año la singularidad será innegable”.

Pero ya sea que esa predicción resulte profética o prematura, una cosa ya está clara: la period de juzgar la IA por qué tan bien responde a las preguntas de las pruebas está llegando a su fin. El nuevo estándar es más easy y mucho más trascendente: ¿puede hacer el trabajo?

avotas