Home Tecnología El GLM-5 de código abierto de z.ai logra una tasa de alucinaciones...

El GLM-5 de código abierto de z.ai logra una tasa de alucinaciones récord y aprovecha la nueva técnica de ‘limo’ de RL

19
0

La startup china de IA Zhupai, también conocida como z.ai, regresa esta semana con un nuevo y sorprendente modelo de lenguaje de gran frontera: GLM-5.

Lo último en la continua e impresionante serie GLM de z.ai, conserva una licencia MIT de código abierto (perfecta para implementación empresarial) y, en uno de varios logros notables, logra una tasa de alucinaciones récord en el ámbito independiente. Índice de Inteligencia de Análisis Artificial v4.0.

Con una puntuación de -1 en el índice AA-Omniscience, lo que representa una enorme mejora de 35 puntos con respecto a su predecesor, GLM-5 ahora lidera toda la industria de la IA, incluidos competidores estadounidenses como Google, OpenAI y Anthropic, en confiabilidad del conocimiento al saber cuándo abstenerse en lugar de fabricar información.

Más allá de su capacidad de razonamiento, GLM-5 está diseñado para trabajos de conocimiento de alta utilidad. Cuenta con capacidades nativas de “Modo Agente” que le permiten convertir indicaciones sin procesar o materiales de origen directamente en documentos de oficina profesionales, incluidos los listos para usar. .docx, .pdfy .xlsx archivos.

Ya sea que genere informes financieros detallados, propuestas de patrocinio de escuelas secundarias u hojas de cálculo complejas, GLM-5 ofrece resultados en formatos reales que se integran directamente en los flujos de trabajo empresariales.

También tiene un precio disruptivo de aproximadamente 0,80 dólares por millón de tokens de entrada y 2,56 dólares por millón de tokens de salida, aproximadamente 6 veces más barato que competidores propietarios como Claude Opus 4.6, lo que hace que la ingeniería de última generación sea más rentable que nunca. Esto es lo que los tomadores de decisiones empresariales deben saber sobre el modelo y su capacitación.

Tecnología: escalamiento para la eficiencia de los agentes

En el corazón del GLM-5 hay un salto enorme en los parámetros brutos. El modelo escala desde los 355B de parámetros de GLM-4.5 hasta la asombrosa cifra de 744B, con 40B activos por token en su arquitectura de Mezcla de Expertos (MoE). Este crecimiento está respaldado por un aumento en los datos previos al entrenamiento a 28,5 billones de tokens.

Para abordar las ineficiencias de la capacitación de esta magnitud, Zai desarrolló “limo“, una novedosa infraestructura de aprendizaje por refuerzo asincrónico (RL).

La RL tradicional a menudo sufre de cuellos de botella de “cola larga”; Slime rompe este bloqueo al permitir que las trayectorias se generen de forma independiente, lo que permite las iteraciones detalladas necesarias para un comportamiento agente complejo.

Al integrar optimizaciones a nivel de sistema como Lively Partial Rollouts (APRIL), Slime aborda los cuellos de botella de generación que normalmente consumen más del 90 % del tiempo de entrenamiento de RL, acelerando significativamente el ciclo de iteración para tareas complejas de agente.

El diseño del marco se centra en un sistema modular tripartito: un módulo de capacitación de alto rendimiento impulsado por Megatron-LM, un módulo de implementación que utiliza SGLang y enrutadores personalizados para la generación de datos de alto rendimiento, y un búfer de datos centralizado que gestiona la inicialización rápida y el almacenamiento de implementación.

Al permitir entornos adaptables verificables y bucles de retroalimentación de compilación de múltiples turnos, Slime proporciona la base sólida y de alto rendimiento necesaria para hacer la transición de la IA de simples interacciones de chat a una ingeniería de sistemas rigurosa y de largo plazo.

Para mantener la implementación manejable, GLM-5 integra DeepSeek Sparse Consideration (DSA), preservando una capacidad de contexto de 200K y reduciendo drásticamente los costos.

Trabajo de conocimiento de principio a fin

Zai está enmarcando el GLM-5 como una herramienta de “oficina” para la period AGI. Mientras que los modelos anteriores se centraban en fragmentos, GLM-5 está diseñado para ofrecer documentos listos para usar.

Puede transformar de forma autónoma mensajes en archivos formateados .docx, .pdf y .xlsx, desde informes financieros hasta propuestas de patrocinio.

En la práctica, esto significa que el modelo puede descomponer objetivos de alto nivel en subtareas procesables y realizar “Ingeniería Agéntica”, donde los humanos definen puertas de calidad mientras la IA maneja la ejecución.

Rendimiento alto

Las pruebas de referencia de GLM-5 lo convierten en el nuevo modelo de código abierto más potente del mundo, según Análisis artificialessuperando al nuevo Kimi K2.5 de su rival chino Moonshot, lanzado hace apenas dos semanas, lo que demuestra que las empresas chinas de inteligencia synthetic están casi alcanzadas por rivales occidentales propietarios con muchos mejores recursos.

Según los propios materiales de z.ai compartidos hoy, GLM-5 se ubica cerca del estado del arte en varios puntos de referencia clave:

SWE-bench verificado: GLM-5 logró una puntuación de 77,8, superando a Gemini 3 Professional (76,2) y acercándose a Claude Opus 4.6 (80,9).

Banco de venta 2: En una simulación de gestión de una empresa, GLM-5 ocupó el puesto número 1 entre los modelos de código abierto con un saldo remaining de 4.432,12 dólares.

Puntos de referencia Z.ai GLM-5

Puntos de referencia GLM-5 de z.ai

Más allá del rendimiento, el GLM-5 está subcotizando agresivamente el mercado. Disponible en OpenRouter a partir del 11 de febrero de 2026, tiene un precio de aproximadamente entre $0,80 y $1,00 por millón de tokens de entrada y entre $2,56 y $3,20 por millón de tokens de salida. Se encuentra en el rango medio en comparación con otros LLM líderes, pero según su desempeño de evaluación comparativa de primer nivel, es lo que uno podría llamar un “robo”.

Modelo

Entrada (por 1 millón de tokens)

Salida (por 1 millón de tokens)

Costo complete (1 millón de entrada + 1 millón de salida)

Fuente

Qwen3 Turbo

$0.05

$0.20

$0.25

Nube de Alibaba

Grok 4.1 Rápido (razonamiento)

$0.20

$0.50

$0.70

xAI

Grok 4.1 Rápido (sin razonamiento)

$0.20

$0.50

$0.70

xAI

chat de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

razonador de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

Vista previa flash de Géminis 3

$0.50

$3.00

$3.50

Google

Kimi-k2.5

$0.60

$3.00

$3.60

Disparo a la luna

GLM-5

$1.00

$3.20

$4.20

Z.ai

ERNIE 5.0

$0.85

$3.40

$4.25

Qianfan

Claude Haiku 4.5

$1.00

$5.00

$6.00

antrópico

Qwen3-Max (23/01/2026)

$1.20

$6.00

$7.20

Nube de Alibaba

Géminis 3 Professional (≤200K)

$2.00

$12.00

$14.00

Google

GPT-5.2

$1.75

$14.00

$15.75

AbiertoAI

Soneto de Claudio 4.5

$3.00

$15.00

$18.00

antrópico

Géminis 3 Professional (>200K)

$4.00

$18.00

$22.00

Google

Claude Opus 4.6

$5.00

$25.00

$30.00

antrópico

GPT-5.2 Professional

$21.00

$168.00

$189.00

AbiertoAI

Esto es aproximadamente 6 veces más barato en entrada y casi 10 veces más barato en salida que Claude Opus 4.6 ($5/$25). Este comunicado confirma los rumores de que Zhipu AI estaba detrás de “Pony Alpha”, un modelo sigiloso que anteriormente aplastó los puntos de referencia de codificación en OpenRouter.

Sin embargo, a pesar de los altos puntos de referencia y el bajo costo, no todos los primeros usuarios están entusiasmados con el modelo y señalan que su alto rendimiento no cuenta toda la historia.

Lukas Petersson, cofundador de Andon Labs, una startup de protocolos de IA autónomos centrados en la seguridad, comentado en X: “Después de horas de leer rastros de GLM-5: un modelo increíblemente efectivo, pero mucho menos consciente de la situación. Logra objetivos mediante tácticas agresivas pero no razona sobre su situación ni aprovecha la experiencia. Esto da miedo. Así es como se obtiene un maximizador de clips”.

El “maximizador de clips” se refiere a una situación hipotética descrito por el filósofo de Oxford Nick Bostrom allá por 2003en el que una IA u otra creación autónoma conduce accidentalmente a un escenario apocalíptico o a la extinción humana al seguir una instrucción aparentemente benigna (como maximizar el número de clips producidos) en un grado extremo, redirigiendo todos los recursos necesarios para la vida humana (u otra vida) o haciendo la vida imposible a través de su compromiso de cumplir el objetivo aparentemente benigno.

¿Su empresa debería adoptar GLM-5?

Las empresas que busquen escapar de la dependencia de un proveedor encontrarán que la licencia MIT del GLM-5 y la disponibilidad de pesos abiertos son una ventaja estratégica significativa. A diferencia de los competidores de código cerrado que mantienen la inteligencia detrás de muros propietarios, GLM-5 permite a las organizaciones alojar su propia inteligencia de vanguardia.

La adopción no está exenta de fricciones. La gran escala de GLM-5 (parámetros 744B) requiere un piso de {hardware} masivo que puede estar fuera del alcance de empresas más pequeñas sin importantes clústeres de GPU locales o en la nube.

Los líderes de seguridad deben sopesar las implicaciones geopolíticas de un modelo emblemático de un laboratorio con sede en China, especialmente en industrias reguladas donde la residencia y procedencia de los datos están estrictamente auditadas.

Además, el cambio hacia agentes de IA más autónomos introduce nuevos riesgos de gobernanza. A medida que los modelos pasan del “chat” al “trabajo”, comienzan a operar entre aplicaciones y archivos de forma autónoma. Sin los sólidos permisos específicos de los agentes y los controles de calidad con intervención humana establecidos por los líderes de datos empresariales, el riesgo de error autónomo aumenta exponencialmente.

En última instancia, GLM-5 es una “compra” para organizaciones que han superado a los simples copilotos y están listas para construir una oficina verdaderamente autónoma.

Es para ingenieros que necesitan refactorizar un backend heredado o que requieren una canalización “autocurativa” que no duerme.

Mientras los laboratorios occidentales continúan optimizando el “pensamiento” y la profundidad del razonamiento, Zai está optimizando la ejecución y la escala.

Las empresas que hoy adoptan el GLM-5 no sólo están comprando un modelo más barato; están apostando por un futuro donde la IA más valiosa es la que puede terminar el proyecto sin que se lo pidan dos veces.

avotas

LEAVE A REPLY

Please enter your comment!
Please enter your name here