Home Tecnología El nuevo Olmo 3.1 de Ai2 amplía la capacitación en aprendizaje por...

Tecnología

El nuevo Olmo 3.1 de Ai2 amplía la capacitación en aprendizaje por refuerzo para lograr puntos de referencia de razonamiento más sólidos

12 diciembre 2025

El Instituto Allen para la IA (Ai2) lanzó recientemente lo que llama su más poderoso familia de modelos todavía, Olmo 3. Pero la empresa siguió iterando los modelos, ampliando sus ejecuciones de aprendizaje por refuerzo (RL), para crear Olmo 3.1.

Los nuevos modelos Olmo 3.1 se centran en la eficiencia, la transparencia y el management para las empresas.

Ai2 actualizó dos de las tres versiones de Olmo 2: Olmo 3.1 Assume 32B, el modelo insignia optimizado para investigación avanzada, y Olmo 3.1 Instruct 32B, diseñado para seguir instrucciones, diálogos de múltiples turnos y uso de herramientas.

Olmo 3 tiene una tercera versión, Olmo 3-Base para programación, comprensión y matemáticas. También funciona bien para seguir realizando ajustes.

Ai2 dijo que para actualizar Olmo 3 Assume 32B a Olmo 3.1, sus investigadores ampliaron su mejor ejecución de RL con un programa de entrenamiento más largo.

“Después del lanzamiento unique de Olmo 3, reanudamos nuestra ejecución de entrenamiento RL para Olmo 3 32B Assume, entrenando durante 21 días adicionales en 224 GPU con épocas adicionales sobre nuestro conjunto de datos Dolci-Assume-RL”, dijo Ai2 en un publicación de blog. “Esto produjo Olmo 3.1 32B Assume, que aporta ganancias sustanciales en matemáticas, razonamiento y puntos de referencia de seguimiento de instrucciones: mejoras de más de 5 puntos en AIME, 4+ puntos en ZebraLogic, 4+ puntos en IFEval y 20+ puntos en IFBench, junto con un rendimiento más sólido en codificación y tareas complejas de varios pasos”.

Para llegar a Olmo 3.1 Instruct, Ai2 dijo que sus investigadores aplicaron la receta detrás del tamaño de Instruct más pequeño, 7B, al modelo más grande.

Olmo 3.1 Instruct 32B está “optimizado para chat, uso de herramientas y diálogo de múltiples turnos, lo que lo convierte en un hermano mucho más eficaz de Olmo 3 Instruct 7B y listo para aplicaciones del mundo actual”, dijo Ai2 en un publicar en X.

Por ahora, los nuevos puntos de management están disponibles en Ai2 Playground o Hugging Face, y pronto habrá acceso a la API.

Mejor rendimiento en los puntos de referencia

Los modelos Olmo 3.1 obtuvieron buenos resultados en las pruebas de referencia, superando como period de esperar a los modelos Olmo 3.

Olmo 3.1 Assume superó a los modelos Qwen 3 32B en el punto de referencia AIME 2025 y tuvo un desempeño cercano al Gemma 27B.

Olmo 3.1 Instruct tuvo un excelente desempeño frente a sus pares de código abierto, incluso superando a modelos como Gemma 3 en el punto de referencia Math.

“En cuanto a Olmo 3.1 32B Instruct, es un modelo de instrucción de mayor escala diseñado para chat, uso de herramientas y diálogo de múltiples turnos. Olmo 3.1 32B Instruct es nuestro modelo de chat completamente abierto más capaz hasta la fecha y, en nuestras evaluaciones, el modelo de instrucción de escala 32B completamente abierto más sólido”, dijo la compañía.

Ai2 también actualizó sus modelos RL-Zero 7B en matemáticas y codificación. La compañía dijo en X que ambos modelos se beneficiaron de carreras de entrenamiento más largas y estables.

Compromiso con la transparencia y el código abierto

Ai2 le dijo anteriormente a VentureBeat que diseñó la familia de modelos Olmo 3 para ofrecer a las empresas y a los laboratorios de investigación más management y comprensión de los datos y la capacitación incluidos en el modelo.

Las organizaciones podrían ampliar la combinación de datos del modelo y volver a entrenarlo para aprender también de lo que se ha agregado.

Este ha sido un compromiso desde hace mucho tiempo para Ai2, que también ofrece una herramienta llamada OlmoTrace que rastrea cómo los resultados de LLM coinciden con sus datos de entrenamiento.

“Juntos, Olmo 3.1 Assume 32B y Olmo 3.1 Instruct 32B muestran que la apertura y el rendimiento pueden avanzar juntos. Al ampliar el mismo flujo de modelo, continuamos mejorando las capacidades y manteniendo la transparencia de extremo a extremo sobre los datos, el código y las decisiones de capacitación”, dijo Ai2.

avotas

El nuevo Olmo 3.1 de Ai2 amplía la capacitación en aprendizaje por refuerzo para lograr puntos de referencia de razonamiento más sólidos

Mejor rendimiento en los puntos de referencia

Compromiso con la transparencia y el código abierto

el último

Una bala descubierta en un avión comercial en un importante aeropuerto...

Estados Unidos se recupera del abismo para vencer a Canadá en...

El último concursante despedido porque Lord Sugar se burla de la...

El nuevo modelo Gemini Professional de Google tiene puntuaciones récord en...

A James Gandolfini le molestaba estar enojado todo el tiempo como...

El caso de la desaparición de Nancy Guthrie se vuelve tenso...

Gran Bretaña, campeona mundial, jugará contra Canadá por el oro en...

Estrella de televisión británica revela que su hijo de 6 años...

Muertes relacionadas con el jarabe para la tos: ¿Se da cuenta...

La IA debe fomentar los “instintos maternos” o corremos el riesgo...