El Instituto Allen para la IA (Ai2) lanzó recientemente lo que llama su más poderoso familia de modelos todavía, Olmo 3. Pero la empresa siguió iterando los modelos, ampliando sus ejecuciones de aprendizaje por refuerzo (RL), para crear Olmo 3.1.
Los nuevos modelos Olmo 3.1 se centran en la eficiencia, la transparencia y el management para las empresas.
Ai2 actualizó dos de las tres versiones de Olmo 2: Olmo 3.1 Assume 32B, el modelo insignia optimizado para investigación avanzada, y Olmo 3.1 Instruct 32B, diseñado para seguir instrucciones, diálogos de múltiples turnos y uso de herramientas.
Olmo 3 tiene una tercera versión, Olmo 3-Base para programación, comprensión y matemáticas. También funciona bien para seguir realizando ajustes.
Ai2 dijo que para actualizar Olmo 3 Assume 32B a Olmo 3.1, sus investigadores ampliaron su mejor ejecución de RL con un programa de entrenamiento más largo.
“Después del lanzamiento unique de Olmo 3, reanudamos nuestra ejecución de entrenamiento RL para Olmo 3 32B Assume, entrenando durante 21 días adicionales en 224 GPU con épocas adicionales sobre nuestro conjunto de datos Dolci-Assume-RL”, dijo Ai2 en un publicación de blog. “Esto produjo Olmo 3.1 32B Assume, que aporta ganancias sustanciales en matemáticas, razonamiento y puntos de referencia de seguimiento de instrucciones: mejoras de más de 5 puntos en AIME, 4+ puntos en ZebraLogic, 4+ puntos en IFEval y 20+ puntos en IFBench, junto con un rendimiento más sólido en codificación y tareas complejas de varios pasos”.
Para llegar a Olmo 3.1 Instruct, Ai2 dijo que sus investigadores aplicaron la receta detrás del tamaño de Instruct más pequeño, 7B, al modelo más grande.
Olmo 3.1 Instruct 32B está “optimizado para chat, uso de herramientas y diálogo de múltiples turnos, lo que lo convierte en un hermano mucho más eficaz de Olmo 3 Instruct 7B y listo para aplicaciones del mundo actual”, dijo Ai2 en un publicar en X.
Por ahora, los nuevos puntos de management están disponibles en Ai2 Playground o Hugging Face, y pronto habrá acceso a la API.
Mejor rendimiento en los puntos de referencia
Los modelos Olmo 3.1 obtuvieron buenos resultados en las pruebas de referencia, superando como period de esperar a los modelos Olmo 3.
Olmo 3.1 Assume superó a los modelos Qwen 3 32B en el punto de referencia AIME 2025 y tuvo un desempeño cercano al Gemma 27B.
Olmo 3.1 Instruct tuvo un excelente desempeño frente a sus pares de código abierto, incluso superando a modelos como Gemma 3 en el punto de referencia Math.

“En cuanto a Olmo 3.1 32B Instruct, es un modelo de instrucción de mayor escala diseñado para chat, uso de herramientas y diálogo de múltiples turnos. Olmo 3.1 32B Instruct es nuestro modelo de chat completamente abierto más capaz hasta la fecha y, en nuestras evaluaciones, el modelo de instrucción de escala 32B completamente abierto más sólido”, dijo la compañía.
Ai2 también actualizó sus modelos RL-Zero 7B en matemáticas y codificación. La compañía dijo en X que ambos modelos se beneficiaron de carreras de entrenamiento más largas y estables.
Compromiso con la transparencia y el código abierto
Ai2 le dijo anteriormente a VentureBeat que diseñó la familia de modelos Olmo 3 para ofrecer a las empresas y a los laboratorios de investigación más management y comprensión de los datos y la capacitación incluidos en el modelo.
Las organizaciones podrían ampliar la combinación de datos del modelo y volver a entrenarlo para aprender también de lo que se ha agregado.
Este ha sido un compromiso desde hace mucho tiempo para Ai2, que también ofrece una herramienta llamada OlmoTrace que rastrea cómo los resultados de LLM coinciden con sus datos de entrenamiento.
“Juntos, Olmo 3.1 Assume 32B y Olmo 3.1 Instruct 32B muestran que la apertura y el rendimiento pueden avanzar juntos. Al ampliar el mismo flujo de modelo, continuamos mejorando las capacidades y manteniendo la transparencia de extremo a extremo sobre los datos, el código y las decisiones de capacitación”, dijo Ai2.










