Recién lanzado la última versión de su modelo básico Olmo, el Instituto Allen para la IA (Ai2) lanzó el martes su modelo de vídeo de código abierto, Molmo 2, con el objetivo de demostrar que los modelos abiertos más pequeños pueden ser opciones viables para empresas centradas en la comprensión y el análisis de vídeo.
en un presione soltarla compañía dijo que Molmo 2 “toma las fortalezas de Molmo en visión fundamentada y las expande a video y comprensión de múltiples imágenes”, una capacidad que ha estado dominada en gran medida por modelos propietarios más grandes.
Ai2 lanzó tres variantes de Molmo 2:
- Molmo 2 8Bun modelo basado en Qwen-3 que Ai2 describe como su “mejor modelo general para conexión a tierra de video y control de calidad”.
- Molmo 2 4Bdiseñado para implementaciones más eficientes
- Molmo 2-O 7Bconstruido sobre el modelo Olmo
Molmo 2 admite entradas de una sola imagen y de varias imágenes, así como clips de vídeo de diferentes longitudes, lo que permite tareas como conexión a tierra de vídeo, seguimiento y respuesta a preguntas.
“Uno de nuestros principales objetivos de diseño era cerrar una brecha importante en los modelos abiertos: la conexión a tierra”, dijo Ai2 en su comunicado de prensa.
La compañía presentó por primera vez la familia Molmo de modelos multimodales abiertos el año pasado, comenzando con imágenes. Ai2 dijo que Molmo 2 supera a las versiones anteriores en precisión, comprensión temporal y conexión a nivel de píxeles y, en algunos casos, funciona de manera competitiva con modelos más grandes como el Gemini 3 de Google.
Cómo se compara Molmo 2
A pesar de su tamaño más pequeño, los modelos Molmo 2 superaron al Gemini 3 Pro y otros competidores de peso abierto en las pruebas de seguimiento de video.
En cuanto al razonamiento de imágenes y múltiples imágenes, Ai2 dijo que Molmo 2 8B “lidera todos los modelos de peso abierto, seguido de cerca por la variante 4B”. Los modelos 8B y 4B también mostraron un sólido desempeño en la evaluación de preferencia humana Elo de peso abierto, aunque Ai2 señaló que los modelos propietarios más grandes continúan liderando ese punto de referencia en general.
Pero las mayores ganancias de Molmo 2 se encuentran en la conexión a tierra y el conteo de videos, donde supera a modelos similares de peso abierto.
“Estos resultados resaltan tanto el progreso como el margen de maniobra restante: la conexión a tierra del vídeo aún es difícil y ningún modelo alcanza aún el 40% de precisión”, dijo Ai2, refiriéndose a los puntos de referencia actuales.
Muchos modelos de vídeo, como Veo 3.1 de Google y Sora de OpenAI, suelen ser muy grandes. Molmo 2 apunta a una compensación diferente: modelos abiertos más pequeños optimizados para conexión a tierra y análisis en lugar de generación de video.













