¿Cuántos pingüinos hay en este video de vida silvestre? ¿Puedes rastrear la bola naranja en el video del gato? ¿Qué equipos juegan y quién marcó? ¿Dame instrucciones paso a paso de este video de cocina?
Estos son ejemplos de consultas que pueden ser respondidas por Molmo 2una nueva familia de modelos de visión de IA de código abierto del Instituto Allen para IA (Ai2) que puede ver, rastrear, analizar y responder preguntas sobre videos: describir lo que está sucediendo y señalar exactamente dónde y cuándo.
Ai2 cita pruebas de referencia que muestran que Molmo 2 supera a los modelos de código abierto en análisis y seguimiento de vídeos cortos, y supera a sistemas cerrados como Gemini 3 de Google en seguimiento de vídeos, mientras se acerca a su rendimiento en otras tareas de imágenes y vídeos.
En una serie de demostraciones para periodistas recientemente en las oficinas de Ai2 en Seattle, los investigadores mostraron cómo Molmo 2 podía analizar una variedad de videoclips cortos de diferentes maneras.
- En un vídeo de fútbol, los investigadores preguntaron qué error defensivo llevó a un gol. El modelo analizó la secuencia y señaló una falta de despeje eficaz del balón.
- En un clip de béisbol, la IA identificó los equipos (Angelinos y Marineros), el jugador que anotó (#55) y explicó cómo conocía al equipo local al leer los uniformes y las marcas del estadio.
- Al recibir un video de cocina, el modelo devolvió una receta estructurada con ingredientes e instrucciones paso a paso, incluido el tiempo extraído del texto en pantalla.
- Cuando se le pidió que contara cuántos saltos realizó un bailarín, el modelo no solo dijo “cinco”, sino que devolvió marcas de tiempo y coordenadas de píxeles para cada uno.
- En una demostración de seguimiento, el modelo siguió a cuatro pingüinos mientras se movían por el marco, manteniendo una identificación consistente para cada ave incluso cuando se superponían.
- Cuando se le pidió que “siguiera el auto que pasa al auto número 13 al final”, el modelo primero vio un clip de carrera completo, entendió la consulta y luego regresó e identificó el vehículo correcto. Rastreaba los autos que entraban y salían del marco.
Gran año para Ai2
Molmo 2, anunciado el martes por la mañana, culmina un año de importantes hitos para la organización sin fines de lucro con sede en Seattle, que ha desarrollado seguidores leales en los círculos empresariales y científicos mediante la construcción de sistemas de inteligencia artificial totalmente abiertos. Su enfoque contrasta marcadamente con los enfoques cerrados o parcialmente abiertos de gigantes de la industria como OpenAI, Google, Microsoft y Meta.
Fundada en 2014 por el fallecido cofundador de Microsoft, Paul Allen, Ai2 obtuvo este año 152 millones de dólares de la NSF y Nvidia, se asoció en una iniciativa de investigación del cáncer mediante IA dirigida por Fred Hutch de Seattle y lanzó Olmo 3, un modelo de texto que rivaliza con Meta, DeepSeek y otros.
Ai2 ha visto más de 21 millones de descargas de sus modelos este año y casi 3 mil millones de consultas en sus sistemas, dijo Ali Farhadidirector ejecutivo de Ai2, durante la rueda de prensa de la semana pasada en la nueva sede del instituto en la costa norte del Lake Union de Seattle.
Como organización sin fines de lucro, Ai2 no intenta competir comercialmente con los gigantes tecnológicos; su objetivo es avanzar en el estado del arte y hacer que esos avances estén disponibles gratuitamente.
El instituto ha lanzado modelos abiertos para texto (OLMo), imágenes (el Molmo original) y ahora vídeo, avanzando hacia lo que describió como un modelo unificado que razona en todas las modalidades.
“Básicamente, estamos construyendo modelos que son competitivos con los mejores productos que existen”, dijo Farhadi, pero de una manera completamente abierta, para una sucesión de diferentes medios y situaciones.
Además de Molmo 2, Ai2 se lanzó el lunes bolmoun modelo de texto experimental que procesa el lenguaje a nivel de caracteres en lugar de fragmentos de palabras, un cambio técnico que mejora el manejo de la ortografía, las palabras raras y el texto multilingüe.
Ampliandose al análisis de vídeo
Con el recién lanzado Molmo 2, la atención se centra en el vídeo. Para ser claro: el modelo analiza video, no genera video; piense en comprender el metraje en lugar de crearlo.
El Molmo original, lanzado en septiembre pasado, podía analizar imágenes estáticas con una precisión que rivalizaba con la de sus competidores de código cerrado. Introdujo una capacidad de “señalar” que le permitía identificar objetos específicos dentro de un marco. Molmo 2 aporta el mismo enfoque a la comprensión de vídeos y múltiples imágenes.
El concepto no es nuevo. Gemini de Google, GPT-4o de OpenAI y Perception LM de Meta pueden procesar vídeo. Pero en línea con la misión más amplia de Ai2 como instituto sin fines de lucro, Molmo 2 es completamente abierto, con los pesos del modelo, el código de entrenamiento y los datos de entrenamiento publicados.
Esto es diferente de los modelos de “peso abierto” que lanzan el producto final pero no la receta original, y un marcado contraste con los sistemas cerrados de Google, OpenAI y otros.
La distinción no es sólo un principio académico. El enfoque de Ai2 significa que los desarrolladores pueden rastrear el comportamiento de un modelo hasta sus datos de entrenamiento, personalizarlo para usos específicos y evitar quedar atrapados en el ecosistema de un proveedor.
Ai2 también hace hincapié en la eficiencia. Por ejemplo, Meta’s Perception LM se entrenó en 72,5 millones de vídeos. Molmo 2 utilizó alrededor de 9 millones, basándose en anotaciones humanas de alta calidad.
El resultado, afirma Ai2, es un modelo más pequeño y más eficiente que supera a su modelo mucho más grande del año pasado y se acerca a los sistemas comerciales de Google y OpenAI, al mismo tiempo que es lo suficientemente simple como para ejecutarse en una sola máquina.
Cuando el Molmo original introdujo su capacidad de apuntar el año pasado, permitiendo al modelo identificar objetos específicos en una imagen, los modelos de la competencia adoptaron rápidamente esta característica.
“Sabemos que adoptaron nuestros datos porque funcionan exactamente tan bien como nosotros”, dijo Ranjay Krishnaquien dirige el equipo de visión por computadora de Ai2. Krishna también es profesor asistente de la Universidad de Washington y varios de sus estudiantes de posgrado también trabajan en el proyecto.
Farhadi enmarca la dinámica competitiva de manera diferente que la mayoría en la industria.
“Si haces código abierto real, cambiaría la palabra competencia a colaboración“, dijo. “Porque no hay necesidad de competir. Todo está ahí fuera. No es necesario realizar ingeniería inversa. No es necesario reconstruirlo. Simplemente tómalo, construye sobre él y haz lo siguiente. Y nos encanta cuando la gente hace eso”.
Un trabajo en progreso
Al mismo tiempo, Molmo 2 tiene algunas limitaciones claras. La capacidad de seguimiento (seguir objetos a través de fotogramas) actualmente alcanza un máximo de unos 10 elementos. Pídale que rastree una multitud o una carretera muy transitada y el modelo no podrá seguir el ritmo.
“Esta es una capacidad muy, muy nueva, y es tan experimental que estamos empezando desde muy pequeño”, dijo Krishna. “No hay límite tecnológico para esto, sólo requiere más datos, más ejemplos de escenas realmente abarrotadas”.
Los vídeos de larga duración también siguen siendo un desafío. El modelo funciona bien en clips cortos, pero analizar metraje más largo requiere una computación que Ai2 aún no está dispuesta a gastar. En el patio de juegos que se lanza junto con Molmo 2, los videos subidos están limitados a 15 segundos.
Y a diferencia de algunos sistemas comerciales, Molmo 2 no procesa transmisiones de video en vivo. Analiza las grabaciones a posteriori. Krishna dijo que el equipo está explorando capacidades de transmisión para aplicaciones como la robótica, donde un modelo necesitaría responder a las observaciones en tiempo real, pero ese trabajo aún es temprano.
“Hay métodos que la gente ha ideado en términos de procesar videos a lo largo del tiempo, transmitir videos”, dijo Krishna. “Esas son las direcciones que estamos analizando a continuación”.
Molmo 2 está disponible a partir de hoy en Hugging Face y El patio de recreo de Ai2.











