El director ejecutivo de Nvidia, Jensen Huang, dijo el año pasado que ahora estamos entrando en la period de la IA física. Si bien la compañía continúa ofreciendo LLM para casos de uso de software program, Nvidia se está posicionando cada vez más como proveedor de modelos de IA para sistemas totalmente impulsados por IA, incluida la IA agente en el mundo físico.
En CES 2026, Nvidia anunció una serie de nuevos modelos diseñados para llevar a los agentes de IA más allá de las interfaces de chat y hacia entornos físicos.
Nvidia lanzada Cosmos Razón 2la última versión de su modelo visión-lenguaje diseñado para el razonamiento corporal. Cosmos Razón 1, lanzado el año pasadointrodujo una ontología bidimensional para el razonamiento incorporado y actualmente lidera el razonamiento físico de Hugging Face para la clasificación de vídeos.
Cosmos Purpose 2 se basa en la misma ontología al tiempo que brinda a las empresas más flexibilidad para personalizar las aplicaciones y permite a los agentes físicos planificar sus próximas acciones, de manera related a cómo los agentes basados en software program razonan a través de flujos de trabajo digitales.
Nvidia también lanzó una nueva versión de Cosmos Switch, un modelo que permite a los desarrolladores generar simulaciones de entrenamiento para robots.
Otros modelos de lenguaje visible, como PaliGemma de Google y Pixtral Massive de Mistral, pueden procesar entradas visuales, pero no todos los VLM disponibles comercialmente admiten el razonamiento.
“La robótica está en un punto de inflexión. Estamos pasando de robots especializados limitados a tareas únicas a sistemas especializados generalistas”, dijo Kari Briski, vicepresidente de software program de IA generativa de Nvidia, en una sesión informativa con periodistas. Se refería a robots que combinan un amplio conocimiento basic con profundas habilidades para tareas específicas. “Estos nuevos robots combinan un amplio conocimiento basic con una profunda competencia y tareas complejas”.
Añadió que Cosmos Purpose 2 “mejora las capacidades de razonamiento que los robots necesitan para navegar en el impredecible mundo físico”.
Pasando a agentes físicos
Briski señaló que la hoja de ruta de Nvidia sigue “el mismo patrón de activos en todos nuestros modelos abiertos”.
“Al crear agentes de IA especializados, una fuerza laboral digital o la encarnación física de la IA en robots y vehículos autónomos, se necesita algo más que el modelo”, dijo Briski. “En primer lugar, la IA necesita recursos informáticos para entrenarse y simular el mundo que la rodea. Los datos son el flamable para que la IA aprenda y mejore, y contribuimos a la colección más grande del mundo de conjuntos de datos abiertos y diversos, yendo más allá de simplemente abrir los pesos de los modelos. Las bibliotecas abiertas y los scripts de capacitación brindan a los desarrolladores las herramientas para crear IA específicamente para sus aplicaciones, y publicamos planos y ejemplos para ayudar a implementar la IA como sistemas de modelos”.
La compañía ahora tiene modelos abiertos específicamente para IA física en Cosmos, robótica, con el modelo Gr00t de visión, lenguaje y acción (VLA) de razonamiento abierto y sus modelos Nemotron para IA agente.
Nvidia defiende que los modelos abiertos en diferentes ramas de la IA forman un ecosistema empresarial compartido que alimenta datos, capacitación y razonamiento a los agentes tanto en el mundo digital como en el físico.
Adiciones a la familia Nemotron
Briski dijo que Nvidia planea continuar expandiendo sus modelos abiertos, incluida su familia Nemotron, más allá del razonamiento para incluir un nuevo RAG y un modelo integrado para que la información esté más disponible para los agentes. La compañía lanzó Nemotron 3, la última versión de sus modelos de razonamiento agente, en diciembre.
Nvidia anunció tres nuevas incorporaciones a la familia Nemotron: Nemotron Speech, Nemotron RAG y Nemotron Security.
En una publicación de weblog, Nvidia dijo que Nemotron Speech ofrece “reconocimiento de voz de baja latencia en tiempo actual para subtítulos en vivo y aplicaciones de inteligencia synthetic de voz” y es 10 veces más rápido que otros modelos de voz.
Nemotron RAG se compone técnicamente de dos modelos: un modelo de incrustación y un modelo de reordenación, los cuales pueden comprender imágenes para proporcionar más información multimodal que los agentes de datos aprovecharán.
“Nemotron RAG está por encima de lo que llamamos MMTab, o Huge Multilingual Textual content Embedding Benchmark, con un fuerte rendimiento multilingüe mientras utiliza menos memoria de potencia de cálculo, por lo que son una buena opción para sistemas que deben manejar muchas solicitudes muy rápidamente y con poca demora”, dijo Briski.
Nemotron Security detecta datos confidenciales para que los agentes de IA no revelen accidentalmente datos de identificación private.










