Home Tecnología OpenAI implementa chips Cerebras para la generación de código “casi instantánea” en...

OpenAI implementa chips Cerebras para la generación de código “casi instantánea” en el primer paso importante más allá de Nvidia

18
0

Abierto AI el jueves lanzado GPT-5.3-Codex-Sparkun modelo de codificación simplificado diseñado para tiempos de respuesta casi instantáneos, lo que marca la primera asociación de inferencia significativa de la compañía fuera de su infraestructura tradicional dominada por Nvidia. El modelo funciona con {hardware} de Sistemas cerebralesun fabricante de chips con sede en Sunnyvale cuyos procesadores a escala de oblea se especializan en cargas de trabajo de IA de baja latencia.

La asociación llega en un momento essential para OpenAI. La empresa se encuentra atravesando un relación desgastada con el proveedor de chips Nvidia desde hace mucho tiempo, crecientes críticas sobre su decisión de introducir anuncios en ChatGPT, un recientemente anunciado contrato del pentágonoy agitación organizacional interna que ha visto un equipo centrado en la seguridad disuelto y al menos un investigador renunciar en protesta.

“Las GPU siguen siendo fundamentales en nuestros procesos de capacitación e inferencia y ofrecen los tokens más rentables para un uso amplio”, dijo un portavoz de OpenAI a VentureBeat. “Cerebras complementa esa base sobresaliendo en flujos de trabajo que exigen una latencia extremadamente baja, ajustando el ciclo de un extremo a otro para que casos de uso como la codificación en tiempo actual en Codex se sientan más receptivos a medida que se itera”.

El cuidadoso encuadre, que enfatiza que las GPU “siguen siendo fundamentales” y al mismo tiempo posiciona a Cerebras como un “complemento”, subraya el delicado equilibrio que OpenAI debe lograr al diversificar sus proveedores de chips sin alienarse. NVIDIAla fuerza dominante en los aceleradores de IA.

Las ganancias de velocidad vienen con compensaciones de capacidad que OpenAI cube que los desarrolladores aceptarán

Codex-Chispa representa el primer modelo de OpenAI diseñado específicamente para la colaboración de codificación en tiempo actual. La compañía afirma que el modelo cumple más de 1000 tokens por segundo cuando se sirven en {hardware} de latencia ultrabaja, aunque se negó a proporcionar métricas de latencia específicas, como cifras de tiempo hasta el primer token.

“No podemos compartir números de latencia específicos, sin embargo, Codex-Spark está optimizado para parecer casi instantáneo: entrega más de 1000 tokens por segundo y sigue siendo altamente capaz para tareas de codificación del mundo actual”, dijo el portavoz de OpenAI.

Las ganancias de velocidad vienen con compensaciones de capacidad reconocidas. En SWE-Bench Pro y Terminal-Banco 2.0 — dos puntos de referencia de la industria que evalúan la capacidad de los sistemas de IA para realizar tareas complejas de ingeniería de software program de forma autónoma — Codex-Spark tiene un rendimiento inferior al whole Modelo GPT-5.3-Codex. OpenAI posiciona esto como un intercambio aceptable: los desarrolladores obtienen respuestas lo suficientemente rápido como para mantener el flujo creativo, incluso si el modelo subyacente no puede abordar los desafíos de programación de múltiples pasos más sofisticados.

El modelo se inicia con una ventana contextual de 128.000 tokens y solo admite texto, sin imágenes ni entradas multimodales. OpenAI lo ha puesto a disposición como una vista previa de la investigación para ChatGPT Pro suscriptores a través de la aplicación Codex, la interfaz de línea de comandos y la extensión Visible Studio Code. Un pequeño grupo de socios empresariales recibirá acceso API para evaluar las posibilidades de integración.

“Estamos haciendo Codex-Chispa disponible en la API para que un pequeño conjunto de socios de diseño comprendan cómo los desarrolladores quieren integrar Codex-Spark en sus productos”, explicó el portavoz. “Ampliaremos el acceso en las próximas semanas a medida que sigamos ajustando nuestra integración bajo cargas de trabajo reales”.

El {hardware} de Cerebras elimina los cuellos de botella que afectan a los clústeres de GPU tradicionales

La arquitectura técnica detrás Codex-Chispa cuenta una historia sobre la economía de inferencia que es cada vez más importante a medida que las empresas de IA amplían sus productos orientados al consumidor. cerebros Motor de escala de oblea 3 (un solo chip del tamaño aproximado de un plato que contiene 4 billones de transistores) elimina gran parte de la sobrecarga de comunicación que se produce cuando las cargas de trabajo de IA se distribuyen entre grupos de procesadores más pequeños.

Para entrenar modelos masivos, ese enfoque distribuido sigue siendo necesario y las GPU de Nvidia sobresalen en ello. Pero a efectos de inferencia (el proceso de generar respuestas a las consultas de los usuarios), Cerebras sostiene que su arquitectura puede ofrecer resultados con una latencia dramáticamente menor. Sean Lie, director de tecnología y cofundador de Cerebras, enmarcó la asociación como una oportunidad para remodelar la forma en que los desarrolladores interactúan con los sistemas de inteligencia synthetic.

“Lo que más nos entusiasma de GPT-5.3-Codex-Spark es asociarnos con OpenAI y la comunidad de desarrolladores para descubrir lo que la inferencia rápida hace posible: nuevos patrones de interacción, nuevos casos de uso y una experiencia de modelo fundamentalmente diferente”, dijo Lie en un comunicado. “Esta vista previa es sólo el comienzo”.

El equipo de infraestructura de OpenAI no limitó su trabajo de optimización al {hardware} de Cerebras. La compañía anunció mejoras de latencia en toda su pila de inferencia que benefician a todos los modelos Codex independientemente del {hardware} subyacente, incluido el persistente. Conexiones WebSocket y optimizaciones dentro del API de respuestas. Los resultados: reducción del 80 por ciento en los gastos generales por viaje de ida y vuelta cliente-servidor, reducción del 30 por ciento en los gastos generales por token y reducción del 50 por ciento en el tiempo hasta el primer token.

Un mega acuerdo de Nvidia por 100.000 millones de dólares se ha desmoronado silenciosamente entre bastidores

La asociación Cerebras adquiere una importancia adicional dada la relación cada vez más complicada entre Abierto AI y NVIDIA. El otoño pasado, cuando OpenAI anunció su puerta estelar iniciativa de infraestructura, Nvidia se comprometió públicamente a invertir 100 mil millones de dólares para apoyar a OpenAI mientras construía la infraestructura de IA. El anuncio pareció consolidar una alianza estratégica entre la empresa de inteligencia synthetic más valiosa del mundo y su principal proveedor de chips.

Cinco meses después, ese megaacuerdo se ha estancado en la práctica, según múltiple informes. El director ejecutivo de Nvidia, Jensen Huang, ha negado públicamente las tensiones y dijo a los periodistas a finales de enero que hay “sin drama” y que Nvidia sigue comprometida a participar en la ronda de financiación precise de OpenAI. Pero la relación se ha enfriado considerablemente, con fricciones provenientes de múltiples fuentes.

OpenAI ha buscado agresivamente asociaciones con proveedores de chips alternativos, incluido el Cerebras trato y acuerdos separados con AMD y Broadcom. Desde la perspectiva de Nvidia, OpenAI puede estar usando su influencia para comercializar el mismo {hardware} que hizo posibles sus avances en IA. Desde la perspectiva de OpenAI, reducir la dependencia de un único proveedor representa una estrategia comercial prudente.

“Continuaremos trabajando con el ecosistema para evaluar los chips con mejor precio en todos los casos de uso de forma continua”, dijo el portavoz de OpenAI a VentureBeat. “Las GPU siguen siendo nuestra prioridad para casos de uso sensibles a los costos y que priorizan el rendimiento en investigación e inferencia”. La declaración se lee como un esfuerzo cuidadoso para evitar antagonizar a Nvidia y al mismo tiempo preservar la flexibilidad, y refleja una realidad más amplia de que el entrenamiento de modelos de IA de vanguardia todavía requiere exactamente el tipo de procesamiento paralelo masivo que proporcionan las GPU de Nvidia.

Los equipos de seguridad disueltos y la salida de investigadores plantean dudas sobre las prioridades de OpenAI

El Codex-Chispa El lanzamiento se produce cuando OpenAI navega por una serie de desafíos internos que han intensificado el escrutinio de la dirección y los valores de la empresa. A principios de esta semana, surgieron informes de que OpenAI disolvió su equipo de alineación de misiónun grupo establecido en septiembre de 2024 para promover el objetivo declarado de la compañía de garantizar que la inteligencia synthetic basic beneficie a la humanidad. Los siete miembros del equipo han sido reasignados a otros roles, y el líder Joshua Achiam recibió un nuevo título como “jefe futurista” de OpenAI.

OpenAI anteriormente disolvió otro grupo centrado en la seguridadel equipo de superalineación, en 2024. Ese equipo se había concentrado en los riesgos existenciales a largo plazo de la IA. El patrón de disolver equipos orientados a la seguridad ha generado críticas de investigadores que argumentan que las presiones comerciales de OpenAI están abrumando su misión authentic sin fines de lucro.

La compañía también enfrenta las consecuencias de su decisión de introducir anuncios en ChatGPT. Investigador Zoë Hitzig dimitió esta semana sobre lo que describió como la “pendiente resbaladiza” de la IA con publicidad, advirtiendo en un ensayo del New York Occasions que el archivo de ChatGPT de conversaciones íntimas de usuarios crea oportunidades de manipulación sin precedentes. Anthropic aprovechó la controversia con un Campaña publicitaria del Super Bowl con el lema: “Los anuncios llegarán a AI. Pero no a Claude”.

Por separado, la empresa acordó proporcionar ChatGPT al Pentágono a través de Genai.milun nuevo programa del Departamento de Defensa que requiere que OpenAI permita “todos los usos legales” sin restricciones impuestas por la empresa, términos que Anthropic supuestamente rechazó. Y surgieron informes de que Ryan Beiermeister, vicepresidente de política de productos de OpenAI que había expresado su preocupación por una función de contenido explícito planeada, fue despedido en enero luego de una acusación de discriminación que ella niega.

OpenAI imagina asistentes de codificación de IA que combinan ediciones rápidas y tareas autónomas complejas

A pesar de las turbulencias que lo rodean, la hoja de ruta técnica de OpenAI para el Codex sugiere planes ambiciosos. La compañía imagina un asistente de codificación que mix a la perfección la edición interactiva rápida con tareas autónomas de mayor duración: una IA que maneje soluciones rápidas y al mismo tiempo orqueste múltiples agentes que trabajan en problemas más complejos en segundo plano.

“Con el tiempo, los modos se combinarán: Codex puede mantenerlo en un bucle interactivo estrecho mientras delega trabajos de mayor duración a subagentes en segundo plano, o distribuye tareas en muchos modelos en paralelo cuando desea amplitud y velocidad, para que no tenga que elegir un solo modo desde el principio”, dijo el portavoz de OpenAI a VentureBeat.

Esta visión requeriría no sólo una inferencia más rápida sino también una descomposición y coordinación sofisticadas de tareas entre modelos de diferentes tamaños y capacidades. Codex-Chispa establece la base de baja latencia para la parte interactiva de esa experiencia; Las versiones futuras deberán ofrecer el razonamiento autónomo y la coordinación de múltiples agentes que harían posible la visión completa.

Por ahora, Codex-Chispa opera bajo límites de velocidad separados de otros modelos OpenAI, lo que refleja la capacidad limitada de la infraestructura de Cerebras durante la vista previa de la investigación. “Debido a que se ejecuta en {hardware} especializado de baja latencia, el uso se rige por un límite de velocidad separado que puede ajustarse según la demanda durante la vista previa de la investigación”, señaló el portavoz. Los límites están diseñados para ser “generosos”, y OpenAI monitorea los patrones de uso mientras determina cómo escalar.

La verdadera prueba es si respuestas más rápidas se traducen en un mejor software program.

El Anuncio del Codex-Spark llega en medio de una intensa competencia por las herramientas de desarrollo impulsadas por IA. El producto Claude Cowork de Anthropic desencadenó una liquidación de acciones de software tradicionales la semana pasada mientras los inversores consideraban si los asistentes de IA podrían desplazar a las aplicaciones empresariales convencionales. microsoft, Googley Amazonas Continuar invirtiendo fuertemente en capacidades de codificación de IA integradas con sus respectivas plataformas en la nube.

La aplicación Codex de OpenAI ha demostrado una rápida adopción desde su lanzamiento hace diez días, con más de un millón de descargas y usuarios activos semanales que crecen un 60 por ciento semana tras semana. Más de 325.000 desarrolladores utilizan ahora activamente Codex en niveles gratuitos y de pago. Pero la pregunta elementary que enfrenta OpenAI (y la industria de la IA en basic) es si mejoras de velocidad como las prometidas por Codex-Chispa traducirse en ganancias significativas de productividad o simplemente crear experiencias más placenteras sin cambiar los resultados.

La evidencia preliminar de las herramientas de codificación de IA sugiere que respuestas más rápidas fomentan una experimentación más iterativa. Tanto los investigadores como los profesionales siguen discutiendo si esa experimentación produce un mejor software program. Lo que parece claro es que OpenAI ve la latencia de inferencia como una frontera competitiva que merece una inversión sustancial, incluso cuando esa inversión la lleva más allá de su asociación tradicional con Nvidia hacia un territorio no probado con proveedores de chips alternativos.

El acuerdo con Cerebras es una apuesta calculada a que el {hardware} especializado puede desbloquear casos de uso que las GPU de uso basic no pueden atender de manera rentable. Para una empresa que lucha simultáneamente contra sus competidores, gestiona relaciones tensas con los proveedores y capea la disidencia interna sobre su dirección comercial, también es un recordatorio de que en la carrera de la IA, quedarse quieto no es una opción. OpenAI construyó su reputación moviéndose rápido y rompiendo convenciones. Ahora debe demostrar que puede moverse aún más rápido, sin romperse.

avotas

LEAVE A REPLY

Please enter your comment!
Please enter your name here