Home Tecnología Faltan meses para Vera Rubin de Nvidia: Blackwell se está volviendo más...

Faltan meses para Vera Rubin de Nvidia: Blackwell se está volviendo más rápido en este momento

11
0

La gran noticia de esta semana de Nvidia, que apareció en los titulares de todos los medios, fue el anuncio de la compañía sobre su GPU Vera Rubin.

Esta semana, el director ejecutivo de Nvidia, Jensen Huang, utilizó su discurso de apertura en CES para resaltar las métricas de rendimiento del nuevo chip. Según Huang, la GPU Rubin es capaz de realizar 50 PFLOP de inferencia NVFP4 y 35 PFLOP de rendimiento de entrenamiento NVFP4, lo que representa 5 y 3,5 veces el rendimiento de Blackwell.

Pero no estará disponible hasta la segunda mitad de 2026. Entonces, ¿qué deberían hacer las empresas ahora?

Blackwell sigue mejorando

La arquitectura de GPU Nvidia precise que se comercializa es Blackwell, que fue anunciado en 2024 como sucesor de Hopper. Junto con ese lanzamiento, Nvidia enfatizó que su camino de ingeniería de productos también incluía exprimir el mayor rendimiento posible de la arquitectura Grace Hopper anterior.

Es una dirección que también será válida para Blackwell, ya que Vera Rubin llegará a finales de este año.

“Continuamos optimizando nuestras pilas de inferencia y capacitación para la arquitectura Blackwell”, dijo a VentureBeat Dave Salvator, director de productos de computación acelerada de Nvidia.

En la misma semana en que el CEO de Nvidia promocionaba a Vera Rubin como su GPU más poderosa hasta la fecha, la compañía publicó nuevas investigación mostrando un rendimiento mejorado de Blackwell.

Cómo el rendimiento de Blackwell ha mejorado la inferencia en 2,8 veces

Nvidia ha podido aumentar el rendimiento de la GPU Blackwell hasta 2,8 veces por GPU en un período de sólo tres meses.

Las mejoras de rendimiento provienen de una serie de innovaciones que se han agregado al motor de inferencia Nvidia TensorRT-LLM. Estas optimizaciones se aplican al {hardware} existente, lo que permite que las implementaciones actuales de Blackwell alcancen un mayor rendimiento sin cambios de {hardware}.

Las ganancias de rendimiento se miden en DeepSeek-R1, un modelo de mezcla de expertos (MoE) de 671 mil millones de parámetros que activa 37 mil millones de parámetros por token.

Entre las innovaciones técnicas que aumentan el rendimiento:

  • Lanzamiento programático dependiente (PDL): La implementación ampliada cut back las latencias de inicio del kernel, lo que aumenta el rendimiento.

  • Comunicación de todos a todos: La nueva implementación de primitivas de comunicación elimina un búfer intermedio, lo que cut back la sobrecarga de memoria.

  • Predicción de tokens múltiples (MTP): Genera múltiples tokens por paso directo en lugar de uno a la vez, lo que aumenta el rendimiento en varias longitudes de secuencia.

  • Formato NVFP4: Un formato de punto flotante de 4 bits con aceleración de {hardware} en Blackwell que cut back los requisitos de ancho de banda de la memoria y al mismo tiempo preserva la precisión del modelo.

Las optimizaciones reducen el costo por millón de tokens y permiten que la infraestructura existente atienda mayores volúmenes de solicitudes con menor latencia. Los proveedores de nube y las empresas pueden escalar sus servicios de IA sin actualizaciones inmediatas de {hardware}.

Blackwell también ha mejorado su rendimiento en el entrenamiento

Blackwell también se utiliza ampliamente como componente de {hardware} elementary para entrenar los modelos de lenguaje más grandes.

En ese sentido, Nvidia también ha informado de ganancias significativas para Blackwell cuando se utiliza para el entrenamiento de IA.

Desde su lanzamiento inicial, el sistema GB200 NVL72 ofreció un rendimiento de entrenamiento hasta 1,4 veces mayor con el mismo {hardware}: un aumento del 40 % logrado en solo cinco meses sin ninguna actualización de {hardware}.

El impulso a la capacitación provino de una serie de actualizaciones que incluyen:

  • Recetas de entrenamiento optimizadas. Los ingenieros de Nvidia desarrollaron recetas de capacitación sofisticadas que aprovechan de manera efectiva la precisión de NVFP4. Las presentaciones iniciales de Blackwell utilizaron la precisión del FP8, pero la transición a recetas optimizadas para NVFP4 desbloqueó un rendimiento adicional sustancial del silicio existente.

  • Refinamientos algorítmicos. Las mejoras continuas en la pila de software program y las mejoras algorítmicas permitieron a la plataforma extraer más rendimiento del mismo {hardware}, lo que demuestra una innovación continua más allá de la implementación inicial.

¿Doblar la apuesta por Blackwell o esperar a Vera Rubin?

Salvator señaló que el Blackwell Extremely de gama alta es una plataforma líder en el mercado diseñada específicamente para ejecutar modelos y aplicaciones de IA de última generación.

Añadió que la plataforma Nvidia Rubin ampliará el liderazgo de mercado de la empresa y permitirá que la próxima generación de MoE impulse una nueva clase de aplicaciones para llevar la innovación en IA aún más lejos.

Salvator explicó que Vera Rubin está diseñado para abordar la creciente demanda de computación creada por el crecimiento continuo en el tamaño del modelo y la generación de tokens de razonamiento de modelos líderes como MoE.

“Blackwell y Rubin pueden ofrecer los mismos modelos, pero la diferencia es el rendimiento, la eficiencia y el coste simbólico”, afirmó.

Según los primeros resultados de las pruebas de Nvidia, en comparación con Blackwell, Rubin puede entrenar grandes modelos MoE en una cuarta parte de la cantidad de GPU, generar tokens de inferencia con 10 veces más rendimiento por vatio e inferencia a 1/10 del costo por token.

“Un mejor rendimiento y eficiencia del rendimiento de los tokens significa que se pueden construir modelos más nuevos con más capacidad de razonamiento y una interacción más rápida entre agentes, creando mejor inteligencia a un costo menor”, dijo Salvator.

Qué significa todo esto para los creadores de IA empresarial

Para las empresas que hoy implementan infraestructura de IA, las inversiones actuales en Blackwell siguen siendo sólidas a pesar de la llegada de Vera Rubin a finales de este año.

Las organizaciones con implementaciones de Blackwell existentes pueden capturar inmediatamente una mejora de inferencia de 2,8 veces y un aumento de capacitación de 1,4 veces actualizando a las últimas versiones de TensorRT-LLM, lo que ofrece ahorros de costos reales sin gastos de capital. Para quienes planean nuevas implementaciones en la primera mitad de 2026, tiene sentido continuar con Blackwell. Esperar seis meses significa retrasar las iniciativas de IA y potencialmente quedarse atrás de los competidores que ya las están implementando hoy.

Sin embargo, las empresas que planean construcciones de infraestructura a gran escala para finales de 2026 y más allá deberían tener en cuenta a Vera Rubin en sus hojas de ruta. La mejora de 10 veces en el rendimiento por vatio y el costo de 1/10 por token representan una economía transformadora para las operaciones de IA a escala.

El enfoque inteligente es la implementación por fases: aproveche Blackwell para las necesidades inmediatas mientras diseña sistemas que puedan incorporar Vera Rubin cuando esté disponible. El modelo de optimización continua de Nvidia significa que no se trata de una elección binaria; las empresas pueden maximizar el valor de las implementaciones actuales sin sacrificar la competitividad a largo plazo.

avotas