Home Tecnología La memoria condicional de DeepSeek corrige el desperdicio silencioso de LLM: ciclos...

La memoria condicional de DeepSeek corrige el desperdicio silencioso de LLM: ciclos de GPU perdidos debido a búsquedas estáticas

17
0

Cuando un LLM empresarial recupera el nombre de un producto, una especificación técnica o una cláusula contractual estándar, utiliza un costoso cálculo de GPU diseñado para un razonamiento complejo, solo para acceder a información estática. Esto sucede millones de veces al día. Cada búsqueda desperdicia ciclos e infla los costos de infraestructura.

DeepSeek Investigación recientemente publicada sobre la “memoria condicional” aborda esta limitación arquitectónica directamente. El trabajo presenta Engram, un módulo que separa la recuperación de patrones estáticos del razonamiento dinámico. Ofrece resultados que desafían las suposiciones sobre para qué sirve realmente la memoria en las redes neuronales. El artículo fue coautor de búsqueda profunda fundador Liang Wenfeng.

A través de experimentos sistemáticos, DeepSeek encontró el equilibrio óptimo entre computación y memoria con un 75% de la escasa capacidad del modelo asignada al razonamiento dinámico y un 25% a búsquedas estáticas. Este sistema de memoria mejoró el razonamiento más que la recuperación de conocimientos.

Los puntos de referencia de razonamiento complejo aumentaron del 70 % al 74 % de precisión, mientras que las pruebas centradas en el conocimiento mejoraron del 57 % al 61 %. Estas mejoras provinieron de pruebas que incluyen Large-Bench Exhausting, ARC-Problem y MMLU.

La investigación llega en un momento en que las empresas enfrentan una presión cada vez mayor para implementar sistemas de IA más capaces mientras navegan por las limitaciones de memoria de la GPU y los costos de infraestructura. El enfoque de DeepSeek ofrece un camino potencial a seguir al repensar fundamentalmente cómo se deben estructurar los modelos.

Cómo la memoria condicional resuelve un problema diferente al de la memoria agente y RAG

Los sistemas de memoria agente, a veces denominados memoria contextual, como Comprensión retrospectiva, Memoso memp — centrarse en la memoria episódica. Almacenan registros de conversaciones pasadas, preferencias del usuario e historial de interacciones. Estos sistemas ayudan a los agentes a mantener el contexto entre sesiones y aprender de la experiencia. Pero son externos al avance del modelo y no optimizan la forma en que el modelo procesa internamente los patrones lingüísticos estáticos.

Para Chris Latimer, fundador y director ejecutivo de Vectorize, que desarrolló Hindsight, el enfoque de memoria condicional utilizado en Engram resuelve un problema diferente al de la memoria de IA agente.

“No resuelve el problema de conectar agentes a la memoria externa, como historiales de conversaciones y almacenes de conocimientos”, dijo Latimer a VentureBeat. “Está más orientado a exprimir el rendimiento de los modelos más pequeños y sacar más provecho de los escasos recursos de GPU”.

La memoria condicional aborda un problema basic: los transformadores carecen de una primitiva de búsqueda de conocimiento nativa. Al procesar texto, deben simular la recuperación de patrones estáticos mediante costosos cálculos neuronales en múltiples capas. Estos patrones incluyen entidades con nombre, terminología técnica y frases comunes.

El artículo de DeepSeek ilustra esto con un ejemplo concreto. Reconocer a “Diana, Princesa de Gales” requiere consumir múltiples capas de atención y redes de retroalimentación para componer progresivamente las funciones. Básicamente, el modelo utiliza circuitos lógicos dinámicos y profundos para realizar lo que debería ser una easy búsqueda en una tabla hash. Es como usar una calculadora para recordar su número de teléfono en lugar de simplemente buscarlo.

“El problema es que Transformer carece de la capacidad de ‘búsqueda de conocimientos nativos'”, escriben los investigadores. “Muchas tareas que deberían resolverse en tiempo O(1), como la recuperación, tienen que ser ‘simuladas para su recuperación’ mediante una gran cantidad de cálculos, lo cual es muy ineficiente”.

Cómo funciona la memoria condicional

Engram introduce la “memoria condicional” para trabajar junto con el cálculo condicional de MoE.

El mecanismo es sencillo. El módulo toma secuencias de dos o tres tokens y utiliza funciones hash para buscarlas en una tabla de incrustación masiva. La recuperación ocurre en tiempo constante, independientemente del tamaño de la tabla.

Pero los patrones recuperados necesitan ser filtrados. Una búsqueda hash de “Apple” podría chocar con contenido no relacionado, o la palabra podría significar la fruta en lugar de la empresa. Engram resuelve esto con un mecanismo de compuerta. La comprensión precise del contexto del modelo (acumulada a través de capas de atención anteriores) actúa como un filtro. Si la memoria recuperada contradice el contexto precise, la puerta la suprime. Si encaja, la puerta lo deja pasar.

El módulo no se aplica en todas las capas. La ubicación estratégica equilibra las ganancias de rendimiento con la latencia del sistema.

Este diseño de sistema twin plantea una pregunta crítica: ¿cuánta capacidad debería tener cada uno? El hallazgo clave de DeepSeek: la división óptima es del 75 al 80 % para la computación y del 20 al 25 % para la memoria. Las pruebas encontraron que el MoE puro (100% de cálculo) resultó subóptimo. Demasiado cálculo desperdicia profundidad reconstruyendo patrones estáticos; demasiada memoria pierde capacidad de razonamiento.

Eficiencia de la infraestructura: el bypass de la memoria de la GPU

Quizás la contribución más pragmática de Engram sea su diseño consciente de la infraestructura. A diferencia del enrutamiento dinámico de MoE, que depende de estados ocultos en tiempo de ejecución, los índices de recuperación de Engram dependen únicamente de secuencias de tokens de entrada. Esta naturaleza determinista permite una estrategia de captación previa y superposición.

“El desafío es que la memoria de la GPU es limitada y costosa, por lo que usar modelos más grandes se vuelve costoso y más difícil de implementar”, afirmó Latimer. “La concept inteligente detrás de Engram es mantener el modelo principal en la GPU, pero descargar una gran parte de la información almacenada del modelo en una memoria separada en la RAM regular, que el modelo puede usar justo a tiempo”.

Durante la inferencia, el sistema puede recuperar de forma asíncrona incrustaciones de la memoria de la CPU del host a través de PCIe. Esto sucede mientras la GPU calcula los bloques transformadores anteriores. La ubicación estratégica de capas aprovecha el cálculo de las primeras capas como un búfer para enmascarar la latencia de la comunicación.

Los investigadores demostraron esto con una tabla de incrustación de 100B de parámetros completamente descargada en la DRAM alojada. Lograron penalizaciones de rendimiento inferiores al 3%. Esta desvinculación del almacenamiento de la computación aborda una limitación empresarial crítica, ya que la memoria de gran ancho de banda de la GPU sigue siendo costosa y escasa.

Qué significa esto para la implementación de la IA empresarial

Para las empresas que evalúan estrategias de infraestructura de IA, los hallazgos de DeepSeek sugieren varias concepts prácticas:

1. Las arquitecturas híbridas superan a los enfoques puros. La ley de asignación 75/25 indica que los modelos óptimos deberían dividir la escasa capacidad entre computación y memoria.

2. Los costos de infraestructura pueden pasar de la GPU a la memoria. Si las arquitecturas de estilo Engram resultan viables en producción, los patrones de inversión en infraestructura podrían cambiar. La capacidad de almacenar más de 100 mil millones de parámetros en la memoria de la CPU con una sobrecarga mínima sugiere que las configuraciones ricas en memoria y moderadas en computación pueden ofrecer un mejor rendimiento por dólar que el escalado puro de GPU.

3. Las mejoras en el razonamiento superan las ganancias en conocimiento. El sorprendente hallazgo de que el razonamiento beneficia más que la recuperación de conocimientos sugiere que el valor de la memoria se extiende más allá de los casos de uso obvios.

Para las empresas que lideran la adopción de la IA, Engram demuestra que la próxima frontera puede no ser simplemente modelos más grandes. Son elecciones arquitectónicas más inteligentes las que respetan la distinción basic entre conocimiento estático y razonamiento dinámico. La investigación sugiere que los sistemas de IA óptimos se parecerán cada vez más a las arquitecturas híbridas.

Las organizaciones que esperan adoptar la IA más adelante en el ciclo deberían monitorear si los principales proveedores de modelos incorporan principios de memoria condicional en sus arquitecturas. Si la ley de asignación 75/25 se cumple en todas las escalas y dominios, la próxima generación de modelos básicos puede ofrecer un rendimiento de razonamiento sustancialmente mejor a menores costos de infraestructura.

avotas