Home Tecnología Cómo la nueva forma de DeepSeek de entrenar modelos avanzados de IA...

Cómo la nueva forma de DeepSeek de entrenar modelos avanzados de IA podría alterar todo, otra vez

24
0

Flavio Coelho/ Momento vía Getty

Siga ZDNET: Agréganos como fuente preferida en Google.


Conclusiones clave de ZDNET

  • DeepSeek debutó con hiperconexiones restringidas por múltiples, o metroHC.
  • Ofrecen una forma de ampliar los LLM sin incurrir en enormes costos.
  • La empresa pospuso el lanzamiento de su modelo R2 hasta mediados de 2025.

Justo antes del comienzo del nuevo año, el mundo de la IA conoció un nuevo método potencial y revolucionario para entrenar modelos avanzados.

Un equipo de investigadores de la firma china de inteligencia synthetic DeepSeek publicó un artículo el miércoles que describe lo que llamó hiperconexiones con restricciones múltiples, o metroHC para abreviar, que puede proporcionar un camino para que los ingenieros construyan y escalen modelos de lenguaje grandes sin los enormes costos computacionales que normalmente se requieren.

Además: ¿Es el nuevo modelo de DeepSeek el último golpe a la IA propietaria?

DeepSeek saltó al centro de atención cultural hace un año con el lanzamiento de R1, un modelo que rivalizaba con las capacidades de o1 de OpenAI y que, según se informa, fue entrenado a una fracción del costo. El lanzamiento fue una sorpresa para los desarrolladores de tecnología con sede en EE. UU., porque demostró que el acceso a enormes reservas de capital y recursos informáticos no period necesariamente necesario para entrenar modelos de IA de vanguardia.

el nuevo metroEl papel HC podría convertirse en el marco tecnológico para el próximo modelo de DeepSeek, R2, que se esperaba para mediados del año pasado pero que fue pospuesto. según se informa debido al acceso limitado de China a chips de IA avanzados y a las preocupaciones del director ejecutivo de la compañía, Liang Wenfeng, sobre el rendimiento del modelo.

El desafío

Publicado en el sitio del servidor de preimpresión arXiv, un common recurso en línea donde los investigadores pueden compartir resultados de estudios que aún no han sido revisados ​​por pares, el nuevo DeepSeek papel es un intento de cerrar una brecha técnica compleja e importante que obstaculiza la escalabilidad de los modelos de IA.

Además: el último lanzamiento de código abierto de Mistral apuesta por modelos más pequeños sobre los grandes: he aquí por qué

Los LLM se basan en redes neuronales, que a su vez están diseñadas para conservar señales en muchas capas. El problema es que a medida que se añaden más capas, más se puede atenuar o degradar la señal y mayor es el riesgo de que se convierta en ruido. Es un poco como jugar al teléfono: cuantas más personas se agregan, mayores son las posibilidades de que el mensaje unique se confunda y se altere.

El desafío principal, entonces, es construir modelos que puedan conservar sus señales en tantas capas como sea posible, o “optimizar mejor el equilibrio entre plasticidad y estabilidad”, como lo describen los investigadores de DeepSeek en su nuevo artículo.

la solucion

Los autores del nuevo artículo, entre los que se encuentra el director ejecutivo de DeepSeek, Liang Wenfeng, se basaron en hiperconexioneso HC, un marco introducido en 2024 por investigadores de ByteDance, que diversifica la cantidad de canales a través de los cuales las capas de una pink neuronal pueden compartir información entre sí. Sin embargo, los HC presentan el riesgo de que la señal unique se pierda en la traducción. (Nuevamente, piense en cada vez más personas que se suman a un juego de teléfono). También conllevan altos costos de memoria, lo que dificulta su implementación a escala.

Además: DeepSeek puede estar a punto de revolucionar el mundo de la IA nuevamente: lo que sabemos

El metroLa arquitectura HC tiene como objetivo resolver esto restringiendo la hiperconectividad dentro de un modelo, preservando así la complejidad de la información habilitada por los HC y evitando el problema de la memoria. Esto, a su vez, podría permitir la capacitación de modelos altamente complejos de una manera que podría ser práctica y escalable incluso para desarrolladores más pequeños y con problemas de liquidez.

Por qué es importante

Al igual que con el lanzamiento de R1 en enero de 2025, el debut del metroEl marco HC podría indicar una nueva dirección para la evolución de la IA.

Hasta ahora, en la carrera de la IA, la opinión predominante ha sido que sólo las empresas más grandes y con más dinero pueden darse el lujo de construir modelos de vanguardia. Pero DeepSeek ha demostrado continuamente que es posible encontrar soluciones alternativas y que se pueden lograr avances únicamente mediante una ingeniería inteligente.

El hecho de que la empresa haya publicado su nueva investigación sobre su metroEl método HC significa que podría ser ampliamente adoptado por desarrolladores más pequeños, especialmente si termina siendo utilizado por el tan esperado modelo R2 (cuya fecha de lanzamiento no se ha anunciado oficialmente).



avotas