Home Tecnología Por qué el aprendizaje por refuerzo se estanca sin profundidad de representación...

Por qué el aprendizaje por refuerzo se estanca sin profundidad de representación (y otras conclusiones clave de NeurIPS 2025)

13
0

Imagen generada usando DALL·E de OpenAI

Cada año, NeurIPS produce cientos de artículos impresionantes y algunos que restablecen sutilmente la forma en que los profesionales piensan sobre el escalamiento, la evaluación y el diseño de sistemas. En 2025, los trabajos más importantes no se referían a un único modelo innovador. En cambio, desafiaron supuestos fundamentales en los que académicos y corporaciones han confiado silenciosamente: modelos más grandes significan mejor razonamiento, RL crea nuevas capacidades, la atención se “resuelve” y los modelos generativos inevitablemente se memorizan.

Los principales artículos de este año apuntan colectivamente a un cambio más profundo: el progreso de la IA ahora está menos limitado por la capacidad bruta del modelo y más por la arquitectura, la dinámica de entrenamiento y la estrategia de evaluación.

A continuación se muestra una inmersión técnica profunda en cinco de los artículos más influyentes de NeurIPS 2025 y lo que significan para cualquiera que construya sistemas de inteligencia synthetic en el mundo actual.

1. Los LLM están convergiendo y finalmente tenemos una manera de medirlo

Papel: Mente colmena artificial: la homogeneidad abierta de los modelos lingüísticos

Durante años, la evaluación de LLM se ha centrado en la corrección. Pero en tareas abiertas o ambiguas como la lluvia de concepts, la ideación o la síntesis creativa, a menudo hay no hay una única respuesta correcta. En cambio, el riesgo es la homogeneidad: modelos que producen las mismas respuestas “seguras” y de alta probabilidad.

Este documento presenta Chat infinito, un punto de referencia diseñado explícitamente para medir la diversidad y el pluralismo en la generación abierta. En lugar de calificar las respuestas como correctas o incorrectas, mide:

El resultado es incómodo pero importante: entre arquitecturas y proveedores, los modelos convergen cada vez más en resultados similares, incluso cuando existen múltiples respuestas válidas.

Por qué esto es importante en la práctica

Para las corporaciones, esto reformula la “alineación” como una compensación. El ajuste de preferencias y las limitaciones de seguridad pueden reducir silenciosamente la diversidad, lo que hace que los asistentes se sientan demasiado seguros, predecibles o sesgados hacia puntos de vista dominantes.

Llevar: Si su producto se basa en resultados creativos o exploratorios, las métricas de diversidad deben ser ciudadanas de primera clase.

2. La atención no ha terminado: una easy puerta lo cambia todo

Papel: Atención cerrada para modelos de lenguaje grandes

La atención de los transformadores se ha tratado como ingeniería establecida. Este artículo demuestra que no lo es.

Los autores introducen un pequeño cambio arquitectónico: aplicar una puerta sigmoidea dependiente de la consulta después de la atención del producto escalado, por cabeza de atención. Eso es todo. Sin granos exóticos, sin gastos generales enormes.

ACruza docenas de ejecuciones de entrenamiento a gran escala, incluidos modelos densos y de mezcla de expertos (MoE) entrenados en billones de tokens, esta variante cerrada:

  • Estabilidad mejorada

  • Reducción de los “sumideros de atención”

  • Mejorado desempeño en contexto largo

  • Superó consistentemente la atención vainilla

Por qué funciona

La puerta presenta:

  • No linealidad en salidas de atención

  • Escasez implícitasuprimiendo activaciones patológicas

Esto desafía la suposición de que las fallas de atención son puramente problemas de optimización o de datos.

Llevar: Algunos de los mayores problemas de confiabilidad de LLM pueden ser arquitectónicos, no algorítmicos, y solucionables con cambios sorprendentemente pequeños.

3. RL puede escalar, si escala en profundidad, no solo en datos

Papel: Redes de 1000 capas para el aprendizaje por refuerzo autosupervisadogramo

La sabiduría convencional cube que la RL no escala bien sin recompensas o demostraciones densas. Este artículo revela que esa suposición es incompleta.

Al escalar agresivamente la profundidad de la purple desde las típicas 2 a 5 capas hasta casi 1000 capas, los autores demuestran ganancias espectaculares en RL autosupervisada y condicionada por objetivos, con mejoras de rendimiento que van de 2X a 50X.

La clave no es la fuerza bruta. Se trata de combinar profundidad con objetivos contrastantes, regímenes de optimización estables y representaciones condicionadas por objetivos.

Por qué esto importa más allá de la robótica

Para los sistemas agentes y los flujos de trabajo autónomos, esto sugiere que la profundidad de la representación (no solo los datos o la configuración de la recompensa) puede ser una palanca crítica para la generalización y la exploración.

Llevar: Los límites de escala de RL pueden ser arquitectónicos, no fundamentales.

4. Por qué los modelos de difusión generalizan en lugar de memorizar

Papel: Por qué los modelos de difusión no memorizan: el papel de la regularización dinámica implícita en la formación

Los modelos de difusión están enormemente sobreparametrizados, pero a menudo se generalizan notablemente bien. Este artículo explica por qué.

Los autores identifican dos escalas de tiempo de capacitación distintas:

Fundamentalmente, la escala de tiempo de memorización crece linealmente con el tamaño del conjunto de datos, creando una ventana cada vez más amplia donde los modelos mejoran sin sobreajustarse.

Implicaciones prácticas

Esto reformula las estrategias de parada temprana y escalamiento de conjuntos de datos. La memorización no es inevitable: es predecible y retrasada.

Llevar: Para el entrenamiento de difusión, el tamaño del conjunto de datos no solo mejora la calidad, sino que retrasa activamente el sobreajuste.

5. RL mejora el rendimiento del razonamiento, no la capacidad de razonamiento

Papel: ¿El aprendizaje por refuerzo realmente incentiva el razonamiento en los LLM?

Quizás el resultado más importante desde el punto de vista estratégico de NeurIPS 2025 es también el más aleccionador.

Este artículo prueba rigurosamente si el aprendizaje por refuerzo con recompensas verificables (RLVR) realmente crea nuevas habilidades de razonamiento en LLM, o simplemente remodela las existentes.

Su conclusión: RLVR mejora principalmente la eficiencia del muestreo, no la capacidad de razonamiento. En muestras de gran tamaño, el modelo base a menudo ya contiene las trayectorias de razonamiento correctas.

Qué significa esto para los canales de formación de LLM

RL se entiende mejor como:

Llevar: Para expandir verdaderamente la capacidad de razonamiento, la RL probablemente deba combinarse con mecanismos como la destilación de los docentes o cambios arquitectónicos, y no usarse de forma aislada.

Panorama basic: el progreso de la IA se está volviendo limitado a los sistemas

En conjunto, estos artículos apuntan a un tema común:

El cuello de botella de la IA moderna ya no es el tamaño del modelo en bruto, sino el diseño del sistema.

  • El colapso de la diversidad requiere nuevas métricas de evaluación

  • Las fallas de atención requieren correcciones arquitectónicas

  • La escala de RL depende de la profundidad y la representación.

  • La memorización depende de la dinámica del entrenamiento, no del recuento de parámetros.

  • Las ganancias en razonamiento dependen de cómo se configuran las distribuciones, no solo de cómo se optimizan

Para los constructores, el mensaje es claro: la ventaja competitiva está pasando de “quién tiene el modelo más grande” a “quién entiende el sistema”.

Maitreyi Chatterjee es ingeniera de software program.

Devansh Agarwal trabaja actualmente como ingeniero de aprendizaje automático en FAANG.

¡Bienvenido a la comunidad VentureBeat!

Nuestro programa de publicaciones invitadas es donde los expertos técnicos comparten conocimientos y brindan análisis profundos neutrales y no adquiridos sobre inteligencia synthetic, infraestructura de datos, ciberseguridad y otras tecnologías de vanguardia que dan forma al futuro de las empresas.

Leer más de nuestro programa de publicaciones de invitados y consulte nuestro pautas ¡Si estás interesado en contribuir con un artículo propio!

avotas