Home Tecnología El nuevo marco de agentes coincide con los sistemas de IA diseñados...

El nuevo marco de agentes coincide con los sistemas de IA diseñados por humanos y agrega cero costos de inferencia para su implementación

21
0

Los agentes creados sobre los modelos actuales a menudo fallan con cambios simples (una nueva biblioteca, una modificación del flujo de trabajo) y requieren un ingeniero humano para solucionarlo. Ese es uno de los desafíos más persistentes en la implementación de IA para la empresa: crear agentes que puedan adaptarse a entornos dinámicos sin un apoyo constante. Si bien los modelos actuales son poderosos, en gran medida son estáticos.

Para abordar esto, investigadores de la Universidad de California en Santa Bárbara han desarrollado Agentes que evolucionan en grupos (GEA), un nuevo marco que permite a grupos de agentes de IA evolucionar juntos, compartir experiencias y reutilizar sus innovaciones para mejorar de forma autónoma con el tiempo.

En experimentos sobre tareas complejas de codificación e ingeniería de software program, GEA superó sustancialmente a los marcos de trabajo de mejora automática existentes. Quizás lo más notable para los tomadores de decisiones empresariales fue que el sistema evolucionó de forma autónoma agentes que igualaron o superaron el rendimiento de los marcos minuciosamente diseñados por expertos humanos.

Las limitaciones de la evolución del ‘lobo solitario’

La mayoría existente sistemas de IA agentes confiar en arquitecturas fijas diseñadas por ingenieros. Estos sistemas a menudo luchan por ir más allá de los límites de capacidad impuestos por sus diseños iniciales.

Para resolver esto, los investigadores han buscado durante mucho tiempo crear agentes autoevolucionantes que puedan modificar de forma autónoma su propio código y estructura para superar sus límites iniciales. Esta capacidad es esencial para manejar entornos abiertos donde el agente debe explorar continuamente nuevas soluciones.

Sin embargo, los enfoques actuales de la autoevolución tienen un defecto estructural importante. Como señalan los investigadores en su artículo, la mayoría de los sistemas están inspirados en la evolución biológica y están diseñados en torno a procesos “centrados en el individuo”. Estos métodos suelen utilizar un enfoque estructurado en árbol: se selecciona un único agente “padre” para producir descendencia, creando ramas evolutivas distintas que permanecen estrictamente aisladas unas de otras.

Estructura clásica de agente autoevolutivo (fuente: arXiv)

Este aislamiento crea un efecto de silo. Un agente de una sucursal no puede acceder a los datos, herramientas o flujos de trabajo descubiertos por un agente de una sucursal paralela. Si no se selecciona un linaje específico para la próxima generación, cualquier descubrimiento valioso realizado por ese agente, como una nueva herramienta de depuración o un flujo de trabajo de prueba más eficiente, desaparece con él.

En su artículo, los investigadores cuestionan la necesidad de atenerse a esta metáfora biológica. “Los agentes de IA no son individuos biológicos”, argumentan. “¿Por qué su evolución debería seguir limitada por paradigmas biológicos?”

La inteligencia colectiva de los agentes en evolución de grupos

GEA cambia el paradigma al tratar a un grupo de agentes, en lugar de a un individuo, como la unidad elementary de la evolución.

El proceso comienza seleccionando un grupo de agentes principales de un archivo existente. Para garantizar una combinación saludable de estabilidad e innovación, GEA selecciona a estos agentes basándose en una puntuación combinada de desempeño (competencia para resolver tareas) y novedad (qué tan distintas son sus capacidades de las demás).

agente de evolución de grupo

Agente de evolución de grupo (GEA) (fuente: arXiv)

A diferencia de los sistemas tradicionales donde un agente sólo aprende de su padre directo, GEA crea un conjunto compartido de experiencia colectiva. Este grupo contiene los rastros evolutivos de todos los miembros del grupo principal, incluidas modificaciones de código, soluciones exitosas de tareas e historiales de invocación de herramientas. Cada agente del grupo obtiene acceso a esta historia colectiva, lo que les permite aprender de los avances y errores de sus compañeros.

Un “Módulo de Reflexión”, impulsado por un modelo de lenguaje de gran tamaño, analiza esta historia colectiva para identificar patrones en todo el grupo. Por ejemplo, si un agente descubre una herramienta de depuración de alto rendimiento mientras otro perfecciona un flujo de trabajo de prueba, el sistema extrae ambos conocimientos. Con base en este análisis, el sistema genera “directivas de evolución” de alto nivel que guían la creación del grupo secundario. Esto asegura que la próxima generación posea las fortalezas combinadas de todos sus padres, en lugar de solo los rasgos de un solo linaje.

GEA

Cómo GEA elige y comparte los rasgos de evolución (fuente: arXiv)

Sin embargo, este enfoque de mente colmena funciona mejor cuando el éxito es objetivo, como en las tareas de codificación. “Para dominios menos deterministas (por ejemplo, generación creativa), las señales de evaluación son más débiles”, dijeron a VentureBeat Zhaotian Weng y Xin Eric Wang, coautores del artículo, en comentarios escritos. “Compartir ciegamente resultados y experiencias puede introducir experiencias de baja calidad que actúan como ruido. Esto sugiere la necesidad de mecanismos de filtrado de experiencias más fuertes” para tareas subjetivas.

GEA en acción

Los investigadores probaron GEA contra la base precise de evolución automática de última generación, la Máquina de Darwin Gódel (DGM), sobre dos puntos de referencia rigurosos. Los resultados demostraron un salto masivo en la capacidad sin aumentar la cantidad de agentes utilizados.

Este enfoque colaborativo también hace que el sistema sea más sólido contra fallas. En sus experimentos, los investigadores rompieron intencionalmente agentes inyectando errores manualmente en sus implementaciones. GEA pudo reparar estos errores críticos en un promedio de 1,4 iteraciones, mientras que la línea base requirió 5 iteraciones. El sistema aprovecha eficazmente a los miembros “sanos” del grupo para diagnosticar y parchear a los que están comprometidos.

En SWE-bench Verified, un punto de referencia que consta de problemas reales de GitHub, incluidos errores y solicitudes de funciones, GEA logró una tasa de éxito del 71,0 %, en comparación con el 56,7 % de la base. Esto se traduce en un aumento significativo en el rendimiento de la ingeniería autónoma, lo que significa que los agentes son mucho más capaces de manejar el mantenimiento del software program en el mundo actual. De manera comparable, en Polyglot, que prueba la generación de código en diversos lenguajes de programación, GEA logró un 88,3 % frente al 68,3 % de la línea base, lo que indica una alta adaptabilidad a diferentes pilas de tecnología.

GEA frente a DGM

GEA vs Máquina Darwin-Godel (DGM) (fuente: arXiv)

Para los equipos de I+D de las empresas, el hallazgo más importante es que GEA permite que la IA se diseñe a sí misma con tanta eficacia como los ingenieros humanos. En SWE-bench, la tasa de éxito del 71,0% de GEA coincide efectivamente con el desempeño de Manos Abiertasel principal marco de código abierto diseñado por humanos. En Polyglot, GEA superó significativamente a Aider, un fashionable asistente de codificación, que logró un 52,0%. Esto sugiere que las organizaciones pueden eventualmente reducir su dependencia de grandes equipos de ingenieros rápidos para modificar los marcos de los agentes, ya que los agentes pueden metaaprender estas optimizaciones de forma autónoma.

Esta eficiencia se extiende a la gestión de costes. “GEA es explícitamente un sistema de dos etapas: (1) evolución del agente, luego (2) inferencia/despliegue”, dijeron los investigadores. “Después de la evolución, se implementa un único agente evolucionado… por lo que el costo de inferencia empresarial esencialmente no cambia en comparación con una configuración estándar de un solo agente”.

El éxito de GEA se debe en gran medida a su capacidad para consolidar mejoras. Los investigadores rastrearon innovaciones específicas inventadas por los agentes durante el proceso evolutivo. En el enfoque básico, a menudo aparecían herramientas valiosas en ramas aisladas, pero no lograban propagarse porque esos linajes específicos terminaron. En GEA, el modelo de experiencia compartida garantizó que estas herramientas fueran adoptadas por los agentes con mejor desempeño. El principal agente de GEA integró rasgos de 17 ancestros únicos (que representan el 28% de la población), mientras que el mejor agente de referencia integró rasgos de sólo 9. De hecho, GEA crea un “superempleado” que posee las mejores prácticas combinadas de todo el grupo.

“Un flujo de trabajo en producción inspirado en GEA permitiría a los agentes intentar primero algunas soluciones independientes cuando se produzcan fallas”, explicaron los investigadores con respecto a esta capacidad de autocuración. “Un agente de reflexión (normalmente impulsado por un modelo de base sólida) puede luego resumir los resultados… y guiar una actualización más completa del sistema”.

Además, las mejoras descubiertas por GEA no están vinculadas a un modelo subyacente específico. Los agentes que evolucionaron utilizando un modelo, como Claude, mantuvieron sus mejoras de rendimiento incluso cuando el motor subyacente se cambió a otra familia de modelos, como GPT-5.1 o GPT-o3-mini. Esta transferibilidad ofrece a las empresas la flexibilidad de cambiar de proveedor de modelos sin perder las optimizaciones arquitectónicas personalizadas que sus agentes han aprendido.

Para industrias con requisitos de cumplimiento estrictos, la concept de un código automodificable puede parecer arriesgada. Para abordar esto, los autores dijeron: “Esperamos que las implementaciones empresariales incluyan barreras de seguridad no evolucionables, como ejecución en espacio aislado, restricciones de políticas y capas de verificación”.

Si bien los investigadores planean publicar el código oficial pronto, los desarrolladores ya pueden comenzar a implementar conceptualmente la arquitectura GEA sobre los marcos de agentes existentes. El sistema requiere tres adiciones clave a una pila de agentes estándar: un “archivo de experiencia” para almacenar rastros evolutivos, un “módulo de reflexión” para analizar patrones de grupo y un “módulo de actualización” que permite al agente modificar su propio código en función de esos conocimientos.

De cara al futuro, el marco podría democratizar el desarrollo avanzado de agentes. “Una dirección prometedora son los conductos de evolución híbridos”, dijeron los investigadores, “donde modelos más pequeños exploran temprano para acumular diversas experiencias, y modelos más fuertes luego guían la evolución utilizando esas experiencias”.

avotas

LEAVE A REPLY

Please enter your comment!
Please enter your name here