Home Tecnología Los agentes de IA fallan el 63% de las veces en tareas...

Los agentes de IA fallan el 63% de las veces en tareas complejas. Patronus AI cube que sus nuevos mundos de entrenamiento “vivos” pueden solucionar este problema.

43
0

Patronus AIla startup de evaluación de inteligencia synthetic respaldada por $20 millones de inversores incluyendo Socios de riesgo de Lightspeed y perro de datospresentó el martes una nueva arquitectura de capacitación que, según cube, representa un cambio basic en la forma en que los agentes de IA aprenden a realizar tareas complejas.

La tecnología, que la empresa llama “Simuladores generativos,” crea entornos de simulación adaptativos que generan continuamente nuevos desafíos, actualizan reglas dinámicamente y evalúan el desempeño de un agente a medida que aprende, todo en tiempo actual. El enfoque marca un alejamiento de los puntos de referencia estáticos que han servido durante mucho tiempo como estándar de la industria para medir las capacidades de la IA, pero que han sido cada vez más criticados por no predecir el desempeño en el mundo actual.

“Los puntos de referencia tradicionales miden capacidades aisladas, pero pasan por alto las interrupciones, los cambios de contexto y la toma de decisiones en capas que definen el trabajo actual”, dijo Anand Kannappan, director ejecutivo y cofundador de Patronus AI, en una entrevista exclusiva con VentureBeat. “Para que los agentes se desempeñen a niveles humanos, necesitan aprender como lo hacen los humanos: a través de una experiencia dinámica y una retroalimentación continua”.

El anuncio llega en un momento crítico para la industria de la IA. Los agentes de IA están remodelando el desarrollo de software program, desde escribir código hasta ejecutar instrucciones complejas. Sin embargo, los agentes basados ​​en LLM son propensos a cometer errores y, a menudo, se desempeñan mal en tareas complicadas de varios pasos. Una investigación publicada a principios de este año encontró que un agente con solo una Tasa de error del 1% por paso puede aumentar hasta un 63% de posibilidades de fracaso en el centésimo paso, una estadística aleccionadora para las empresas que buscan implementar sistemas autónomos de IA a escala.

Por qué los puntos de referencia estáticos de IA están fallando y qué viene después

El enfoque de Patronus AI aborda lo que la compañía describe como un desajuste creciente entre cómo se evalúan los sistemas de IA y cómo se desempeñan realmente en producción. Los puntos de referencia tradicionales, argumenta la compañía, funcionan como pruebas estandarizadas: miden capacidades específicas en un momento fijo en el tiempo, pero luchan por capturar la naturaleza desordenada e impredecible del trabajo actual.

el nuevo Simuladores generativos La arquitectura invierte este modelo. En lugar de presentar a los agentes un conjunto fijo de preguntas, el sistema genera asignaciones, condiciones ambientales y procesos de supervisión sobre la marcha y luego se adapta en función de cómo se comporta el agente.

“Durante el año pasado, hemos visto un alejamiento de los puntos de referencia estáticos tradicionales hacia campos de aprendizaje más interactivos”, dijo a VentureBeat Rebecca Qian, directora de tecnología y cofundadora de Patronus AI. “Esto se debe en parte a la innovación que hemos visto por parte de los desarrolladores de modelos: el cambio hacia el aprendizaje reforzado, el post-entrenamiento y el aprendizaje continuo, y lejos del ajuste supervisado de la instrucción. Lo que eso significa es que ha habido un colapso en la distinción entre entrenamiento y evaluación. Los puntos de referencia se han convertido en entornos”.

La tecnología se basa en el aprendizaje por refuerzo, un enfoque en el que los sistemas de inteligencia synthetic aprenden mediante prueba y error, recibiendo recompensas por las acciones correctas y sanciones por los errores. El aprendizaje por refuerzo es un enfoque en el que los sistemas de IA aprenden a tomar decisiones óptimas recibiendo recompensas o penalizaciones por sus acciones, mejorando mediante prueba y error. RL puede ayudar a los agentes a mejorar, pero normalmente requiere que los desarrolladores reescriban exhaustivamente su código. Esto desalienta la adopción, aunque los datos que generan estos agentes podrían mejorar significativamente el rendimiento mediante la capacitación en RL.

Patronus AI también introdujo un nuevo concepto al que llama “Superación personal recursiva abierta,” u ORSI: entornos donde los agentes pueden mejorar continuamente a través de la interacción y la retroalimentación sin requerir un ciclo completo de reentrenamiento entre intentos. La compañía posiciona esto como una infraestructura crítica para desarrollar sistemas de inteligencia synthetic capaces de aprender continuamente en lugar de congelarse en un momento dado.

Dentro de la ‘Zona Ricitos de Oro’: cómo el entrenamiento adaptativo de IA encuentra el punto óptimo

En el corazón de Simuladores generativos Se encuentra lo que Patronus AI llama un “ajustador del plan de estudios”: un componente que analiza el comportamiento de los agentes y modifica dinámicamente la dificultad y la naturaleza de los escenarios de capacitación. El enfoque se inspira en cómo los docentes humanos eficaces adaptan su instrucción en función del desempeño de los estudiantes.

Qian explicó el enfoque mediante una analogía: “Se puede pensar en esto como un modelo profesor-alumno, en el que entrenamos el modelo y el profesor adapta continuamente el plan de estudios”.

Este enfoque adaptativo aborda un problema que Kannappan describió como encontrar la “Zona Ricitos de Oro” en los datos de entrenamiento: garantizar que los ejemplos no sean ni demasiado fáciles ni demasiado difíciles para que un modelo determinado pueda aprender de ellos de manera efectiva.

“Lo importante no es sólo si se puede entrenar con un conjunto de datos, sino si se puede entrenar con un conjunto de datos de alta calidad que esté ajustado a su modelo, uno del que realmente pueda aprender”, dijo Kannappan. “Queremos asegurarnos de que los ejemplos no sean ni demasiado difíciles ni demasiado fáciles para el modelo”.

La compañía cube que los resultados iniciales muestran mejoras significativas en el desempeño de los agentes. Según la compañía, la capacitación en los entornos de Patronus AI ha aumentado las tasas de finalización de tareas entre un 10% y un 20% en tareas del mundo actual, incluida la ingeniería de software program, el servicio al cliente y el análisis financiero.

El problema de las trampas de la IA: cómo los entornos de “objetivos móviles” evitan la piratería de recompensas

Uno de los desafíos más persistentes en el entrenamiento de agentes de IA mediante el aprendizaje por refuerzo es un fenómeno que los investigadores llaman “piratería de recompensas“—donde los sistemas aprenden a explotar las lagunas en su entorno de entrenamiento en lugar de resolver genuinamente los problemas. Los ejemplos famosos incluyen a los primeros agentes que aprendieron a esconderse en los rincones de los videojuegos en lugar de jugarlos.

Los Simuladores Generativos abordan esto haciendo del propio entorno de entrenamiento un objetivo en movimiento.

“El hackeo de recompensas es fundamentalmente un problema cuando los sistemas son estáticos. Es como si los estudiantes aprendieran a hacer trampa en un examen”, dijo Qian. “Pero cuando evolucionamos continuamente el entorno, podemos observar partes del sistema que necesitan adaptarse y evolucionar. Los puntos de referencia estáticos son objetivos fijos; los entornos de simuladores generativos son objetivos móviles”.

Patronus AI informa un crecimiento de ingresos 15 veces mayor a medida que aumenta la demanda empresarial de capacitación de agentes

Patronus AI posiciona los simuladores generativos como la base de una nueva línea de productos que llama “Entornos RL“: campos de capacitación diseñados para laboratorios modelo básicos y empresas que crean agentes para dominios específicos. La compañía cube que esta oferta representa una expansión estratégica más allá de su enfoque authentic en herramientas de evaluación.

“Hemos multiplicado por 15 nuestros ingresos este año, en gran parte debido a los entornos de alta calidad que hemos desarrollado y que han demostrado ser extremadamente fáciles de aprender mediante diferentes tipos de modelos de frontera”, dijo Kannappan.

El director ejecutivo se negó a especificar cifras absolutas de ingresos, pero dijo que el nuevo producto ha permitido a la empresa “avanzar en la clasificación en términos de dónde vendemos y a quién vendemos”. La plataforma de la empresa es utilizada por numerosas empresas Fortune 500 y empresas líderes en inteligencia synthetic de todo el mundo.

Por qué OpenAI, Anthropic y Google no pueden construir todo internamente

Una cuestión central que enfrenta Patronus AI Por eso los laboratorios con mucho dinero que desarrollan modelos de frontera (organizaciones como Abierto AI, antrópicoy Google DeepMind – otorgarían licencias para la infraestructura de capacitación en lugar de construirla ellos mismos.

Kannappan reconoció que estas empresas “están invirtiendo significativamente en entornos”, pero argumentó que la amplitud de dominios que requieren capacitación especializada crea una apertura pure para proveedores externos.

“Quieren mejorar los agentes en muchos dominios diferentes, ya sea codificación o uso de herramientas o navegación en navegadores o flujos de trabajo en finanzas, atención médica, energía y educación”, dijo. “Resolver todos esos diferentes problemas operativos es muy difícil para una sola empresa”.

El panorama competitivo se está intensificando. Microsoft lanzó recientemente Agente Rayoun marco de código abierto que hace que el aprendizaje por refuerzo funcione para cualquier agente de IA sin reescrituras. NVIDIA Gimnasio Nemo ofrece una infraestructura RL modular para desarrollar sistemas de IA agentes. Los metainvestigadores lanzaron DreamGym en noviembre, un marco que simula entornos de RL y ajusta dinámicamente la dificultad de las tareas a medida que los agentes mejoran.

‘Los entornos son el nuevo petróleo’: la audaz apuesta de Patronus AI por el futuro del entrenamiento en IA

De cara al futuro, Patronus AI enmarca su misión en términos amplios. La empresa quiere “ambientalizar todos los datos del mundo”, convirtiendo los flujos de trabajo humanos en sistemas estructurados de los que la IA pueda aprender.

“Creemos que todo debería ser un entorno; internamente, bromeamos diciendo que los entornos son el nuevo petróleo”, dijo Kannappan. “El aprendizaje por refuerzo es sólo un método de entrenamiento, pero lo que realmente importa es la construcción de un entorno”.

Qian describió la oportunidad en términos amplios: “Este es un campo de investigación completamente nuevo, que no ocurre todos los días. La simulación generativa está inspirada en las primeras investigaciones en robótica y agentes incorporados. Ha sido una quimera durante décadas, y sólo ahora somos capaces de lograr estas concepts gracias a las capacidades de los modelos actuales”.

La empresa se lanzó en septiembre de 2023 con un enfoque en la evaluación: ayudar a las empresas a identificar alucinaciones y problemas de seguridad en los resultados de la IA. Esa misión ahora se ha expandido hacia el entrenamiento mismo. Patronus AI sostiene que la separación tradicional entre evaluación y capacitación se está derrumbando, y que quien controle los entornos donde aprenden los agentes de IA dará forma a sus capacidades.

“Estamos realmente en este punto crítico, este punto de inflexión, donde lo que hagamos ahora impactará cómo será el mundo para las generaciones venideras”, dijo Qian.

Si Simuladores generativos Aún está por verse si podremos cumplir esa promesa. El crecimiento de 15 veces los ingresos de la compañía sugiere que los clientes empresariales están ávidos de soluciones, pero los jugadores con mucho dinero de microsoft a Meta están compitiendo para resolver el mismo problema basic. Si los últimos dos años le han enseñado algo a la industria es que en la IA, el futuro tiene la costumbre de llegar antes de lo previsto.

avotas