Home Tecnología Instructed Retriever de Databricks supera la recuperación de datos RAG tradicional en...

Instructed Retriever de Databricks supera la recuperación de datos RAG tradicional en un 70 %: los metadatos empresariales eran el eslabón perdido

31
0

Un elemento central de cualquier operación de recuperación de datos es el uso de un componente conocido como recuperador. Su trabajo es recuperar el contenido relevante para una consulta determinada.

En la period de la IA, los recuperadores se utilizaban como parte de los oleoductos RAG. El enfoque es sencillo: recuperar documentos relevantes, enviarlos a un LLM y dejar que el modelo genere una respuesta basada en ese contexto.

Si bien la recuperación podría haber parecido un problema resuelto, en realidad no lo fue para los flujos de trabajo de IA agentes modernos.

En investigación Publicado esta semana, Databricks presentó Instructed Retriever, una nueva arquitectura que, según la compañía, ofrece hasta un 70% de mejora con respecto al RAG tradicional en tareas empresariales complejas y con muchas instrucciones de respuesta a preguntas. La diferencia se scale back a cómo el sistema entiende y utiliza los metadatos.

“Muchos de los sistemas que se construyeron para la recuperación antes de la period de los grandes modelos de lenguaje en realidad se construyeron para que los usaran los humanos, no para que los usaran los agentes”, dijo a VentureBeat Michael Bendersky, director de investigación de Databricks. “Lo que encontramos es que en muchos casos, los errores que provienen del agente no se deben a que el agente no pueda razonar sobre los datos. Se debe a que, en primer lugar, el agente no puede recuperar los datos correctos”.

Lo que les falta a los perros perdigueros RAG tradicionales

El problema central surge de cómo el RAG tradicional maneja lo que Bendersky llama “especificaciones a nivel de sistema”. Estos incluyen el contexto completo de instrucciones de usuario, esquemas de metadatos y ejemplos que definen cómo debería ser una recuperación exitosa.

En una canalización RAG típica, la consulta de un usuario se convierte en una incrustación, se recuperan documentos similares de una base de datos vectorial y esos resultados se introducen en un modelo de lenguaje para su generación. El sistema puede incorporar filtrado básico, pero fundamentalmente trata cada consulta como un ejercicio aislado de coincidencia de texto.

Este enfoque se rompe con datos empresariales reales. Los documentos empresariales suelen incluir metadatos enriquecidos, como marcas de tiempo, información del autor, valoraciones de productos, tipos de documentos y atributos específicos del dominio. Cuando un usuario hace una pregunta que requiere razonamiento sobre estos campos de metadatos, el RAG tradicional tiene dificultades.

Considere este ejemplo: “Muéstreme reseñas de productos de cinco estrellas de los últimos seis meses, pero excluya cualquier cosa de la Marca X”. El RAG tradicional no puede traducir de manera confiable esa restricción del lenguaje pure en los filtros de base de datos y consultas estructuradas adecuados.

“Si sólo se utiliza un sistema RAG tradicional, no hay forma de utilizar todas estas señales diferentes sobre los datos que están encapsulados en metadatos”, dijo Bendersky. “Deben pasarse al propio agente para que haga el trabajo correcto en la recuperación”.

El problema se vuelve más grave a medida que las empresas van más allá de la easy búsqueda de documentos hacia flujos de trabajo agentes. Un humano que utiliza un sistema de búsqueda puede reformular consultas y aplicar filtros manualmente cuando los resultados iniciales no dan en el blanco. Un agente de IA que opera de forma autónoma necesita el propio sistema de recuperación para comprender y ejecutar instrucciones complejas y multifacéticas.

Cómo funciona el perro perdiguero instruido

El enfoque de Databricks rediseña fundamentalmente el proceso de recuperación. El sistema propaga especificaciones completas del sistema a través de cada etapa de recuperación y generación. Estas especificaciones incluyen instrucciones para el usuario, ejemplos etiquetados y esquemas de índice.

La arquitectura agrega tres capacidades clave:

Descomposición de consultas: El sistema divide solicitudes complejas de varias partes en un plan de búsqueda que contiene múltiples búsquedas de palabras clave e instrucciones de filtrado. Una solicitud de “productos recientes de FooBrand, excluyendo los modelos lite” se descompone en consultas estructuradas con filtros de metadatos adecuados. Los sistemas tradicionales intentarían una única búsqueda semántica.

Razonamiento de metadatos: Las instrucciones en lenguaje pure se traducen en filtros de bases de datos. “Del año pasado” se convierte en un filtro de fecha, “reseñas de cinco estrellas” se convierte en un filtro de calificación. El sistema comprende qué metadatos están disponibles y cómo relacionarlos con la intención del usuario.

Relevancia contextual: La etapa de reclasificación utiliza el contexto completo de las instrucciones del usuario para mejorar los documentos que coinciden con la intención, incluso cuando las palabras clave tienen una concordancia más débil. El sistema puede priorizar la actualidad o tipos de documentos específicos según las especificaciones en lugar de solo la similitud del texto.

“La magia está en cómo construimos las consultas”, dijo Bendersky. “Intentamos utilizar la herramienta como lo haría un agente, no como lo haría un humano. Tiene todas las complejidades de la API y las utiliza de la mejor manera posible”.

Memoria contextual versus arquitectura de recuperación

Durante la segunda mitad de 2025, hubo un cambio en la industria desde RAG hacia la memoria de IA agente, a veces denominada memoria contextual. Enfoques que incluyen Comprensión retrospectiva y A-MEM surgió ofreciendo la promesa de un futuro libre de RAG.

Bendersky sostiene que la memoria contextual y la recuperación sofisticada tienen propósitos diferentes. Ambos son necesarios para los sistemas de inteligencia synthetic empresariales.

“No hay manera de que puedas poner todo lo que hay en tu empresa en tu memoria contextual”, señaló Bendersky. “Se necesitan ambas cosas. Se necesita memoria contextual para proporcionar especificaciones y esquemas, pero aún así se necesita acceso a los datos, que pueden estar distribuidos en múltiples tablas y documentos”.

La memoria contextual sobresale en el mantenimiento de especificaciones de tareas, preferencias de usuario y esquemas de metadatos dentro de una sesión. Mantiene las “reglas del juego” fácilmente disponibles. Pero el corpus de datos empresarial actual existe fuera de esta ventana contextual. La mayoría de las empresas tienen volúmenes de datos que superan en órdenes de magnitud incluso las ventanas de contexto más generosas.

Instructed Retriever aprovecha la memoria contextual para especificaciones a nivel de sistema mientras utiliza la recuperación para acceder a un conjunto de datos más amplio. Las especificaciones en contexto informan cómo el recuperador construye consultas e interpreta los resultados. Luego, el sistema de recuperación extrae documentos específicos de potencialmente miles de millones de candidatos.

Esta división del trabajo es importante para el despliegue práctico. Cargar millones de documentos en contexto no es factible ni eficiente. Los metadatos por sí solos pueden ser sustanciales cuando se trata de sistemas heterogéneos en una empresa. Instructed Retriever resuelve esto haciendo que los metadatos sean utilizables inmediatamente sin necesidad de que todos encajen en contexto.

Disponibilidad y consideraciones prácticas.

Instructed Retriever ya está disponible como parte de Ladrillos del agente de Databricks; está integrado en el producto Information Assistant. Las empresas que utilizan Information Assistant para crear sistemas de respuesta a preguntas sobre sus documentos aprovechan automáticamente la arquitectura de Instructed Retriever sin crear canales RAG personalizados.

El sistema no está disponible como código abierto, aunque Bendersky indicó que Databricks está considerando una disponibilidad más amplia. Por ahora, la estrategia de la compañía es lanzar puntos de referencia como StaRK-Instruct a la comunidad de investigación manteniendo la implementación patentada para sus productos empresariales.

La tecnología se muestra particularmente prometedora para las empresas con datos complejos y altamente estructurados que incluyen metadatos enriquecidos. Bendersky citó casos de uso en finanzas, comercio electrónico y atención médica. Básicamente, cualquier dominio donde los documentos tengan atributos significativos más allá del texto sin formato puede beneficiarse.

“Lo que hemos visto en algunos casos desbloquea cosas que el cliente no puede hacer sin él”, dijo Bendersky.

Explicó que sin Instructed Retriever, los usuarios tienen que realizar más tareas de administración de datos para colocar el contenido en la estructura y tablas correctas para que un LLM recupere adecuadamente la información correcta.

“Aquí puedes simplemente crear un índice con los metadatos correctos, señalarlo con tu recuperador y funcionará de inmediato”, dijo.

Qué significa esto para la estrategia de IA empresarial

Para las empresas que construyen sistemas basados ​​en RAG hoy en día, la investigación plantea una pregunta crítica: ¿Su canal de recuperación es realmente capaz de seguir instrucciones y razonar metadatos que su caso de uso requiere?

La mejora del 70 % que demuestra Databricks no se puede lograr mediante una optimización incremental. Representa una diferencia arquitectónica en cómo fluyen las especificaciones del sistema a través del proceso de recuperación y generación. Las organizaciones que han invertido en estructurar cuidadosamente sus datos con metadatos detallados pueden descubrir que el RAG tradicional está dejando gran parte del valor de esa estructura sobre la mesa.

Para las empresas que buscan implementar sistemas de IA que puedan seguir de manera confiable instrucciones complejas de varias partes a través de fuentes de datos heterogéneas, la investigación indica que la arquitectura de recuperación puede ser el diferenciador crítico.

Aquellos que todavía dependen de RAG básico para casos de uso de producción que involucran metadatos ricos deben evaluar si su enfoque precise puede cumplir fundamentalmente con sus requisitos. La brecha de rendimiento que demuestra Databricks sugiere que una arquitectura de recuperación más sofisticada ahora es algo en juego para las empresas con conjuntos de datos complejos.

avotas