Home Tecnología Más allá de la casa del lago: NEXUS de Basic evita el...

Más allá de la casa del lago: NEXUS de Basic evita el ETL guide con un modelo básico nativo para datos tabulares

24
0

La revolución del aprendizaje profundo tiene un curioso punto ciego: la hoja de cálculo. Si bien los modelos de lenguaje grande (LLM) han dominado los matices de la prosa humana y los generadores de imágenes han conquistado el lienzo digital, los datos estructurados y relacionales que sustentan la economía world (las filas y columnas de los sistemas ERP, CRM y libros de contabilidad financieros) hasta ahora se han tratado como un formato de archivo más related al texto o los PDF.

Esto ha obligado a las empresas a pronosticar los resultados comerciales utilizando el típico proceso de ciencia de datos personalizado y laborioso de ingeniería de funciones guide y algoritmos clásicos de aprendizaje automático que son anteriores al aprendizaje profundo moderno.

Pero ahora Fundamentaluna empresa de inteligencia synthetic con sede en San Francisco cofundada por ex alumnos de DeepMind, es Lanzamiento hoy con $255 millones en financiamiento total para cerrar esta brecha..

Saliendo del sigilo, la compañía presenta NEXUS, un modelo tabular grande (LTM) diseñado para tratar los datos comerciales no como una easy secuencia de palabras, sino como una crimson compleja de relaciones no lineales.

Los cofundadores fundamentales Jeremy Fraenkel, Annie Lamont y Gabriel Suissa. Crédito: Basic

La tecnología: ir más allá de la lógica secuencial

La mayoría de los modelos de IA actuales se basan en lógica secuencial: predicen la siguiente palabra en una oración o el siguiente píxel en un cuadro.

Sin embargo, los datos empresariales son inherentemente no secuenciales. El riesgo de pérdida de un cliente no es sólo un cronograma; es una intersección multidimensional de la frecuencia de las transacciones, el sentimiento de los tickets de soporte y los cambios económicos regionales. Los LLM existentes luchan con esto porque no se adaptan bien a las limitaciones de tamaño y dimensionalidad de las tablas a escala empresarial.

“Los datos más valiosos del mundo se encuentran en tablas y hasta ahora no ha habido ningún buen modelo básico creado específicamente para comprenderlos”, afirmó Jeremy Fraenkel, director ejecutivo y cofundador de Basic.

En una entrevista reciente con VentureBeat, Fraenkel enfatizó que si bien el mundo de la IA está obsesionado con el texto, el audio y el video, las tablas siguen siendo la modalidad más importante para las empresas. “Los LLM realmente no pueden manejar muy bien este tipo de datos”, explicó, “y las empresas actualmente dependen de algoritmos de aprendizaje automático de la vieja escuela para hacer predicciones”.

NEXUS se entrenó en miles de millones de conjuntos de datos tabulares del mundo actual utilizando Amazon SageMaker HyperPod. A diferencia de los modelos tradicionales XGBoost o Random Forest, que requieren que los científicos de datos definan manualmente las características (las variables específicas que el modelo debe considerar), NEXUS está diseñado para ingerir tablas sin procesar directamente.

Identifica patrones latentes en columnas y filas que los analistas humanos podrían pasar por alto, leyendo de manera efectiva el lenguaje oculto de la cuadrícula para comprender las interacciones no lineales.

La trampa de la tokenización

Una razón principal por la que los LLM tradicionales fallan con los datos tabulares es cómo procesan los números. Fraenkel explica que los LLM tokenizan números de la misma manera que tokenizan palabras, dividiéndolas en partes más pequeñas. “El problema es que aplican lo mismo a los números. Las tablas son, en common, todas numéricas”, señaló Fraenkel. “Si tienes un número como 2,3, el ‘2’, el ‘.’ y el ‘3’ se ven como tres tokens diferentes. Eso esencialmente significa que pierdes la comprensión de la distribución de los números. No es como una calculadora; no siempre obtienes la respuesta correcta porque el modelo no comprende el concepto de números de forma nativa”.

Además, los datos tabulares son invariantes en el orden de una manera que el lenguaje no lo es. Fraenkel ilustra un ejemplo de atención sanitaria: “Si les doy una tabla con cientos de miles de pacientes y les pido que predigan cuál de ellos tiene diabetes, no debería importar si la primera columna es la altura y la segunda el peso, o viceversa”.

Si bien los LLM son muy sensibles al orden de las palabras en una indicación, NEXUS está diseñado para comprender que el cambio de posición de las columnas no debería afectar la predicción subyacente.

Operando en la capa predictiva

Integraciones recientes de alto perfil, como la aparición de Claude de Anthropic directamente en Microsoft Excel, han sugerido que los LLM ya están resolviendo tablas.

Sin embargo, Fraenkel distingue el trabajo de Basic por operar en una capa fundamentalmente diferente: la capa predictiva. “Lo que están haciendo es esencialmente en la capa de fórmulas: las fórmulas son texto, son como código”, dijo. “No estamos tratando de permitirle construir un modelo financiero en Excel. Lo estamos ayudando a hacer un pronóstico”.

NEXUS está diseñado para decisiones en una fracción de segundo en las que un humano no está al tanto, como un proveedor de tarjetas de crédito que determina si una transacción es fraudulenta en el momento en que la desliza.

Si bien herramientas como Claude pueden resumir una hoja de cálculo, NEXUS está diseñado para predecir la siguiente fila, ya sea una falla del equipo en una fábrica o la probabilidad de que un paciente sea readmitido en un hospital.

Arquitectura y disponibilidad

La propuesta de valor central de Basic es la reducción radical del tiempo de obtención de información. Tradicionalmente, construir un modelo predictivo podía llevar meses de trabajo guide.

“Hay que contratar un ejército de científicos de datos para construir todos esos canales de datos para procesarlos y limpiarlos”, explicó Fraenkel. “Si faltan valores o datos inconsistentes, su modelo no funcionará. Hay que construir esas canalizaciones para cada caso de uso”.

Reclamaciones fundamentales NEXUS reemplaza todo este proceso guide con una sola línea de código. Debido a que el modelo ha sido entrenado previamente en mil millones de tablas, no requiere el mismo nivel de capacitación específica para tareas o ingeniería de características que los algoritmos tradicionales.

A medida que Basic pasa de su fase sigilosa al mercado más amplio, lo hace con una estructura comercial diseñada para evitar la fricción tradicional de la adopción de software program empresarial.

La compañía ya ha conseguido varios contratos de siete cifras con organizaciones Fortune 100, una hazaña facilitada por una arquitectura estratégica de comercialización en la que Amazon Internet Providers (AWS) actúa como vendedor registrado en AWS Market.

Esto permite a los líderes empresariales adquirir e implementar NEXUS utilizando créditos de AWS existentes, tratando efectivamente la inteligencia predictiva como una utilidad estándar junto con la computación y el almacenamiento. Para los ingenieros encargados de la implementación, la experiencia es de alto impacto pero de baja fricción; NEXUS opera a través de una interfaz basada en Python en una capa puramente predictiva en lugar de conversacional.

Los desarrolladores conectan tablas sin procesar directamente al modelo y etiquetan columnas objetivo específicas, como una probabilidad de incumplimiento crediticio o una puntuación de riesgo de mantenimiento, para activar el pronóstico. Luego, el modelo devuelve regresiones o clasificaciones directamente a la pila de datos de la empresa, funcionando como un motor silencioso y de alta velocidad para la toma de decisiones automatizada en lugar de un asistente basado en chat.

Lo que está en juego para la sociedad: más allá del resultado closing

Si bien las implicaciones comerciales de la previsión de la demanda y la predicción de precios son claras, Basic enfatiza el beneficio social de la inteligencia predictiva.

La empresa destaca áreas clave en las que NEXUS puede prevenir resultados catastróficos mediante la identificación de señales ocultas en datos estructurados.

Al analizar los datos de los sensores y los registros de mantenimiento, NEXUS puede predecir fallas como la corrosión de las tuberías. La compañía señala la disaster del agua de Flint, que costó más de mil millones de dólares en reparaciones, como un ejemplo en el que el monitoreo predictivo podría haber evitado una contaminación potencialmente mortal.

De manera related, durante la disaster de COVID-19, la escasez de EPP costó a los hospitales 323 mil millones de dólares en un solo año. Basic sostiene que al utilizar datos epidemiológicos y de fabricación, NEXUS puede predecir la escasez entre 4 y 6 semanas antes del pico de demanda, lo que desencadenará una fabricación de emergencia a tiempo para salvar vidas.

En el frente climático, NEXUS tiene como objetivo proporcionar predicciones de inundaciones y sequías para 30 a 60 días, como las inundaciones de Pakistán de 2022, que causaron daños por valor de 30 mil millones de dólares.

Finalmente, el modelo se está utilizando para predecir los riesgos de reingreso hospitalario mediante el análisis de la demografía de los pacientes y los determinantes sociales. Como lo expresa la compañía: “Una madre soltera que trabaja en dos trabajos no debería terminar nuevamente en la sala de emergencias porque no pudimos predecir que necesitaría atención de seguimiento”.

Rendimiento frente a latencia

En el mundo empresarial, la definición de mejor varía según la industria. Para algunos, es velocidad; para otros, es pura precisión.

“En términos de latencia, depende del caso de uso”, explica Fraenkel. “Si eres un investigador que intenta comprender qué medicamentos administrar a un paciente en África, la latencia no importa tanto. Estás tratando de tomar una decisión más precisa que puede terminar salvando la mayor cantidad de vidas posible”.

Por el contrario, para un banco o un fondo de cobertura, incluso un aumento marginal en la precisión se traduce en un valor enorme.

“Aumentar la precisión de las predicciones en medio punto porcentual supone para un banco miles de millones de dólares”, afirma Fraenkel. “Para diferentes casos de uso, la magnitud del aumento porcentual cambia, pero podemos lograr un mejor rendimiento que el que tiene actualmente”.

Una visión ambiciosa recibe un gran respaldo

La Serie A de 225 millones de dólares, liderada por Oak HC/FT con la participación de Salesforce Ventures, Valor Fairness Companions y Battery Ventures, indica una creencia de gran convicción de que los datos tabulares son la próxima gran frontera.

Inversores ángeles notables, incluidos líderes de Perplexity, Wiz, Brex y Datadog, validan aún más el pedigrí de la empresa.

Annie Lamont, cofundadora y socia gerente de Oak HC/FT, expresó el sentimiento: “Es difícil exagerar la importancia del modelo de Basic: los datos estructurados y relacionales aún no han visto los beneficios de la revolución del aprendizaje profundo”.

Basic se está posicionando no sólo como otra herramienta de IA, sino como una nueva categoría de IA empresarial. Con un equipo de aproximadamente 35 personas con sede en San Francisco, la empresa se está alejando de la period de los modelos personalizados y hacia una period de modelos básicos para mesas.

“Esos algoritmos tradicionales han sido los mismos durante los últimos 10 años; no están mejorando”, dijo Fraenkel. “Nuestros modelos siguen mejorando. Estamos haciendo lo mismo con las tablas que ChatGPT hizo con el texto”.

Asociación con AWS

A través de una asociación estratégica con Amazon Internet Providers (AWS), NEXUS se integra directamente en el panel de AWS. Los clientes de AWS pueden implementar el modelo utilizando sus créditos e infraestructura existentes. Fraenkel describe esto como un “acuerdo muy singular”, y señala que Basic es una de las dos únicas empresas de inteligencia synthetic que ha establecido una asociación tan profunda y de múltiples niveles con Amazon.

Uno de los obstáculos más importantes para la IA empresarial es la privacidad de los datos. Las empresas a menudo no están dispuestas a trasladar datos confidenciales a una infraestructura de terceros.

Para resolver esto, Basic y Amazon lograron una enorme hazaña de ingeniería: la capacidad de implementar modelos totalmente cifrados (tanto la arquitectura como los pesos) directamente dentro del propio entorno del cliente. “Los clientes pueden estar seguros de que los datos los acompañan”, afirmó Fraenkel. “Somos la primera, y hasta ahora única, empresa que ha creado una solución de este tipo”.

La aparición de Basic es un intento de redefinir el sistema operativo para las decisiones empresariales. Si NEXUS funciona como se anuncia (manejando el fraude financiero, los precios de la energía y las interrupciones de la cadena de suministro con un modelo único y generalizado), marcará el momento en que la IA finalmente aprenderá a leer las hojas de cálculo que realmente manejan el mundo. El poder de predecir ya no se trata de mirar lo que pasó ayer; se trata de descubrir el lenguaje oculto de las tablas para determinar qué pasará mañana.

avotas