Han pasado casi dos años desde que el director ejecutivo de Microsoft, Satya Nadella, predijo que la IA generativa se haría cargo del trabajo del conocimiento, pero si hoy en día nos fijamos en una firma de abogados o un banco de inversión típico, la fuerza laboral humana todavía está a cargo. A pesar de todo el revuelo sobre el “razonamiento” y la “planificación”, un nuevo estudio de la empresa de datos de capacitación Mercor explica exactamente por qué la revolución de los robots está estancada: la IA simplemente no puede manejar el desorden del trabajo actual.
Una revisión de la realidad de la teoría del “reemplazo”
Mercor lanzó un nuevo punto de referencia llamado APEX-Brokers y es brutal. A diferencia de las pruebas habituales que piden a la IA que escriba un poema o resuelva un problema matemático, ésta utiliza consultas reales de abogados, consultores y banqueros. Pide a los modelos que realicen tareas completas de varios pasos que requieren saltar entre diferentes tipos de información.
¿Los resultados? Incluso los mejores modelos del mercado (estamos hablando de Gemini 3 Flash y GPT-5.2) no pudieron alcanzar una tasa de precisión del 25%. Gemini lideró el grupo con un 24%, con GPT-5.2 justo detrás con un 23%. La mayoría de los demás quedaron atrapados en la adolescencia.
Por qué la IA no pasa la “prueba de la oficina”
El director ejecutivo de Mercor, Brendan Foody, señala que el problema no es la inteligencia en bruto; es contexto. En el mundo actual, las respuestas no se sirven en bandeja de plata. Un abogado tiene que consultar un hilo de Slack, leer una política en PDF, mirar una hoja de cálculo y luego sintetizar todo eso para responder una pregunta sobre el cumplimiento del RGPD.
Los humanos hacen este cambio de contexto de forma pure. Resulta que la IA es horrible en eso. Cuando se obliga a estos modelos a buscar información en fuentes “dispersas”, se confunden, dan la respuesta incorrecta o simplemente se dan por vencidos.
El “pasante poco confiable”
Para cualquiera que esté preocupado por su seguridad laboral, esto es un alivio. El estudio sugiere que, en este momento, la IA funciona menos como un profesional experimentado y más como un pasante poco confiable que hace las cosas bien aproximadamente una cuarta parte del tiempo.
Dicho esto, el progreso es terriblemente rápido. Foody señaló que hace apenas un año, estos modelos obtenían entre el 5% y el 10%. Ahora están alcanzando el 24%. Entonces, aunque aún no están listos para tomar el volante, están aprendiendo a conducir mucho más rápido de lo que esperábamos. Por ahora, sin embargo, la revolución del “trabajo del conocimiento” está en suspenso hasta que los robots aprendan a realizar múltiples tareas.











