En el caótico mundo de la optimización del modelo de lenguaje grande (LLM), los ingenieros han pasado los últimos años desarrollando rituales cada vez más esotéricos para obtener mejores respuestas.
Hemos visto “Cadena de pensamiento” (pedirle al modelo que piense paso a paso y, a menudo, mostrar esos “rastros de razonamiento” al usuario), “Chantaje emocional” (decirle al modelo que su carrera depende de la respuesta, o que es ser acusado de conducta sexual inapropiada) y marcos complejos de indicaciones de múltiples disparos.
Pero un nuevo artículo publicado por Google Analysis sugiere que es posible que hayamos estado pensando demasiado en ello. Los investigadores descubrieron que simplemente repetir la consulta de entrada (literalmente copiar y pegar el mensaje para que aparezca dos veces) mejora constantemente el rendimiento en los principales modelos, incluidos Gemini, GPT-4o, Claude y DeepSeek.
El documento, titulado “La repetición rápida mejora los LLM sin razonamiento,” publicado el mes pasado justo antes de las vacaciones, presenta un hallazgo que es casi sospechosamente easy: para tareas que no requieren pasos de razonamiento complejos, formular la indicación dos veces produce resultados significativamente mejores que formularla una vez.
Aún mejor, debido a cómo funciona la arquitectura del transformador, este “truco extraño” tiene una penalización prácticamente nula en términos de velocidad de generación.
El punto ciego causal
Para comprender por qué repetir una pregunta hace que una supercomputadora sea más inteligente, hay que observar las limitaciones arquitectónicas del modelo Transformer estándar.
La mayoría de los LLM modernos están capacitados como modelos de lenguaje “causales”. Esto significa que procesan el texto estrictamente de izquierda a derecha. Cuando el modelo está procesando el quinto token de su oración, puede “atender” (prestar atención) a los tokens del 1 al 4, pero no tiene conocimiento del token 6, porque aún no ha sucedido.
Esto crea una limitación elementary en la forma en que los modelos entienden las consultas de los usuarios. Como señalan los autores, el orden de la información es sumamente importante.
Una consulta formateada como a menudo produce resultados diferentes a los porque, en el último caso, el modelo lee la pregunta antes de conocer el contexto al que se supone que debe aplicarla.
La repetición rápida elimina esta limitación al transformar una entrada de en .
Cuando el modelo comienza a procesar el segundo iteración de la consulta, ya ha “leído” la primera iteración. Esto permite que los tokens de la segunda copia atiendan cada token de la primera copia.
Efectivamente, la segunda repetición disfruta de una forma de atención bidireccional: puede “mirar hacia atrás” a toda la consulta para resolver ambigüedades o recuperar detalles específicos que podrían haberse pasado por alto en una sola pasada.
Los puntos de referencia: 47 victorias, 0 derrotas
Los investigadores, Yaniv Leviathan, Matan Kalman y Yossi Matias, probaron esta hipótesis en un conjunto de siete puntos de referencia populares, incluidos ARC, OpenBookOA, GSM8K y MMLU-Professional. Evaluaron siete modelos diferentes, desde modelos livianos como Gemini 2.0 Flash Lite y GPT-4o-mini hasta pesos pesados como Claude 3.7 Sonnet y DeepSeek V3. Los resultados fueron estadísticamente claros. Al preguntar a los modelos no Para utilizar el razonamiento explícito (es decir, simplemente dar una respuesta directa), la repetición de indicaciones ganó 47 de 70 pruebas comparativas con la línea de base, sin pérdidas. Las ganancias fueron particularmente dramáticas en tareas que requerían una recuperación precisa de una indicación. El equipo diseñó un punto de referencia personalizado “NameIndex”, donde al modelo se le proporciona una lista de 50 nombres y se le pide que identifique el número 25.
Este enorme salto ilustra perfectamente el “punto ciego causal”. En una sola pasada, el modelo podría perder la cuenta cuando llegue al nombre número 25. En el pase repetido, el modelo efectivamente tiene la lista completa en su “memoria de trabajo” antes de intentar resolver la tarea de recuperación.
El “almuerzo free of charge” de la latencia
Por lo normal, agregar texto a un mensaje aumenta los costos y la latencia. Si duplicas la entrada, ¿seguramente duplicas el tiempo de espera? Sorprendentemente, no. El artículo demuestra que la repetición rápida es esencialmente “gratuita” con respecto a la latencia percibida por el usuario. El procesamiento LLM se divide en dos etapas:
-
Precarga: El modelo procesa la solicitud de entrada. Esto es altamente paralelizable; la GPU puede procesar toda la matriz de mensajes simultáneamente.
-
Generación (Decodificación): El modelo genera la respuesta un token a la vez. Esto es serial y lento.
La repetición rápida sólo aumenta el trabajo en el prellenar escenario. Debido a que el {hardware} moderno maneja el prellenado de manera tan eficiente, el usuario apenas nota la diferencia. Los investigadores encontraron que repetir la indicación no no aumentó la longitud de la respuesta generada, ni aumentó la latencia del “tiempo hasta el primer token” para la mayoría de los modelos. Las únicas excepciones fueron los modelos de Anthropic (Claude Haiku y Sonnet) en solicitudes extremadamente largas, donde la etapa de precarga finalmente encontró un cuello de botella. Pero para la gran mayoría de los casos de uso, la técnica mejora la precisión sin ralentizar la experiencia del chat.
Razonamiento versus repetición
Hay una advertencia: esta técnica es principalmente para tareas “sin razonamiento”: escenarios en los que se desea una respuesta directa en lugar de una derivación paso a paso.
Cuando los investigadores probaron la repetición rápida combinada con la “Cadena de Pensamiento” (pidiendo al modelo que “pensara paso a paso”), las ganancias desaparecieron en gran medida, mostrando resultados neutrales a ligeramente positivos (5 victorias, 1 derrota, 22 empates).
Los autores postulan que los modelos de razonamiento realizan ellos mismos de forma pure una versión de repetición. Cuando un modelo “piensa”, a menudo reafirma la premisa de la pregunta en el resultado generado antes de resolverla. Por lo tanto, repetir explícitamente el mensaje en la entrada se vuelve redundante.
Sin embargo, para aplicaciones en las que se necesita una respuesta rápida y directa sin la verbosidad (y el costo) de un largo rastreo de razonamiento, la repetición rápida ofrece una poderosa alternativa.
Implementación estratégica para la empresa
Para el liderazgo empresarial, esta investigación representa lo más raro en el desarrollo de la IA: una optimización “gratuita”. Pero las mayúsculas requieren matices; Esta no es una configuración para alternar ciegamente en toda una organización, sino más bien un ajuste táctico que afecta a la ingeniería, la orquestación y la seguridad.
Para los líderes técnicos que equilibran el eterno triángulo de velocidad, calidad y costo, la repetición rápida ofrece una manera de superar su categoría de peso. Los datos muestran que los modelos más pequeños y rápidos, como Gemini 2.0 Flash Lite, pueden lograr una precisión de recuperación casi perfecta (pasando del 21,33 % al 97,33 %) simplemente procesando la entrada dos veces.
Esto cambia el cálculo para la selección del modelo: antes de actualizar a un modelo más grande y costoso para resolver un cuello de botella en la precisión, los ingenieros deben probar primero si la easy repetición permite que sus modelos “Lite” actuales cierren la brecha. Es una estrategia potencial para conservar la velocidad y los beneficios de costos de la infraestructura liviana sin sacrificar el rendimiento en las tareas de extracción y recuperación.
Esta lógica, naturalmente, traslada la carga a la capa de orquestación. Para quienes administran el middleware y las puertas de enlace API que unen las aplicaciones de IA, la repetición rápida probablemente debería convertirse en un componente estándar e invisible de la lógica del proceso en lugar de un comportamiento del usuario.
Sin embargo, debido a que la técnica es impartial para tareas con mucho razonamiento pero muy efectiva para respuestas directas, requiere una aplicación condicional. Un arnés de orquestación inteligente identificaría automáticamente las solicitudes dirigidas a puntos finales que no razonan (como extracción de entidades, clasificación o preguntas y respuestas simples) y duplicaría el mensaje antes de pasarlo al modelo. Esto optimiza el rendimiento a nivel de infraestructura, entregando mejores resultados sin requerir acción por parte de los usuarios finales ni aumentar el presupuesto de generación.
Finalmente, esta mayor atención introduce una nueva variable para los equipos de seguridad.
Si repetir un mensaje aclara la intención de un usuario en el modelo, es lógico que también se aclaren las intenciones maliciosas. Los directores de seguridad necesitarán actualizar sus protocolos de equipo rojo para probar ataques de “inyección repetida”, verificando si repetir un comando de jailbreak (por ejemplo, “Ignorar instrucciones previas”) hace que el modelo “atienda” la infracción de manera más efectiva. Por el contrario, este mecanismo ofrece una nueva herramienta defensiva: repetir las indicaciones del sistema.
Indicar barreras de seguridad dos veces al inicio de la ventana de contexto podría obligar al modelo a atender las restricciones de seguridad de manera más rigurosa, actuando como un refuerzo de bajo costo para operaciones de seguridad sólidas.
Por qué esto importa
Esta investigación destaca una thought essential para los desarrolladores que construyen sobre LLM: nuestros modelos actuales todavía están profundamente limitados por su naturaleza unidireccional. Mientras esperamos nuevas arquitecturas que puedan resolver la ceguera causal, soluciones alternativas burdas pero efectivas, como la repetición rápida, ofrecen un valor inmediato. Los autores sugieren que esto podría convertirse en un comportamiento predeterminado para sistemas futuros.
Es posible que pronto veamos motores de inferencia que duplican silenciosamente nuestras indicaciones en segundo plano antes de enviarlas al modelo, o modelos de “razonamiento” entrenados para internalizar esta estrategia de repetición para ser más eficientes. Por ahora, si tiene dificultades para conseguir que un modelo siga instrucciones complejas o recupere detalles específicos de un documento extenso, es posible que la solución no sea una mejor indicación. Quizás necesites decirlo de nuevo.













