En un momento en el que el discurso dominante sobre inteligencia artificial gira en torno a la escalabilidad, a arquitecturas cada vez más complejas y a una supuesta mejora progresiva de las capacidades de razonamiento, un trabajo reciente de Google Research introduce un resultado que, lejos de encajar con esa narrativa, la tensiona de forma directa. El paper, titulado Prompt Repetition Improves Non-Reasoning LLMs y publicado en diciembre de 2025, muestra que una operación extremadamente simple —repetir literalmente la misma instrucción de entrada— mejora de forma consistente el rendimiento de modelos como Gemini, GPT, Claude o DeepSeek en una amplia batería de pruebas estándar, sin aumentar ni el número de tokens generados (los fragmentos de texto con los que realmente trabaja el modelo, que pueden ser palabras completas, partes de palabras o incluso signos) ni, en la mayoría de los casos, la latencia (el tiempo que tarda el sistema en responder desde que recibe la petición).
El dato, en sí mismo, podría parecer anecdótico si no fuera porque se mantiene de forma sistemática: bajo el criterio estadístico utilizado por los autores, la repetición del prompt obtiene mejoras significativas en 47 de 70 combinaciones evaluadas, sin registrar ninguna pérdida frente al enfoque base.
Para entender por qué este resultado es relevante, conviene descender al funcionamiento real de estos sistemas, alejándose del lenguaje impreciso con el que a menudo se describen. Un modelo de lenguaje no procesa “ideas” ni “significados” en sentido humano, sino secuencias de tokens, es decir, unidades discretas de texto que constituyen la base matemática del modelo. Sobre esa secuencia, el sistema calcula probabilidades: dado todo lo que ha leído, estima cuál es el siguiente fragmento más probable.
Este detalle es importante porque implica que cualquier modificación en la estructura del input —aunque no cambie su significado aparente— puede alterar el comportamiento del sistema. Además, estos modelos suelen estar entrenados bajo un esquema causal, lo que significa que cada token solo puede atender a los anteriores y no a los posteriores, introduciendo una dependencia directa del orden en el que se presenta la información. El propio paper señala que una consulta estructurada como “contexto + pregunta” puede comportarse de forma distinta a otra equivalente del tipo “pregunta + contexto”, precisamente por esta restricción estructural en la atención.
La propuesta de los autores —transformar un prompt <QUERY> en <QUERY><QUERY>— actúa, en este contexto, como un mecanismo de reconfiguración del espacio de atención, es decir, de cómo el modelo decide a qué partes del texto prestar más “atención” interna durante el cálculo. Al duplicar la entrada, cada token del prompt puede interactuar con representaciones adicionales del mismo contenido dentro del contexto ampliado, permitiendo que la información relevante se refuerce internamente sin necesidad de introducir datos nuevos.
El propio paper lo expresa en términos operativos: la repetición permite que cada token del prompt atienda a todos los demás tokens del prompt, mitigando las limitaciones derivadas del orden secuencial. En términos más intuitivos, no se trata de que el modelo “comprenda mejor”, sino de que el mismo contenido adquiere más peso estadístico dentro del proceso de inferencia.
Uno de los aspectos más sólidos del trabajo es el diseño experimental, que intenta descartar explicaciones superficiales. Los autores comparan la repetición del prompt con un método de control denominado padding, en el que se añade contenido irrelevante (por ejemplo, puntos) hasta alcanzar la misma longitud que la entrada duplicada. El resultado es claro: ese incremento de longitud no produce mejoras en el rendimiento. Esto permite aislar el fenómeno y concluir que la ganancia no proviene de tener más contexto en términos cuantitativos, sino de repetir información semánticamente relevante.
Este punto es especialmente significativo porque cuestiona una idea bastante extendida en la práctica profesional, según la cual “más contexto” tiende a traducirse automáticamente en mejores resultados. El paper sugiere que no es la cantidad, sino la redundancia estructurada del contenido lo que puede marcar la diferencia.
El estudio se apoya además en una evaluación amplia que incluye siete modelos comerciales de distintos proveedores —Gemini 2.0 Flash y Flash Lite, GPT-4o y GPT-4o mini, Claude 3 Haiku y 3.7 Sonnet, y DeepSeek V3— y múltiples benchmarks estándar como ARC, OpenBookQA, GSM8K, MMLU-Pro y MATH. A esto se añaden dos tareas diseñadas específicamente para analizar la dependencia del contexto: NameIndex y MiddleMatch, donde el modelo debe localizar elementos en listas en función de su posición o relación con otros.
En estas tareas, especialmente sensibles al orden y a la coherencia del contexto, la repetición produce algunos de los efectos más extremos documentados en el paper. Un ejemplo concreto es el de Gemini 2.0 Flash Lite en NameIndex, donde la precisión pasa del 21,33 % al 97,33 % tras duplicar el prompt. Este tipo de resultados sugiere que, en determinadas configuraciones, el modelo no falla por falta de capacidad, sino por cómo se le presenta la información.
Desde el punto de vista computacional, el trabajo introduce otra observación relevante. A diferencia de técnicas como Chain of Thought o instrucciones del tipo “piensa paso a paso”, que incrementan el número de tokens generados (y, por tanto, el coste y el tiempo de respuesta), la repetición del prompt no altera la longitud de la salida ni, en la mayoría de los escenarios evaluados, la latencia.
Esto se explica porque el coste adicional se concentra en la fase de prefill, es decir, en el momento en el que el modelo procesa la entrada antes de empezar a generar la respuesta. Esa fase es altamente paralelizable, a diferencia de la generación de texto, que es secuencial y más costosa. El propio paper matiza que en prompts muy largos sí pueden aparecer incrementos de latencia —especialmente en modelos de Anthropic— y que las mediciones deben interpretarse con cautela al haberse realizado a través de APIs sujetas a variabilidad de red y carga.
El comportamiento cambia cuando se introduce razonamiento explícito. En los experimentos donde se solicita al modelo que “piense paso a paso”, la repetición del prompt deja de ofrecer mejoras claras y pasa a ser neutral o ligeramente positiva. Los autores interpretan este resultado como algo esperable, ya que los propios modelos tienden a repetir o reformular partes de la instrucción durante el proceso de razonamiento, reduciendo el impacto de la repetición externa.
Esta distinción es importante porque delimita el alcance de la técnica: no mejora la capacidad de razonamiento, sino la estabilidad en tareas donde el modelo depende directamente de la estructura del input.
Todo esto introduce una cuestión de fondo que trasciende la técnica concreta. Durante los últimos años, el auge del prompt engineering ha venido acompañado de una narrativa que sugiere que pequeñas optimizaciones lingüísticas, formatos específicos o estructuras cuidadosamente diseñadas pueden extraer mejoras significativas de los modelos. Sin embargo, resultados como los que presenta este paper obligan a matizar esa idea.
No porque la ingeniería de prompts carezca de valor, sino porque parte de los efectos observados podrían estar relacionados con fenómenos más básicos de distribución del contexto y refuerzo estadístico, y no necesariamente con una “mejor formulación” en sentido semántico. En otras palabras, algunas mejoras atribuidas a sofisticación podrían estar explicadas, al menos en parte, por redundancia.
En ese sentido, el trabajo no propone una revolución arquitectónica ni introduce un nuevo paradigma, pero sí expone una limitación relevante en cómo estamos interpretando el comportamiento de estos sistemas. Si duplicar una instrucción puede alterar de forma tan significativa el resultado, entonces el rendimiento de un modelo no depende únicamente de su entrenamiento o de su tamaño, sino también de la forma en la que se organiza la información que recibe.
Esto tiene implicaciones directas en el diseño de sistemas basados en IA, en su validación y en su uso en entornos donde la consistencia es crítica. Un sistema altamente sensible a pequeñas variaciones en el input es, por definición, difícil de auditar y de garantizar.
Más allá del detalle técnico, el paper deja una conclusión implícita que resulta difícil de ignorar: quizá no estamos ante sistemas que fallan porque no sepan lo suficiente, sino ante sistemas cuyo comportamiento todavía no entendemos del todo.


