Hace un mes, ChatGPT fue noticia tras perder una partida de ajedrez contra Video Chess, un software de 1979 corriendo en un Atari 2600. Ahora, Microsoft Copilot se suma a la lista de modelos de lenguaje avanzados derrotados por el humilde sistema de 8 bits, demostrando los retos persistentes de estas herramientas al enfrentarse a tareas que requieren mantener un estado de contexto de manera precisa.
El experimento, realizado por el ingeniero de Citrix Robert Caruso, mostró a un Copilot “lleno de confianza”. Según explicó Caruso, Copilot aseguró que podía “pensar entre 10 y 15 jugadas adelante”, aunque optó por calcular solo 3 a 5 movimientos considerando que el Atari realizaba jugadas “subóptimas”.
Para mantener seguimiento del tablero, Copilot solicitó capturas de pantalla después de cada jugada del Atari y prometió “continuidad en el juego”, un punto débil que había llevado a ChatGPT a perder en su intento previo.
Sin embargo, el optimismo de Copilot se desvaneció rápidamente. Al séptimo turno, ya había perdido dos peones, un caballo y un alfil, a cambio de capturar únicamente un peón. En una jugada crítica, Copilot incluso indicó a Caruso que colocara su reina frente a la del Atari, facilitando su captura inmediata. Lo que describía como “jugadas extrañas” del Atari terminaron superándolo.
A pesar de recibir actualizaciones del tablero tras cada jugada, Copilot perdió el seguimiento de las posiciones, reproduciendo el mismo problema de falta de continuidad que afectó a ChatGPT. Como resumió Caruso: “Su incapacidad de mantener un estado básico del tablero de un turno a otro fue muy decepcionante. ¿Realmente es diferente a olvidar contexto importante en una conversación?”.
Finalmente, Copilot concedió la partida, admitiendo: “Atari se ha ganado esta victoria. Inclino mi rey digital con dignidad y reconozco al maestro de silicio vintage que me venció de forma justa”.
Este episodio, aunque anecdótico, expone una limitación central de los modelos de lenguaje actuales: no están diseñados para ejecutar cálculos secuenciales que requieran mantener información de estado de forma persistente.
Lea también: Indio Dommaraju Gukesh de 18 años se convirtió en el campeón del mundo más joven de ajedrez
Es decir que a diferencia de motores de ajedrez como Stockfish, que superan con facilidad a los mejores jugadores y a programas antiguos, sistemas como ChatGPT y Copilot no están optimizados para cálculos profundos ni para el manejo continuo de información entre pasos.
Sin embargo, esta limitación no se restringe al ajedrez. El caso evidencia cómo los modelos de lenguaje pueden fragmentar el contexto en conversaciones largas o tareas complejas, un aspecto clave que usuarios, empresas y desarrolladores deben considerar al integrar estas herramientas en flujos de trabajo.