Tecnología

La inteligencia artificial consigue dominar Stratego, el juego de información imperfecta

A diferencia de otros juegos ya controlados por la inteligencia artificial, como el ajedrez o el Go, en los que los jugadores pueden ver todas las piezas del juego y crear de este modo estrategias, los jugadores de Stratego tienen que aprender a manejar la falta de certeza. Es un juego mucho más parecido al póker, en el que cada jugador conoce sus propias cartas pero no las del oponente.

Para jugar bien a Stratego con IA es necesario encontrar un algoritmo que tenga en cuenta las dudas del jugador. La gran cantidad de resultados posibles tiene como consecuencia que los algoritmos que funcionan bien en juegos de información perfecta, e incluso aquellos que funcionan bien para el póker, no se puedan aplicar a este juego. La complejidad es de muchos órdenes de magnitud mayor: 10^66 en Stratego comparado con 10^6 en Texas Hold’em para dos jugadores.

DeepNash Ganó contra todos los bots y logró un nivel de juego altamente competitivo contra jugadores humanos

“En Stratego, la planificación es casi imposible, dada la cantidad de incertidumbre sobre la que los jugadores tienen que razonar. En este trabajo, tomamos otro camino y aprendimos directamente una estrategia para cada situación dada del tablero, usando una combinación de teoría de juegos y aprendizaje de refuerzo profundo”, explica a SINC Julien Perolat, coautor principal del estudio e investigador de DeepMind.

Para desarrollar DeepNash, el programa detrás del logro, Perolat y sus colegas combinaron el algoritmo R-NaD, de aprendizaje por refuerzo, con una arquitectura de red neuronal profunda para lograr una estrategia de juego competitiva.

El programa se probó contra varios bots Stratego de última generación y contra jugadores humanos expertos. Ganó contra todos los bots y logró un nivel de juego altamente competitivo contra jugadores humanos con nivel de experto en Gravon, la plataforma en línea más grande de jugadores de Stratego.

Los juegos como campo de experimentación

El propósito de estudiar juegos con IA no siempre es ganar, sino probar nuevos métodos y enfoques que podrían ser útiles para problemas del mundo real.

“Es poco probable que los sistemas de IA sean imbatibles en juegos que manejan incertidumbre. Para ganar en un juego de información imperfecta, normalmente se necesita una combinación de suerte y habilidad. E incluso si un programa de inteligencia artificial hubiera aprendido una estrategia perfecta  –digamos un equilibrio de Nash– aún podría perder por tener mala suerte”, explica Karl Tuyls, coautor principal del estudio e investigador de DeepMind.

“Los juegos son el entorno perfecto para estudiar los sistemas avanzados de inteligencia artificial. Permiten desarrollar y probar algoritmos de IA más inteligentes y flexibles de manera rápida y eficiente, y también ofrecen comentarios instantáneos sobre cómo lo estamos haciendo a través de las puntuaciones”, explica Perolat.

Todavía quedan juegos que la IA no ha podido dominar. Según los investigadores, un ejemplo podría ser bridge, un juego de cuatro jugadores en el que se compite por parejas. “En este juego se han logrado algunos avances en los últimos años con versiones simplificadas, pero sigue siendo difícil para una IA dominar el juego completo,” añade Perolat.

El programa plantea posibilidades para que los sistemas de IA tengan aplicaciones en el mundo real en entornos caracterizados por la información imperfecta. Esto se debe a que puede manejar grandes cantidades de incertidumbre en forma de información y antes no era posible / Karl Tuyls, coautor del trabajo e investigador de DeepMInd

IA para mejorar el tráfico

Según los autores, este avance podría ayudar a desbloquear nuevas aplicaciones de la IA en dominios que cuentan con una gran cantidad de participantes humanos y donde no se tiene información sobre la intención de los usuarios o lo que está ocurriendo en el entorno. Como por ejemplo, para optimizar la gestión del tráfico a gran escala, reducir los tiempos de viaje de los conductores y las emisiones de los vehículos.

“Creemos que DeepNash plantea nuevas posibilidades para que los sistemas de IA tengan aplicaciones en el mundo real en entornos caracterizados por la información imperfecta. Esto se debe a que puede manejar grandes cantidades de incertidumbre en forma de información y antes no era posible”, explica Karl Tuyls.

Referencia:

Perolat, Julien; De Vylder, Bart; et al. “Mastering the game of Stratego with model-free multiagent reinforcement learning”. Science (2022)

Acceda a la versión completa del contenido

La inteligencia artificial consigue dominar Stratego, el juego de información imperfecta

Alejandro Muñoz Fernández

Entradas recientes

La electricidad bajará un 19,67% este domingo y tendrá horas a coste cero

El domingo será una fecha singular para el mercado mayorista. Entre las 11:00 y las…

7 horas hace

Las FDI asaltan la casa del activista palestino Basel Adra, ganador de Oscar por el documental No Other Land

Los hechos tuvieron lugar este sábado por la tarde, cuando varios colonos israelíes procedentes del…

7 horas hace

Los Bomberos hallan el cuerpo sin vida de un hombre bajo los escombros de la explosión en un bar en Vallecas

Emergencias Madrid ha informado este domingo de que a los 25 heridos hay que sumar…

7 horas hace

¿En qué países hay más esperanza de vida en la UE? ¿Y cuáles están a la cola?

En 15 países, la esperanza de vida superó la media de la UE, registrándose el…

9 horas hace

Si se cobrara por discurso, ya tendríamos jornada laboral de 20 horas

Esta semana el Pleno rechazó la rebaja de la jornada laboral. Ganaron los partidarios del…

14 horas hace

Francia: la patronal amenaza con una movilización si suben los impuestos a las empresas

En plena negociación fiscal, la patronal denuncia que las compañías francesas soportan una presión récord…

16 horas hace