¿Qué es AlphaZero?
AlphaZero es un programa informático de autoaprendizaje de Google DeepMind que aprende los juegos de mesa Go, Ajedrez y Shogi mediante su algoritmo. Para ello combina aprendizaje automático con redes neuronales. Para aprender uno de los juegos de mesa mencionados, el Inteligencia artificial sólo las reglas del juego, las condiciones de juego y el juego intensivo contra sí mismo. No es necesario que le enseñen los humanos.
AlphaZero se basa en el enfoque de AlphaGo Cerotambién desarrollado por DeepMind.
¿Qué potencia tiene el programa?
Dado que AlphaZero es autodidacta, su rendimiento aumenta con cada partido jugado. Sólo conoce las reglas del juego y empieza a jugar contra sí mismo con movimientos aleatorios. Evalúa sus movimientos en función del resultado y así aprende qué estrategias funcionan mejor.
Después de sólo 4 horas, AlphaZero fue capaz de jugar al ajedrez a un nivel sobrehumano, superando la fuerza de juego del campeón mundial de ajedrez Magnus Carlsen, con una clasificación Elo de más de 2800. Tras 9 horas de entrenamiento, superó incluso al mejor programa de ajedrez hasta entonces, Stockfish 8, con una puntuación Elo calculada de 3300.
Después de 34 horas, AlphaZero ha dominado los juegos de mesa Ajedrez, Shogi y Go y desafió a todos los programas punteros hasta ese momento. Además de ganar a Stockfisch 8 en ajedrez, Elmo lo hizo en shogi y AlphaGo derrotado en Go.
No obstante, cabe señalar que para el inmenso número de partidas contra sí mismo, se necesita mucha potencia de cálculo es. Para hacerlo posible, se utilizó una gran cantidad de TPU (procesadores tensoriales para acelerar las aplicaciones de aprendizaje automático) de Google. Esto permitió a AlphaZero completar aproximadamente 44 millones de partidas de ajedrez en 9 horas, 24 millones de partidas de shogi en 12 horas y 21 millones de partidas de Go en 34 horas, lo que pone en perspectiva el rapidísimo éxito de aprendizaje de AlphaZero.
Juegos importantes
AlphaZero y Stockfish
Stockfish es un programa de ajedrez, que, a diferencia de AlphaZero, entrenado por humanos se convirtió y como Código abierto está disponible de forma gratuita. El algoritmo de Stockfish utiliza un enorme repertorio de movimientos, que ha aprendido jugando contra jugadores humanos. AlphaZero carece de esta influencia humana, por lo que el juego se considera poco convencional.
En 2017, Stockfish 8 fue el mejor programa de ajedrez y fue claramente superado por AlphaZero. Se trataba de demostrar que un algoritmo de autoaprendizaje es superior a un algoritmo entrenado por humanos.
2021 Stockfish 14 (la última versión) vuelve a ser el programa de ajedrez número 1Esto ha sido posible, entre otras cosas, gracias a la cooperación con Leela Chess Zero y al uso de redes neuronales.
AlphaZero y Leela Ajedrez Cero
Leela Chess Zero (Lc0 para abreviar) es un programa de ajedrez, que puede ser utilizado gratuitamente como código abierto, al igual que Stockfish. Sin embargo, su modo de funcionamiento seguía el modelo de AlphaZero. Leela Chess Zero se basa en Leela Zero Go, que a su vez sigue el modelo de Alpha Go Zero. Por consiguiente, Lc0 utiliza su inteligencia artificial combinada con el aprendizaje automático y las redes neuronales para aprender ajedrez. De hecho, uno de los principales objetivos del desarrollo de Leela Chess Zero es validar la metodología de AlphaZero.
Hay no hay partido oficial de AlphaZero contra Leela Chess Zero. Por ello, Lc0 compite regularmente con Stockfish y se encuentra ahora a un nivel similar. En 2021, Lc0 ocupó el 2º puesto en la clasificación de los mejores programas de ajedrezdetrás de Stockfish 14.