AT_Logo

AlphaGo

Was ist das AlphaGo-Programm?

Das Computerprogramm AlphaGo spielt professionell das Brettspiel Go und wurde von DeepMind entwickelt. Bei AlphaGo kommen die Techniken maschinelles Lernen und Traversierung zum Einsatz. Das Programm konnte schon im Oktober 2015 den mehrfachen Europa-Meister Fan Hui besiegen. Es ist das erste Programm, das bei Turnierbedingungen ohne Handicap auf einem 19×19 Brett einen absolut professionellen Go-Spieler besiegen konnte. Nur wenige Monate später, im März 2016, konnte dieses Computerprogramm sogar Süd-Koreaner Lee Sedol, der einer der weltbesten Profispieler ist, bezwingen.

Beim Schach gab es bereits ein besonders starkes IBM-Programm Deep Blue. Dieses konnte bereits im Mai 1997 den Schachweltmeister Garri Kasparow unter Turnierbedingungen besiegen. Go ist allerdings deutlich komplexer als Schach und durch das größere Brett gibt es viel mehr unterschiedliche Kombinationen, die möglich sind. Im Gegensatz zu Schach kann man bei Go keine einsatzfähigen heuristischen Methoden nutzen. In den 1990er Jahren hatten die Go-Programme lediglich die Spielstärke von ambitionierten menschlichen Anfängern.

Der Durchbruch kam dann im Jahre 2006 mit Monte-Carlo-Algorithmem (Baumsuche). Mit dieser Technik konnten KI-Programme wie etwa Crazy Stone oder Zen eine Spielstärke von sehr guten Amateuren erreichen. Es waren sogar Erfolge gegen Profispieler möglich. Die Monte-Carlo-Programme konnten statistische Methoden zur Zugkandidaten-Auswahl nutzen. Ein Zug konnte bewertet werden, indem von der aktuellen Spielbrettposition ausgehend mit entsprechenden Zufallszügen zu Ende gespielt wurde. Das AlphaGo-Programm hingegen markierte einen erheblichen Entwicklungssprung gegenüber allen vormaligen Programmen. In 500 Spielen mit anderen Programmen konnte das AlphaGo-Programm alle Spiele bis auf eines gewinnen.

Wie funktioniert das AlphaGo-Programm?

Das AlphaGo-Programm nutzt zusätzlich zur Monte-Carlo-Methode weitere Lern-Methoden mit neuronalen Netzen. Es gibt zwei Kategorien von nützlichen neuronalen Netzen und eine entsprechende Baumsuche. Mit dem policy network („Regelnetzwerk“) wird eine Bestimmung von Zugkandidaten mithilfe großer Mengen von Partien durchgeführt, sowohl durch überwachtes Lernen (Supervised Machine Learning) konditioniert und auch durch bestärkendes Lernen (Reinforcement Learning) trainiert. Außerdem gibt es das value network („Bewertungsnetzwerk“), das zur Bewertung von Positionen dient und durch bestärkendes Lernen eingestellt wird. Das Monte-Carlo-Baumsuchverfahren rechnet die Varianten durch. Mit allen drei Komponenten wird diese Baumsuche kombiniert.

Wie viel Computing-Power wird eingesetzt?

Bei den Partien mit Fan Hui wurde eine verteilte Variante des AlphaGo-Programms eingesetzt, das mit einem Rechnerverbund mit 1202 CPUs lief und 178 GPUs verwendete und 40 Such-Threads nutzte. Bei den Spielen gegen Lee Sedol kamen 1920 CPUs zum Einsatz und 280 GPUs wurden verwendet. Die Lernphase nutzte eine massive Rechenleistung mit der Google Cloud Platform und die TensorFlow Processing Units.

Gibt es weitere Verbesserungen?

AlphaGo-Zero und AlphaZero sind Weiterentwicklungen des AlphaGo-Programms. Das AlphaGo-Zero Programm wurde mit einer veränderten Software und mit reduzierter Hardware-Architektur ohne ein Vorwissen über das Spiel trainiert. Lediglich die Spielregeln wurden erklärt und das Programm trainierte gegen sich selbst. Die Hardware war beim Inferencing nur vier Tensor Processing Units. Nach 3 Tagen Training war diese Version stärker als das AlphaGo-Programm. Nach 40 Tagen Training konnte diese Variante bereits die stärkste Stufe des Programms AlphaGo-Master schlagen.

Das könnte Sie auch interessieren

Data Navigator Newsletter