Alpha Zero - Wenn Maschinen eigenständig lernen

Gerald Perfler - Di., 13.03.2018 - 14:07
Mehrere Netzwerkknoten durch Linien verbunden vor einem blauen Hintergrund geralt pixabay.com/de/system-netz-netzwerk-verbindung-2660914 CC0

Die Entwicklung der künstlichen Intelligenz schreitet immer rascher voran, die Erfolge werden immer größer. Ein Bereich, in dem die Erfolge solcher Maschinen gerne gemessen werden, ist jener von Strategiespielen, insbesondere Go und Schach, die beide als sehr komplex gelten. Hier hat man fast den Eindruck, dass permanent neue Maschinen entwickelt werden, die ihre Vorgänger in immer kürzeren Zeitabständen in den Schatten stellen. Ein neuer Meilenstein soll nun mit Alpha Zero erreicht worden sein.

Bisheriger Stand

Wie bereits in einem früheren Artikel beschrieben, hat die künstliche Intelligenz in letzter Zeit große Fortschritte gemacht. So sind speziell darauf trainierte Systeme seit 2017 neben den klassischen komplexen Brettspielen Schach und Go dem Menschen auch in Poker überlegen. Bei diesen Maschinen handelte es sich aber durchwegs um eigens für das entsprechende Spiel programmierte Geräte, die ihren Spielstil zwar durch künstliche Intelligenz verbessern bzw. an den Spielstil des Gegners anpassen konnten, aber im Wesentlichen nur Meister des jeweiligen Spiels waren. Doch mittlerweile ist man wieder einen Schritt weiter.

Funktionsweise von Alpha Zero

Das von Google 2014 aufgekaufte Unternehmen DeepMind, das auch schon hinter der Entwicklung von AlphaGo stand, hat mit Alpha Zero eine neue künstliche Intelligenz erschaffen, die einen neuen Ansatz verfolgt und dabei sehr erfolgreich zu sein scheint. Während bei den bisherigen Maschinen zwei neuronale Netze - ein Regelnetzwerk und ein Bewertungsnetzwerk - zusammenspielten, benötigt Alpha Zero nur mehr ein neuronales Netzwerk, das gleichzeitig Zugvorschläge und Stellungsbewertungen liefert. Neben dieser tiefgreifenden Änderung wurde dann noch zusätzlich der den Maschinen zugrunde liegende Algorithmus der Monte-Carlo Baumsuche vereinfacht, sodass dieser nur mehr zur Verstärkung der Strategie dient. Des Weiteren wurde bei Alpha Zero nur mehr das Regelbuch des jeweiligen Spiels implementiert und im Anschluss daran lernte Alpha Zero durch Spiele mit sich selbst. Dabei passen sich die Wahrscheinlichkeitsverteilungen der Zugvorschläge stetig den bei den tatsächlich gespielten Partien verwendeten Ergebnissen der Monte-Carlo Baumsuche an. Dadurch kann bei späteren Baumsuchen gleich eine bessere Strategie als Basis verwendet werden und die Stellungsbewertung wird dann wieder an die Ergebnisse der simulierten Partien angepasst und so weiter.

 AlphaGo Zero

Eine erste Variante von Alpha Zero war AlphaGo Zero. AlphaGo Zero erreichte innerhalb von 3 Tagen Profiniveau und besiegte jene Version von Alpha Go, die seinerzeit (2016) Lee Sedo besiegte, und war nach 40 Tagen deutlich stärker als die zu dieser Zeit stärkste Masterversion von AlphaGo. Dabei entdeckte AlphaGo Zero selbstständig und ganz ohne menschliche Hilfe die verschiedenen Spielstrategien, die Menschen bisher entwickelten. Erstaunlich war dabei laut Forscher_innen, wie schnell dies vonstatten ging und wie AlphaGo Zero auch immer wieder Strategien zu Gunsten besserer sprich stärkerer Strategien verwarf. Nach diesem ersten Erfolg war es Zeit für eine Weiterentwicklung.

Alpha Zero

Dafür wurde mit Alpha Zero eine neue, aber teilweise auf AlphaGo Zero basierende Maschine entwickelt. Im Unterschied zu AlphaGo Zero ist Alpha Zero aber in der Lage neben Go auch noch Shogi und Schach zu spielen. Speziell Schach und Shogi waren dabei eine Herausforderung, da es bei diesen beiden Spielen im Gegensatz zu Go auch die Möglichkeit eines Unentschieden gibt, was eine andere Spielweise erfordert. Und so ließ man Alpha Zero die entsprechenden Spiele eigenständig lernen (es wurden nur die jeweiligen Spielregeln eingegeben) und dann gegen entsprechende Gegner antreten, was zu folgenden Ergebnissen führte:

  • Go: Nach einer Lernzeit von 8 Stunden erreichte Alpha Zero die Spielstärke von AlphaGo Lee, also jener Maschine, die einst Lee Sedol besiegte. Nach 34 Stunden Lernzeit trat sie gegen AlphaGo Zero an, das zu diesem Zeitpunkt auch 3 Tage Training hinter sich hatte und bis dahin das Maß aller Dinge war. Die Bilanz bei 100 gespielten Partien war: 60 Siege bei 40 Niederlagen
  • Shogi: Nach einer Lernzeit von 12 Stunden trat Alpha Zero gegen den Shogi Computer Elmo an und lieferte bei 100 Spielen folgende Bilanz: 80 Siege, 2 Unentschieden, 8 Niederlagen
  • Schach: Hier trat Alpha Zero gegen das Programm Stockfish an und erreichte nach 4 Stunden Training dessen Spielstärke. In den darauf folgenden 100 Partien gab es folgende Bilanz: 28 Siege und 72 Unentschieden.

Für die Entwickler war das ein großer Erfolg, konnten doch in allen drei Spielen mehrheitlich Erfolge gegen Maschinen errungen werden, die als Spezialisten in den jeweilgen Spielen galten und die auch entsprechende Wettbewerbe in den letzten Jahren gewonnen hatten. Dennoch sehen nicht alle diese Erfolge im selben strahlenden Licht.

Kritik

Der Hauptkritikpunkt ist, dass Alpha Zero eine viel leistungsstärkere Hardware zur Verfügung gestellt wurde, als den Gegnern. Dies rückt natürlich die extrem kurzen Trainingsphasen in ein anderes Licht. Auch das vor allem beim Schachspiel festgelegte Zeitlimit von 1 Minute pro Zug ist sicher kein Nachteil für jene Maschine, die ohnehin die höhere Rechenleistung mitbringt. Und dass kein Eröffnungsbuch und keine Endspieltabellen zur Verfügung gestellt wurden, war ein massiver Nachteil für Stockfish, für dessen Programmierung diese beiden eigentlich ein fixer Bestandteil sind. Daneben sind noch einige Detailergebnisse interessant. Denn vor allem bei den Schachpartien ist auffällig, dass 25 der 28 Siege mit den weißen Steinen erfolgten, wo sonst üblicherweise 55 % der Partien mit schwarzen Steinen gewonnen werden, wenn 2 maschinelle Schachspieler gegeneinander antreten. Bei Go und Shogi war dieser Unterschied nicht so ausgeprägt.

Fazit

Auch wenn sich Google bei den Angaben über die tatsächlich eingesetzte Hardware sehr zurückhält und die Ergebnisse, vor allem jene der Schachpartien, teilweise stark kritisiert werden, bleiben doch einige erstaunliche Erfolge übrig. Denn erstmals hat eine Maschine unterschiedliche Spiele gelernt und wurde nicht nur für ein Spiel programmiert. Obendrein hat sie diese nur anhand der Spielregeln selbstständig erlernt, ganz ohne Unterstützung durch Zugtabellen und dergleichen, und es dabei dann zu einer Leistungsstärke gebracht, mit der sie ihre auf nur ein Spiel spezialisierten Vorgänger teilweise klar besiegen konnte. Das wirklich Erstaunliche dabei ist aber, dass Alpha Zero im Rahmen dieses Lernens die gleichen Spielstrategien entwickelte, die Menschen entwickelt haben, diese prüfte und gegebenfalls wieder verwarf. Genau so wie dies Menschen machen, wenn sie Spiele neu erlernen und sich durch Übung verbessern und dadurch letztendlich zu einem  immer besseren Spieverständnis gelangen. Alpha Zero hat also die Entwicklung eines_r menschlichen Spielers_in in wenigen Stunden nachvollzogen und dabei ein Niveau erreicht, das menschliche Spieler_innen kaum jemals erreichen können. Dies ist für mich zugleich erstaunlich und faszinierend, wie es auch beängstigend ist. Aber vermutlich habe ich nur zu viel Science Fiction gelesen.

Links: