Wu Dao 2.0. – Das kann Chinas State-of-the-Art-Modell

Veröffentlicht: 17.06.2021
Autor: Alexander Thamm
Kategorie: Deep Dive

Inhaltsverzeichnis

Es herrscht ständig steigender Wettbewerbsdruck, was die Entwicklung innovativer KI-Modelle betrifft. Ein Jahr nachdem OpenAI mit dem GTP-3-Modell einen gewaltigen Entwicklungssprung landen konnte und die Welt in Aufruhr versetzt hatte, stellten nun Anfang Juni 2021 Forscher der Beijing Academy of Artificial Intelligence (BAAI) Wu Dao 2.0 vor – 10-mal größer als GPT-3 und nun das weltweit größte neuronale Netzwerk-Modell.

Aus Tech-Perspektive eine faszinierende Meldung. Für die europäische und amerikanische Politik sowie Industrie ein Warnmeldung, um nicht restlos ins Hintertreffen zu geraten. Oder anders ausgedrückt: ein Signal für Chinas Ehrgeiz, weltweit führend in der KI-Entwicklung zu werden.

Wu Dao 2.0 stellt GPT-3 und Google Switch Transformer in den Schatten

Erst im März 2021 veröffentlichte die BAAI das Vorgängermodell Wu Dao 1.0. Lediglich einen Monat später ließ die Forschungsgruppe um Industriepartner wie Xiaomi, Meituan und Kuaishou die aktualisierte Version des multimodalen Modells präsentieren.

Wu Dao 2.0, was wörtlich übersetzt „Verständnis der Naturgesetze“ bedeutet, verfügt über 1,75 Billionen Parameter. So übertrifft es GPT-3 um das Zehnfache und bricht den zuvor im Mai aufgestellten Größenrekord von Googles Switch Transformer KI-Sprachmodell (1,6 Billionen Parameter) um 150 Mrd. Parameter.

Der letztjährig verstärkten Entwicklung hin zu multimodalen KI-Systemen entsprechend, lernt auch Wu Dao 2.0 von Bild- und Text-Daten und kann komplexe Aufgaben, die auf beiden Datentypen basieren, flexibel bearbeiten. D. h., es beherrscht Fähigkeiten wie die Verarbeitung von natürlicher Sprache, Texterzeugung, Bilderkennung und Bilderzeugung und kann sogar 3D-Strukturen von Proteinen vorhersagen, ähnlich wie DeepMinds AlphaFold.

Besonderheiten von Wu Dao 2.0.: Größe und Robustheit

Trainiert wurde das Modell mittels 4,9 TB Text- und Imagedaten, was das GPT-3 Trainings-Set (570 GB clean data aus 45 TB kuratierten Daten) im Vergleich erschreckend klein aussehen lässt. Diese Daten setzen sich zusammen aus 1,2 TB chinesischen Textdaten, 2,5 TB chinesischen Grafikdaten und 1,2 TB englischen Textdaten.

Vergleichbare multimodale Ansätze sind OpenAIs DALL-E und CLIP oder Googles LaMDA und MUM. Nur ist das chinesische Modell von der Größenordnung her wesentlich komplexer und erlangt eine Robustheit, die laut den Forschern des BAAI in neun weit verbreiteten KI-Benchmarks die aktuelle State-of-the-Art (SOTA) überholt:

ImageNet (zero-shot): OpenAI CLIP
LAMA (factual und commonsense knowledge): AutoPrompt
LAMBADA (cloze tasks): Microsoft Turing NLG
SuperGLUE (few-shot): OpenAI GPT-3
UC Merced Land Use (zero-shot): OpenAI CLIP
MS COCO (text generation diagram): OpenAI DALL·E
MS COCO (English graphic retrieval): OpenAI CLIP und Google ALIGN
MS COCO (multilingual graphic retrieval): vor UC² (bestes multilingual und multimodal pre-trained model)
Multi 30K (multilingual graphic retrieval): vor UC².

Wu Dao 2.0. und FastMoE

Wer nun die Frage nach der Nutzbarkeit und nach Kommerzialisierungsmöglichkeiten stellt, wird wohl als eine Antwort FastMoE erhalten. Diese Open-Source-Architektur, welche Googles Mixture of Experts (MoE) ähnelt, kam für Googles Switch Transformer zum Einsatz. Dort werden bestimmte Informationen immer nur an ein Expertennetz innerhalb des großen Modells geleitet. Das reduziert die nötige Rechenleistung, da je nach verarbeiteter Information immer nur bestimmte Abschnitte des Modells aktiv sind. Hyperskalierung, Effizienz und hohe Präzision werden damit sichergestellt. Zudem ist FastMoE flexibler als das System von Google, da es sowohl von Supercomputern als auch auf konventionellen GPUs trainiert wurde und somit keine proprietäre Hardware benötigt.

Anzumerken ist, dass eine wissenschaftliche Veröffentlichung zu Wu Dao 2.0 allerdings noch aussteht. Jedoch scheint es so, dass Wu Dao 2.0 in den wichtigsten Benchmarks über Aufgaben und Modalitäten hinweg beachtenswerte Ergebnisse generieren kann.

Anwendung von Wu Dao 2.0. – auf dem Weg zum KI Grid

Ein Ziel, das laut Tang Jie, dem stellvertretender Direktor des BAAI, verfolgt wird, ist die Entwicklung und Implementierung von kognitiven Fähigkeiten in Maschinen (Turing-Tests).

Demonstriert wurde dies bei der Vorstellung von Hua Zhibing, einer virtuellen Studentin, die auf Basis von Wu Dao 2.0 erlernt hat, Musik zu komponieren, Gedichte zu schreiben, Bilder zu malen und zu coden. Im Gegensatz zu GPT-3 scheint Wu Dao 2.0 sich den menschlichen Gedächtnis- und Lernmechanismen anzunähern, da ein Vergessen von zuvor Gelerntem nicht mehr eintritt.

Abgesehen von dieser verspielten Avatarisierung ist Wu Dao 2.0. jedoch viel mehr als nächster Meilenstein für die Zukunft einer flächendeckenden transformativen KI-Industrieinfrastruktur, ähnlich einem Stromnetz, zu verstehen. Dieses verbindet KI-Anwendungen miteinander und steuert intelligent Kapazitäten. Dies wird dadurch verstärkt werden, dass die Anbieter die von den Kunden über die Schnittstellen bereitgestellten Daten zur Erweiterung des Trainingssets nutzen werden, um zu einer kontinuierlichen Verbesserung des Gesamtsystems beitragen.

Wu Dao demonstriert den Status Quo von Chinas AI-Strategie

Dass die chinesische Regierung das Potential von Künstler Intelligenz seit mehreren Jahren als strategischen Vorteil im internationalen Wettbewerb nutzt, ist sicherlich keine neue Erkenntnis. Erste Früchte aus dem KI- und Innovationsplan, der die Gründung von 50 neuen KI-Instituten bis 2020 vorsah, werden mit Wu Dao 2.0 geerntet. Ob dies bereits der „großen Durchbruch“, wie China sein strategisches Ziel für 2025 umschreiben, bereits war, wäre wohl aus europäischer Sicht zu hoffen, jedoch auch blauäugig.

Denn bereits in den Jahren 2018 und 2019 steckte die Regierung in Peking über 50 Mio. Dollar in die Beijing Academy of Artificial Intelligence.

Aus Sicht der Forschung kann sich China mittlerweile als weltweit führende Nation bei KI-Publikationen und -Patenten verstehen. Der globale Anteil hat sich in den letzten Jahren von 4% im Jahr 1997 auf 28% 2017 verlagert, Tendenz steigend. Auch dieser Trend deutet darauf hin, welche Power China im Bereich der KI-gestützten Unternehmen, z. B. bei Sprach- und Bilderkennungsanwendungen, entfalten kann.

Herausforderung für Europa

In Konsequenz dieser vorherrschenden Entwicklung werden Angebote chinesischer Anbieter, die der KI-Transformation bereits gefolgt sind, einen enormen Marktdruck auf europäische Unternehmen und Staaten ausüben. Ein prominentes Beispiel, das zuletzt geopolitische Dynamiken entfacht hat, ist die chinesische Social-Media-Plattform TikTok.

Ein weiterer, nicht zu unterschätzender Effekt ist, dass KI-Modelle auch immer die Daten und Vorurteile ihrer Programmierer ausdrücken. Konkret bedeutet dies, wenn sich die Entwicklungen in Richtung englischer und chinesischer Sprachmodellen manifestieren, werden andere Kulturen darum kämpfen müssen, dass ihre Sprachen und Werte berücksichtigt werden.

Umso wichtiger ist es zu unterstreichen, dass KI-Modelle einen informellen Indikator für den kontinentalen bzw. nationalen Fortschritt und eine zentrale Dimension des technologischen Wettbewerbs zwischen China, den USA und Europa darstellen.

Laut einer Studie der Europäischen Investitionsbank erfolgen ca. 80 Prozent der Investitionen in KI- und Blockchain-Technologien durch die USA und China, während Europa lediglich 7 Prozent der Investitionssumme, etwa 1,75 Mrd. Euro, beansprucht.

Die neuesten Entwicklungen um Wu Dao 2.0 lassen befürchten, dass Europa vor der Situation steht, seine digitale Souveränität im Bereich der KI zu verlieren.

Stärkung der AI-Position Europas erforderlich

Im April 2021 sind sieben europäische KI-Industrieverbände, darunter Deutschland, Österreich, Schweden, Kroatien, Slowenien, die Niederlande, Frankreich und Bulgarien, an die EU-Kommission herangetreten, um auf die Situation aufmerksam zu machen und Maßnahmen zur Entwicklung großer KI-Modelle in Europa vorzuschlagen.

Denn wenn Europa nicht schnell reagiert, besteht die Gefahr, dass sich von China und den USA gesteuerte Oligopol- oder Monopolmärkten bilden. Die Kräfte und Ressourcen, die auf deutscher und europäischer Ebene für KI bereitgestellt werden, müssen gebündelt und stärker in Moonshot-Projekte investiert werden – nur so besteht die Möglichkeit, nicht den Anschluss zu verlieren.

Diesen Beitrag teilen:

Autor

Alexander Thamm

Alexander Thamm ist Founder, CEO und Pionier auf dem Gebiet der Daten & KI. Seine Mission ist es, einen echten Mehrwert aus Daten zu generieren und die internationale Wettbewerbsfähigkeit Deutschlands und Europas wiederherzustellen. Er ist Gründungsmitglied und Regionalmanager des KI-Bundesverbandes e.V., ein gefragter Speaker, Autor zahlreicher Publikationen und Mitbegründer des DATA Festivals, auf dem KI-Experten und Visionäre die datengetriebene Welt von morgen gestalten. Im Jahr 2012 gründete er die Alexander Thamm GmbH [at], welche zu den führenden Anbietern von Data Science & Künstlicher Intelligenz im deutschsprachigen Raum gehört.

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com