Was ist AlphaFold?
AlphaFold ist eine Künstliche Intelligenz, welche in der Lage ist, die dreidimensionale Proteinstruktur nur mithilfe der Aminosäuresequenz des Proteins vorherzusagen. 2020 hat AlphaFold2 die Genauigkeit von experimentellen Methoden erreicht und damit ein 50 Jahre altes Problem der Biologie gelöst: das Problem der Proteinfaltung.
Seit 2021 steht AlphaFold DB als Datenbank von Proteinstrukturen für Wissenschaftler auf der ganzen Welt frei zur Verfügung. Zudem kann eine kostenlose Version von AlphaFold2 als Open-Source-Software bei Github genutzt werden.
Die Lösung für das „protein folding problem“ (Proteinfaltungsproblem)
AlphaFold ist eine weitere Erfolgsgeschichte von Google DeepMind (AlphaGo, AlphaZero und Ithaca). Kurz nachdem AlphaGo den berühmten Profispieler Lee Sedol in Go deutlich besiegt hat, wurde 2016 ein neues Team von DeepMind zusammengestellt. Dessen Ziel war es, das Problem der Proteinstrukturvorhersage zu lösen.
2018 markiert den ersten Erfolg des Teams: AlphaFold belegt den ersten Platz bei dem 13. CASP-Wettbewerb.
Die CASP; Critical Assessment of Techniques for Protein Structure Prediction (zu Deutsch: kritische Bewertung von Techniken zur Vorhersage von Proteinstrukturen) ist ein Zusammenschluss von Wissenschaftlern, die seit 1994 die Problematik der Proteinfaltung erforschen. Alle zwei Jahre findet ein Wettbewerb statt, in dem Forschungsteams eine Auswahl an Aminosäuresequenzen für Proteine vorgegeben bekommen. Deren genaue dreidimensionale Form ist bereits bekannt, aber nicht öffentlich zugänglich. Die Teams geben ihre besten Vorhersagen ab, um zu sehen, wie nah sie an den tatsächlichen Strukturen sind.
Die hervorragenden Ergebnisse von AlphaFold bei diesem Wettbewerb werden in der Fachzeitschrift Nature veröffentlicht und das Team von DeepMind wird weiter vergrößert. 2020 ist der Durchbruch geschafft: AlphaFold2 gewinnt den 14. CASP-Wettbewerb mit großem Vorsprung und wird von den Organisatoren der CASP als Lösung für das 50 Jahre alte „protein folding problem“ (Proteinfaltungsproblem) anerkannt. AlphaFold2 kann die Proteinstrukturen bis auf atomare Genauigkeit mit einem mittleren Fehler (RMSD_95) von weniger als 1 Angström vorhersagen und ist damit dreimal genauer als das nächstbeste System und vergleichbar mit experimentellen Methoden. In der Fachwelt wird die Lösung des Proteinfaltungsproblems als eine der wichtigsten Errungenschaft seit der Kartierung des menschlichen Genoms betitelt.
Wie funktioniert AlphaFold?
Grundsätzlich nutzt AlphaFold Neuronale Netze welche durch Deep Learning trainiert werden. Nach den sehr guten Ergebnissen bei CASP13, wird das Programm weiterentwickelt. Dessen Methoden und der Code werden in der Fachzeitschrift Nature veröffentlicht. Daraus resultieren Open-Source-Implementierungen aus der Community. DeepMind selbst hat neue Deep-Learning-Architekturen hinzugefügt und die Methoden weiterentwickelt.
Ausschlaggebend für diese Methoden sind die Fachbereiche Biologie, besonders im Gebiet der Proteinfaltung, sowie Physik und maschinelles Lernen.
Für das Verständnis der physikalischen Wechselwirkungen innerhalb von Proteinen ist es wichtig zu verstehen, wie ein gefaltetes Protein aufgebaut ist. Es kann als „räumlicher Graph“ gesehen werden, in dem Reste die Knoten sind und Kanten die Reste in unmittelbarer Nähe verbinden. Für AlphaFold2, welches CASP14 gewinnt, wird ein aufmerksamkeitsbasiertes neuronales Netzwerksystem genutzt. Damit versucht es kontinuierlich, die Struktur des Proteins zu interpretieren, während es über das Diagramm, welches es gerade zusammenfügt, nachdenkt. Zur Verbesserung dieses Diagramms werden Multiple Sequence Alignment (kurz MSA; zu Deutsch: Multiple Sequenzalignierung) und eine Darstellung von Aminosäurerestpaaren verwendet.
Durch ständiges Wiederholen dieses Prozesses erzielt AlphaFold2 starke Vorhersagen der Proteinstruktur. Durch ein eigenes Konfidenzmaß ist AlphaFold2 außerdem in der Lage zu bestimmen, welche Teile seiner vorhergesagten Proteinstruktur als zuverlässig einzustufen sind.
AlphaFold Protein Structure Database
In enger Zusammenarbeit mit dem European Bioinformatics Institute am European Molecular Biology Laboratory (EMBL-EBI) startet DeepMind 2021 die AlphaFold Protein Structure Database. Damit hat die wissenschaftliche Gemeinschaft freien und offenen Zugang zum menschlichen Proteom (die Gesamtheit aller Proteine des menschlichen Körpers) zusammen mit 20 weiteren Modellorganismen, unter anderem von Mäusen. Damit umfasst die Datenbank insgesamt über 350.000 Strukturen. Anfang 2022 fügt DeepMind weitere 27 Proteome (das entspricht über 190.000 Proteinen) der Datenbank hinzu.
Bis heute haben über 300.000 Forscher weltweit von der Datenbank Gebrauch gemacht. Damit stellt AlphaFold einen der bedeutendsten Beiträge von KI zur Förderung der wissenschaftlichen Erkenntnisse dar.