Ithaca (DeepMind)

Was ist Ithaca?

Bei Ithaca handelt es sich um eine Software bzw. einen Algorithmus des britischen Unternehmens DeepMind, welcher mittels maschinellem Lernen lückenhafte antike Texte wieder vervollständigen soll. Dazu wird das Programm in erster Linie in der Epigrafik, der Wissenschaft über Inschriften auf verschiedenen Materialien, eingesetzt. Aktuell zielt der Algorithmus auf die Analyse altgriechischer Texte ab, jedoch ist zukünftig die Anwendung auch für andere Sprachen geplant.

Neben der Vervollständigung der Lücken soll Ithaca auch Aufschlüsse über den Ursprungsort sowie den Entstehungszeitpunkt der Texte geben. Die Datierung dieser Texte war bisher mit gängigen Verfahren wie beispielsweise der Radiokarbonmethode nicht möglich, da für diese Anwendung die Texte auf kohlenstoffhaltigen Materialien verfasst werden mussten.

Der Algorithmus wurde vom Unternehmen DeepMind (AlphaGo, AlphaZero, AlphaFold) in Zusammenarbeit mit mehreren Unternehmen wie Google und Universitäten wie der University of Oxford, der Athens University of Economics and Business oder der Università Ca’Foscari di Venezia entwickelt. Der Name Ithaca wurde als Hommage an die gleichnamige Heimatinsel des Odysseus aus Homers Epen gewählt.

Um den Algorithmus möglichst vielen Menschen zugänglich zu machen, wurde der Quellcode seitens DeepMind auf der Open-Source Versionsverwaltungsplattform GitHub zur Verfügung gestellt, welcher dort genutzt bzw. weiterentwickelt werden kann.

Welche Funktionen stecken in DeepMind’s neuem ML-Modell?

Der Algorithmus zur Textvervollständigung funktioniert – wie die meisten Algorithmen, welche künstliche Intelligenz anwenden – auf Basis von Wahrscheinlichkeiten. Dazu berechnet Ithaca anhand der größten digitalen Datenbank für antike Texte des Packard Humanities Institute aus Kalifornien jene Wörter, welche am wahrscheinlichsten in die Lücken passen. Die Datenbank umfasst knapp 180.000 Inschriften, welche allesamt mittels Metadaten wie Ort und Zeit versehen sind.

Darauf aufbauend wird das Rechenergebnis Experten zur endgültigen Feststellung der Textlücken vorgelegt, welche den ursprünglichen Text mit ihrer Expertise bewerten. In einem durchgeführten Experiment von DeepMind konnte Ithaca alleinig einzelne Wörter mit einer Genauigkeit von 62 % wiederherstellen, Historiker gelang dies jedoch lediglich mit einer Genauigkeit von 25 %. Durch die Zusammenarbeit der Bewertung des Programms und der Experten stieg die Genauigkeit zur Wiederherstellung fehlender Wörter auf 72 %.

Zur Datierung und Zuordnung der Region, in welcher die jeweilige Schrift entstanden ist, unterstützt das „Lexicon of Greek Personal Names“ (LGPN), ein Lexikon griechischer Namen der britischen Universität Oxford. Mit diesen Daten kann analysiert werden, wann welche Namen am häufigsten in welcher Region vertreten waren, um somit Erkenntnisse über die geografische und zeitliche Einordnung der antiken Texte zu generieren. Dadurch soll Ithaca bei der Zeitangabe eine Genauigkeit von 71 % erreichen und beim vorgeschlagenen Entstehungszeitpunkt in einer Zeitspanne von weniger als 30 Jahren liegen.

Wie können Forscher auf Ithaca von DeepMind zugreifen?

Auf den Algorithmus kann über mehrere Wege zugegriffen werden:

  • Auf der Open-Source Versionsverwaltungsplattform GitHub ist der Quellcode, die Bibliotheken sowie weitere Einbindungsmöglichkeiten zur Nutzung von Ithaca angeführt.
  • Ithaca wurde in einem Beitrag der Fachzeitschrift Nature publiziert. Im öffentlich zugänglichen Beitrag wird auf die Arbeitsweise des neuronalen Netzes eingegangen. Zudem werden die verwendeten Methoden detailliert beschrieben sowie Beispiele dargestellt. Auch der Zusammenhang zur vorherigen Textwiederherstellung auf Basis neuronaler Netze von DeepMind namens Pythia wird gebildet.
  • Der Algorithmus ist des Weiteren über die Ithaca-Webseite des Unternehmens DeepMind abrufbar und wird frei und öffentlich zugänglich Forschenden zur Verfügung gestellt. Dort kann mittels Textbox der altgriechische Text eingegeben werden, bei welchem die fehlenden Stellen wiederhergestellt werden. Zudem wird eine Datierung sowie eine Lokalisierung des Erscheinungsorts vorgenommen.

Data Navigator Newsletter