Was ist DALL-E?

DALL-E ist ein neuronales Netzwerk, das auf künstlicher Intelligenz basiert und aus Beschreibungen Bilder erstellt. Vorgestellt wurde es Anfang des Jahres 2021 von OpenAI, nachdem dem Programm jahrelange Arbeit vorausgegangen war. OpenAI ist ein Unternehmen, das sich der Erforschung und Entwicklung von künstlicher Intelligenz verschrieben hat. Investoren sind unter anderem Elon Musk und Microsoft. Der Name ist eine Kombination aus dem Begriff WALL-E, einem Science-Fiction-Film von Pixar, und dem Namen des surrealistischen Künstlers Salvador Dalí.

Funktion des Algorithmus

DALL-E verwendet eine 12-Milliarden-Parameter-Version des GPT-3 Transformer-Modells. Die Abkürzung GPT steht für Generative Pre-Trained und die „3“ für die mittlerweile dritte Generation. GPT-3 ist ein autoregressives Sprachmodell. Es verwendet die Methode des Deep Learning, um menschenähnlichen Text zu erzeugen. Die Qualität ist inzwischen so hoch, dass es nicht immer leicht zu erkennen ist, ob der Text von einer Maschine oder von einem Menschen geschrieben wurde.

DALL-E interpretiert Eingaben in natürlicher Sprache und generiert daraus Bilder. Es nutzt dazu, eine Datenbasis aus Paaren von Bildern und Texten. Dazu arbeitet es mit der Methode des Zero-Shot-Lernens. Es generiert ohne weiteres Training aus einer Beschreibung eine bildliche Ausgabe und arbeitet dabei mit CLIP zusammen. CLIP wurde ebenfalls von OpenAI entwickelt und bedeutet „Connecting Text and Images“. Es ist ein separates neuronales Netzwerk, das die Textausgabe versteht und einordnet.

Text und Bild stammen aus einem einzigen Datenstrom, der bis zu 1280 Token enthält. Trainiert wird der Algorithmus unter der maximalen Wahrscheinlichkeit, alle Token nacheinander zu generieren. Die Trainingsdaten ermöglichen es, dass das neuronale Netzwerk Bilder sowohl von Grund auf neu erstellen kann, als auch bereits bestehende Bilder überarbeiten kann.

Welche Fähigkeiten hat DALL-E?

DALL-E verfügt über eine große Anzahl von Fähigkeiten. Es kann sowohl fotorealistische Bilder von echten, als auch von nicht real existierenden Objekten darstellen oder Gemälde und Emojis ausgeben. Außerdem kann es Bilder manipulieren oder umarrangieren.

Zudem ist das neuronale Netzwerk in vielen Fällen in der Lage, Lücken zu füllen und auf Bildern Details anzuzeigen, die in der Beschreibung nicht explizit genannt wurden. So setzte der Algorithmus bereits folgende Darstellungen aus Textbeschreibungen um:

  • ein blauer rechteckiger Kreis innerhalb von einem grünen Quadrat
  • der Querschnitt eines angeschnittenen Apfels
  • ein Gemälde einer Katze
  • die Fassade eines Geschäfts mit einem bestimmten Schriftzug