Was ist Natural Language Generation?

Natural Language Generation oder auch Textgenerierung genannt ist die automatische Produktion von natürlicher Sprache durch eine Maschine. NLG ist eine besondere Form der Künstlichen Intelligenz. Ein Generierungsprozess verwendet unterschiedliche Beschreibungsmodelle und Fachausdrücke unter verschiedenen Methoden und Blickwinkeln. Die Aussagen sollten widerspruchsfrei sein. Nach einem Vorschlag von Ehud Reiter kann eine Architektur verwendet werden, die standardmäßig aus einem Textplaner und einem Satzplaner sowie einem Oberflächenrealisierer besteht.

Es wird die Theorie rhetorischer Strukturen für Diskursrelationen genutzt. So ist ein Text kohärent, falls er durch einen Baum rhetorischer Relationen und elementaren Texteinheiten konsistent dargestellt werden kann. Es gibt Relationen zwischen Haupt- und Nebensätzen und dabei die Bindeglieder:

  • CAUSE
  • RESULT
  • ELABORATION
  • CONTRAST
  • SEQUENCE
  • LIST
  • CONCESSION
  • und Weitere

Die Generierung benötigt zwei Komponenten nach M. Hess. Eine strategische Komponente ermittelt was gesagt werden soll. So geschieht dabei die Informationsauswahl, die Inhaltswahl und die Bereichsplanung. Für diese Komponente werden Such- und Planungsstrategien künstlicher Intelligenz eingesetzt. Außerdem gibt es die taktische Komponente. Bei dieser wird ermittelt wie etwas gesagt werden soll. So wird die sprachliche Form geplant. Es wird hier eine auf den Generierungsaspekt zugeschnittene Grammatik genutzt.

Von Ulrich Gaudenz Müller gibt es ein System zur Textgenerierung, das SARA (Satz-Random-Generator) genannt wurde und gemeinsam mit dem Germanisten und Computerlinguisten Raimund Drewek entwickelt wurde. Vorausgesetzt wird für eine Generierung, dass die Information formal, computerlinguistisch vorliegt und etwa aus Datenbanken oder Wissensrepräsentationen extrahiert werden kann. Anwendungsgebiete gibt es im Roboterjournalismus, bei Chatbots und im Content Marketing.

Welche Anwendungsfelder gibt es bei Natural Language Generation?

Überall wo strukturierte Daten generiert werden sollen, kann Natural Language Generation (NLG) eingesetzt werden, so etwa im E-Commerce oder an der Börse. Auch in der Berichterstattung für Sport, Wirtschaft und Wetter kann NLG zum Einsatz kommen. Ziel ist es leserfreundliche Texte zu erstellen.

Welche Technologien werden für NLG genutzt?

„Big Data“ kann in die Texterstellung miteinbezogen werden. So können Sachverhalte dargestellt und Zahlen detailliert interpretiert werden. Der Output kann an ein CMS weitergereicht werden. Die beliebte Programmiersprache Python kann genutzt werden, um Texte zu generieren, zu übersetzen und Deep Learning einzusetzen.

Welche Ebenen von NLG gibt es?

Es gibt die Inhaltsanalyse, das Datenverstehen, die Dokumentenstrukturierung, die Satzzusammensetzung sowie die grammatische Strukturierung und die Sprachpräsentation. In der Inhaltsanalyse werden Daten gefiltert, um festzustellen, was in den Inhalt übernommen werden soll. Beim Datenverstehen werden die Daten interpretiert, häufig mithilfe von Maschinenlernen. Die Dokumentenstrukturierung wird mit dem Dokument geplant und eine Erzählungsstruktur wird ausgewählt.