Die Zukunft im E-Commerce – mit KI zu automatisierten Produktbeschreibungen

Veröffentlicht: 08.09.2022
Autor: Susanne Amrhein
Kategorie: Deep Dive

Inhaltsverzeichnis

Produktbeschreibungen zu verfassen ist aufwendig – gerade für Anbieter, die ein sehr großes Produktportfolio besitzen. Um im Online-Vertrieb erfolgreich zu sein, sind diese beschreibenden Texte jedoch ausgesprochen wichtig. Das Ziel dieses Beitrags ist es, anhand eines konkreten Beispiels (Use Cases) zu veranschaulichen, wie der Einsatz von Künstlicher Intelligenz (KI) – in diesem Fall konkret: eines NLP-Modells – für die Erstellung von Produktbeschreibungen aussehen kann. Als Grundlage diente hierbei die Masterarbeit „Generation of description texts comparing large pre-trained NLP models“, die von der Autorin an der TU München eigereicht wurde.

First things first: Was ist NLP?

Im Allgemeinen befasst sich NLP (Natural Language Processing) mit der maschinellen Sprachverarbeitung und beinhaltet beispielsweise die Bereiche Textübersetzung, Textzusammenfassung sowie Textgenerierung. Die zugrunde liegende Idee: Durch die Verwendung von (Sprach-)Modellen grammatikalisch Verständnis aufbauen und schließlich sprachliche Aufgaben lösen.

In diesem Beitrag gelingt dies durch die Eingabe von Stichpunkten, indem erlerntes Verständnis ausführliche Texte erzeugt. So kann einerseits der Erstellungsprozess von Produktbeschreibungen beschleunigt werden und andererseits teilautomatisiert ablaufen.

Die Anwendungsbeispiele sind zahlreich: So ermöglicht der Einsatz von NLP-Modellen eine individuellere Gestaltung von Briefen beziehungsweise E-Mails oder das Bewerben von Produkten durch individuellere und kundenspezifische Beschreibungen.

Das kann für viele Zielgruppen hilfreich sein: In jeder Organisation, Institution oder Behörde, in der wiederholende Prozesse im Zusammenhang mit Texten auftreten, kann der Einsatz von KI (Künstlicher Intelligenz) vieles erleichtern und beschleunigen.

Automatisierung durch NLP

Das Ziel der zugrundeliegenden Arbeit war es, Modelle zu entwickeln, die aus Stichpunkten ausführliche Texte formulieren. Diese Aufgabe zu lösen, wird umfangreichen vortrainierten Sprachmodellen durch die Methode des Transfer Learnings beigebracht. In einem nächsten Schritt werden die Ergebnisse der jeweiligen verwendeten Modelle durch mathematische Sprach-Metriken verglichen, um das beste Modell basierend auf den gegebenen Daten zu evaluieren.

Dazu wurden drei vortrainierten Modelle verwendet: GPT-2, T5 und BART der Python Transformer Library, allesamt entwickelt von der Huggingface Company.

Die Datengrundlage

Durch Web-Scraping wurden Informationen von mehreren tausend Produkten eines Online-Händlers extrahiert. Für jedes Produkt wurde der Titel, die Kategorie, die Unterkategorie, die Beschreibungsstichpunkte sowie der Beschreibungstext ausgelesen. Titel, Kategorie und Unterkategorie sind für eine eindeutige Zuweisung relevant. Die Stichpunkte, durch ein Semikolon getrennt, stellen den späteren Modellinput dar und der Beschreibungstext wird als Label für den zu generierenden Text verwendet., zwei Transformer

Drei Modelle, zwei Transformer

Wie bereits erwähnt wurden die drei Modelle GPT-2, T5 und BART der Python Transformer Library verwendet. Maßgeblich lassen sich diese in die zwei Bereiche des „Causal language model“ und des „Sequence-to-sequence model“ kategorisieren.

Auf der einen Seite berechnen die „causal“ Sprachmodelle das nächste Wort/Token basierend auf den vorangegangenen Worten/Token. Die innerhalb des Models verwendeten „Attention“-Methode wird hier als kausal bezeichnet und legt die Aufmerksamkeit nur auf die Vergangenheit (siehe (a) Causal attention). Zu diesen Modellen zählt das GPT-2 Modell.

Für das GPT-2 Modell ist es wichtig zu wissen, dass das Modell während des Trainings den Inputaufbau lernt. Der Input ist durch Special Tokens strukturiert, die als Zeichen für die Gliederung verwendet werden. Während des Testing-Prozesses ermöglicht das trainierte Wissen, neue Texte zu erstellen (siehe Formel 1).

Die beiden zugrunde liegenden Attention Methoden der „causal“ Sprachmodelle und der „Sequence-to-Sequence“ Modelle werden durch ein Diagramm von Eingabetoken x_i und Ausgabetoken y_i dargestellt.

Jedes Kästchen stellt die Verbindung zwischen dem jeweiligen Token dar. Die orangen Kästchen markieren, welche Informationen zu welchem Zeitpunkt verfügbar sind, während die transparenten Kästchen keine Verbindung darstellen.

Die kausale Aufmerksamkeit erfasst also nur die Vergangenheit, wohingegen die volle Aufmerksamkeit sowohl die Vergangenheit als auch die Zukunft zu jedem Zeitpunkt i erfasst.

Vgl. Abbildungen aus [1].

Auf der anderen Seite bekommen die „Sequence-to-sequence“ Modelle eine Reihe von Worten/Token und geben eine andere Reihe von Worten/Token aus. Eine „Masking“-Funktion wird auf die Input Sequence angewendet und „versteckt“ sozusagen Worte/Token hinter Masken. Die Modelle versuchen Worte/Token vorherzusagen, die sich unter diesen Masken befinden könnten.

Diese Technik ermöglicht es dem Modell ein Satzverständnis, beziehungsweise eine Art Sprachverständnis zu entwickeln. Die zugrundeliegende „Attention“-Methode ist in diesem Fall voll sichtbar (siehe (b) Full attention). Zu diesen Modellen zählen das T5 sowie das BART Modell. Der Hauptunterschied zwischen diesen beiden Modellen ist die Verwendung des Multitask-Learning Ansatz, der beim T5 Modell verwendet wird. Hier wird ein zusätzliches Präfix genutzt, um die Aufgabe des Modells zu definieren. Für beide Modelle ist die Eingabe des Inputs und des Labels ähnlich strukturiert. Ein kleiner Unterschied: Beim BART Modell wird ein zusätzlicher Specialtoken verwendet, der den Anfang des Inputs sowie des Labels indiziert (siehe Formel 2 und Formel 3).

Von allen drei vortrainierten Modellen sind viele unterschiedlich große Modelle in der Transformer Library verfügbar. Aufgrund von limitierter Rechenleistungen wurden in diesem Beispiel kleinere Versionen verwendet.

Evaluationsmetriken – METEOR und BERTScore

Mathematische Evaluationsmetriken können bestimmen, wie ähnlich ein generierter Text zu seinem Referenztext ist. Dieser Bereich ist ein sehr aktives Forschungsfeld und es gibt viele verschiedene Metriken, die unterschiedlichen Merkmale in den Fokus nehmen. In der zugrundeliegenden Arbeit wurden zwei verschiedene Methoden mit jeweils einer Metrik betrachtet.

Eine Methode ist das n-gram Matching mit dem Beispiel METEOR (Metric for Evaluation for Translation with Explicit Ordering). Die Parallelen zwischen dem generierten Text und dem Label Text werden gesucht und gezählt. Mit den absoluten Counts kann durch einen Harmonic Mean die Score Metrik berechnet werden (siehe Abbildung 2).

Abbildung 2 Die METEOR-Metrik wird schematisch mit Beispielsätzen visualisiert. Diese Darstellung der METEOR-Metrik ist inspiriert von der Darstellung der der BERTScore-Architektur in [2].

Eine andere Methode sind die Embedding Based Metriken. Hier werden die Texte von einer unabhängigen (neutralen) Perspektive beurteilt. Im Beispiel der BERTScore Metrik wird der generierte Text sowie der Label-Text in einen High-dimensional Space, dem BERT Model-Embedding, eingebettet. Basierend auf den erstellten High-dimensional Vektoren kann zwischen jedem Wort/Token eine Ähnlichkeit durch die Cosine-Similarity berechnet und durch einen Harmonic Mean ein finaler Score erstellt werden (siehe Abbildung 3).

Die beiden verwendeten Metriken ziehen jeweils andere Merkmale in Betracht und können dadurch eine detaillierte Beurteilung geben, die eine gute linguistische Einschätzung darstellt.

Abbildung 3 Jeder Schritt der Berechnung des BERTScore wird schematisch mit Beispielsätzen dargestellt. Im Text findet sich eine ausführliche Erläuterung. Vgl. Abbildung in [2].

Ergebnisse – Modell Performance

Die beiden vorgestellten Metriken wurden auf die Texte, die von den drei verschiedenen Modellen generiert wurden, sowie deren Label-Text angewendet. Dadurch wurde für jeden Text ein METEOR Score und ein BERTScore berechnet. Durch die Betrachtung des Mittelwerts der METEOR Werte des Trainingsdatensatzes in Tabelle 1 kann gefolgert werden, dass die Mehrheit der generierten Texte des GPT-2 Models niedrigere Scores als die des T5 oder BART Models erhalten. Eine analoge Aussage kann basierend auf dem Mittelwert und der Standardabweichung der BERTScore Werte aus Tabelle 2 gefolgert werden.

Zusammenfassend zeigen die Ergebnisse, dass für das GPT2-Modell die generierten Texte weniger mit den gescrapten Beschreibungstexten übereinstimmen. Somit sind die beiden Modelle, das T5- und das BART-Modell, auf der Grundlage der Testmenge zu präferieren. Für eine allgemeine Aussage wäre jedoch auch das Urteil von Linguisten erforderlich.

Fazit und Ausblick

In diesem Artikel (und in der zugrundeliegenden Arbeit) wurden viele Annahmen getroffen, die nicht allgemeingültig sind. Um eine allgemeingültige Aussage zur Modell-Performance zu treffen, die sich in der Praxis implementieren ließe, müssten weitere Punkte in Betracht gezogen werden: Die Relevanz von größeren Modellversionen oder die Veränderung der verwendeten Stichpunkte wären hier genauer zu untersuchen. Zudem wäre eine linguistische Bewertung der generierten Texte ein wichtiger Schritt, um die erhaltenen Ergebnisse allgemeingültig zu bewerten.

Die Unterstützung durch KI für die Erstellung von Produktbeschreibungen hat ein großes Potenzial für Zukunft – insbesondere im E-Commerce. Viele zeitintensive Prozesse können durch effizient KI maßgeblich unterstützt werden. Zur Implementierung in der Praxis eignen sich die hier analysierten Modelle jedoch (noch) nicht.

Disclaimer: Für die Erstellung dieses Artikels wurde kein Sprachgenerierungsmodell genutzt. ????

Quellen:

[1] C. Ra_el, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, Y. Zhou, W. Li, and P. J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140):1{67, 2020.

[2] T. Zhang, V. Kishore, F. Wu, K. Q. Weinberger, and Y. Artzi. Bertscore: Evaluating text generation with bert. In International Conference on Learning Representations, 2020.

Diesen Beitrag teilen:

Autorin

Susanne Amrhein

Susanne hat bereits Anfang 2020 als Werkstudentin bei der Alexander Thamm GmbH ihre Karriere begonnen und ist heute als Data Scientist im Einsatz. Sie hat sich auf die Bereiche Forecasting sowie Natural Language Processing (NLP) spezialisiert. Es begeistert sie, viele neue Tools und Ideen auszuprobieren und außerdem ist sie ein Fan von Best Practices und klaren Code Strukturen.

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com