Was ist ChatGPT?

ChatGPT beschreibt einen sogenannten Chatbot, welcher auf Basis künstlicher Intelligenz mit Menschen interagieren kann. Chatbots sind grundsätzlich in der Lage, eine Kommunikation zwischen einem Menschen und einer Maschine aufzubauen.

Veröffentlicht wurde ChatGPT von dessen Entwickler OpenAI im November 2022 und gilt als Nachfolger der InstructGPT-Modelle. OpenAI ist ein amerikanisches Unternehmen, welches sich mit der Erforschung von künstlicher Intelligenz beschäftigt und unter anderem von Elon Musk sowie Microsoft unterstützt wird. Die 2015 gegründete Non-Profit-Organisation veröffentlichte unter anderem auch die Sprachmodule GPT-2 und GPT-3 sowie das Programm DALL-E und dessen Nachfolger DALL-E 2, welche in der Lage sind, mithilfe von maschinellem Lernen auf Basis von Textbeschreibungen Bilder zu erzeugen.

Wie funktioniert das Sprachmodell?

Während ChatGPT als Schwestermodell vom erwähnten InstructGPT gehandelt wird, baut der Algorithmus auf einem Modell von GPT-3, konkret der GPT-3.5-Serie, auf. In der neuesten Version nutzt ChatGPT die Iteration des Modells GPT-4.

Das Sprachmodell nutzt das sogenannte „Reinforcement Learning from Human Feedback (RLHF)“, wobei die Grundlagen des Modells durch überwachtes Lernen (supervised learning) gelegt werden. Dafür wurden menschliche Trainer eingesetzt, um Trainingsdaten zu generieren, indem sie sowohl die Rolle des Benutzers als auch jene des KI-Assistenten einnahmen.

Im zweiten Schritt unterstützten sie bei der Erstellung von Belohnungsmodellen für das bestärkende Lernen (reinforcement learning) des Modells durch Bewertung der erzeugten Antworten durch die Trainer. Darauf basierend konnten die Belohnungsmodelle durch Optimierung der Proximalpolitik verfeinert werden.

Online-Zugang

ChatGPT kann aktuell auf der Website von OpenAI aufgerufen und verwendet werden. Nach Registrierung mittels eines OpenAI-Accounts und erfolgter Anmeldung kann das Modell aktuell begrenzt kostenlos oder kostenpflichtig ohne Einschränkungen genutzt werden.

OpenAI erhofft sich in dieser Phase Feedback von Nutzern zu erhalten sowie die Erprobung der Stärken und Schwächen des Tools durch die Anwender. Die Nutzungsvereinbarungen stellen klar, dass das Sprachmodell nicht für Zwecke verwendet werden darf, welche die Rechte von Personen verletzen, um den Quellcode zu ermitteln, andere groß angelegte Modelle zu entwickeln, welche mit OpenAI konkurrieren oder die Datenausgabe damit zu deklarieren, dass diese von Menschen generiert wurde, obwohl dies nicht der Fall ist.

Das Sprachmodell ist darauf ausgelegt, im Dialogformat mit Anwendern zu kommunizieren. Dabei soll es auch in der Lage sein, auf Folgefragen innerhalb einer Konversation korrekt zu antworten. Dies ist möglich, da ChatGPT zustandsbehaftet ist und sich an frühere Eingabeaufforderungen erinnert, wodurch sich der Anwender darauf beziehen kann und dies vom Sprachmodell auch verstanden wird.

ChatGPT soll auch in der Lage sein, unangemessene und illegale Anfragen abzulehnen und Antworten zu verweigern. Limitierungen in der Funktion gibt das Unternehmen in jener Weise an, indem darauf hingewiesen wird, dass der Chatbot teilweise plausibel klingende, aber falsche und unsinnige Antworten generiert. Es wird auf die Ursachen dieses Verhaltens eingegangen und damit begründet, dass während des bestärkenden Lernens keine Quelle der Wahrheit vorhanden ist, beim überwachten Lernen das Wissen des menschlichen Trainers ausschlaggebend ist sowie eine konservative oder vorsichtigere Antwortpolitik dazu führt, dass Fragen unbeantwortet bleiben, obwohl das System diese richtig beantworten könnte. Des Weiteren können geringfügige Änderungen der Eingabe zu einer Änderung der ausgegebenen Antwort führen bzw. versucht das Modell bei mehrdeutigen Anfragen die beabsichtigte Fragestellung zu erraten und zu beantworten, anstatt eine Rückfrage zu stellen.

ChatGPT liefert oft sehr umfangreiche Antworten, da diese von den Trainern bevorzugt wurden und daher höher belohnt werden. Obwohl das Sprachmodell auf das Unterbinden von unangemessenen Anfragen trainiert ist, kann dies nicht zur Gänze verhindert werden.