Was ist halb-überwachtes Lernen?
Ein Algorithmus wird dabei mit beschrifteten wie auch unbeschrifteten Daten trainiert. Halb- oder teil-überwachtes Lernen (aus dem Engl. semi-supervised learning) ermöglicht so das zeit- und kosteneffiziente Lernen. Im Bereich der Künstlichen Intelligenz wird ein Lernprozess benötigt, mit dem das System auf intelligente Weise Zusammenhänge lernen kann. Im Gegensatz zum betreuten Lernen ist halb-überwachtes Lernen in der Lage wie beim unbeaufsichtigten Lernen schnell und effektiv Daten einzuordnen.
Es sind eine Vielzahl von Szenarien möglich, bei denen Daten mit Beschriftungen tatsächlich nicht ohne weiteres verfügbar sind. So kann halb-überwachtes Lernen mit einem Bruchteil von gekennzeichneten Daten, etwa mit hunderten von Schulungsbeispielen, optimale Ergebnisse erzielen. Mit halb-überwachtem Lernen können solche Arten von Datensätzen bearbeitet werden, die entweder überwachtes Lernen oder unbeaufsichtigtes Lernen wählen – ohne dabei Kompromisse eingehen zu brauchen.
Wann wird teil-überwachtes Lernen eingesetzt?
Ein halb- bzw. teil-überwachtes Lernen beinhaltet eine Funktionsschätzung von entsprechend markierten und unmarkierten Daten. Mit diesem Ansatz werden nicht so viele beschriftete Daten benötigt, deren Erstellung häufig relativ kostspielig ist. Nicht beschriftete Daten sind wesentlich günstiger und diese können ebenfalls für das Lernen herangezogen werden. Die Herausforderung besteht in der Zusammenstellung dieser Trainingsdaten, um ein Verhältnis von beschrifteten und unbeschrifteten Daten von hoher Gesamtsignifikanz für den Algorithmus bereitzustellen.
Ziel ist es, den nicht gelabelten Daten ein richtiges Label zuzuweisen. Dies kann mit der sogenannten Label Propagation erreicht werden. Solch eine Methode weist Ähnlichkeiten zu einer Clusteranalyse auf. Die Daten können in Cluster geteilt werden und dann können innerhalb des Clusters die nicht gelabelten Daten ganz einfach die gleichen Labels zugeordnet bekommen.
Was ist Label-Spreading?
Label Spreading ist eine Form von einem halb-überwachten Lernalgorithmus. Dieser Algorithmus von Dengyong Zhou et al. erschien in ihrem Artikel mit Titel „Lernen mit lokaler und mit globaler Konsistenz“ im Jahre 2003. So ist die Intuition für einen breiteren Ansatz von halb-überwachtem Lernen so, dass nahegelegene Punkte in dem Eingaberaum die gleiche Bezeichnung besitzen sollten und die Punkte in der gleichen Struktur oder Mannigfaltigkeit in dem Eingaberaum die gleiche Bezeichnung aufweisen sollten.
Die Etikettenverbreitung ist praktisch von einer Technik aus der experimentellen Psychologie entlehnt, die als Ausbreitungsaktivierungsnetzwerk bezeichnet wird. So werden Punkte im Datensatz ganz einfach basierend auf den relativen Abständen in dem Eingaberaum in solch einem Diagramm verbunden. Symmetrisch normalisiert ist die Gewichtsmatrix dieses Graphen, ähnlich wie bei einer spektralen Clusterbildung. Die Informationen werden dann durch das Diagramm geleitet, das angepasst wird, damit die Struktur im Eingaberaum erfasst werden kann. So wird schließlich die Bezeichnung jedes unbeschrifteten Punktes auf eben die Klasse festgelegt, bei der er während des Iterationsprozesses gerade die meisten Informationen bekommen hat. Die Nutzung von Label Spreading hilft Kosten zu sparen.