Daten (Informationstheorie)

Was sind Daten?

Daten sind digitale Informationsträger, die von einem Computer oder anderem elektronischen Gerät gelesen, bearbeitet und gespeichert werden können. Sie liegen in unterschiedlichen Formaten vor, deren Kodierung einer bestimmten Syntax folgt.

In der Informatik werden Daten fast ausschließlich in binärer Form dargestellt. Dabei ist die Bezeichnung Bit eine Maßeinheit für die Datenmenge. Beispiele für digitale Formate sind unter anderem Text, Bilder, Zahlen sowie Audio- und Videodateien. Welche Informationen Daten genau repräsentieren, muss aus dem jeweiligen Kontext geschlossen werden. So kann die Ziffernfolge 12345678 eine Telefonnummer oder Kreditkartennummer sein. Ihre konkrete Bedeutung erhält sie erst durch die Verarbeitung von Programmen oder Algorithmen.

Welche Arten von Daten existieren?

Strukturierte Daten

Strukturierte Daten werden in einer bestimmten Weise angeordnet, sodass sie eine gleichartige Form aufweisen. Beispiele hierfür sind Datensätze, Felder oder Listen. Strukturierte Daten finden insbesondere in relationalen Datenbanken Anwendung. Informationen werden vor der Speicherung in entsprechenden Feldern sortiert und formatiert. Sie können dann über eine Datenbanksprache wie SQL abgefragt und bearbeitet werden.

Semi-Strukturierte Daten

Im Gegensatz zu strukturierten Daten gibt es bei semi-strukturierten Daten kein festes Schema. Sie sind hierarchisch gegliedert und können durch verschachtelte Informationen erweitert werden. Zudem ist die Reihenfolge der Attribute bei semi-strukturierten Daten unwichtig. Eine Entität einer Klasse kann mehrere Attribute gleichzeitig besitzen.

Unstrukturierte Daten

Unstrukturierte liegen in keinem standardisierten Format vor. Aus ihnen muss erst eine Struktur gewonnen werden, bevor sie in eine Datenbank abgelegt werden können. Beispiele für unstrukturierte Daten sind Bilder, Texte, Video- und Audioaufnahmen. Sie beinhalten häufig viele relevante Informationen, die vor allem im Bereich Big Data von Bedeutung sind.

Was versteht man unter Datenmanagement?

Datenmanagement bezeichnet alle technischen und organisatorischen Maßnahmen zur Verwaltung von Daten, um diese effizient nutzen und Geschäftsprozesse verbessern zu können. Unternehmen sollten daher über eine umfassende Datenstrategie verfügen, die die Ziele des Datenmanagements festlegt. Zu den essenziellen Methoden des Datenmanagements gehören:

Für das Datenmanagement von Unternehmen spielt vor allem Konsolidierung eine wichtige Rolle. Bei der Konsolidierung werden durch Aggregation Daten aus verschiedenen Systemen oder Abteilungen in einer einzigen Quelle zusammengeführt. Es entsteht eine zentrale Sicht und Redundanzen werden reduziert. Für eine optimale Konsolidierung sind eine geeignete Datenarchitektur und hohe Datenqualität notwendig.

Wie können Daten gespeichert werden?

Elektronische Datenspeicher

Elektronische Datenspeicher bestehen aus Halbleiterbauteilen, deren Schaltkreise fast ausschließlich auf Silizium basieren. Man unterteilt sie in flüchtige (z. B. RAM), permanente (z. B. SSDs) und semi-permanente Speicher (z. B. Speicherkarten, USB-Sticks).

Magnetische Datenspeicher

Für diese Art der Speicherung wird magnetisierbares Material wie Bänder oder Platten verwendet. Man unterscheidet zwischen rotierenden und nicht rotierenden Speichermedien. Bei rotierenden Platten werden mithilfe eines Lese-Schreib-Kopfes die Daten gelesen oder überschrieben. Nicht-rotierende Speicher wie Magnetbänder oder Karten werden an einem festen Kopf vorbeigezogen.

Optische Datenspeicher

Zum Lesen und Beschreiben der Daten wird bei optischen Datenträgern ein Laserstrahl eingesetzt. Hierbei werden zum Speichern die Reflexionseigenschaften des Mediums genutzt. Beispiele für optische Datenspeicher sind CDs oder DVDs.

Cloud-basierte Speicher

Cloud

Beim Cloud Computing werden Daten extern über das Internet gespeichert und verwaltet. Die Dateien können so von jedem Ort aus aufgerufen werden. Zudem sind Cloud Speicher hoch skalierbar.

Edge

Edge Computing ist eine Form der dezentralen Datenverarbeitung, die in der Nähe der Datenquelle oder des Nutzers stattfindet. Dadurch können Daten schneller und sicherer verarbeitet werden.

Fog

Fog Computing ist ein Cloud-Konzept, bei dem Daten dezentral in lokalen Minirechenzentren verwaltet werden können. Fog-Nodes sind Vermittlungsknoten, die entscheiden, ob Daten an zentrale oder dezentrale Endpunkte weitergeleitet werden müssen. Dies reduziert den Kommunikationsweg und spart Rechenleistung.

Was sind personenbezogene Daten?

Personenbezogene Daten sind Informationen, die einer identifizierbaren Person zugeordnet werden können. Darunter fallen zum Beispiel Namen, Anschrift, Geburtsdatum, Telefonnummer, E-Mail-Adresse, Sozialversicherungsnummer oder IP-Adresse.

Ebenfalls können personenbezogene Daten auch Kategorien von Daten kennzeichnen, wie z. B. medizinische Daten, politische oder religiöse Überzeugungen. Gesetzlich definiert ist der Begriff seit dem Inkrafttreten der Europäischen Datenschutz-Grundverordnung (DSGVO) am 25. Mai 2018.
Unternehmen müssen sich bei der Verarbeitung persönlicher Daten an die rechtlichen Regelungen halten. Dies beinhaltet technische und organisatorische Maßnahmen zur Minimierung, Schutz und Transparenz in Bezug auf die Sammlung, Verarbeitung und Weitergabe von personenbezogenen Daten.

Data Augmentation

Was ist Data Augmentation?

Bei Data Augmentation handelt es sich um ein Verfahren, bei welchem auf Basis einer vorhandenen Datenmenge künstlich neue Daten erzeugt werden, um so die Gesamtheit der Daten zu erhöhen. Die Technik wird dahin gehend als vorbereitender Schritt auf dem Gebiet des maschinellen Lernens angewandt. Mittels vorgefertigter Bibliotheken in Python oder PyTorch kann die Funktionalität implementiert werden.

Nutzen und Herausforderungen

Ein Vorteil der Datenerweiterung durch Data Augmentation ergibt sich durch die Möglichkeit der Reduktion von Overfitting. Diese Überanpassung entsteht beispielsweise, indem Trainingsdaten nicht ausreichend generalisiert werden können, wenn etwa eine zu geringe Datenmenge an Trainingsdaten vorliegt. Durch die Generierung der Augmented Data kann dem Problem von Overfitting entgegengewirkt werden, da sie Erzeugung die Datenmenge erhöht.

Ein weiterer Nutzen durch künstliche Datengenerierung ergibt sich, indem potenzielle Datenschutzprobleme verhindert werden, da die Daten erst durch die Data Augmentation erzeugt werden. Des Weiteren können mit dieser Technik Daten kostengünstig gesammelt und gekennzeichnet werden.

Herausforderungen entstehen, indem die Augmented Data nach deren Generierung einer qualitativen Beurteilung durch ein Bewertungssystem unterzogen werden müssen, um den Mehrwert der Datenerweiterung zu erfassen. Verzerrungen in Originaldaten können durch diese Methode nicht behoben werden, sondern werden übernommen. Zur Reduktion dieses Problems kann mit der Erarbeitung einer optimalen Erweiterungsstrategie entgegengewirkt werden.

Funktionsweise

Das Verfahren der Data Augmentation im Sinne des Standardmodells funktioniert derart, indem die Originaldaten (z. B. ein Bild) in die Data Augmentation Pipeline geladen werden. In dieser Pipeline werden auf die Inputdaten sogenannte Transformationsfunktionen mit einer bestimmten Wahrscheinlichkeit angewandt. Diese können etwa das Drehen (rotating) oder Spiegeln (flipping) des Bildes erwirken. Nach dem Durchlaufen der Pipeline werden die genierten Ergebnisse von einem menschlichen Experten bewertet. Haben die generierten Daten die Kontrolle bestanden, fließen sie als Augmented Data der Grundgesamtheit der Trainingsdaten ein.

Was sind Data Augmentation Techniken?

Im Rahmen der Bildklassifizierung und -segmentierung zur Erweiterung der Trainingsdaten können mehrere Techniken angewandt werden. Nach dem Laden des Originalbildes in die Pipeline kann das Bild beispielsweise durch einen Rahmen erweitert, horizontal oder vertikal gespiegelt, neu skaliert, entlang der x- oder y-Achse verschoben, verdreht, zugeschnitten oder in das Bild gezoomt werden. Neben den erwähnten Möglichkeiten zur Veränderung eines Bildes ergeben sich auch jene, welche die Farbe oder den Kontrast betreffen. Diese betreffen Farbmodifikationen wie das Aufhellen oder Abdunkeln des Bildes, die Konvertierung des Bildes in Graustufen, das Verändern des Kontrastes, das Hinzufügen von Rauschen oder das Löschen von Bildbestandteilen. Jede der enthaltenen Aktivitäten wird mit einer bestimmten Wahrscheinlichkeit auf das Originalbild angewandt, wodurch schließlich Augmented Data entsteht.

Neben der Bildklassifizierung und -segmentierung findet die Technik auch im Bereich des Natural Language Processing (NLP) Anwendung. Da sich NLP mit der Verarbeitung von natürlicher Sprache beschäftigt, gestaltet sich die sinnvolle Datengenerierung als schwieriger. Anwendbare Techniken sind die Synonymersetzung sowie das Einfügen, Tauschen oder Löschen von Wörtern, welche unter dem Begriff Easy Data Augmentation (EDA) zusammengefasst werden können. Eine weitere Methode stellt die Rückübersetzung dar. Hierbei wird ein Text von der Zielsprache in die Originalsprache rückübersetzt und erweitert dadurch das Datenset der Trainingsdaten. Auch durch sogenannte kontextualisierte Einbettungen von Worten kann Augmented Data entstehen.

Wo wird Data Augmentation eingesetzt?

Besonders stark vertreten ist das Verfahren im Bereich der medizinischen Bildgebung, wie bei der Segmentierung von Tumoren oder bei der Identifizierung von Krankheiten auf Röntgenbildern. Da bei seltenen Krankheiten nur ein beschränkter Datensatz zur Verfügung steht, lässt sich dieser durch Data Augmentation erweitern. Ein weiterer Anwendungsfall findet sich auf dem Gebiet des autonomen Fahrens. Dabei wird Data Augmentation zur Erweiterung der Simulationsumgebung genutzt. Ebenfalls im Bereich des Natural Language Processing wird Data Augmentation eingesetzt. Hierbei dient die es auch der Erweiterung der Trainingsdaten für NLP-Anwendungen.

Deduktion

Was ist Deduktion?

Deduktion ist ein Begriff aus der Logik und stammt von dem lateinischen Wort deductio, was „Ableitung“ oder „Herleitung“ bedeutet. Es bezeichnet eine logische Schlussfolgerung vom Allgemeinen zum Besonderen. Sie wird auch als Theorie zur Empirie verstanden.

Grundlage ist die Vererbung von Eigenschaften übergeordneter Elemente an ihre Untermengen. Durch eine allgemeine Theorie können so Aussagen über konkrete Einzelfälle getroffen werden. Die Voraussetzung oder Annahme nennt man auch Prämisse. Aus einer oder mehreren Prämissen folgt mithilfe von Inferenzregeln die logische Konsequenz, die zwingend oder deduktiv gültig ist. Dabei führt die Wahrheit der Prämisse zur Wahrheit der Konklusion. Aus einer wahren Prämisse darf keine falsche Schlussfolgerung entstehen.

Deduktive Schlüsse sind wie andere wissenschaftliche Methoden nicht verifizierbar, sondern nur falsifizierbar. Das heißt, ihre Gültigkeit wird angenommen, solange es keine Gegenbeweise oder neue Erkenntnisse gibt. Im Bereich der künstlichen Intelligenz spielt Deduktion bei der Logikprogrammierung und im automatischen Beweisen eine essenzielle Rolle.

Was sind Beispiele für Deduktion?

Ein klassisches Beispiel für deduktives Denken stammt von Aristoteles:

Alle Menschen sind sterblich. Sokrates ist ein Mensch. Daraus folgt, dass Sokrates sterblich ist.

Die Prämissen „alle Menschen sind sterblich“ und „Sokrates ist ein Mensch“ sind wahr. Die Eigenschaft „sterblich“ der übergeordneten Kategorie Mensch wird auf das konkrete Beispiel Sokrates übertragen.

Ein anderes Beispiel für deduktives Denken lautet:

Piloten besitzen ein schnelles Reaktionsvermögen. Er ist Pilot. Er besitzt ein schnelles Reaktionsvermögen.

Hier ist die Prämisse, dass die Eigenschaft eines schnellen Reaktionsvermögens auf Piloten im Allgemeinen zutrifft. Ein konkreter Vertreter der Kategorie besitzt also laut Prämisse ein schnelles Reaktionsvermögen, sonst wäre er kein Pilot. Die Aussage ist damit wahr.

Auch in den Detektivgeschichten Sherlock Holmes ist die deduktive Methode präsent. In Der blaue Karfunkel schätzt Holmes basierend auf allgemeinen Phänomenen den sozioökonomischen Hintergrund des Trägers eines alten Huts ein. Die Größe und Qualität des gefundenen Huts deuten auf eine intellektuelle und wohlhabende Person hin. Da der Hut allerdings in die Jahre gekommen und voller Staub ist, nimmt Holmes folgerichtig an, dass der Besitzer finanziell nicht mehr so gut bei Kasse ist und nur noch selten das Haus verlässt.

Was sind die Unterschiede zu Induktion und Abduktion?

Deduktion vs. Induktion

Induktion (lat. inducere „herbeiführen“) ist der umgekehrte Prozess zur Deduktion. Hierbei wird von einer konkreten Beobachtung oder Phänomen eine allgemeine Schlussfolgerung gebildet. Der Weg ist daher von der Empirie zur Theorie. Das Sammeln von Daten über einzelne Elemente führt zur Erkenntnis von Eigenschaften, die alle Vertreter einer Gruppe oder Kategorie besitzen.

Beispiel:

Der kleine Spatz legt Eier. Der Spatz ist ein Vogel. Alle Vögel legen Eier.

Die spezifische Prämisse ist hier der Eier legende Spatz, der zur Gruppe der Vögel gehört. Aus der Beobachtung des Spatzes folgt die abstrakte Schlussfolgerung über das Verhalten aller Vögel.

Induktion und Deduktion treten nie in Reinform auf. Die beim deduktiven Schließen eingesetzten Prämissen sind eng mit empirischen Erkenntnissen verbunden und eine Induktion mit bereits etablierter Theorie. Die Verfahren unterscheiden sich im Wesentlichen in der Frage, ob eine Gesetzmäßigkeit überprüft (Deduktion) oder eine neue gebildet werden soll (Induktion).

Deduktion vs. Abduktion

Eine dritte Methode des logischen Schließens ist die Abduktion (lat. abducere „wegführen“). Der Begriff wurde von dem amerikanischen Philosophen Charles Sanders Peirce eingeführt. Es unterscheidet sich von der Induktion und Deduktion dahingehend, dass es die Erkenntnis erweitert. Aus zwei bekannten Schlüssen wird eine unbekannte Ursache hergeleitet.

Beispiel:

Diese Äpfel sind rot. Alle Äpfel aus diesem Korb sind rot. Diese Äpfel sind aus diesem Korb.

Aus dem Ergebnis wird über die Regel „alle Äpfel aus diesem Korb sind rot“ auf den Fall „diese Äpfel sind aus diesem Korb“ geschlossen. Beim abduktiven Schluss handelt es sich um eine Vermutung, basierend auf Indizien.

DALL-E

Was ist DALL-E?

DALL-E ist ein neuronales Netzwerk, das auf künstlicher Intelligenz basiert und aus Beschreibungen Bilder erstellt. Vorgestellt wurde es Anfang des Jahres 2021 von OpenAI, nachdem dem Programm jahrelange Arbeit vorausgegangen war. OpenAI ist ein Unternehmen, das sich der Erforschung und Entwicklung von künstlicher Intelligenz verschrieben hat. Investoren sind unter anderem Elon Musk und Microsoft. Der Name ist eine Kombination aus dem Begriff WALL-E, einem Science-Fiction-Film von Pixar, und dem Namen des surrealistischen Künstlers Salvador Dalí.

Funktion des Algorithmus

DALL-E verwendet eine 12-Milliarden-Parameter-Version des GPT-3 Transformer-Modells. Die Abkürzung GPT steht für Generative Pre-Trained und die „3“ für die mittlerweile dritte Generation. GPT-3 ist ein autoregressives Sprachmodell. Es verwendet die Methode des Deep Learning, um menschenähnlichen Text zu erzeugen. Die Qualität ist inzwischen so hoch, dass es nicht immer leicht zu erkennen ist, ob der Text von einer Maschine oder von einem Menschen geschrieben wurde.

DALL-E interpretiert Eingaben in natürlicher Sprache und generiert daraus Bilder. Es nutzt dazu, eine Datenbasis aus Paaren von Bildern und Texten. Dazu arbeitet es mit der Methode des Zero-Shot-Lernens. Es generiert ohne weiteres Training aus einer Beschreibung eine bildliche Ausgabe und arbeitet dabei mit CLIP zusammen. CLIP wurde ebenfalls von OpenAI entwickelt und bedeutet „Connecting Text and Images“. Es ist ein separates neuronales Netzwerk, das die Textausgabe versteht und einordnet.

Text und Bild stammen aus einem einzigen Datenstrom, der bis zu 1280 Token enthält. Trainiert wird der Algorithmus unter der maximalen Wahrscheinlichkeit, alle Token nacheinander zu generieren. Die Trainingsdaten ermöglichen es, dass das neuronale Netzwerk Bilder sowohl von Grund auf neu erstellen kann, als auch bereits bestehende Bilder überarbeiten kann.

Welche Fähigkeiten hat DALL-E?

DALL-E verfügt über eine große Anzahl von Fähigkeiten. Es kann sowohl fotorealistische Bilder von echten, als auch von nicht real existierenden Objekten darstellen oder Gemälde und Emojis ausgeben. Außerdem kann es Bilder manipulieren oder umarrangieren.

Zudem ist das neuronale Netzwerk in vielen Fällen in der Lage, Lücken zu füllen und auf Bildern Details anzuzeigen, die in der Beschreibung nicht explizit genannt wurden. So setzte der Algorithmus bereits folgende Darstellungen aus Textbeschreibungen um:

  • ein blauer rechteckiger Kreis innerhalb von einem grünen Quadrat
  • der Querschnitt eines angeschnittenen Apfels
  • ein Gemälde einer Katze
  • die Fassade eines Geschäfts mit einem bestimmten Schriftzug

Deep Generative Models

Was sind Deep Generative Models?

Bei einem Deep Generative Model (DGM) handelt es sich um neuronale Netze im Teilbereich des Deep Learnings, welche dem Ansatz der generativen Modellierung folgen. Das Gegenteil zu diesem Ansatz stellt die diskriminative Modellierung dar, welche darauf ausgelegt ist, aufgrund der vorhandenen Trainingsdaten Entscheidungsgrenzen zu identifizieren und den Input entsprechend zu klassifizieren.

Der generative Ansatz verfolgt hingegen die Strategie, die Datenverteilung von Trainingsdaten zu lernen und auf Basis der gelernten bzw. angenäherten Verteilung gemäß dem Wortursprung neue Datenpunkte zu erstellen. Während die diskriminative Modellierung dem Verfahren des überwachten Lernens (supervised learning) zuzuschreiben ist, baut die generative Modellierung für gewöhnlich auf das Verfahren des unüberwachten Lernens (unsupervised learning) auf.

Deep Generative Models stellen sich demnach die Frage, wie Daten in einem Wahrscheinlichkeitsmodell erzeugt werden, während diskriminative Modelle darauf abzielen, auf Basis der vorhandenen Trainingsdaten Klassifizierungen vorzunehmen. Die generativen Modelle versuchen die Wahrscheinlichkeitsverteilung der Trainingsdaten zu verstehen und auf Basis dessen, neue bzw. ähnliche Daten zu generieren. Ein Anwendungsgebiet von Deep Generative Models ist aus diesem Grund die Bilderzeugung auf Basis von Beispielbildern, wie beim neuronalen Netzwerk DALL-E.

Was sind Flow-based Deep Generative Models?

Ein Flow-based Deep Generative Model ist ein generatives Modell, welches in der Lage ist, eine Wahrscheinlichkeitsverteilung von Daten zu interpretieren und zu modellieren. Dargestellt werden kann dies mithilfe des sogenannten „Normalizing Flow“.

Der Normalizing Flow beschreibt eine statistische Methode, mit welcher Dichtefunktionen von Wahrscheinlichkeitsverteilungen geschätzt werden können. Im Gegensatz zu anderen Arten von generativen Modellen wie beispielsweise Generative Adversarial Networks (GAN) oder Variational Autoencoder (VAE) wird bei Flow-based Deep Generative Models der „Flow“ durch eine Folge von invertierbaren Transformationen generiert. Dadurch kann die Likelihood-Funktion dargestellt und somit die wahre Wahrscheinlichkeitsverteilung gelernt werden.

Bei den Generative Adversarial Networks besteht die Methodik hingegen aus einem Generator und einem Diskriminator, welche als Gegenspieler zu sehen sind. Der Generator erzeugt Daten, welche der Diskriminator versucht als Fälschung (d.h. als keinen Bestandteil der vorgegebenen, echten Verteilung) zu identifizieren. Das Ziel des Generators ist es hingegen, dass die generierten Daten nicht als Fälschung identifiziert werden und sich so die erzeugte Verteilung des Generators durch Training an die echte Verteilung angleicht. Beim Variational Autoencoder wird die Verteilung durch das Maximieren ELBO (Evidence Lower Bound) optimiert.

Wo werden diese Modelle angewandt?

Deep Generative Models finden im Bereich des Deep Learning umfangreiche Anwendungsfelder.

So werden sie beispielsweise in der Bilderzeugung eingesetzt. Dazu werden aus Gesichtern von Menschen in den Trainingsdaten neue, künstliche Gesichter mit menschlichen Gesichtszügen erstellt. Anwenden lässt sich diese Methodik auch im Film- und Computerspielsektor. Eine spezielle Anwendungsform der generativen Modelle stellen sogenannte Deepfakes dar. Hierbei werden Medieninhalte künstlich erzeugt, welche jedoch den Anschein erwecken echt zu sein.

Auch die Erzeugung von echt wirkenden Handschriften kann mittels generativen Modellen umgesetzt werden. Es lässt sich beispielsweise auch auf Basis einer textlichen Beschreibung eines Fotos ein solches erzeugen.

Auch in der Medizin lassen sich die Errungenschaften von Deep Generative Models nutzen. So wird im Aufsatz „Disease variant prediction with deep generative models of evolutionary data“ darauf Bezug genommen, dass mithilfe von generativen Modelle bisher unbekannte Krankheitsvarianten vorhergesagt werden können. Konkret bezieht sich der Artikel auf die Erkennung Proteinvarianten in krankheitsbezogenen Genen, welche die Fähigkeit haben, Krankheiten auszulösen. Der Nachteil bisheriger Methoden (vorrangig bei der Anwendung des überwachten Lernens) bestand darin, dass die Modelle auf bekannten Krankheitslabels beruhen und keine neuen vorhergesagt werden konnten. Dies soll mit Deep Generative Models verbessert werden.