Ontologie

Was ist Ontologie?

Der Begriff Ontologie beschreibt in der Informatik einen Bereich zur eindeutigen Darstellung und Kommunikation von Wissen auf diesem Gebiet. Unter diesem Wissen fällt neben einer einheitlichen Terminologie auch die Verwendung von Beziehungen bzw. Relationen, Hierarchien, Regeln und Begriffen.

Das Ziel einer Ontologie in der Informatik ist dahin gehend, die klare und eindeutige Informations- bzw. Wissensbereitstellung ohne Interpretationsspielraum durch diese „gemeinsame Sprache“. Die Umsetzung dieses Beziehungsnetzes findet in diesem Teilbereich vordergründig bei Informationssystemen, der künstlichen Intelligenz und bei Datenbanken Anwendung.

Bereits Anfang der 1990er-Jahre wurde der Begriff der Ontologie im Zusammenhang mit der künstlichen Intelligenz genannt und fand von dort ausgehend Verbreitung in weiten Teilen der Informatik.

Begriffsentwicklung

Ihren Ursprung hat die Ontologie in der Philosophie und bezeichnet dort die „Lehre des Seins“. Auch bei der Begriffsdefinition im philosophischen Sinne wird unter anderem die Frage gestellt, wie sogenannte Entitäten (dies beschreibt ein Wesen oder einen konkreten oder abstrakten Gegenstand) kategorisiert oder in Beziehung zueinander gesetzt werden können. Oftmals wird der Begriff Metaphysik synonym zu Ontologie benutzt. Die Bezeichnung der Metaphysik geht auf den griechischen Philosophen Aristoteles zurück und beschreibt der Begriffsdefinition nach dieses „Etwas“, das hinter bzw. nach der Physik kommt.

Auf Basis dieses Definitionsraumes ergeben sich unter anderem Fragen zum Sein, zum Nichts, zur Endlichkeit und Unendlichkeit, welche auch in allen Religionen Beachtung finden. Neben Aristoteles befasste sich auch der deutsche Philosoph Immanuel Kant umfassend mit der Metaphysik. Während der Begriff seinen Ursprung in der Philosophie hat, werden zunehmen auch andere Wissenschaftsdisziplinen, wie die Psychologie, Soziologie und Medizin, vordergründig in der Forschung darauf aufmerksam.

Beispiele für Ontologien

Ein Beispiel für die Anwendung der Wissensdarstellung in der Informatik stellt das sogenannte Semantic Web dar. Diese Idee vom World Wide Web-Begründer Tim Berners-Lee basiert darauf, dass das herkömmliche World Wide Web dahin gehend erweitert wird, sodass der Sinn und die Bedeutung von Informationen eindeutig zuordenbar ist.

Ein weiterer Hintergrund dieser Bestrebung ist es, die Kommunikation bzw. Arbeit zwischen Menschen und Maschinen zu erleichtern. Abhilfe schaffte dabei neben der Implementierung von einheitlichen Regeln, Datenmodellen und Syntax auch die Entwicklung der Ontologiesprache Web Ontology Language (OWL). Als konkretes Anwendungsbeispiel kann etwa eindeutige und konfliktfreie Bedeutung des Wortes „Washington“ im jeweiligen Kontext genannt werden. Da Washington neben einer Stadt unter anderem auch einen Bundesstaat, einen Namen oder ein Kriegsschiff darstellen kann, ist eine nähere Definition notwendig.

Eine weitere Anwendungsmöglichkeit für die Ontologie in der Informatik ist auf dem Gebiet der künstlichen Intelligenz gegeben und dient vor allem zur maschinen-interpretierbaren Wissensrepräsentation. Mithilfe der Normierung, Regeln und Vorgaben der Ontologie kann eine Inferenzmaschine logische Schlussfolgerungen ziehen.

In der Medizin findet sie beispielsweise in der Gene Ontology Anwendung. Ziel ist die Bereitstellung und Weiterentwicklung von Datenbanken, welche einheitliche Informationen über die Funktion von Genen in der Biomedizin bereitstellt.

Auf dem Gebiet der Psychologie ist die Darstellung von Relationen vor allem im Teilbereich der Psychosoziologie verbreitet. Mithilfe dieser wird versucht, soziale Phänomene wie Gruppen, Familien, Bindungen, aber auch Persönlichkeiten mit einheitlichen Begrifflichkeiten zu fassen und zu kategorisieren bzw. Wechselwirkungen zu beschreiben.

Unterschiede zu Taxonomie und Epistemologie

Ontologie vs. Taxonomie

Während bei einer Ontologie das Beziehungsnetz der Verknüpfungen und Relationen im Mittelpunkt steht, beschreibt eine Taxonomie strukturierte hierarchische Verwandtschaftsbeziehungen. Der Begriff Taxonomie leitet sich aus dem Altgriechischen ab und bedeutet übersetzt so viel wie Ordnungsgesetz. Ihren Ursprung hat die Taxonomie in den Naturwissenschaften und findet dort nach wie vor umfassend Anwendung, um Rassen, Gattungen und Ordnungen zu beschreiben. Auch in der Informatik finden Taxonomie Anwendung, um hierarchische Beziehungen und Vererbungen darzustellen.

Ontologie vs. Epistemologie

Der Begriff der Epistemologie stammt auch aus dem Altgriechischen und beschreibt die Lehre der Wissenschaft. Epistemologie wird oftmals auch als Erkenntnistheorie umschrieben und stellt sich die Frage, wie Wissen zustande kommt und wie Wissen begründet wird. Während sich die Epistemologie mit der grundlegenden Wissensgewinnung beschäftigt, steht bei der Ontologie die Natur des Seins bzw. der Realität im Mittelpunkt.

Open Data

Was ist Open Data?

Offene Daten (engl. Open Data) sind Daten, die von der Allgemeinheit genutzt, weitergegeben und weiterverarbeitet werden dürfen. Open Data tritt oft in Form einer Forderung auf und wird von der Open Knowledge Foundation stark gefördert. Zusammengefasst definiert die besagte Stiftung offene Daten wie folgt:

  • Eine Vervielfältigung der Daten darf keine Kosten verursachen. Das bedeutet bspw., die Datenformate, in denen die Dateien gesichert werden, sind zweckdienlich gewählt und Datensätze sind grundsätzlich vollständig; man kann sagen, es wird den Datenkonsumenten „leicht gemacht“, die Inhalte zu teilen.
  • Neben dem Teilen spielt auch die Art der Wiederverwendung eine Rolle. Um die Daten mit anderen Quellen zusammenzuführen, müssen sie in einem Format bereitgestellt werden, das interoperabel ist (dafür hat sich das CSV- oder JSON-Format durchgesetzt). Bestenfalls bietet der Bereitsteller Schnittstellen auf Basis gängiger Protokolle wie SOAP oder REST an, damit die Datenbanken von Mensch und Maschine auslesbar sind.
  • Während genannte technische Kriterien an offene Daten gestellt werden, dürfen im Gegensatz dazu keine gesellschaftlichen Bedingungen an sie geknüpft sein. Jeder muss die Möglichkeit haben, die Daten zu nutzen, weiterzugeben oder weiterzuverarbeiten – bestimmte Personengruppen oder Anwendungsfelder dürfen nicht ausgeschlossen werden.

Nicht ohne Grund setzt sich Bund und Länder mit Initiativen wie Open Government für Open Data ein. Öffentliche Ämter können effizienter arbeiten, Privatunternehmen profitieren von einem einfachen Zugang zu Wissen und die soziale Sicherheit erhöht sich aufgrund von Informationstransparenz.

Gesetzlicher Rückhalt durch das Open-Data-Gesetz

Damit dieses fortschrittliche Konzept in der Praxis auch wirklich umgesetzt wird, trat 2017 das erste Open-Data-Gesetz in Kraft. Aufgrund dieser Rechtslage sind Behörden dazu verpflichtet, ihre Daten maschinenlesbar bereitzustellen. Im Zusammenhang mit der Open-Data-Strategie der Bundesregierung setzte Deutschland damit den Grundstein für ein solides Ökosystem. Das Open-Data-Gesetz wird gemeinsam mit Österreich und der Schweiz weiterentwickelt und soll in Zukunft für noch mehr verantwortungsvolle, innovative und gemeinwohlorientierte Datennutzung sorgen.

Die wichtigsten deutschen Open-Data-Datenbanken

  • Die bundesweite Metadatenbank GovData enthält neben den Verwaltungsdaten selbst zahlreiche Informationen über die Daten, bspw. wer sie wann und wo erstellt hat.
  • GENESIS-Online, die Datenbank des Statistischen Bundesamtes, enthält ein breites Themenspektrum amtlicher Statistiken und ist kategorisch tief gegliedert. So wie für die Datenbanken Regionaldatenbank Deutschland und Kommunale Bildungsdatenbank, sie basieren auf GENESIS-Online, stehen dafür verschiedene Schnittstellen zur Verfügung, um die Daten effizient weiterzuverarbeiten.
  • Die Open-Data-Plattform Open.NRW soll als Informationsportal dienen und stellt unter dem Leitsatz „Open Government in Nordrhein-Westfalen“ einen stetig wachsenden Datenbestand bereit, bestehend aus Verwaltungsdaten zu Projekten des Landes.
  • Das Ministerium für Landesentwicklung und Wohnen in Baden-Württemberg setzt hinsichtlich Open Government auf Geobasisdaten und stellt mit dem Geoportal Baden-Württemberg ein umfangreiches Werkzeug für interessierte Vereine, Vertreter:innen der Wirtschaft und Bürger:innen zur Verfügung. Einen weiteren Anlaufpunkt für Geobasisdaten stellt das Geoportal Hessen dar. Auch im Land Niedersachsen werden hauptsächlich Geodaten bereitgestellt. Das Landesamt für Geoinformation und Landesvermessung Niedersachsen (LGLN) stellt die Plattform Open Geo Data bereit.
  • Unter anderem interessante Informationen zur deutschen Hauptstadt Berlin findet man in dem Portal Berlin Open Data. Zudem sind Datensätze aus Themenfeldern wie Bildung, Gesundheit oder Verkehr einsehbar. Einen ähnlichen Ansatz verfolgt das Land Schleswig-Holstein. Auch hier können in der Webanwendung Open Data Schleswig-Holstein offene Daten zu gesellschaftsrelevante Themen wie Kultur, Energie oder Wirtschaft abgerufen werden.

Open Source

Was ist Open Source?

Der Begriff Open Source (kurz OS oder OSS) kennzeichnet Software, deren Quelltext öffentlich zugänglich ist und von Jedem eingesehen, geändert und genutzt werden kann. Die meiste Open-Source-Software kann kostenlos genutzt werden.

Das Gegenteil von Open Source ist Closed Source. Der Quellcode dieser Software ist nicht öffentlich zugänglich und darf nicht geändert, genutzt oder weitergegeben werden. Sie wird mithilfe von Lizenzen kommerziell vertrieben.

Unterschied von Open Source und Freeware

Freeware (von Englischen free software) bezeichnet Software, welche vom Urheber kostenlos zur freien Verfügung gestellt wird. Der Quellcode ist aber nicht frei zugänglich und darf nicht verändert oder verbreitet werden. Darin liegt der Unterschied zu OSS.

Vorteile von Open Source

Niedrige Kosten

Die meiste Open-Source-Software ist kostenlos zugänglich. Und selbst kostenpflichtige OSS ist im Vergleich zu Closed-Software-Alternativen größtenteils wesentlich günstiger.

Unabhängigkeit von kommerziellen Anbietern

Software von kommerziellen Anbietern verfolgt deren Unternehmensziele. Damit besteht eine gewisse Abhängigkeit, wodurch vor allem Probleme entstehen können, wenn die Software nicht mehr genügend Gewinn einbringt. In den meisten Fällen wird die Software vom Hersteller mit der Zeit nicht mehr unterstützt oder angeboten und der Kunde muss nach Alternativen suchen.

Bei Open Source gibt es dieses Problem nicht in diesem Umfang, weil keine, oder nur eine geringe Monetarisierung vorliegt.

Individualität

Da der Code jederzeit editierbar ist, ist er auch jederzeit individualisierbar. Es ist möglich, unnötige Funktionen zu löschen oder noch fehlende hinzuzufügen. Somit können individuell passende Lösungen gesucht und vorangetrieben werden.

Dies ist entweder mithilfe eigener Expertise, durch die Unterstützung der Community oder mit kommerziellen Experten möglich.

Kompatibilität

Der Ausschluss von Mitbewerbern durch eigene Datenformate und Systeme ist für Open Source eher hinderlich, daher wird viel Wert auf Interoperabilität (ein System hat die Fähigkeit, mit anderen Systemen zu kooperieren) gelegt. Dadurch gibt es bei Open Source viel seltener Kompatibilitätsprobleme als bei Closed Source.

Sicherheit

Dadurch, dass der Code durch viele, teils sehr gute, Entwickler mehrfach geprüft wird, fallen Fehler und Sicherheitslücken schnell auf. Bei Closed Source dauert es meist länger.

Nachteile von Open Source

Abhängigkeit von einer aktiven Community

Es besteht kein Anspruch auf eine Garantie oder Support gegenüber eines Herstellers, wie bei Closed-Source-Anwendungen. Daher besteht bei Open Source eine gewisse Abhängigkeit von einer aktiven Community, in Hinsicht auf Unterstützung und Weiterentwicklung.

Hoher Schulungs- und Wissensaufwand

OSS ist meist für Laien nicht so bekannt und einsteigerfreundlich, wie die weit verbreiteten kommerziellen Produkte. Dadurch benötigt die Nutzung von OSS oftmals mehr Einarbeitung, Schulung und Expertise.

Was ist beliebte Open-Source-Software als Business-Lösung?

Für ETL, Reporting, OLAP/Analysis und Data-Mining

Pentaho von Hitachi Vantara bietet eine Sammlung an Business-Intelligence-Software an, welche in der Basisversion kostenlos sind. Es werden Lösungen für die Bereiche ETL, Reporting, OLAP/Analysis und Data-Mining bereitgestellt.

Pentaho Data Integration (kurz PDI) bietet als ETL-Werkzeug Verbindungsmöglichkeiten zu unterschiedlichen Datenbanken. Durch weitere Plug-ins sind auch Verbindungen zu anderen Systemen möglich, wie zum Beispiel zu SAP mithilfe von ProERPconn und zu Navision mit dem Plug-in NaviX Table. Auch Big-Data-Verarbeitung zählt Pentaho Data Integration zu seinen Stärken.

Pentaho BI Suite bietet eine der wenigen Business-Intelligence-Lösungen im Open-Source-Bereich an.

Für Data Virtualization

Data Virtualization (im Deutschen Datenvirtualisierung) kann als Gegensatz zum ETL-Prozess gesehen werden, da die Daten in ihren ursprünglichen Systemen bleiben und die Virtualisierungskomponente direkt darauf zugreift und zur Nutzung bereitstellt.

Denodo Express von Denodo Technologies Inc. bietet eine Open-Source-Lösung zur Data Virtualization an. Es verbindet und integriert lokale und cloudbasierte Datenquellen, sowie Big Data, miteinander. Diese Daten werden Endbenutzern, Unternehmensanwendungen, Dashboards, Portalen, Intranet-, Such- und anderen Tools zur Verfügung gestellt.

Auch OpenLooKeng von Huawei ist seit Mitte 2020 als Open Source verfügbar und bietet einheitliche SQL-Schnittstellen für den Zugriff auf unterschiedliche Datenquellen.

Für Data Labeling

Data Labeling ist essenziell für Maschinelles Lernen, da es die vorhanden Daten mit den benötigten Merkmalen versieht, zum Beispiel, ob ein Bild eine Person zeigt oder nicht.

Es gibt einige Data-Labeling-Tools als Open Source. Dabei sind manche auf bestimmte Dateiformate spezialisiert und andere können alle verarbeiten.

Beispiele für Data-Labeling-Tools nur für Bilder:

  • bbox-visualizer
  • CVATT
  • hover
  • Labelme
  • Yolo-mark

Beispiele für Data-Labeling-Tools nur für Text:

  • dataqa
  • Hubdoccano

Beispiele für Data-Labeling-Tools für Audio, Bilder und Text:

  • awesome-data-labelling
  • Label-studio

OpenGPT-X

Was ist OpenGPT-X?

OpenGPT-X beschreibt ein europäisches Projekt, in welchem ein großes Sprachmodell entwickelt werden soll. Sprachmodelle werden beispielsweise für Chatbots eingesetzt, aber auch für das Verfassen von Texten, um komplexe Texte zu verstehen oder um Konversationen zu führen. GPT steht dabei für „Generative Pretrained Transformer“, das nachfolgende „X“ stellt eine Variable für die Version dar.

Am Projekt beteiligt sich ein Konsortium aus namhaften europäischen Unternehmen, Instituten und Hochschulen unter der Leitung des Fraunhofer-Instituts. Es wurde unter anderem ins Leben gerufen, um eine europäische Souveränität im Bereich der großen Sprachmodelle aufzubauen und die Abhängigkeit von den USA und China zu minimieren. Mit GPT-3 (Generative Pretrained Transformer 3) wurde durch das Unternehmen OpenAI im Mai 2020 das große Sprachmodell der dritten Generation in den USA vorgestellt. Im Juni 2021 reagierte China mit Wu Dao 2.0 („Verständnis der Naturgesetze“) in seiner zweiten Version auf den Vorreiter aus den USA.

Welche Ziele verfolgt das europäische Gemeinschaftsprojekt?

Das Ziel des Projekts ist vorrangig, die europäische digitale Souveränität und Unabhängigkeit mit einem eigenen KI-Sprachmodell zu wahren. Auch die europäischen Eigenschaften im Bereich Datenschutz, Werte und Sprachenvielfalt sollen mit dem eigenen Modell berücksichtigt werden.

Das Projekt OpenGPT-X soll dazu dienen, datenbasierte Business Lösungen im GAIA-X Ökosystem zu ermöglichen. GAIA-X ist ein Projekt zur Schaffung einer vernetzten und sicheren Dateninfrastruktur in Europa, um die Daten in dezentraler Form nutzen und teilen zu können. Der Name Gaia leitet sich aus der griechischen Mythologie ab und beschreibt eine Gottheit, welche als personifizierte Erde angesehen wird.

OpenGPT-X ist im Projekt GAIA-X für den Aufbau eines Knotens für große KI-Sprachmodelle und innovative Sprachapplikations-Services verantwortlich.

Was grenzt OpenGPT-X von anderen Sprachmodellen wie GPT-3 ab?

Bei OpenGPT-X wird besonderes Augenmerk auf den europäischen Kontext des KI-Sprachmodells gelegt. Dies betrifft vorrangig die Einbindung der vielen europäischen Sprachen, der europäischen ethischen Werte sowie der Kultur.

Zudem soll OpenGPT-X auch den europäischen Standards des Datenschutzes genügen. Diese Spezifika werden oft als Kritikpunkte von Alternativen wie GPT-3 oder Wu Dao 2.0 genannt und sollen durch die europäische Lösung verbessert werden und so die wirtschaftlichen Interessen des „Standortes Europa“ wahren.

Des Weiteren können durch diesen Ansatz auch staatliche und rechtliche Belange berücksichtigt werden, wie etwa bei der Beachtung der europäischen Werte, dem europäischen Kulturkontext und der Regularien bei der Entwicklung der Sprachanwendungen. OpenGPT-X soll zudem in der dezentralen Cloudlösung GAIA-X zur Verfügung gestellt werden und so einen Baustein innerhalb der europäischen Dateninfrastruktur bilden.

OpenAI

Was ist OpenAI?

OpenAI beschäftigt sich mit der Erforschung künstlicher Intelligenz. OpenAI LP ist ein Unternehmen, das durch die Non-Profit-Organisation OpenAI Inc kontrolliert wird. Gefördert wird es durch zentrale Geldgeber wie Elon Musk und Microsoft.

Das Ziel von OpenAI ist eine künstliche Intelligenz auf Open-Source-Basis zu entwickeln. Dies soll so geschehen, dass die Gesellschaft davon profitiert und die Vorteile nutzen kann, ohne dass ein Schaden entsteht. Die Organisation bietet eine freie Zusammenarbeit mit anderen Institutionen an und es können Forscher ihre Patente und Forschungsergebnisse der Öffentlichkeit verfügbar machen. Die Firma erhielt bereits über eine Milliarde Dollar an Spendengelder.

OpenAI geht der wichtigen Frage nach der existenziellen Bedrohung durch eine künstliche Intelligenz nach, die durch das mögliche Übertreffen und Ersetzen von menschlicher Intelligenz durch eine künstliche Intelligenz eintreten könnte. Hintergrund für die Arbeit sind Befürchtungen von Wissenschaftlern wie Stephen Hawking und Stuart Jonathan Russel die damit rechnen, dass künstliche Intelligenz eines Tages die Fähigkeit erlangen könnte, sich ganz einfach selbst zu verbessern.

Dies könnte zu einer wahrhaften Explosion der Intelligenz führen. So wäre durch die Überlegenheit der KI eine Verdrängung der Spezies Mensch durch eine superintelligente künstliche Intelligenz vorstellbar. Diese wäre keinerlei menschlichen Wertvorstellungen unterworfen. Solche künstliche Intelligenz wird auch von Elon Musk als größte existenzielle Gefahr für die Menschheit angesehen. So soll diesem Risiko bei einer Entwicklung von künstlicher Intelligenz entgegengetreten werden und dazu wurde OpenAI als Open-Source non-profit Organisation gegründet und konzipiert.

Welches Potenzial bietet künstliche Intelligenz?

Künstliche Intelligenz kann die Kommunikation zwischen Mensch und Computer revolutionieren und natürliche Sprache der Nutzer vollständig verstehen lernen. Mithilfe von Künstlicher Intelligenz können automatisch Programme genutzt werden, die eine Schnittstelle in natürlicher Sprache erhalten. So kann OpenAI Codex natürliche Sprache in Code übersetzen.

Praktisch überall wo menschliche Intelligenz eingesetzt wird, könnte auch schließlich Künstliche Intelligenz genutzt werden. Es gibt die Plattform OpenAI Gym, die sich mit einem bestärkenden Lernen befasst. Außerdem können Systeme miteinander kooperieren und gemeinsame Algorithmen entwickeln. Dies wurde mit OpenAI Five vorgestellt. GPT-2 und GPT-3 sind umfangreiche Projekt, die etwa Textgeneratoren zur Verfügung stellen und GPT-3, das mit 175 Milliarden Parametern gesteuert werden kann.