Top 10 Data Catalogs

von | 22. September 2022 | Grundlagen

Wer Daten hat, der hat auch Daten über Daten. Diese sogenannten Metadaten sollten ebenfalls gesammelt, strukturiert und abgespeichert werden. Aber warum? Wer mehrere Datenbanken oder auch mehrere Datenbanksysteme betreibt weiß, dass man schnell den Überblick verliert – über die eigentliche Bedeutung, Berechnung oder Verwendung von Spalte X in Tabelle Y in Datenbank Z. Hier kommt ein Datenkatalog ins Spiel: Darin lassen sich Metadaten, also Informationen über die Bedeutung, Berechnung, Verwaltungs- und Zugriffrechte, Herkunft (Data Lineage) sowie den Status der Daten abspeichern und dokumentieren. Ähnlich wie in einem echten Katalog können die verschiedenen Attribute von Daten (analog zu Produkten im Katalog) eingesehen werden und in manchen Fällen kann sogar Data Shopping betrieben werden, um die tatsächlichen Daten zu erhalten. Wir zeigen 10 Datenkataloge, mit denen sich im Unternehmen im Rahmen einer Datenstrategie diese Metadaten sammeln, verwalten und effektiv weiterverteilen lassen.

Collibra Data Governance Center

Der Collibra Data Catalog ist einer der größten Player auf dem Data Governance Markt und bietet eine Plattform für Data Lineage, Governance und Privacy. Mit einer weitreichenden, nativen Konnektivität können verschiedene Datenquellen registriert und Drittanbieter-Tools für Data Science, Reporting oder BI integriert werden. Darüber hinaus integriert die Collibra-Plattform einen Datenmarktplatz für die Stammdaten, die den Nutzern zur Verfügung stehen. Das Regel- und Richtlinienmanagement von Collibra ermöglicht die Einrichtung spezifischer Benutzerrollen und Verantwortlichkeiten, wie z. B. Data Stewardship, um vollständige und qualitative Metadaten sicherzustellen.

Informatica Enterprise Data Catalog

Der Informatica Enterprise Information Catalog bietet eine auf Machine Learning basierende Erkennungs-Engine zur Erfassung von Datenbeständen im gesamten Unternehmen und zur Verbesserung des Verständnisses dieser Datenbestände durch einen graphenbasierten Unternehmensinformationskatalog. Er basiert auf der gleichnamigen Metadatendienste-Engine von Informatica und ermöglicht es Business Usern sowie Experten, Daten im gesamten Unternehmen zu finden und Beziehungen zwischen ihnen zu erkennen. Weiter lassen sich Daten mit Geschäftsglossar-Begriffen und Crowdsourced Annotations anreichern, um ihre Bedeutung und Berechnung zu erkennen. Außerdem ermöglichen Data Quality und Lineage-Features die Erkennung der Datenherkunft, -qualität sowie die Verwendung ihrer Daten zu verstehen. Out-of-the-Box lässt sich der Informatica Enterprise Catalog zu vielen gängigen Cloud-Anwendungen, lokalen System und Middleware-Anwendungen anbinden und automatisiert analysieren.

Alation Data Catalog

Alation bietet mit dem Data Catalog ein etwas anders ausgerichteten Datenkatalog: Mit einem Fokus auf Nutzungsstatistik zur Förderung der Aktivität und Aktualität des Katalogs sollen die Daten aktuell gehalten werden. Weiter verfolgt Alation einen „Best of Breed“-Ansatz, weshalb mit unzähligen Konnektoren nahezu jegliche Datenbanken, Cloud-Services und Analytics-Anwendungen angeschlossen werden können. Mit hoher individueller Anpassbarkeit sowie einem intuitiven Interface lässt sich der Katalog auch von Business Usern einfach nutzen und adaptieren.

Azure Data Catalog

Mit dem Azure Data Catalog bietet Microsoft einen unternehmensweiten Metadatenkatalog, der die Suche nach Datenbeständen einfach und direkt macht. Es handelt sich um einen verwalteten Dienst, der es Nutzern wie Analysten, Data Scientists und Data Engineers ermöglicht, Informationsquellen zu registrieren, zu verbessern, zu finden, zu verstehen und zu durchforsten. Der Azure Data Catalog lässt sich mittels offenen REST APIs in bestehende Tools integrieren und somit technologieunabhängig nutzen. Er bringt Licht in die „dunklen Daten“ des Unternehmens, sodass weniger Zeit mit der Suche nach Daten und mehr Zeit mit deren Nutzung verbracht werden kann.

Oracle Enterprise Metadata Management

Die Oracle Enterprise Metadata Management (OEMM) Platform adressiert die steigende Nachfrage nach Lifecycle Change Management, Datenstandardisierung und -konformität sowie Data Governance-Anforderungen verschiedener Anwendungen in den Bereichen Kommunikation, Gesundheitswissenschaften, öffentlicher Sektor, Einzelhandel, Versorgungsunternehmen und Finanzdienstleistungen. Sie ermöglicht die interaktive Suche und das Durchsuchen der Metadaten. Darüber hinaus bietet sie die Möglichkeit, die Datenherkunft, die Auswirkungsanalyse, die semantische Definition und die semantische Nutzungsanalyse für jedes Metadaten-Asset innerhalb des Katalogs durchzuführen.

IBM Watson Knowledge Catalog

Der IBM Watson Knowledge Catalog kann zur Nutzung von geschäftsfähigen Daten in Kombination mit intelligenter Katalogisierung und interaktivem Richtlinienmanagement eingesetzt werden. Unternehmen können eine gemeinsame Grundlage für ein Business-Governance-Glossar zu schaffen und den Katalog darüber hinaus auf individuellen Anforderungen für ein besseres Verständnis der Metadaten anpassen. Darüber hinaus hilft eine rollenbasierte Zugriffskontrolle, aktive Techniken zur Überwachung von Richtlinien und Protokolle zur Maskierung sensibler Daten den Anwendern, ihre Daten zu schützen und Compliance-Richtlinien zu fördern. Intelligente Empfehlungen, die von IBM Watson angeboten werden, erleichtern die fortschrittliche Erkennung von wichtigen Assets je nach Bedarf. Mittels Self-Service Insights können außerdem individuelle Dashboards zur Datenqualitäts- und Richtlinienkonformitätsanalyse erstellt werden.

Google Dataplex Data Catalog

Google Dataplex vereint sowohl die Erstellung und Zentralisierung einer Data-Mesh-Struktur also auch die damit einhergehende Sammlung und Verwaltung von Metadaten. Mit integrierter Data Intelligence lassen sich Daten-Assets erkennen und bezüglich ihrer Herkunft automatisiert in den Katalog einbinden. Datenqualität sowie Datenlebenszyklus lass sich recht einfach verwalten und so Daten beispielweise in logische domainspezifische Zonen teilen. Mit einer Suchfunktion finden Externe und Business User außerdem schnell die angeforderten Daten und kommen so schneller ans Ziel.

Synabi D-Quantum

Die D-Quantum-Technologie von Synabi bietet eine offene Plattform für die Katalogisierung von Daten und kann mit einem Schweizer Taschenmesser verglichen werden. Für diejenigen, die mit Confluence und Wikipedia vertraut sind, ermöglich das Tool aufgrund seines ähnlichen „Look & Feel“ einen schnellen Einstieg. Außerdem lassen sich mit Synabi Versionsverläufe von Metadaten darstellen: Durch den direkten Vergleich von Versionen können Änderungen visuell hervorgehoben und sind leichter erkennbar. Weiter ermöglichen Lineage-Funktionen die technische und geschäftliche Datenherkunft darstellen und ermöglichen dem Nutzern weitere Kontextinformationen entlang der Lineage einzusehen, wie z. B. den Dateneigentümer.

Dataspot

Dataspot hat als Newcomer sein Produkt aufgerüstet und neben dem bekannten KPI-Katalog, DQ-Katalog und anderen nun auch einen Data Product Catalog integriert. Auf die Informationen des Tools kann über dataspot Anywhere zugegriffen werden, eine API, die einen Echtzeitzugriff auf Metadaten ermöglicht. Ein Hauptaugenmerk von dataspot liegt auf der Business Lineage, mit der ebenfalls andere kontextbezogene Informationen visualisiert werden können. Zur Erleichterung der Pflege von Metadaten lassen sich diese auch in andere Datenformate (z. B. Excel) importieren und exportieren.

Zeenea Data Catalog

Zeenea hilft Unternehmen, ihre Dateninitiativen zu beschleunigen: Die cloud-basierte Plattform bietet eine zuverlässige und verständliche Datenbank, die mit maximaler Einfachheit und Automatisierung zur Verfügung steht. Mit nur wenigen Klicks können Informationen und Metadaten innerhalb des Unternehmens gefunden, entdeckt, verwaltet und geändert werden. Zeenea unterscheidet dabei zwischen Data Usern und Verwaltern des Katalogs mit zwei Benutzererfahrungen: Zeenea Studio, für Datenmanagement-Teams; Zeenea Explorer, um Katalognutzern ein vereinfachtes Such- und Browsing-Erlebnis zu bieten.

Autor:innen

Lukas Lux

Lukas Lux ist Werkstudent im Bereich Customer & Strategy bei der Alexander Thamm GmbH. Neben seinem Studium des Sales Engineering & Product Management mit dem Schwerpunkt IT-Engineering beschäftigt er sich mit den aktuellsten Trends und Technologien im Bereich Data & AI und stellt diese in Zusammenarbeit mit unseren [at]Experten für euch zusammen.

0 Kommentare