Apache Hadoop ist ein Framework für den Betrieb von Computerclustern. Er ermöglicht die Speicherung verteilter Daten (ein verteiltes Dateisystem) und die parallele Datenverarbeitung über die Knoten eines Clusters hinweg. Sie können sich Hadoop als Betriebssystem für Computercluster vorstellen. Wie ein normales Betriebssystem besteht es aus mehreren Komponenten. Die wichtigsten sind: 

  • Hadoop Distributed File System (HDFS), ermöglicht die Speicherung verteilter Daten 
  • YARN, die Plattform, mit der die Computerressourcen verwaltet und auf die Knoten verteilt werden 
  • MapReduce, die Programmiersoftware, die die parallele Verarbeitung von Daten innerhalb des Computerclusters ermöglicht 

Bei Hadoop handelt es sich um eine Open-Source-Software, die von der Apache Software Foundation verwaltet und lizenziert wird. Nichtsdestotrotz werden mehrere proprietäre Versionen davon von Unternehmen verkauft und vermietet, und diese werden auch unterstützt. Beispiele für proprietäre Anbieter von Computercluster-Frameworks sind MapR und Hortonworks. 

Als Hadoop 2006 auf den Markt kam, hat es die Welt des hohen Datenvolumens stark zum Positiven verändert. Zuvor gab es bereits proprietäre Lösungen einiger erstklassiger Technologieunternehmen, die Computercluster betrieben, um ihre Anforderungen an die Speicherung und Verarbeitung hoher Datenvolumen zu erfüllen, aber diese waren für den Rest der Welt unerreichbar. Dann kam Hadoop, ein Open-Source-Framework, das es für eine Vielzahl von Unternehmen wirtschaftlich rentabel machte, Computercluster zu betreiben. 

Hadoop wird verwendet, wenn Sie mit „großen Datenmengen“ zu tun haben, d.h. wenn die Anforderungen an das Speichern und Verarbeiten von Daten über die herkömmlichen Kapazitäten einzelner Computer hinausgehen und erfordern, dass Sie einen Computercluster betreiben, und wenn Sie eher Open Source nutzen als für die Software bezahlen möchten.