Computer benötigen Betriebssysteme (OSe) um zu funktionieren. Betriebssysteme sind das grundlegende Level von Software, die die grundlegenden Funktionen eines Computers unterstützen, ihn funktionieren lassen und in erster Linie benutzbar machen. Jeder kennt die berühmtesten Betriebssysteme für persönliche Computer, wie Windows, MAC OS und Linux. Eine der grundlegendsten Funktionen des Betriebssystems ist das Datensystem.

Zum Beispiel kennt jeder das Windows Datensystem, dass Microsoft Benutzern eine Ordnerstruktur zur Verfügung stellt, in der sie Daten in jeder Form, zum Beispiel als Dokumente, Musik und Bilder, speichern können. Ebenso wie normale Computer brauchen auch Computercluster Software, die die grundlegenden Funktionen, z.B. die Koordination zwischen unterschiedlichen Knotenpunkten des Clusters, ermöglichen. Eine solche Softwareumgebung für den Betrieb eines Computerclusters ist Apache Hadoop. 

Softwareumgebungen für den Betrieb von Computerclustern muss ein verteiltes Datensystem bereitstellen. Genauso wie bei normalen Computern brauchen Benutzer auch in Computerclustern eine Möglichkeit zum Speichern ihrer Daten. Die Implementierung eines Datensystems auf einen einzelnen Computer ist, verglichen mit der Implementierung in einem verteilten System, einfach.

Der Grund dafür ist, dass wenn man Dateien und Dokumente übergreifend über mehrere Computer speichern möchte, diese aufgeteilt werden müssen und parallel auf mehreren Knotenpunkten gespeichert werden müssen – und das alles nahtlos für den Benutzer. Dies ist sehr schwer zu realisieren (bedenken Sie nur, wie schwierig es ist sich an all die Dinge zu erinnern, die sie in kleinen Kisten verpackt haben, wenn sie umziehen). Einige Beispiele von verteilten Datensystemen sind das Google File System (GFS) und das Hadoop Distributed File System (HDFS).