Los ordenadores necesitan sistemas operativos (SOe) para funcionar. Los sistemas operativos son el nivel básico de software que soporta las funciones básicas de un ordenador, lo hace funcionar y, principalmente, lo hace utilizable. Todo el mundo conoce los sistemas operativos más famosos para ordenadores personales, como Windows, MAC OS y Linux. Una de las funciones más básicas del sistema operativo es el sistema de datos.
Por ejemplo, todo el mundo conoce el sistema de datos Windows que Microsoft proporciona a los usuarios con una estructura de carpetas en la que pueden almacenar datos en cualquier formato, por ejemplo, como documentos, música e imágenes. Al igual que los ordenadores normales, los clústeres informáticos también necesitan software que permita funciones básicas, por ejemplo, la coordinación entre los distintos nodos del clúster. Uno de estos entornos de software para el funcionamiento de un clúster informático es Apache Hadoop.
Los entornos de software para operar clusters de ordenadores deben proporcionar un sistema de datos distribuido. Al igual que con los ordenadores normales, los usuarios necesitan una forma de almacenar sus datos en los clusters de ordenadores. Implementar un sistema de datos en un único ordenador es sencillo comparado con implementarlo en un sistema distribuido.
La razón es que, si se quieren almacenar archivos y documentos en varios ordenadores, hay que dividirlos y almacenarlos en paralelo en varios nodos, todo sin problemas para el usuario. Esto es muy difícil de hacer (piense en lo difícil que es recordar todas las cosas que han metido en cajitas cuando se mudan). Algunos ejemplos de sistemas de datos distribuidos son el Google File System (GFS) y el Hadoop Distributed File System (HDFS).