Apache Hadoop es un marco para ejecutar clusters informáticos. Permite el almacenamiento de datos distribuidos (un sistema de archivos distribuido) y el procesamiento paralelo de datos en los nodos de un clúster. Hadoop es como un sistema operativo para clusters informáticos. Como un sistema operativo normal, consta de varios componentes. Los más importantes son:
- Hadoop Distributed File System (HDFS), permite el almacenamiento de datos distribuidos
- YARN, la plataforma con la que se gestionan y distribuyen los recursos informáticos a los nodos
- MapReduce, el software de programación que permite el procesamiento paralelo de datos dentro del clúster informático
Hadoop es un software de código abierto gestionado y licenciado por la Apache Software Foundation. No obstante, varias empresas venden y alquilan versiones propietarias del mismo, que también cuentan con soporte. Algunos ejemplos de proveedores propietarios de marcos de clústeres informáticos son MapR y Hortonworks.
Cuando Hadoop apareció en el mercado en 2006, cambió para mejor el mundo de los datos de gran volumen. Antes de eso, ya existían soluciones propietarias de unas pocas empresas tecnológicas de talla mundial, que Grupo informático para satisfacer sus necesidades de almacenamiento y procesamiento de grandes volúmenes de datos, pero estaban fuera del alcance del resto del mundo. Entonces llegó Hadoop, un marco de código abierto que hizo económicamente viable para un amplio abanico de empresas la ejecución de clústeres informáticos.
Hadoop se utiliza cuando se trabaja con "big data", es decir, cuando los requisitos de almacenamiento y procesamiento de datos superan las capacidades tradicionales de los ordenadores individuales y obligan a gestionar un clúster informático, y cuando se desea utilizar código abierto en lugar de pagar por el software.