Dabei handelt es sich um Daten, die zu groß oder zu komplex sind, um mit herkömmlichen Technologien gespeichert oder verarbeitet zu werden. Diese entstehen typischerweise durch die drei V‘s, mit denen Big Data assoziiert wird: 

  • Volumen: Die Menge der Daten, die gesammelt, gespeichert und verarbeitet werden. 
    • Big Data = eine große Menge an Daten. 
  • Velocity (Geschwindigkeit): Die Geschwindigkeit, mit der Daten für einen bestimmten Anwendungsfall gesammelt, gespeichert und verarbeitet werden müssen, oft in (fast) Echtzeit.
    • Big Data = Daten bedürfen einer raschen Verarbeitung. 
  • Vielfalt: Die Art und Struktur der Daten.
    • Big Data = Daten in jeder Form, einschließlich unstrukturierter Daten (früher waren die Daten fast ausschließlich strukturiert). 

Unabhängig davon, auf welche Weise man Big Data letztlich definiert, hat die explosionsartige Zunahme der Erzeugung, Speicherung und Verarbeitung von Daten tiefgreifende Folgen in verschiedenen Bereichen. Einerseits hat die Verfügbarkeit von so vielen Daten völlig neue Möglichkeiten eröffnet, diese Daten zu nutzen, z. B. mit Machine Learning-Methoden zur Schaffung von KI. Es hat also eine ganz neue Palette von Datenanwendungsfällen ermöglicht. Auf der anderen Seite hat es aber auch einen großen Druck auf die Technologien zur Datenspeicherung und -verarbeitung ausgeübt. Da traditionelle Technologien nicht in der Lage waren, mit Big Data umzugehen, hat der Innovations- und Verbesserungsdruck zu einem ganz neuen Spektrum an Technologien geführt. 

Eine alternative Definition von Big Data: 

Anwendungsfälle der Datenspeicherung und -Verarbeitung, die den Einsatz von parallelem Computing auf Computerclustern zur Speicherung, Verarbeitung oder Analyse von Daten erfordern. 

Die Arbeit mit Computerclustern anstelle von Single-Node-Servern oder -Computern macht die Datenanalyse und -Verarbeitung in der Regel wesentlich komplexer.