Was ist MLLib?

MLLib steht für Apache Sparks Machine Learning Library. Diese Bibliothek ist auf Skalierbarkeit und Einfachheit ausgelegt und kann mit anderen Tools kombiniert werden. Sparks hat eine Bibliothek erstellt, die schnell, mit vielen Sprachen kompatibel und skalierbar ist. Dies hilft Data Scientists dabei, Datenprobleme zu modellieren und zu lösen, anstatt sich mit anderen Komplexitäten verteilter Daten zu beschäftigen, z. B. mit der Konfiguration und der Infrastruktur. 

Diese skalierbare Machine Learning-Bibliothek besteht aus verschiedenen Lernprogrammen und Algorithmen, die Clustering, Klassifizierung, Regression, kollaborative Filterung und Dimensionsreduktion umfassen. Sie enthält auch mehrere darunter liegende Optimierungsprimitive. MLLib lässt sich nahtlos in andere Komponenten von Spark integrieren, darunter DataFrames, Spark SQL und Spark Streaming. Diese Bibliothek kann mit Databricks Runtime installiert werden. 

Sie können die Bibliothek in Python, Java und Scala verwenden, die alle in Spark-Anwendungen funktionieren. In Python interagiert es mit NumPy (Spark 0.9) und R-Bibliotheken (Spark 1.5). Dadurch ist es auch möglich, die Bibliothek in komplette Design-Workflows einzubeziehen. Sie können jede Quelle von Hadoop-Daten wie lokale Dateien, HBase und HDFS verwenden und in Hadoop-Workflows integrieren. Dies funktioniert auch in Apache Mesos, in der Cloud, unabhängig oder in Kubernetes. 

MLLib akzeptiert auch Manipulation, Vorverarbeitung, Training von Modellen und skalierte Datenvorhersagen. Wenn Sie strukturiert streamen möchten, können Sie bibliotheks-trainierte Modelle verwenden, um Vorhersagen zu erstellen. Darüber hinaus bietet der Anbieter eine vielseitige Machine Learning API für ähnliche Aufgaben wie Clustering, Regression und Deep Learning. 

Sonstige Funktionen von MLLib

Leistung

Die Bibliothek verfügt über qualitativ hochwertige Algorithmen, die 100 Mal schneller sind als das berühmte MapReduce im Speicher. Sie sind 10 Mal schneller als MapReduce auf der Festplatte. Sie nutzen die Iteration und erzielen für Sie bessere Ergebnisse als die MapReduce One-Pass-Annäherungen. 

Workflow-Dienstprogramme

Einige der Workflow-Dienstprogramme beinhalten Folgendes: 

  • Funktions-Umwandlungen wie Hashing, Standardisierung und Normalisierung 
  • Hyperparameter-Tuning und Modellauswertung 
  • ML-Persistenz, die das Laden und Speichern von Pipelines und Modellen umfasst 
  • Verteilte lineare Algebra wie PCA und SVD 
  • Statistische Aufgaben wie Hypothesentests und zusammenfassende Statistiken 

Algorithmen 

Einige der Algorithmen umfassen: 

  • Zuordnungsregeln, häufige Posten und Mining des sequenziellen Musters 
  • Clusterings wie Gaußsche Mischverteilungen und K-Mittel(werte) 
  • Topic Modelling-Algorithmus für LDA (latente Dirichlet-Zuordnung) 
  • Gradienten-gestützte Bäume, Entscheidungsbäume und zufällige Wälder 
  • Empfehlungen mithilfe von ALS (Alternating Least Squares) 
  • Regressionsalgorithmen für Überlebensregression und allgemeine lineare Regression 

Diese Bibliothek wird als Teil des Apache Spark-Programms erstellt und gepflegt. Sie wird mit jeder Spark-Version getestet und aktualisiert.