DataFrame API

Funktionsweise der Spark Engine

Best Practices

#FindYourSpark

Apache Spark hat die Entwicklung komplexer Daten-Pipelines stark vereinfacht und sich damit zu einer der am weitesten verbreiteten Technologien im Big Data Bereich in den letzten Jahren entwickelt. Dies ist zum einen auf Sparks Programmierschnittstellen zurückzuführen, welche die prägnante Formulierung komplexer Datenverarbeitungslogiken ermöglichen und zum anderen auf die hohe Automatisierung bei der verteilten Ausführung durch die Engine von Apache Spark.

Diese Schulung richtet sich an Entwickler mit Programmiererfahrung und bietet einen umfassenden Einstieg in die Entwicklung von Daten-Pipelines mit Apache Spark.

Im Fokus steht dabei der Umgang mit Sparks DataFrame API. Angefangen von den grundlegenden Operationen, über erweiterte Konzepte wie Fensterfunktionen, bis hin zur Definition von benutzerdefinierten Funktionen, lernen die Teilnehmer alle wichtigen Bestandteile kennen. Darauf aufbauend werden Best Practices für Entwicklung, Debugging und Profiling von Spark Applikationen besprochen. Abschließend erhalten die Teilnehmer einen Einblick in die Funktionsweise der Spark Engine und die daraus resultierenden Konsequenzen für die Entwicklung von Daten-Pipelines mit Apache Spark.

Das theoretisch vermittelte Wissen der Schulung wird anhand mehrerer praktischer Übungen vertieft und gefestigt.

Die wichtigsten Inhalte des Spark Foundation Trainings:

  • Einführung
  • DataFrame API
    • Grundlagen 
    • Interne Representation von DataFrames 
    • Formulierung von Abfragen auf strukturierten Daten 
    • Entwurfsprinzipien der DataFrame API
    • Wandeln zwischen den Welten: Von Python zu Spark und zurück
    • Benutzerdefinierte Funktionen 
    • Mengenorientiertes Denken 
    • Fortsetzung Mengenorientiertes Denken
    • Arbeiten mit dem Hive Metastore
    • Umgang mit Fensterfunktionen (Window Functions)
  • Entwicklung von Sparkapplikationen
    • Das grundlegende Applikationsgerüst
    • Umgang mit externen Bibliotheken
    • Ausführung von Applikationen
    • Debugging und Profiling von Spark Applikationen
    • Behandlung invalider Daten
  • Ein Blick hinter die Kulissen
    • Funktionsweise der Spark Engine
    • Monitoring von Spark Applikationen
    • Das Problem ungleicher Datenverteilungen (Data Skew)
    • Identifikation von Performanceengpässen und deren Lösung
    • Offene Fragen

Alles auf einen Blick!

  • Gute Kenntnisse in Python, Basiskenntnisse im Umgang mit Bash, SQL Kenntnisse sind von Vorteil
  • 3-tägige Schulung in München
  • Teilnehmerzahl auf 10 begrenzt
  • Gemeinsames Mittagessen und Verpflegung inklusive
  • Sprache: Deutsch

Haben Sie Fragen?

Hallo, ich bin Claudia Djukic-Müller.
Ich helfe Ihnen gerne weiter. Sie erreichen mich telefonisch unter +49 (0) 89 – 323 731 32

Zielgruppe & Voraussetzungen

Zielgruppe 

Entwickler mit Programmiererfahrung

Voraussetzungen 
Gute Kenntnisse der Programmiersprache Python
Basiskenntnisse im Umgang mit Bash
SQL Kenntnisse sind von Vorteil, aber nicht zwingend notwendig

Organisation

Die Spark Foundation Schulung findet täglich von 10:00 Uhr bis 18:00 Uhr in München statt. Es gibt ein gemeinsames Mittagessen mit allen Seminar Teilnehmern und dem Dozenten im Leib&Seele, das sich direkt neben dem Data Science Hub befindet. Hier haben Sie in entspannter Atmosphäre Gelegenheit, im gemeinsamen Gespräch mit dem Dozenten Themen und offene Fragen zu vertiefen.

Die Teilnehmerzahl der Spark Trainings ist auf 10 begrenzt, um Ihnen einen optimalen Lernerfolg zu ermöglichen.

Ort

Der eintägige Data Science Kurs findet in unserem Data Science Hub im Sapporobogen 6-8 in München statt. Mit den öffentlichen Verkehrsmitteln erreichen Sie uns innerhalb von 15 Minuten vom Hauptbahnhof. Gerne lassen wir Ihnen Hotelempfehlungen in der Nähe zukommen. 

Ihr Dozent

Simon Kaltenbacher

Simon Kaltenbacher

Simon Kaltenbacher ist Experte für Datenarchitektur, verteilte Systeme und Stream Processing. Er berät Kunden beim Aufbau von Datenplattformen und unterstützt sie bei der Implementierung von Daten-Pipelines.

Er verfolgt das Apache-Spark-Projekt intensiv seit Version 0.9 und hat bereits mehrere Schulungen und Vorträge zu dieser Technologie gehalten.

Starten Sie gut informiert in Ihre Schulung!

Sie haben Fragen zu den Inhalten, zur Organisation oder interessieren sich für ein Inhouse-Seminar zu unterschiedlichen Themen um Data & AI? Ich helfe Ihnen gerne weiter. Sie erreichen mich telefonisch unter +49 (0) 89 – 323 731 32

top