Seminar: Data Engineer Training
Dreitägiges Intensivseminar
Kurzinformationen
Ort: | Termin: | Preis: | |
Münster | 28.06. – 30.06.2021 | 2.610,00 EUR (zzgl. MwSt.) | |
Baden-Dättwil | 18.07. – 20.07.2021 | 2.990,00 CHF (zzgl. MwSt.) | |
Dieses dreitägige Seminars gibt Data-Engineers einen tiefen Einblick in den Bereich Big Data Applikations-Entwicklung. Hierbei werden bekannte und weit verbreitete Frameworks wie Spark und Hadoop eingesetzt und zusätzlich verschiedene Tools wie Hive, Sqoop und viele weitere aus dem Hadoop Ökosystem verwendet.
Detailinformationen
Das Seminar
Das Seminar soll verschiedene Methoden vermitteln, wie die Vielzahl an Tools sinnvoll miteinander verknüpft werden können und die Teilnehmer vorbereiten, die richtige Toolauswahl für vorhandene Problemstellungen treffen zu können.
Der Fokus dieses Seminars liegt darin, den Data-Engineers das nötige Wissen zu vermitteln, wie Daten in ein Hadoop-Cluster geladen und dort gespeichert werden, wie diese Daten in einem verteilten System skalierbar transformiert werden und wie mit Spark und SparkML eine Pipeline für Machine-Learning-Algorithmen aufgebaut werden kann.
Alle Übungen werden auf einem Multi-Node Hadoop Cluster ausgeführt, welches in der AWS-Cloud installiert ist. Als Hadoop-Distribution wird Cloudera verwendet.
Seminar-Agenda
von 09:15 – 17:00 Uhr
Introduction to Core Hadoop
- Advanced HDFS
- Übung: Interaktion mit dem HDFS über CLI und GUI
- YARN internals
- Übung: Job debugging im Ressource Manager
- Nutzung des Java MapReduce Frameworks für parallele Datenverarbeitung
- Übung: ETL Jobs mit dem MapReduce Framework
- Hadoop File Formats
Batch Analytics
- Data Ingestion mit Apache Sqoop
- Übung: Datenextraktion aus einer relationalen Datenbank
- Apache Hive
- Übung: Hive Basics
- Advanced Hive
- Übung: Hive Advanced
Spark
- Spark Core Framework
- Übung: ETL mit Apache Spark
- Spark SQL und Dataframes
- Übung: Interactive analytics mit Spark SQL
- SparkMLlib
- Übung: Machine Learning mit SparkML
Voraussetzungen
Notwendig ist ein Basiswissen von Python, Java und/oder Scala.
Berücksichtigen Sie bitte, dass eine Mindestteilnehmerzahl von 4 Personen vorgesehen ist. Ansonsten kann das Seminar nicht stattfinden.
Methode
Präsenzseminar:
Das Seminar wird aus Vortrag, Diskussionsrunden sowie praktischen Übungen in Kleingruppen bestehen. Viele Beispiele aus der Praxis verdeutlichen die Theorie.
Sprachen
Seminar: Deutsch
Zielgruppe
Das Seminar richtet sich an Software-Engineers, die verteilte Applikationen verstehen und entwickeln möchten, die auf einem Hadoop YARN Cluster laufen.
Anmeldung
Stornierung
Bei Stornierung bis zu 14 Tage vor Veranstaltungsbeginn erheben wir eine Bearbeitungsgebühr von 50% der Gebühr. Bei späteren Absagen wird der gesamte Beitrag fällig.
Seminarabsage
Sollten wir aus wichtigem Grund (z. B. Erkrankung des/der Referenten) gezwungen sein, den Kurs abzusagen, so teilen wir Ihnen dieses umgehend mit. Wir werden Ihnen in diesem Fall einen Ersatztermin anbieten. Passt dieser nicht zu Ihrer Terminplanung, erhalten Sie die bereits gezahlte Seminargebühr in voller Höhe zurück. Darüber hinausgehende Ansprüche bestehen nicht.
Teamvorteil
Sie sind als Team an der Teilnahme interessiert? Dann buchen Sie für 3 Teilnehmer und erhalten Sie ab dem 3. Teilnehmer 10% Rabatt.