Big Data Hadoop and Spark Developer - eLearning
450,00 EUR
- 30 hours
Dieser Big Data Hadoop Zertifizierungskurs ist darauf ausgelegt, Ihnen ein tiefgehendes Wissen über das Big Data Framework unter Verwendung von Hadoop und Spark zu vermitteln. In diesem praxisorientierten Big Data Kurs werden Sie echte, branchenbasierte Projekte durchführen, indem Sie die integrierten Labore von Simplilearn nutzen. Voraussetzungen: Es wird empfohlen, dass Sie Kenntnisse in folgenden Bereichen haben: - Core - Java SQL
Kurszeitplan
Einführung in Big Data und Hadoop
Lektion 01
- Einführung in Big Data und Hadoop
- Einführung in Big Data
- Big Data Analytics
- Was ist Big Data?
- Die vier Vs von Big Data
- Fallstudie Royal Bank of Scotland
- Herausforderungen traditioneller Systeme
- Verteilte Systeme
- Einführung in Hadoop
- Komponenten des Hadoop-Ökosystems Teil Eins
- Komponenten des Hadoop-Ökosystems Teil Zwei
- Komponenten des Hadoop-Ökosystems Teil Drei
- Kommerzielle Hadoop-Distributionen
- Demo: Durchgang durch Simplilearn Cloudlab
- Wichtigste Erkenntnisse
- WissensüberprüfungHadoop-Architektur Verteilter Speicher (HDFS) und YARN
Lektion 02
- Hadoop-Architektur Verteilter Speicher (HDFS) und YARN
- Was ist HDFS
- Notwendigkeit von HDFS
- Reguläres Dateisystem vs. HDFS
- Eigenschaften von HDFS
- HDFS-Architektur und Komponenten
- Implementierungen von Hochverfügbarkeitsclustern
- HDFS-Komponente Dateisystem-Namensraum
- Aufteilung von Datenblöcken
- Datenreplikationstopologie
- HDFS-Kommandozeile
- Demo: Gebräuchliche HDFS-Befehle
- Praxisprojekt: HDFS-Kommandozeile
- Einführung in Yarn
- Anwendungsfall für Yarn
- Yarn und seine Architektur
- Ressourcenmanager
- Funktionsweise des Ressourcenmanagers
- Application Master
- Wie Yarn eine Anwendung ausführt
- Werkzeuge für Yarn-Entwickler
- Demo: Durchgang durch den Cluster Teil Eins
- Demo: Durchgang durch den Cluster Teil Zwei
- Wichtigste Erkenntnisse Wissensüberprüfung
- Praxisprojekt: Hadoop-Architektur, verteilter Speicher (HDFS) und YarnDatenintegration in Big-Data-Systeme und ETL
Lektion 03
- Datenintegration in Big-Data-Systeme und ETL
- Überblick über Datenintegration Teil Eins
- Überblick über Datenintegration Teil Zwei
- Apache Sqoop
- Sqoop und seine Anwendungen
- Sqoop-Verarbeitung
- Sqoop-Importprozess
- Sqoop-Connectors
- Demo: Import und Export von Daten von MySQL zu HDFS
- Praxisprojekt: Apache Sqoop
- Apache Flume
- Flume-Modell
- Skalierbarkeit in Flume
- Komponenten in Flumes Architektur
- Konfiguration von Flume-Komponenten
- Demo: Twitter-Daten einlesen
- Apache Kafka: Aggregation von Benutzeraktivitäten mit Kafka
- Kafka-Datenmodell
- Partitionen
- Architektur von Apache Kafka
- Demo: Einrichtung eines Kafka-Clusters
- Beispiel für Producer Side API
- Consumer Side API
- Beispiel für Consumer Side API
- Kafka Connect
- Demo: Erstellung einer Beispiel-Kafka-Datenpipeline mit Producer und Consumer
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Datenintegration in Big-Data-Systeme und ETLVerteilte Verarbeitung MapReduce-Framework und Pig
Lektion 04
- Distributed Processing Mapreduce Framework and Pig
- Distributed Processing in Mapreduce
- Word Count Example
- Map Execution Phases
- Map Execution Distributed Two Node Environment
- Mapreduce Jobs
- Hadoop Mapreduce Job Work Interaction
- Setting Up the Environment for Mapreduce Development
- Set of Classes
- Creating a New Project
- Advanced Mapreduce
- Data Types in Hadoop
- Output formats in Mapreduce
- Using Distributed Cache
- Joins in MapReduce
- Replicated Join
- Introduction to Pig
- Components of Pig
- Pig Data Model
- Pig Interactive Modes
- Pig Operations
- Various Relations Performed by Developers
- Demo: Analyzing Web Log Data Using Mapreduce
- Demo: Analyzing Sales Data and Solving Kpis Using Pig Practice Project: Apache Pig- Demo: Wordcount
- Key Takeaways
- Knowledge Check
- Practice Project: Distributed Processing - Mapreduce Framework and PigApache Hive
Lektion 05
- Apache Hive
- Hive SQL over Hadoop MapReduce
- Hive Architecture
- Interfaces to Run Hive Queries
- Running Beeline from Command Line
- Hive Metastore
- Hive DDL and DML
- Creating New Table
- Data Types Validation of Data
- File Format Types
- Data Serialization
- Hive Table and Avro Schema
- Hive Optimization Partitioning Bucketing and Sampling
- Non-Partitioned Table
- Data Insertion
- Dynamic Partitioning in Hive
- Bucketing
- What Do Buckets Do?
- Hive Analytics UDF and UDAF
- Other Functions of Hive
- Demo: Real-time Analysis and Data Filtration
- Demo: Real-World Problem
- Demo: Data Representation and Import Using Hive
- Key Takeaways
- Knowledge Check
- Practice Project: Apache HiveNoSQL-Datenbanken HBase
Lektion 06
- NoSQL-Datenbanken HBase
- Einführung in NoSQL
- Demo: Yarn-Tuning
- Übersicht über Hbase
- Hbase-Architektur
- Datenmodell
- Verbindungsaufbau zu HBase
- Praxisprojekt: HBase-Shell
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: NoSQL-Datenbanken - HBaseGrundlagen der funktionalen Programmierung und Scala
Lektion 07
- Grundlagen der funktionalen Programmierung und Scala
- Einführung in Scala
- Demo: Installation von Scala
- Funktionale Programmierung
- Programmieren mit Scala
- Demo: Grundlegende Literale und arithmetische Programmierung
- Demo: Logische Operatoren
- Typinferenz, Klassen, Objekte und Funktionen in Scala
- Demo: Typinferenz, Funktionen, anonyme Funktionen und Klassen
- Sammlungen
- Arten von Sammlungen
- Demo: Fünf Arten von Sammlungen
- Demo: Operationen an einer Liste im Scala REPL
- Demo: Funktionen des Scala REPL
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Apache HiveApache Spark - Framework der nächsten Generation für Big Data
Lektion 08
- Apache Spark Next-Generation Big Data Framework
- History of Spark
- Limitations of Mapreduce in Hadoop
- Introduction to Apache Spark
- Components of Spark
- Application of In-memory Processing
- Hadoop Ecosystem vs Spark
- Advantages of Spark
- Spark Architecture
- Spark Cluster in Real World
- Demo: Running a Scala Programs in Spark Shell
- Demo: Setting Up Execution Environment in IDE
- Demo: Spark Web UI
- Key Takeaways
- Knowledge Check
- Practice Project: Apache Spark Next-Generation Big Data FrameworkSpark Core Verarbeitung von RDDs
Lektion 09
- Introduction to Spark RDD
- RDD in Spark
- Creating Spark RDD
- Pair RDD
- RDD Operations
- Demo: Spark Transformation Detailed Exploration Using Scala Examples
- Demo: Spark Action Detailed Exploration Using Scala
- Caching and Persistence
- Storage Levels
- Lineage and DAG
- Need for DAG
- Debugging in Spark
- Partitioning in Spark
- Scheduling in Spark
- Shuffling in Spark
- Sort Shuffle Aggregating Data With Paired RDD
- Demo: Spark Application With Data Written Back to HDFS and Spark UI
- Demo: Changing Spark Application Parameters
- Demo: Handling Different File Formats
- Demo: Spark RDD With Real-world Application
- Demo: Optimizing Spark Jobs
- Key Takeaways
- Knowledge Check
- Practice Project: Spark Core Processing RDDSpark SQL Verarbeitung von DataFrames
Lektion 10
- Spark SQL Processing DataFrames
- Spark SQL Introduction
- Spark SQL Architecture
- Dataframes
- Demo: Handling Various Data Formats
- Demo: Implement Various Dataframe Operations
- Demo: UDF and UDAF
- Interoperating With RDDs
- Demo: Process Dataframe Using SQL Query
- RDD vs Dataframe vs Dataset
- Practice Project: Processing Dataframes
- Key Takeaways
- Knowledge Check
- Practice Project: Spark SQL - Processing DataframesModellierung von Big Data mit Spark MLib
Lektion 11
- Spark Mlib Modellierung von Big Data mit Spark
- Rolle des Datenwissenschaftlers und des Datenanalysten bei Big Data
- Analytik in Spark
- Maschinelles Lernen
- Überwachtes Lernen
- Demo: Klassifizierung mit Linearer SVM
- Demo: Lineare Regression mit Fallstudien aus der realen Welt
- Unüberwachtes Lernen
- Demo: Unüberwachtes Clustering mit K-Means
- Verstärkendes Lernen
- Halbüberwachtes Lernen
- Überblick über Mlib
- Mlib Pipelines
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Spark Mlib - Modellierung von Big Data mit SparkFramework für Stream-Verarbeitung und Spark Streaming
Lektion 12
- Überblick über das Streaming
- Echtzeitverarbeitung von Big Data
- Architekturen zur Datenverarbeitung
- Demo: Echtzeit-Datenverarbeitung mit Spark Streaming
- Demo: Erstellung einer Spark Streaming-Anwendung
- Einführung in DStreams
- Transformationen auf DStreams
- Entwurfsmuster für die Verwendung von Foreachrdd
- Zustandsoperationen
- Fensteroperationen
- Join-Operationen Stream-Dataset-Join
- Demo: Fensterverarbeitung von Echtzeit-Datenverarbeitungs-Streamingquellen
- Demo: Verarbeitung von Twitter-Streaming-Daten
- Strukturiertes Spark Streaming-
- Anwendungsfall Banktransaktionen
- Architekturmodell des strukturierten Streamings und seine Komponenten
- Ausgabesinks
- APIs für strukturiertes Streaming
- Erstellen von Spalten im strukturierten Streaming
- Fensterbasierte Operationen auf Ereigniszeit
- Anwendungsfälle
- Demo: Streaming-Pipeline
- Praxisprojekt: Spark Streaming
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Stream-Verarbeitungsframeworks und Spark StreamingSpark GraphX
Lektion 13
- Spark GraphX
- Einführung in Graphen
- GraphX in Spark
- GraphX Operatoren
- Join-Operatoren
- GraphX Parallelsystem
- Algorithmen in Spark
- Pregel-API
- Anwendungsfall von GraphX
- Demo: GraphX Vertex Prädikat
- Demo: PageRank-Algorithmus
- Wichtigste Erkenntnisse
- Wissensüberprüfung
- Praxisprojekt: Unterstützung für das Spark GraphX-Projekt
Lernergebnisse
In diesem Kurs zum Big Data Hadoop und Spark Entwickler werden Sie Folgendes lernen:
Hadoop-Ökosystem
Erfahren Sie, wie Sie sich im Hadoop-Ökosystem zurechtfinden und dessen Nutzung optimieren können
Daten erfassen
Daten mit Sqoop, Flume und Kafka erfassen.
Bienenstock
Implementieren Sie Partitionierung, Bucketing und Indizierung in Hive
Apache Spark
Arbeiten mit RDD in Apache Spark
Datenstreaming
Verarbeite Echtzeit-Streaming-Daten und führe DataFrame-Operationen in Spark mit SQL-Abfragen aus
Implementierung
Benutzerdefinierte Funktionen (UDF) und benutzerdefinierte Attributfunktionen (UDAF) in Spark implementieren
Abschlussprojekte des Kurses
Projekt 1: Analyse historischer Versicherungsansprüche
Nutzen Sie die Funktionen von Hadoop, um Muster vorherzusagen und handlungsrelevante Erkenntnisse für eine Kfz-Versicherungsgesellschaft zu teilen. Dieses Projekt verwendet Daten der New Yorker Börse aus den Jahren 2010 bis 2016, die von über 500 gelisteten Unternehmen erfasst wurden. Der Datensatz besteht aus den Intraday-Preisen und dem gehandelten Volumen jedes gelisteten Unternehmens. Die Daten werden sowohl in Projekten des maschinellen Lernens als auch in explorativen Analyseprojekten verwendet, um den Handelsprozess zu automatisieren und die Gewinner oder Verlierer des nächsten Handelstages vorherzusagen. Der Umfang dieses Projekts beschränkt sich auf die explorative Datenanalyse.
Projekt 2: Mitarbeiterbewertung der Kommentaranalyse
Das HR-Team durchforstet soziale Medien, um Feedback und Meinungen von aktuellen und ehemaligen Mitarbeitern zu sammeln. Diese Informationen werden genutzt, um handlungsrelevante Erkenntnisse abzuleiten und korrigierende Maßnahmen zu ergreifen, um die Beziehung zwischen Arbeitgeber und Arbeitnehmer zu verbessern. Die Daten werden von Glassdoor webgescraped und enthalten detaillierte Bewertungen von 67.000 Mitarbeitern von Google, Amazon, Facebook, Apple, Microsoft und Netflix.
Projekt 3: K-Means-Clustering für den Telekommunikationsbereich
LoudAcre Mobile ist ein Mobilfunkanbieter, der eine neue Kampagne für ein offenes Netzwerk gestartet hat. Als Teil dieser Kampagne hat das Unternehmen Nutzer dazu eingeladen, sich über Mobilfunkmasten in ihrer Gegend zu beschweren, falls sie Verbindungsprobleme mit ihrem aktuellen Mobilfunknetz haben. LoudAcre hat die Datensätze der Nutzer gesammelt, die Beschwerden eingereicht haben.
Projekt 4: Marktanalyse im Bankensektor
Unser Kunde, eine portugiesische Bankinstitution, führte eine Marketingkampagne durch, um potenzielle Kunden davon zu überzeugen, in eine Bankfestgeldaktion zu investieren. Die Verkaufsgespräche der Kampagne wurden telefonisch durchgeführt. Oft wurde jedoch derselbe Kunde mehr als einmal kontaktiert. Sie müssen die Marketinganalyse der durch diese Kampagne generierten Daten durchführen, wobei Sie die redundanten Anrufe berücksichtigen müssen.
Großer Hadoop- und Spark-Entwickler - eLearning
Zielgruppe und Voraussetzungen
Zielgruppe
- Analytik-Experten
- Führungskräfte im IT-Bereich
- Fachkräfte für Tests und Großrechner
- Fachleute für Datenmanagement
- Fachkräfte für Geschäftsanalytik
- Projektmanager
- Absolventen, die eine Karriere im Bereich der Big-Data-Analytik beginnen möchten
Voraussetzungen:
Es wird empfohlen, dass Sie Kenntnisse haben über:
- Kern
- Java SQL
Benötigen Sie eine Unternehmenslösung oder LMS-Integration?
Haben Sie nicht den Kurs oder das Programm gefunden, das für Ihr Unternehmen geeignet wäre? Benötigen Sie eine LMS-Integration? Schreiben Sie uns! Wir werden alles lösen!