Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : Spark : traitement de données

Durée3 jours
Prix1850 €
Code coursCB037
Dates 5 au 7 octobre
7 au 9 décembre

(cliquez sur une date pour vous inscrire)

Public:

Chefs de projet, data scientists, développeurs.

Objectifs:

Comprendre le fonctionnement de Spark et son utilisation dans un environnement Hadoop. Savoir intégrer Spark dans un environnement Hadoop, traiter des données Cassandra, HBase, Kafka, Flume, Sqoop, S3.

Connaissances préalables nécessaires:

Connaissance de Java ou Python, notions de calculs statistiques et des bases Hadoop ou avoir suivi le stage "Hadoop, l'écosystème".

Validation des pré-requis

Validation des attentes

Programme détaillé de la formation


(logo acroreadTéléchargez le programme) :
IntroductionPrésentation Spark, origine du projet,apports, principe de fonctionnement.Langages supportés.
Mise en oeuvre sur une architecture distribuée. Architecture : clusterManager, driver, worker, ...
Premiers pasUtilisation du shell Spark avec Scala ou Python. Modes de fonctionnement. Interprété, compilé.
Utilisation des outils de construction. Gestion des versions de bibliothèques.
Mise en pratique en Java, Scala et Python. Notion de contexte Spark. Extension aux sessions Spark.
ClusterDifférents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2
Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud. Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
Mise en oeuvre avec Spark et Amazon EC2. Soumission de jobs, supervision depuis l'interface web
TraitementsLecture/écriture de données : Texte, JSon, Parquet, HDFS, fichiers séquentiels.
Jointures. Filtrage de données, enrichissement. Calculs distribués de base. Introduction aux traitements de données avec map/reduce.
Support CassandraDescription rapide de l'architecture Cassandra. Mise en oeuvre depuis Spark. Exécution de travaux Spark s'appuyant sur une grappe Cassandra.
DataFramesSpark et SQL
Objectifs : traitement de données structurées. L'API Dataset et DataFrames
Optimisation des requêtes.Mise en oeuvre des Dataframes et DataSet. Compatibilité Hive
Travaux pratiques: extraction, modification de données dans une base distribuée. Collections de données distribuées. Exemples.
StreamingObjectifs , principe de fonctionnement: stream processing. Source de données : HDFS, Flume, Kafka, ...
Notion de StreamingContexte, DStreams, démonstrations.Travaux pratiques : traitement de flux DStreams en Scala. Watermarking. Gestion des micro-batches.
Travaux pratiques: mise en oeuvre d'une chaîne de gestion de données en flux tendu : IoT, Kafka, SparkStreaming, Spark. Analyse des données au fil de l'eau.
Intégration hadoopRappels sur l'écosystème Hadoop de base : HDFS/Yarn.
Création et exploitation d'un cluster Spark/YARN. Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark.
Intégration de données AWS S3.
Machine LearningFonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistance, statistiques.
Mise en oeuvre avec les DataFrames.
Spark GraphXFourniture d'algorithmes, d'opérateurs simples pour des calculs statistiques sur les graphes
Travaux pratiques :exemples d'opérations sur les graphes.

Modalités et délais d'accès
Méthodes mobilisées

Pythagore-F.D.

01 55 33 52 10
pfd@pythagore-fd.fr
Calendrier
Code Cours:CB037

Contenu de la formation
Spark : traitement de données:

Accès à la liste des cours



Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours