Formation: Hadoop : développement avec MapReduce

Durée:2 jours
Prix: 1130 €
Code cours:CB014
Dates:
18 au 19 mai
7 au 8 septembre
16 au 17 novembre

classe virtuelle
(cliquez sur une date pour vous inscrire)

Public:

Chefs de projets, développeurs, data-scientists, et toute personne souhaitant comprendre les techniques de développement avec MapReduce dans l'environnement Hadoop.

Objectifs:

Connaître les principes du framework Hadoop et savoir utiliser la technologie MapReduce pour paralléliser des calculs sur des volumes importants de données.

Connaissances préalables nécessaires:

Connaissance d'un langage de programmation objet comme Java.

Programme détaillé de la formation


(logo acroreadTéléchargez le programme) :
IntroductionLes fonctionnalités du framework Hadoop
Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
Utilisation de yarn pour piloter les jobs mapreduce.
MapReduce Principe et objectifs du modèle de programmation MapReduce.
Fonctions map() et reduce(). Couples (clés, valeurs).
Implémentation par le framework Hadoop.
Etude de la collection d'exemples.
Rédaction d'un premier programme et exécution avec Hadoop.
ProgrammationConfiguration des jobs, notion de configuration.
Les interfaces principales : mapper, reducer,
La chaîne de production : entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie.
partitioner, outputcollector, codecs, compresseurs..
Format des entrées et sorties d'un job MapReduce : InputFormat et OutputFormat.
Type personnalisés : création d'un writable spécifique. Utilisation. Contraintes.
Outils complémentairesMise en oeuvre du cache distribué.
Paramétrage d'un job : ToolRunner, transmission de propriétés.
Accès à des systèmes externes : S3, hdfs, har, ...
Répartition du job sur la ferme au travers de yarn.
StreamingDéfinition du streaming map/reduce. Création d'un job map/reduce en python. Répartition sur la ferme.
Avantage et inconvénients. Liaisons avec des systèmes externes. Introduction au pont HadoopR
Suivi d'un job en streaming.
PigPattern et best practices Map/reduce. Introduction à Pig.
Installation/lancement. Le langage : latin. Ecriture d'un script pig.
Les fonctions de bases. Ajouts de fonctions personnalisées. Les UDF. Mise en oeuvre.
HiveSimplification du requêtage. Syntaxe de base.Création de tables. Ecriture de requêtes.
Comparaison pig/hive.
SecuritéConfiguration des ACLs.
Gestion de l'authentification.

Pythagore F.D.
01 55 33 52 10
pfd@pythagore-fd.fr

Nos centres de connexion
Centres de connexion
Calendrier
Code Cours:CB014

Contenu de la formation
Hadoop : développement avec MapReduce:

Accès à la liste des cours



Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours