Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : Pig : développement de scripts

Durée2 jours
Prix
Code coursCB040
Inscription

Public:

Chefs de projet, data scientists, développeurs souhaitant utiliser pig pour l'analyse de données

Objectifs:

Comprendre le fonctionnement de pig, savoir développer des requêtes en latin, pour effectuer des transformations sur des données,des analyses de données,intégrer des données de différents formats.

Connaissances préalables nécessaires:

Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques.

Validation des pré-requis

Validation des attentes

Programme détaillé de la formation


(logo acroreadTéléchargez le programme) :
IntroductionLe projet Apache Pig, fonctionnalités, versions
Présentation de Pig dans l'écosystème Hadoop.
Chaîne de fonctionnement.
Comparatif avec l'approche Hive ou Spark
Mise en oeuvreRappels sur les commandes HDFS
Prérequis techniques, configuration de Pig
Travaux pratiques:
Exécution : les différents modes : interactif ou batch
Principe de l'exécution de scripts Pig Latin avec Grunt
Base latinModèles de données avec Pig
Intégration Pig avec MapReduce
Les requêtes Latin : chargement de données, instructions
Ordres de bases :
LOAD, FOREACH, FILTER, STORE.
Travaux pratiques : création d'un ETL de base
Contrôle d'exécution
TransformationsGroupements, jointures, tris, produits cartésiens.
Transformation de base de la donnée.
Découpages. Découpages sur filtres.
Analyse de la donnéeEchantillonages. Filtres. Rangements avec rank et dense.
Calculs : min/max, sommes, moyennes, ...
Ttravaux pratiques :
Traitements de chaînes de caractères. Traitement de dates.
IntégrationFormats d'entrées/sorties. Interfaçage avro, json.
Travaux pratiques : chargement de données depuis HDFS vers HBase, analyse de données Pig/Hbase et restitution Json.
ExtensionsExtension du PigLatin.
Création de fonctions UDF en java.
Intégration dans les scripts Pig.
Travaux pratiques :
Utilisation de Pig Latin depuis des programmes Python
Execution de programmes externes, streaming.

Modalités et délais d'accès
Méthodes mobilisées

Pythagore-F.D.

01 55 33 52 10
pfd@pythagore-fd.fr
Calendrier
Code Cours:CB040

Contenu de la formation
Pig : développement de scripts:

Accès à la liste des cours



Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours