Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : Pig : développement de scripts

Durée2 jours
Prix
Code coursCB040
Inscription

Public:

Chefs de projet, data scientists, développeurs souhaitant utiliser pig pour l'analyse de données

Objectifs:

Comprendre le fonctionnement de pig, savoir développer des requêtes en latin, pour effectuer des transformations sur des données,des analyses de données,intégrer des données de différents formats.

Connaissances préalables nécessaires:

Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques.

Programme détaillé de la formation


(logo acroreadTéléchargez le programme) :
Introduction
Le projet Apache Pig, fonctionnalités, versions
Présentation de Pig dans l'écosystème Hadoop.
Chaîne de fonctionnement.
Comparatif avec l'approche Hive ou Spark
Mise en oeuvre
Rappels sur les commandes HDFS
Prérequis techniques, configuration de Pig
Atelier : Exécution : les différents modes : interactif ou batch
Atelier : Principe de l'exécution de scripts Pig Latin avec Grunt
Base latin
Modèles de données avec Pig
Intégration Pig avec MapReduce
Les requêtes Latin : chargement de données, instructions
Ordres de bases :
LOAD, FOREACH, FILTER, STORE.
Atelier : création d'un ETL de base
Contrôle d'exécution
Transformations
Groupements, jointures, tris, produits cartésiens.
Transformation de base de la donnée.
Découpages. Découpages sur filtres.
Analyse de la donnée
Echantillonnages. Filtres. Rangements avec rank et dense.
Calculs : minimaux/maximaux, sommes, moyennes, ...
Atelier : traitements de chaînes de caractères. Traitement de dates.
Intégration
Formats d'entrées/sorties. Interfaçage avro, json.
Atelier : chargement de données depuis HDFS vers HBase, analyse de données Pig/Hbase et restitution Json.
Extensions
Extension de Pig/Latin.
Création de fonctions UDF en java.
Intégration dans les scripts Pig.
Atelier : utilisation de Pig Latin depuis des programmes Python
Exécution de programmes externes, streaming.

Modalités et délais d'accès
Méthodes mobilisées

Pythagore-F.D.

01 55 33 52 10
pfd@pythagore-fd.fr
Calendrier
Code Cours:CB040

Contenu de la formation
Pig : développement de scripts:

Accès à la liste des cours



Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours