Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : Cycle Certifiant administrateur BigData

Durée18 jours
Prix9570 €
Code coursCB095
Inscription

Public:

Chefs de projet,exploitants, administrateurs

Objectifs:

Comprendre les caractéristiques d'une infrastructure BigData, les contraintes de production et de supervision. Savoir définir les points à surveiller, et connaître les outils et solutions disponibles pour l'administration BigData.

Connaissances préalables nécessaires:

Connaissances générales des systèmes d'information et des outils et techniques d'exploitation et d'administrations

Validation des pré-requis

Validation des attentes

Programme détaillé de la formation


(logo acroreadTéléchargez le programme) :
IntroductionL'essentiel du BigData : calcul distribué, données non structurées. Besoins fonctionnels et caractéristiques techniques des projets.La valorisation des données.Le positionnement respectif des technologies de cloud, BigData et noSQL, et les liens, implications.
Concepts clés : ETL, Extract Transform Load, CAP, 3V, 4V, données non structurées, prédictif, Machine Learning.
Exemple d'application : Amazon Rekognition, Polly, EMR.
L'écosystème du BigData : les acteurs, les produits, état de l'art.Cycle de vie des projets BigData.
Emergence de nouveaux métiers : Datascientists, Data labs, Hadoop scientists, CDO, ...
Rôle de la DSI dans la démarche BigData. Gouvernance des données: importance de la qualité des données, fiabilité, durée de validité, sécurité des données
Aspects législatifs : sur le stockage, la conservation de données, etc ...sur les traitements, la commercialisation des données, des résultats
Stockage distribuéCaractéristiques NoSQL. Les différents modes et formats de stockage. Les types de bases de données : clé/valeur, document, colonne, graphe.Besoin de distribution. Définition de la notion d'élasticité. Principe du stockage réparti.
Définitions : réplication, sharding, gossip, hachage,
Systèmes de fichiers distribués : GFS, HDFS, Ceph.Les bases de données : Redis, Cassandra, DynamoDB, Accumulo, HBase, MongoDB, BigTable, Neo4j, ..
Données structurées et non structurées, documents, images, fichiers XML, JSON, CSV, ...
Moteurs de recherche. Principe de fonctionnement. Méthodes d'indexation.Recherche dans les bases de volumes importants. Présentation de Elasticsearch et SolR
Principe du schemaless, schéma de stockage, clé de distribution, clé de hachage
Calcul et restitution, intégrationDifférentes solutions : calculs en mode batch, ou en temps réel,sur des flux de données ou des données statiques.
Les produits : langage de calculs statistiques, R Statistics Language, sas, RStudio; outils de visualisation : Tableau, QlikView
Ponts entre les outils statistiques et les bases BigData. Outils de calcul sur des volumes importants : Kafka/Spark Streaming/Storm en temps réel, Hadoop/Spark en mode batch.
Zoom sur Hadoop : complémentarité de HDFS et YARN. Restitution et analyse : logstash, kibana, elk, zeppelin
Principe de map/reduce et exemples d'implémentations, langages et sur-couches.
Présentation de pig pour la conception de tâches map/reduce sur une grappe Hadoop.
CassandraHistorique, fonctionnalités de Cassandra, licence
Format des données,"key-value", traitement de volumes importants,
haute disponibilité, système réparti de base de données, ...
Installation et configurationPrérequis. Plate-formes supportées. Etude du fichier de configuration : conf/cassandra.yaml
Répertoire de travail, de stockage des données, gestion de la mémoire.
Démarrage d'un noeud et test de l'interface cliente cqlsh.
CQLCommandes de base : connexion au système de base de données,
création de colonnes,insertion, modification recherche,
Le CQL : Cassandra Query Language. Exécution de scripts.
Comment écrire des requêtes? Approches.
Limitations du CQL.
Gestion de la grappePrincipe. Configuration des noeuds.
Notion de bootstrapping et de token.
Paramètres de démarrage des noeuds.
Réplication: topologie du réseau et EndpointSnitch.
Stratégie de réplication.
ajout de noeuds, suppression.
Architecture de stockage mémoire et disque dur, gestion des tombstones, bloom-filter
Travaux pratiques : mise en place d'une configuration de production (multi-datacenters, multi-racks)
SupervisionPrometheus: installation, lancement et découverte
Supervision avec nodetool.
Principe des accès JMX. Exports JMX vers des outils de supervision.
Démonstration avec Prometheus et Grafana.
ExploitationGestion des noeuds Cassandra.
Sauvegardes, snapshots et export au format JSON.
Principe de cohérence, hinted_handoff, digest request et read repair.
Support HadoopPrincipe de map/reduce. Implémentation Hadoop et intégration Hadoop/Cassandra.
Support SparkDescription rapide de l'architecture spark. Mise en oeuvre depuis Cassandra.
Exécution d'application Spark s'appuyant sur une grappe Cassandra.
PerformanceOutil de test de performance Cassandra-stress
Mise en place d'un plan de stress et paramétrage.
SécuritéParamétrage, authentification, sécurisation de la base system_auth.
Gestion des rôles et des autorisations.
ElasticStackPrésentation, fonctionnalités, licence
Positionnement Elasticsearch et les produits complémentaires : Kibana,X-Pack,
Logstash, Beats
Principe : base technique Lucene et apports d'ElasticSearch
Définitions et techniques d'indexation
Installation de basePrérequis techniques.
Installation avec les RPM
Outils d'interrogationCommunication en RESTFull avec le cluster
Interface http DevTools, travaux pratiques, démonstration
Traitement des donnéesStructure des données. stockage, indexation
Format des données.
Conversion au format JSON des données à traiter.
Interrogations avec Search Lite et avec Query DSL (domain-specific language)
Notion de 'filtre' pour affiner des requêtes.
Autres composantsDémonstrations de Logstash, Kibana et Beats
Intégration
Installation et configurationPrérequis techniques.
Installation depuis les RPM.
Utilisation de l'interface X-Pack monitoring.
Premiers pas dans la console Devtools.
Etude du fichier : elasticsearch.yml et kibana.yml
Mise en place de la surveillance d'un cluster ES
ClusteringDéfinitions : cluster, noeud, sharding
Nature distribuée d'elasticsearch
Présentation des fonctionnalités : stockage distribué, calculs distribués avec Elasticsearch, tolérance aux pannes.
FonctionnementNotion de noeud maître,
stockage des documents : , shard primaire et réplicat,
routage interne des requêtes.
Gestion du clusterOutils d'interrogation : /_cluster/health
Création d'un index : définition des espaces de stockage (shard), allocation à un noeud
Configuration de nouveaux noeuds : tolérance aux pannes matérielles et répartition du stockage
Cas d'une panneFonctionnement en cas de perte d'un noeud :
élection d'un nouveau noeud maître si nécessaire, déclaration de nouveaux shards primaires
ExploitationGestion des logs : ES_HOME/logs
Paramétrage de différents niveaux de logs : INFO, DEBUG, TRACE
Suivi des performances.
Sauvegardes avec l'API snapshot.
HadoopRappels rapides sur l'ecosystème Hadoop.
Les fonctionnalités du framework Hadoop
Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
Présentation HBase. Historique. Lien avec HDFS.
Format des données dans HBase
Définitions : table, région, ligne, famille de colonnes,cellules, espace de nommage, ...
Fonctionnalités : failover automatique, sharding,
interface avec des jobs MapReduce.
Architecture HBase master node, Region Master, liens avec les clients HBase.
Présentation du rôle de Zookeeper.
Installation Choix des packages.
Installation et configuration dans le fichier conf/hbase-site.xml
Installation en mode distribué.
Test de connexion avec hbase shell.
Travaux pratiques :
Interrogations depuis le serveur http intégré.
HBase utilisation : shellPrésentation des différentes interfaces disponibles.
Travaux pratiques avec hbase shell.
Commandes de base, syntaxe, variables,
manipulation des données : create, list, put, scan, get
désactiver une table ou l'effacer : disable (enable), drop, ...
Programmation de scripts.
Gestion des tables : principe des filtres.
Mise en oeuvre de filtres de recherche, paramètres des tables.
Présentation des espaces de nommage.
Cluster HBaseFonctionnement en mode distribué
Première étape : fonctionnement indépendant des démons (HMaster, HRegionServer, Zookeeper)
Passage au mode distribué :
mise en oeuvre avec HDFS dans un environnement distribué.
Travaux pratiques :
sur un exemple de tables réparties : mise en oeuvre des splits.
ProgrammationIntroduction, les APIs (REST, Avro, Thrift, Java, Ruby, Spark...)
Principe des accès JMX. Démonstration avec Prométheus.
Exemple de programmation d'un client Java.
Gestion des tables.Lien avec map/reduce.
Travaux pratiques :
Lancement et écriture de programmes Spark
Hadoop ClouderaLes fonctionnalités du framework Hadoop. Les différentes versions.
Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE.
Spécificités de chaque distribution.
Architecture et principe de fonctionnement.
Terminologie : NameNode, DataNode, ResourceManager, NodeManager. Rôle des différents composants. Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Hue, Oozie, Pig, Hive, HBase, Zeppelin, ...
Les outils Hadoop Infrastructure/mise en oeuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie. Vue d'ensemble. Gestion des données. Exemple de sqoop.
Restitution : webhdfs, hive, Hawq, Mahout, ElasticSearch ..
Outils complémentaires de traitement : Spark, SparkQL, Spark/ML, Storm, BigTop, Zebra; de développement : Cascading, Scalding, Flink; d'analyse : RHadoop, Hama, Chukwa, kafka
Installation et configurationPrésentation de Cloudera Manager.
Installation en mode distribué.
Configuration de l'environnement,étude des fichiers de configuration : core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
Création des utilisateurs pour les daemons hdfs et yarn, droits d'accès sur les exécutables et répertoires.
Lancement des services. Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc ..
Gestion de la grappe, différentes méthodes : ligne de commandes, API Rest, serveur http intégré, APIS natives
Exemples en ligne de commandes avec hdfs, yarn, mapred. Présentation des fonctions offertes par le serveur http
Travaux pratiques : organisation et configuration d'une grappe hadoop avec Cloudera Manager
Traitement de données. Requêtage SQL avec Hive et Impala.
Administration HadoopOutils complémentaires à yarn et hdfs : jConsole, jconsole yarn. Exemples sur le suivi de charges, l'analyse des journaux.
Principe de gestion des noeuds.
Principe des accès JMX. Démonstration avec Prometheus.
Administration HDFS : présentation des outils de stockage des fichiers, fsck, dfsadmin
Mise en oeuvre sur des exemples simples de récupération de fichiers. Gestion centralisée de caches avec Cacheadmin.
Gestion de la file d'attente, paramétrage, Fair-scheduler.
Haute disponibilitéMise en place de la haute disponibilité sur une distribution Cloudera.
Travaux pratiques : passage d'un système HDFS en mode HA
Explication/démonstration d'une fédération de cluster Hadoop
Sécurité Mécanismes de sécurité et mise en oeuvre pratique de la sécurité avec Kerberos.
Travaux pratiques : mise en place de la sécurité Kerberos sur une distribution Cloudera. Création des utilisateurs. Travaux sur les droits d'accès et les droits d'exécution. Impact au niveau des files Yarn.
Sécurisation de yarn avec les Linux Container Executor.
ExploitationInstallation d'une grappe Hadoop. Lancement des services. Principe de la supervision des éléments par le NodeManager.
Monitoring graphique avec Cloudera Manager.
Travaux pratiques :Visualisation des alertes en cas d'indisponibilité d'un noeud.
Configuration des logs avec log4j.
Supervision : définitionsLes objectifs de la supervision, les techniques disponibles. La supervision d'une ferme BigData.
Objets supervisés.Les services et ressources. Protocoles d'accès. Exporteurs distribués de données.
Définition des ressources à surveiller. Journaux et métriques.
Application aux fermes BigData : Hadoop, Cassandra, HBase, MongoDB
Mise en oeuvreBesoin de base de données avec agents distribués, de stockage temporel (timeseriesDB)
Produits : Prometheus, Graphite, ElasticSearch.
Présentation, architectures.
Les sur-couches : Kibana, Grafana.
JMXPrincipe des accès JMX. MBeans. Visualisation avec jconsole et jmxterm.
Suivi des performances cassandra : débit d'entrées/sorties, charges, volumes de données, tables, ...
PrometheusInstallation et configuration de base
Définition des ressources supervisées, des intervalles de collecte
Démarrage du serveur Prometheus.
Premiers pas dans la console web, et l'interface graphique.
Exporteur JMX. Exporteur mongodb.
Démonstration avec Cassandra ou Hadoop/HBase.
Configuration des agents sur les noeuds de calculs. Aggrégation des données JMX. Expressions régulières.
Requêtage. Visualisation des données.
GraphiteModèle de données et mesures
Format des données stockées, notion de timestamp
Types de mesures : compteurs, jauges, histogrammes, résumés.
Identification des ressources supervisées : notions d'instances, de jobs.
Démonstration avec Cassandra.
Comparaison avec Prometheus.
Exploration et visualisation des donnéesMise en oeuvre de Grafana. Installation, configuration.
Pose de filtres sur Prometheus et remontée des données.
Etude des différents types de graphiques disponibles,
Aggrégation de données. Appairage des données entre Prometheus et Grafana.
Visualisation et sauvegarde de graphiques,
création de tableaux de bord et rapports à partir des graphiques.
Kibana, installation et configurationInstallation, configuration du mapping avec Elasticsearch.
Injection des données avec Logstash et Metribeat.
Architectures, paramétrages.
Mapping automatique ou manuel.
Configuration des indexes à explorer.

Modalités et délais d'accès
Méthodes mobilisées