Formations à distance

Toutes nos formations sont accessibles à distance en classes virtuelles : accès à l'infrastructure de travaux pratiques, machines physiques, outils pédagogiques, échanges avec le formateur. N'hésitez pas à nous appeler pour réserver une place !

Formation : Cycle Certifiant administrateur BigData

Durée18 jours
Prix 11340 €
Code coursCB095
Inscription

Public:

Chefs de projet,exploitants, administrateurs

Objectifs:

Comprendre les caractéristiques d'une infrastructure BigData, les contraintes de production et de supervision. Savoir définir les points à surveiller, et connaître les outils et solutions disponible pour l'administration BigData.

Connaissances préalables nécessaires:

Connaissances générales des systèmes d'information et des outils et techniques d'exploitation et d'administrations

Programme détaillé de la formation


( logo acroreadTéléchargez le programme) :
IntroductionL'essentiel du BigData : calcul distribué, données non structurées. Besoins fonctionnels et caractéristiques techniques des projets.La valorisation des données.Le positionnement respectif des technologies de cloud, BigData et noSQL, et les liens, implications.
Concepts clés : ETL, Extract Transform Load, CAP, 3V, 4V, données non structurées, prédictif, Machine Learning.
Exemple d'application : Amazon Rekognition, Polly, EMR.
L'écosystème du BigData : les acteurs, les produits, état de l'art.Cycle de vie des projets BigData.
Emergence de nouveaux métiers : Datascientists, Data labs, Hadoop scientists, CDO, ...
Rôle de la DSI dans la démarche BigData. Gouvernance des données: importance de la qualité des données, fiabilité, durée de validité, sécurité des données
Aspects législatifs : sur le stockage, la conservation de données, etc ...sur les traitements, la commercialisation des données, des résultats
Stockage distribuéCaractéristiques NoSQL. Les différents modes et formats de stockage. Les types de bases de données : clé/valeur, document, colonne, graphe.Besoin de distribution. Définition de la notion d'élasticité. Principe du stockage réparti.
Définitions : réplication, sharding, gossip, hachage,
Systèmes de fichiers distribués : GFS, HDFS, Ceph.Les bases de données : Redis, Cassandra, DynamoDB, Accumulo, HBase, MongoDB, BigTable, Neo4j, ..
Données structurées et non structurées, documents, images, fichiers XML, JSON, CSV, ...
Moteurs de recherche. Principe de fonctionnement. Méthodes d'indexation.Recherche dans les bases de volumes importants. Présentation de Elasticsearch et SolR
Principe du schemaless, schéma de stockage, clé de distribution, clé de hachage
Calcul et restitution, intégrationDifférentes solutions : calculs en mode batch, ou en temps réel,sur des flux de données ou des données statiques.
Les produits : langage de calculs statistiques, R Statistics Language, sas, RStudio; outils de visualisation : Tableau, QlikView
Ponts entre les outils statistiques et les bases BigData. Outils de calcul sur des volumes importants : Kafka/Spark Streaming/Storm en temps réel, Hadoop/Spark en mode batch.
Zoom sur Hadoop : complémentarité de HDFS et YARN. Restitution et analyse : logstash, kibana, elk, zeppelin
Principe de map/reduce et exemples d'implémentations, langages et sur-couches.
Présentation de pig pour la conception de tâches map/reduce sur une grappe Hadoop.
Introduction cassandraHistorique, fonctionnalités de Cassandra, licence
Format des données,"key-value", traitement de volumes importants,
haute disponibilité, système réparti de base de données, ...
Installation et configurationPrérequis. Plate-formes supportées. Etude du fichier de configuration : conf/cassandra.yaml
Répertoire de travail, de stockage des données, gestion de la mémoire.
Démarrage d'un noeud et test de l'interface cliente cqlsh.
CQLCommandes de base : connexion au système de base de données,
création de colonnes,insertion, modification recherche,
Le CQL : Cassandra Query Language. Exécution de scripts.
Comment écrire des requêtes? Approches.
Limitations du CQL.
Gestion de la grappePrincipe.Préparation du premier noeud : adresse d'écoute.
Configuration de nouveaux noeuds.Notion de bootstrapping et de token.
Paramètres listen_address et rpc_address.
Réplication : topologie du réseau et EndpointSnitch.Stratégie de réplication. Ajout de noeuds, suppression.
Architecture de stockage mémoire et disque dur, gestion des tombstones, bloom-filter
Travaux pratique : Mise en place d'une configuration de production (multi-datacenters, multi-racks)
SupervisionOpsCenter : installation, lancement et découverte.
Supervision avec nodetool cfstats
Principe des accès JMX. Exports JMX vers des outils de supervision comme Nagios.
Démonstration avec Prométheus et Kibana.
ExploitationGestion des noeuds Cassandra.
Sauvegardes, snapshots et export au format JSON.
Principe de cohérence, digest request et read repair.
Support HadoopPrincipe de map/reduce. Implémentation Hadoop et intégration Hadoop/Cassandra.
Support SparkDescription rapide de l'architecture spark. Mise en oeuvre depuis Cassandra.
Execution d'application Spark s'appuyant sur une grappe Cassandra.
PerformanceOutil de test de performance Cassandra-stress
Mise en place d'un plan de stress et paramétrage.
Introduction Neo4JPrésentation Neo4j, les différentes éditions, license
Fonctionnalités, stockage des données sous forme de graphes
CQL : Cypher Query Language
Positionnement par rapport aux autres bases de données, apports de Neo4j
L'analyse de données.
Cas d'usage
Installation et configurationLes différentes méthodes d'installation
Travaux pratiques : installation de Neo4J Enterprise Edition en cluster.
Premiers pas avec l'interface web.
Création de données, requêtage
Import de données
Cypher Query LanguageSyntaxe, description des relations avec CQL,les patterns
Les clauses d'écriture : set, delete, remove, foreach,
de lecture : match, optional match, where, count, case, ..
Les fonctions : count, type, relationship, ..
Principe de profondeur et de direction de relation dans une recherche
Les listes et les projections maps
Les algorithmes de Graphe
Travaux pratiques : création d'un graphe,
Requêtes de recherche, navigation dans le graphe
ExploitationSauvegardes et restaurations
Optimisation des transactions
Indexation
Client jmx
Points de surveillance
Développement Description des APIs disponibles: .Net, Java, Javascript, Python
Connexions, sessions et transactions
Principe de causalité entre transactions
La bibliothèque Apoc
Travaux pratique : connexion et récupération de données provenant de Cassandra
SécuritéPrincipe et activation
Paramètrage
Travaux pratique : création d'un compte sécurisé
Introduction ELKPrésentation de la pile elastic.
Positionnement d'Elasticsearch et des produits complémentaires : Watcher, Marvel, Kibana, Logstash, Beats, X-Pack
Les apports de la version 7.x
Principe : base technique Lucene et apports d'ElasticSearch.Fonctionnement distribué
Installation et configurationPrérequis techniques.
Installation depuis les RPM.
Utilisation de l'interface X-Pack monitoring.
Premiers pas dans la console Devtools.
Etude du fichier : elasticsearch.yml
ClusteringDéfinitions : cluster, noeud, sharding
Nature distribuée d'elasticsearch
Présentation des fonctionnalités : stockage distribué, calculs distribués avec Elasticsearch, tolérance aux pannes.
FonctionnementNotion de noeud maître,
stockage des documents : , shard primaire et réplicat,
routage interne des requêtes.
Gestion du clusterOutils d'interrogation : /_cluster/health
Création d'un index : définition des espaces de stockage (shard), allocation à un noeud
Configuration de nouveaux noeuds : tolérance aux pannes matérielles et répartition du stockage
Cas d'une panneFonctionnement en cas de perte d'un noeud :
élection d'un nouveau noeud maître si nécessaire, déclaration de nouveaux shards primaires
ExploitationGestion des logs : ES_HOME/logs
Paramétrage de différents niveaux de logs : INFO, DEBUG, TRACE
Suivi des performances.
Sauvegardes avec l'API snapshot.
Introduction HadoopLes fonctionnalités du framework Hadoop. Les différentes versions.
Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE.
Spécificités de chaque distribution.
Architecture et principe de fonctionnement.
Terminologie : NameNode, DataNode, ResourceManager, NodeManager. Rôle des différents composants. Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Oozie, Tez, Pig, Hive, HBase, ...
Les outils Hadoop Infrastructure/Mise en oeuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie. Vue d'ensemble. Gestion des données. Exemple de sqoop.
Restitution : webhdfs, hive, Hawq, Mahout, ElasticSearch ..
Outils complémentaires de traitement : Spark, SparkQL, Spark/ML, Storm, BigTop, Zebra; de développement : Cascading, Scalding, Flink; d'analyse : RHadoop, Hama, Chukwa, kafka
Installation et configurationInstallation en mode distribué. Configuration du cluster et de l'environnement, étude des fichiers de configuration :
core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
Création des users pour les daemons hdfs et yarn,droits d'accès sur les exécutables et répertoires.
Lancement des services.Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc ..
Gestion de la grappe, différentes méthodes :ligne de commandes, API Rest, serveur http intégré, APIS natives
Exemples en ligne de commandes avec hdfs, yarn, mapred. Présentation des fonctions offertes par le serveur http
Travaux pratiques : organisation et configuration d'une grappe hadoop
Administration HadoopOutils complémentaires à yarn et hdfs : jConsole, jconsole yarn. Exemples sur le suivi de charges, l'analyse des journaux.
Principe de gestion des noeuds.
Principe des accès JMX. Démonstration avec Prométheus.
Administration HDFS :présentation des outils de stockage des fichiers, fsck, dfsadmin. Mise en oeuvre sur des exemples simples de récupération de fichiers
Gestion centralisée de caches avec Cacheadmin. Déplacement d'un NameNode. Mise en mode maintenance.
Gestion de la file d'attente, paramétrage, capacity-scheduler.
Haute disponibilitéMise en place de la haute disponibilité sur une distribution Ambari.
Travaux pratiques : passage d'un système HDFS en mode HA
Explication/démonstration d'une fédération de cluster Hadoop.
Sécurité Mécanismes de sécurité et mise en oeuvre pratique de la sécurité avec Kerberos.
Travaux pratiques : mise en place de la sécurité Kerberos sur une distribution Ambari. Création des utilisateurs. Travaux sur les droits d'accès et les droits d'exécution. Impact au niveau des files de traitement Yarn.
Sécurisation de yarn avec les Linux Container Executor.
ExploitationInstallation d'une grappe Hadoop avec Ambari. Tableau de bord. Lancement des services. Principe de la supervision des éléments par le NodeManager.
Monitoring graphique avec Ambari. Présentation de Ganglia, Kibana.
Travaux pratiques : visualisation des alertes en cas d'indisponibilité d'un noeud. Configuration des logs avec log4j.
Introduction hadoop ClouderaLes fonctionnalités du framework Hadoop. Les différentes versions.
Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE.
Spécificités de chaque distribution.
Architecture et principe de fonctionnement.
Terminologie : NameNode, DataNode, ResourceManager, NodeManager. Rôle des différents composants. Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Hue, Oozie, Pig, Hive, HBase, Zeppelin, ...
Les outils Hadoop Infrastructure/mise en oeuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie. Vue d'ensemble. Gestion des données. Exemple de sqoop.
Restitution : webhdfs, hive, Hawq, Mahout, ElasticSearch ..
Outils complémentaires de traitement : Spark, SparkQL, Spark/ML, Storm, BigTop, Zebra; de développement : Cascading, Scalding, Flink; d'analyse : RHadoop, Hama, Chukwa, kafka
Installation et configurationPrésentation de Cloudera Manager.
Installation en mode distribué.
Configuration de l'environnement,étude des fichiers de configuration : core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
Création des utilisateurs pour les daemons hdfs et yarn, droits d'accès sur les exécutables et répertoires.
Lancement des services. Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc ..
Gestion de la grappe, différentes méthodes : ligne de commandes, API Rest, serveur http intégré, APIS natives
Exemples en ligne de commandes avec hdfs, yarn, mapred. Présentation des fonctions offertes par le serveur http
Travaux pratiques : organisation et configuration d'une grappe hadoop avec Cloudera Manager
Traitement de données. Requêtage SQL avec Hive et Impala.
Administration HadoopOutils complémentaires à yarn et hdfs : jConsole, jconsole yarn. Exemples sur le suivi de charges, l'analyse des journaux.
Principe de gestion des noeuds.
Principe des accès JMX. Démonstration avec Prométheus.
Administration HDFS : présentation des outils de stockage des fichiers, fsck, dfsadmin
Mise en oeuvre sur des exemples simples de récupération de fichiers. Gestion centralisée de caches avec Cacheadmin.
Gestion de la file d'attente, paramétrage, Fair-scheduler.
Haute disponibilitéMise en place de la haute disponibilité sur une distribution Cloudera.
Travaux pratiques : passage d'un système HDFS en mode HA
Explication/démonstration d'une fédération de cluster Hadoop
Sécurité Mécanismes de sécurité et mise en oeuvre pratique de la sécurité avec Kerberos.
Travaux pratiques : mise en place de la sécurité Kerberos sur une distribution Cloudera. Création des utilisateurs. Travaux sur les droits d'accès et les droits d'exécution. Impact au niveau des files Yarn.
Sécurisation de yarn avec les Linux Container Executor.
ExploitationInstallation d'une grappe Hadoop. Lancement des services. Principe de la supervision des éléments par le NodeManager.
Monitoring graphique avec Cloudera Manager.
Travaux pratiques :Visualisation des alertes en cas d'indisponibilité d'un noeud.
Configuration des logs avec log4j.
Supervision : définitionsLes objectifs de la supervision, les techniques disponibles. La supervision d'une ferme BigData.
Objets supervisés.Les services et ressources. Protocoles d'accès. Exporteurs distribués de données.
Définition des ressources à surveiller. Journaux et métriques.
Application aux fermes BigData : Hadoop, Cassandra, MongoDB
Mise en oeuvreBesoin de base de données avec agents distribués, de stockage temporel (timeseriesDB)
Produits : Prometheus, Graphite, ElasticSearch.
Présentation, architectures.
Les sur-couches : Kibana, Grafana.
JMXPrincipe des accès JMX. MBeans. Visualisation avec jconsole et jmxterm.
Suivi des performances cassandra : débit d'entrées/sorties, charges, volumes de données, tables, ...
PrometheusInstallation et configuration de base
Définition des ressources supervisées, des intervalles de collecte
Démarrage du serveur Prometheus.
Premiers pas dans la console web, et l'interface graphique.
Exporteur JMX. Exporteur mongodb.
Démonstration avec Cassandra ou Hadoop/HBase.
Configuration des agents sur les noeuds de calculs. Aggrégation des données JMX. Expressions régulières.
Requêtage. Visualisation des données.
GraphiteModèle de données et mesures
Format des données stockées, notion de timestamp
Types de mesures : compteurs, jauges, histogrammes, résumés.
Identification des ressources supervisées : notions d'instances, de jobs.
Démonstration avec Cassandra.
Comparaison avec Prometheus.
Exploration et visualisation des donnéesMise en oeuvre de Grafana. Installation, configuration.
Pose de filtres sur Prometheus et remontée des données.
Etude des différents types de graphiques disponibles,
Aggrégation de données. Appairage des données entre Prométheus et Grafana.
Visualisation et sauvegarde de graphiques,
création de tableaux de bord et rapports à partir des graphiques.
Kibana, installation et configurationInstallation, configuration du mapping avec Elasticsearch.
Paramétrage dans le fichier kibana.yml.
Mapping automatique ou manuel.
Configuration des indexes à explorer.