Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : Big Data - Python pour l'analyse de données

Durée3 jours
Prix1 910 €
Code coursLY010
Dates12 au 14 décembre

(cliquez sur une date pour vous inscrire)

Public:

développeurs en Python, Responsables Infocentre, Développeurs de logiciels, programmeurs, Data analysts, Data scientists.

Objectifs:

A l’issue de la formation, le stagiaire sera capable de manipuler des données statistiques grâce au langage Python.

Connaissances préalables nécessaires:

Maîtrise de la programmation Python et connaissances de base en statistiques

Objectifs pédagogiques:

  • Comprendre le principe de la modélisation statistique
  • Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python
  • Être capable d'extraire des données d'un fichier
  • Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse
  • Apprendre à mettre en place un modèle d'apprentissage simple
  • Choisir entre la régression et la classification en fonction du type de données
  • Évaluer les performances prédictives d'un algorithme
  • Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances

Programme détaillé de la formation


(logo acroreadTéléchargez le programme) :
Comprendre le principe de la modélisation statistique
Les valeurs d'observation, et les variables cibles.
Ingénierie des variables.
Analyses statistiques,
Classification des données, rapprochements,
Production de recommandations. Evolutions des outils statistiques classiques vers l'apprentissage automatique.
Atelier : exercices sur les outils statistiques de base
Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python
Besoins des data-scientists : calculs, analyse d'images, machine learning, interface avec les bases de données
Apports de python : grande variété d'outils, expertise dans le domaine du calcul scientifique
Présentation des outils d'apprentissage Python : scikit-learn, pybrain, TensorFlow/keras, mxnet, caffe
Atelier : mise en oeuvre de scikit-learn et génération de jeux de données.
Être capable d'extraire des données d'un fichier
Pandas : manipulation de tables de données. Notion de dataframe.
Manipulation de données relationnelles
Tableaux avec Pandas: indexation, opérations, algèbre relationnelle
Stockage dans des fichiers: CSV, JSon
Atelier : construction d'ETL de base entre json et csv
Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse
Encodeurs
Filtres et ETL
Gouvernance des données. Qualité des données.
Transformation de l'information en donnée. Qualification et enrichissement.
Sécurisation et étanchéité des lacs de données.
Flux de données et organisation dans l'entreprise. De la donnée maître à la donnée de travail. MDM.
Mise en oeuvre pratique des différentes phases :
nettoyage,enrichissement,organisation des données.
Atelier : construction d'un système de détection de contours
Apprendre à mettre en place un modèle d'apprentissage simple
Les différentes méthodes : apprentissage supervisé, apprentissage automatique.
Algorithmes : régression linéaire, k-voisins,classification naïve bayésienne, arbres de décision, ...
Atelier : classifieurs. scoring
APIs fournies en standard, modèles d'apprentissage
Projet scikit-learn : classification, régression, validation de modèles prédictifs.
Démonstrations avec les modèles fournis par scikit-learn
Positionnement et comparaison avec Keras, mxnet, caffe
Atelier : codage d'une reconnaissance d'animaux avec une forêt aléatoire
Choisir entre la régression et la classification en fonction du type de données
Présentation des types de données en entrées : données discrètes, données continues. Labelisation, mapping par fonction.
Comprendre les algorithmes : régression linéaire, k-moyennes, k-voisins, classification naïve bayésienne, arbres de décision, forêts aléatoires, ...
Critères de choix des algorithmes.
Atelier : construction d'un système décisionnel fondé sur des forêts aléatoires
Évaluer les performances prédictives d'un algorithme
Les courbes d'apprentissage. Définitions : AUC, courbes ROC.
Comprendre le principe des hyper-paramètres. Choix des hyper-paramètres.
Atelier : calcul et visualisation d'une matrice de confusion
Atelier : Visualisation de courbes d'apprentissage fonction des hyper-paramètres
Atelier : Visualisation d'une mise en sur-apprentissage
Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances
Présentation de pyspark
Machine learning et deep learning
TensorFlow:principe de fonctionnement, plateformes supportées, distribution,

Modalités et délais d'accès
Méthodes mobilisées