Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : Dask, mise en oeuvre et programmation

Durée3 jours
Code coursCB042
Dates13 au 15 mai
8 au 10 juillet
30 septembre au 2 octobre
16 au 18 décembre

(cliquez sur une date pour vous inscrire)

Public:

Chefs de projet, Data Scientists, Développeurs, Architectes...

Objectifs:

Savoir mettre en oeuvre Dask pour paralléliser des calculs en Python

Connaissances préalables nécessaires:

Bases de la programmation python.

Objectifs pédagogiques:

    Déroulé pédagogique


    Introduction
    Durée : 2h
    Méthodes pédagogiques : exposé/échanges
    Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle
    Présentation de Dask, fonctionnalités, apports.Comparaison avec d'autres environnements : yarn, spark.
    Calculs parallèles en environnements distribués, ou sur un seul serveur.
    Les composants de Dask : scheduler, collections BigData.
    Premiers pas avec Dask
    Durée : 3h30
    Méthodes pédagogiques : alternance de théorie et de travaux pratiques
    Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
    Différentes méthodes d'installation : Anaconda, pip, depuis les sources
    Atelier : installation, et création d'objets Dask,


    choix des méthodes et tâches, visualisation des graphes d'exécution.
    exécution par le scheduler
    Elements de base
    Durée : 6h30
    Méthodes pédagogiques : alternance de théorie et de travaux pratiques
    Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
    Array: cas d'usages, compatibilité NumPy, définition de chunks, exemples, bonnes pratiques
    Atelier : création, stockage de Dask Array


    Bag : définition, limites
    Atelier : exemple de création, stockage, calcul sur des Dask Bags


    Dask Dataframes : regroupement de dataframes pandas, stockage sur disque ou dans un cluster,
    critères de choix par rapport aux dataframes pandas, bonne pratiques,
    compatibilité avec Parquet, intégration de tables SQL
    Atelier : mise en oeuvre de dask.dataframes et comparaison avec pandas


    Delayed ou Futures : une exécution stockée dans un graphe d'actions, ou en temps réel, critères de choix
    Fonctionnement avancé
    Durée : 3h30
    Méthodes pédagogiques : alternance de théorie et de travaux pratiques
    Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
    Gesion des performances
    Configuration du scheduler
    Les graphes d'exécution
    Utilisation du dashboard
    Outils de debugging
    Atelier : tests de performances et debugging


    Dask.distributed
    Durée : 3h
    Méthodes pédagogiques : alternance de théorie et de travaux pratiques
    Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
    Fonctionnalités : exécution dans un environnement distribué ou en local,
    outils de diagnostic et de suivi des performances,
    utilisation de l'API Futures pour des calculs en temps réel
    Architecture : dask-scheduler et dask-worker
    Atelier : mise en oeuvre de dask.distributed : installation, configuration, initialisation d'un client.


    Présentation du dashboard
    Analyse des performances
    Limites de Dask.distributed
    Bonnes pratiques
    Dask-ML
    Durée : 3h
    Méthodes pédagogiques : alternance de théorie et de travaux pratiques
    Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
    Apports : utiliser les outils classiques de machine learning comme scikit-learn dans un environnement Dask
    Exemples d'utilisation : modèles complexes, volumes de données importants
    Présentation de Dask-ML et principe de fonctionnement
    Intégration scikit-learn, PyTorch, Keras / Tensorflow
    Atelier : Installation et exemples avec scikit-learn



    Retour au descriptif
    Modalités et délais d'accès
    Méthodes mobilisées

    Pythagore-F.D.

    01 55 33 52 10
    pfd@pythagore-fd.fr
    Calendrier
    Code cours : CB042

    Contenu de la formation
    Dask, mise en oeuvre et programmation:

    Accès à la liste des cours



    Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours


    Version du document : R006
    Date de mise à jour du document : 2024/01/06