Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : Dask, mise en oeuvre et programmation

Durée3 jours
Prix2 420 €
Code coursCB042
Dates13 au 15 mai
8 au 10 juillet
30 septembre au 2 octobre
16 au 18 décembre

(cliquez sur une date pour vous inscrire)

Public:

Chefs de projet, Data Scientists, Développeurs, Architectes...

Objectifs:

Savoir mettre en oeuvre Dask pour paralléliser des calculs en Python

Connaissances préalables nécessaires:

Bases de la programmation python.

Objectifs pédagogiques:

    Programme détaillé de la formation


    (logo acroreadTéléchargez le programme) :
    Introduction
    Présentation de Dask, fonctionnalités, apports.Comparaison avec d'autres environnements : yarn, spark.
    Calculs parallèles en environnements distribués, ou sur un seul serveur.
    Les composants de Dask : scheduler, collections BigData.
    Premiers pas avec Dask
    Différentes méthodes d'installation : Anaconda, pip, depuis les sources
    Atelier : installation, et création d'objets Dask,


    choix des méthodes et tâches, visualisation des graphes d'exécution.
    exécution par le scheduler
    Elements de base
    Array: cas d'usages, compatibilité NumPy, définition de chunks, exemples, bonnes pratiques
    Atelier : création, stockage de Dask Array


    Bag : définition, limites
    Atelier : exemple de création, stockage, calcul sur des Dask Bags


    Dask Dataframes : regroupement de dataframes pandas, stockage sur disque ou dans un cluster,
    critères de choix par rapport aux dataframes pandas, bonne pratiques,
    compatibilité avec Parquet, intégration de tables SQL
    Atelier : mise en oeuvre de dask.dataframes et comparaison avec pandas


    Delayed ou Futures : une exécution stockée dans un graphe d'actions, ou en temps réel, critères de choix
    Fonctionnement avancé
    Gesion des performances
    Configuration du scheduler
    Les graphes d'exécution
    Utilisation du dashboard
    Outils de debugging
    Atelier : tests de performances et debugging


    Dask.distributed
    Fonctionnalités : exécution dans un environnement distribué ou en local,
    outils de diagnostic et de suivi des performances,
    utilisation de l'API Futures pour des calculs en temps réel
    Architecture : dask-scheduler et dask-worker
    Atelier : mise en oeuvre de dask.distributed : installation, configuration, initialisation d'un client.


    Présentation du dashboard
    Analyse des performances
    Limites de Dask.distributed
    Bonnes pratiques
    Dask-ML
    Apports : utiliser les outils classiques de machine learning comme scikit-learn dans un environnement Dask
    Exemples d'utilisation : modèles complexes, volumes de données importants
    Présentation de Dask-ML et principe de fonctionnement
    Intégration scikit-learn, PyTorch, Keras / Tensorflow
    Atelier : Installation et exemples avec scikit-learn



    Déroulé pédagogique
    Modalités et délais d'accès
    Méthodes mobilisées

    Pythagore-F.D.

    01 55 33 52 10
    pfd@pythagore-fd.fr
    Calendrier
    Code cours : CB042

    Contenu de la formation
    Dask, mise en oeuvre et programmation:

    Accès à la liste des cours



    Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours


    Version du document : R006
    Date de mise à jour du document : 2024/01/06