Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : Dask, mise en oeuvre et programmation

Durée3 jours
Prix1 990 €
Code coursCB042
Dates6 au 8 mars
5 au 7 juin
11 au 13 septembre
13 au 15 novembre

(cliquez sur une date pour vous inscrire)

Public:

Chefs de projet, Data Scientists, Développeurs, Architectes...

Objectifs:

Savoir mettre en oeuvre Dask pour paralléliser des calculs en Python

Connaissances préalables nécessaires:

Bases de la programmation python.

Objectifs pédagogiques:

Programme détaillé de la formation


(logo acroreadTéléchargez le programme) :
Introduction
Présentation de Dask, fonctionnalités, apports.Comparaison avec d'autres environnements : yarn, spark.
Calculs parallèles en environnements distribués, ou sur un seul serveur.
Les composants de Dask : scheduler, collections BigData.
Premiers pas avec Dask
Différentes méthodes d'installation : Anaconda, pip, depuis les sources
Atelier : installation, et création d'objets Dask,
choix des méthodes et tâches, visualisation des graphes d'exécution.
exécution par le scheduler
Elements de base
Array: cas d'usages, compatibilité NumPy, définition de chunks, exemples, bonnes pratiques
Atelier : création, stockage de Dask Array
Bag : définition, limites
Atelier : exemple de création, stockage, calcul sur des Dask Bags
Dask Dataframes : regroupement de dataframes pandas, stockage sur disque ou dans un cluster,
critères de choix par rapport aux dataframes pandas, bonne pratiques,
compatibilité avec Parquet, intégration de tables SQL
Atelier : mise en oeuvre de dask.dataframes et comparaison avec pandas
Delayed ou Futures : une exécution stockée dans un graphe d'actions, ou en temps réel, critères de choix
Fonctionnement avancé
Gesion des performances
Configuration du scheduler
Les graphes d'exécution
Utilisation du dashboard
Outils de debugging
Atelier : tests de performances et debugging
Dask.distributed
Fonctionnalités : exécution dans un environnement distribué ou en local,
outils de diagnostic et de suivi des performances,
utilisation de l'API Futures pour des calculs en temps réel
Architecture : dask-scheduler et dask-worker
Atelier : mise en oeuvre de dask.distributed : installation, configuration, initialisation d'un client.
Présentation du dashboard
Analyse des performances
Limites de Dask.distributed
Bonnes pratiques
Dask-ML
Apports : utiliser les outils classiques de machine learning comme scikit-learn dans un environnement Dask
Exemples d'utilisation : modèles complexes, volumes de données importants
Présentation de Dask-ML et principe de fonctionnement
Intégration scikit-learn, PyTorch, Keras / Tensorflow
Atelier : Installation et exemples avec scikit-learn

Modalités et délais d'accès
Méthodes mobilisées

Pythagore-F.D.

01 55 33 52 10
pfd@pythagore-fd.fr
Calendrier
Code Cours:CB042

Contenu de la formation
Dask, mise en oeuvre et programmation:

Accès à la liste des cours



Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours