Nous Contacter

Python pour le big data

Date de mise à jour : 21/12/2023 | Identifiant OffreInfo : 03_2205286F
Organisme responsable : Data Value

Objectifs

Utiliser le langage Python pour manipuler et visualiser de grands ensembles de données (big data) en exploitant ses nombreuses librairies scientifiques

Programme de la formation

- Concepts du Big Data

Cette introduction permet de vous initier à la problématique du Big Data

Volume, Vitesse, Véracité

Map Reduce

Architecture Big Data et Data Lake

Big Data et Cloud computing

Les outils du Big Data

- Introduction à la librairie Dask

Dask est une librairie qui permet de faire du calcul distribué sur plusieurs cœurs ou plusieurs machines avec la possibilité d'utiliser un scheduler. Dask peut donc accélérer le calcul sur de larges volumes de données.

Présentation de Dask

Exemple de calculs distribués

Dask et Numpy : comparaison de performances

Dask et Pandas

- Introduction à la librairie Xarray

Xarray est une librairie Python qui s'appuie sur Numpy et permet de manipuler de larges volumes de données. Cette librairie est particulièrement efficace pour des fichiers netCDF et peut s'utiliser de concert avec Dask

Présentation de Xarray

Exemples d'utilisation de Xarray

Mise en pratique avec un fichier netCDF

- Introduction à la librairie Vaex

Vaex est une librairie qui ressemble beaucoup à pandas mais qui fait des calculs à la volée sans gaspiller l'usage de la RAM. On peut dès lors traiter des données qui ont près de 1 milliard de lignes à la seconde.

Présentation de Vaex

Prise en main de Vaex avec des exemples

Comparaison entre Vaex et Pandas

Visualisation des données avec Vaex

- Introduction à Spark

Spark est un outil permettant le passage à l'échelle pour la gestion des données et le calcul distribué. Bien que géré par Apache, Spark est en Open Source et peut s'utiliser avec plusieurs langages dont Python

Présentation de Spark

Architecture Apache Spark

Autres outils associés à Spark (Yarn, Mesos)

Resilient Distributed Dataset (RDD)

Présentation et Installation de PySpark

- Introduction à PySpark

Vous verrez grâce une mise en pratique sur une journée la prise en main de PySpark, comment lire et gérer des données, comment appliquer des fonctions sur les données et comment appliquer une réduction de dimension

- Visualisation des données massives avec Holoviews

Manipuler des gros volumes de données n'est pas toujours suffisants, on veut pouvoir aussi les visualiser. La librairie Holoviews permet aussi bien de transformer des données massives que de les visualiser.

Présentation et prise en main d'Holoviews

Interactivité avec Holoviews

Validation et sanction

Attestation de formation

Type de formation

Non certifiante

Sortie

Sans niveau spécifique

Contact de la formation

41 rue de la Découverte
CS 37621
31676 - Labège

Téléphone fixe : 0972567567
Contacter l'organisme

Contact de l'organisme formateur

Data Value
SIRET : 81837224500014
Responsable : Monsieur Cédric CALAS
Téléphone fixe : 0972567567
Contacter l'organisme

Information fournie par :

Python pour le big data

Objectifs, programme, validation de la formation

Objectifs

Programme de la formation

Validation et sanction

Type de formation

Sortie

Métiers visés

Durée, rythme, financement

Conditions d'accès

Lieu de réalisation de l'action

Périodes prévisibles de déroulement des sessions

Organisme responsable

Contact de la formation

Contact de l'organisme formateur