DES RESSOURCES ET DES OUTILS AU SERVICE DES ACTEURS ET DES PROFESSIONNELS.

Python pour le Big Data

Date de mise à jour : 22/11/2024 | Identifiant OffreInfo : 15_610757

Information fournie par :
Carif-Oref Occitanie

Objectifs, programme, validation de la formation

Objectifs

Utiliser le langage Python pour manipuler et visualiser de grands ensembles de données (big data) en exploitant ses nombreuses librairies scientifiques

Programme de la formation

- Concepts du Big Data
Cette introduction permet de vous initier à la problématique du Big Data

  • Volume, Vitesse, Véracité
  • Map Reduce
  • Architecture Big Data et Data Lake
  • Big Data et Cloud computing
  • Les outils du Big Data

- Introduction à la librairie Dask
Dask est une librairie qui permet de faire du calcul distribué sur plusieurs cœurs ou plusieurs machines avec la possibilité d'utiliser un scheduler. Dask peut donc accélérer le calcul sur de larges volumes de données.
  • Présentation de Dask
  • Exemple de calculs distribués
  • Dask et Numpy: comparaison de performances
  • Dask et Pandas

- Introduction à la librairie Xarray
Xarray est une librairie Python qui s'appuie sur Numpy et permet de manipuler de larges volumes de données. Cette librairie est particulièrement efficace pour des fichiers netCDF et peut s'utiliser de concert avec Dask
  • Présentation de Xarray
  • Exemples d'utilisation de Xarray
  • Mise en pratique avec un fichier netCDF

- Introduction à la librairie Vaex
Vaex est une librairie qui ressemble beaucoup à pandas mais qui fait des calculs à la volée sans gaspiller l'usage de la RAM. On peut dès lors traiter des données qui ont près de 1 milliard de lignes à la seconde.
  • Présentation de Vaex
  • Prise en main de Vaex avec des exemples
  • Comparaison entre Vaex et Pandas
  • Visualisation des données avec Vaex

- Introduction à Spark
Spark est un outil permettant le passage à l'échelle pour la gestion des données et le calcul distribué. Bien que géré par Apache, Spark est en Open Source et peut s'utiliser avec plusieurs langages dont Python
  • Présentation de Spark
  • Architecture Apache Spark
  • Autres outils associés à Spark (Yarn, Mesos)
  • Resilient Distributed Dataset (RDD)
  • Présentation et Installation de PySpark

- Introduction à PySpark
Vous verrez grâce une mise en pratique sur une journée la prise en main de PySpark, comment lire et gérer des données, comment appliquer des fonctions sur les données et comment appliquer une réduction de dimension

- Visualisation des données massives avec Holoviews
Manipuler des gros volumes de données n'est pas toujours suffisants, on veut pouvoir aussi les visualiser. La librairie Holoviews permet aussi bien de transformer des données massives que de les visualiser.
  • Présentation et prise en main d'Holoviews
  • Interactivité avec Holoviews

Validation et sanction

Attestation de formation

Type de formation

Non certificiante

Sortie

Sans niveau spécifique

Métiers visés

Code Rome

Durée, rythme, financement

Modalités pédagogiques
Durée
35 heures en centre, 35 heures hebdomadaires

Conventionnement : Non

Financeur(s)

Autre

Conditions d'accès

Public(s)
Tout public
Modalités de recrutement et d'admission

Niveau d'entrée : Sans niveau spécifique

Conditions spécifiques et prérequis

Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation<a href="https://www.datavalue.fr/formation-python-bases-introduction-librairies-scientifiques" target="" rel="" title="Link: https://www.datavalue.fr/formation-python-bases-introduction-librairies-scientifiques">Python – Bases et introduction aux librairies scientifiquesou d'avoir atteint par la pratique un niveau équivalent

Modalités d'accès

Lieu de réalisation de l'action

formation entièrement présentielle
Adresse
41 rue de la Découverte
CS 37623
31676 - Labège
Responsable :
Téléphone fixe :
Contacter l'organisme

Contacts

Contact sur la formation
Responsable : Monsieur Cédric CALAS
Téléphone fixe :
fax :
Site web :
Contacter l'organisme
Contacter l'organisme formateur
Data Value
SIRET: 81837224500014
31676 Labège
Responsable :
Téléphone fixe : 0972567567
Site web :
Contacter l'organisme

Période prévisibles de déroulement des sessions

du 29/09/2025 au 03/10/2025
débutant le : 29/09/2025
Adresse d'inscription
41 rue de la Découverte
CS 37621
31676 - Labège
Etat du recrutement : Ouvert
Modalités : Entrées / Sorties à dates fixes

Organisme responsable

Data Value
SIRET : 81837224500014

Adresse
41 rue de la Découverte
CS 37621
31676 - Labège
Téléphone fixe : 0972567567
Contacter l'organisme