Nous contacterNous Contacter

Python sur Spark avec Databricks

Date de mise à jour : 04/12/2025 | Identifiant OffreInfo : 15_691493
Organisme responsable : Data Value

Objectifs

Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.

Programme de la formation

- Présentation de DatabricksCette introduction permet de vous initier à l'environnement Databricks et ses outils

Historique
Différence entre l'utilisation Administrateur et Utilisateur
Comment mettre en place un projet sur Databricks/AWS
Comment créer un cluster de calcul avec Databricks/AWS
Gestion des notebooks, des utilisateurs et des ressources

- Introduction à SparkSpark est un environnement de travail distribué qui permet d'effectuer des calculs sur des gros volumes de données

Rappels sur le Big Data
Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX
Configurer un Spark Context et une Spark Session
Gestion de la mémoire sous Spark

- Présentation de PySpark et l'API Pyspark RDDPyspark est l'API Python de Spark

Présentation de Pyspark et fonctionnement avec les Java Virtual Machines
Présentation de l'API Pyspark RDD et manipulation de données non structurées
Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d'un fichier texte structuré) et avec des opérations d'agrégation sur PairRDDs

- Utilisation de l'API Pyspark SQLL'API Pyspark SQL permet de manipuler des données structurées sous format de Dataframes avec du Python et du SQL

Présentation de l'API Pyspark SQL
Lecture de fichiers csv, json, parquet et sauvegarde de fichier
Nettoyage et manipulation de données
Groupby et agrégation
Jointure de tables
Lien entre SQL et Python
Manipulation d'objets Row, et Window
Manipulation de dates
Utilisation de User Defined Function et de Pandas User Defined functions
Présentation de Pyspark Pandas
Nombreuses mises en pratique sur des jeux de données

- Introduction au Machine LearningRappels des fondamentaux du Machine Learning

Qu'est-ce que le Machine Learning? Apprentissages supervisé et non supervisé
Compromis Biais Variance
Modèles Linéaires
Modèles Non Linéaires
Modèles ensemblistes
Modèles de clustering
Métriques et évaluation des performances

- Machine Learning avec PySparkLes librairies associées à Pyspark MLlib permettent de faire tourner des modèles de Machine Learning dans un environnement de calcul distribué

Validation et sanction

Attestation de formation

Type de formation

Non certifiante

Sortie

Sans niveau spécifique

Contact de la formation

41 rue de la Découverte
CS 37621
31676 - Labège

Responsable : Monsieur Cédric CALAS
Téléphone fixe : 0972567567
Contacter l'organisme

Contact de l'organisme formateur

Data Value
SIRET : 81837224500014
31676 Labège
Responsable : Monsieur Cédric CALAS
Téléphone fixe : 0972567567
Contacter l'organisme

Information fournie par :

Python sur Spark avec Databricks

Objectifs, programme, validation de la formation

Objectifs

Programme de la formation

Validation et sanction

Type de formation

Sortie

Métiers visés

Durée, rythme, financement

Conditions d'accès

Lieu de réalisation de l'action

Périodes prévisibles de déroulement des sessions

Organisme responsable

Contact de la formation

Contact de l'organisme formateur