Nous contacterNous Contacter

Python sur Spark avec Databricks

Date de mise à jour : 03/12/2024 | Identifiant OffreInfo : 03_241193117F
Organisme responsable : Data Value

Objectifs

Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.

Programme de la formation

- Présentation de Databricks

Historique

Différence entre l'utilisation Administrateur et Utilisateur

Comment mettre en place un projet sur Databricks/AWS

Comment créer un cluster de calcul avec Databricks/AWS

Gestion des notebooks, des utilisateurs et des ressources

- Introduction à Spark

Rappels sur le Big Data

Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX

Configurer un Spark Context et une Spark Session

Gestion de la mémoire sous Spark

- Présentation de PySpark et l'API Pyspark RDD

Présentation de Pyspark et fonctionnement avec les Java Virtual Machines

Présentation de l'API Pyspark RDD et manipulation de données non structurées

Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d'un fichier texte structuré) et avec des opérations d'agrégation sur PairRDDs

- Utilisation de l'API Pyspark SQL

Présentation de l'API Pyspark SQL

Lecture de fichiers csv, json, parquet et sauvegarde de fichier

Nettoyage et manipulation de données

Groupby et agrégation

Jointure de tables

Lien entre SQL et Python

Manipulation d'objets Row, et Window

Manipulation de dates

Utilisation de User Defined Function et de Pandas User Defined functions

Présentation de Pyspark Pandas

Nombreuses mises en pratique sur des jeux de données

- Introduction au Machine Learning

Qu'est-ce que le Machine Learning? Apprentissages supervisé et non supervisé

Compromis Biais Variance

Modèles Linéaires

Modèles Non Linéaires

Modèles ensemblistes

Modèles de clustering

Métriques et évaluation des performances

- Machine Learning avec PySpark

Différence entre MLlib SQL et MLlib RDD

Les transformations de processing sur les données et notions de Pipeline

Mise en pratique avec des modèles de Machine Learning sur des problématiques de clustering, de classification (données numériques et texte)

Evaluation des performances avec Pyspark MLlib

Utilisation de la librairie Xgboost sous un environnement Spark

Utilisation de Pandas UDF pour faire tourner des modèles scikit-learn ou tensorflow en inférence

Validation et sanction

Attestation de formation

Type de formation

Non certifiante

Sortie

Sans niveau spécifique

Contact de la formation

41 Rue de la Découverte
31670 - Labège

Téléphone fixe : 0972567567
Contacter l'organisme

Contact de l'organisme formateur

Data Value
SIRET : 81837224500014
Responsable : Monsieur Cédric CALAS
Téléphone fixe : 0972567567
Contacter l'organisme

Information fournie par :

Python sur Spark avec Databricks

Objectifs, programme, validation de la formation

Objectifs

Programme de la formation

Validation et sanction

Type de formation

Sortie

Métiers visés

Durée, rythme, financement

Conditions d'accès

Lieu de réalisation de l'action

Périodes prévisibles de déroulement des sessions

Organisme responsable

Contact de la formation

Contact de l'organisme formateur