03_241193117F_1921330S https://www.coteformations.fr/je-recherche/une-formation/recherche/1193117 Python sur Spark avec Databricks Data Value

Python sur Spark avec Databricks

Date de mise à jour : 03/12/2024 | Identifiant OffreInfo : 03_241193117F
Organisme responsable : Data Value

Objectifs



Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.

Programme de la formation

- Présentation de Databricks


  • Historique

  • Différence entre l'utilisation Administrateur et Utilisateur

  • Comment mettre en place un projet sur Databricks/AWS

  • Comment créer un cluster de calcul avec Databricks/AWS

  • Gestion des notebooks, des utilisateurs et des ressources

- Introduction à Spark

  • Rappels sur le Big Data

  • Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX

  • Configurer un Spark Context et une Spark Session

  • Gestion de la mémoire sous Spark

- Présentation de PySpark et l'API Pyspark RDD

  • Présentation de Pyspark et fonctionnement avec les Java Virtual Machines

  • Présentation de l'API Pyspark RDD et manipulation de données non structurées

  • Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d'un fichier texte structuré) et avec des opérations d'agrégation sur PairRDDs

- Utilisation de l'API Pyspark SQL

  • Présentation de l'API Pyspark SQL

  • Lecture de fichiers csv, json, parquet et sauvegarde de fichier

  • Nettoyage et manipulation de données

  • Groupby et agrégation

  • Jointure de tables

  • Lien entre SQL et Python

  • Manipulation d'objets Row, et Window

  • Manipulation de dates

  • Utilisation de User Defined Function et de Pandas User Defined functions

  • Présentation de Pyspark Pandas

  • Nombreuses mises en pratique sur des jeux de données

- Introduction au Machine Learning

  • Qu'est-ce que le Machine Learning? Apprentissages supervisé et non supervisé

  • Compromis Biais Variance

  • Modèles Linéaires

  • Modèles Non Linéaires

  • Modèles ensemblistes

  • Modèles de clustering

  • Métriques et évaluation des performances

- Machine Learning avec PySpark

  • Différence entre MLlib SQL et MLlib RDD

  • Les transformations de processing sur les données et notions de Pipeline

  • Mise en pratique avec des modèles de Machine Learning sur des problématiques de clustering, de classification (données numériques et texte)

  • Evaluation des performances avec Pyspark MLlib

  • Utilisation de la librairie Xgboost sous un environnement Spark

  • Utilisation de Pandas UDF pour faire tourner des modèles scikit-learn ou tensorflow en inférence

Validation et sanction

Attestation de formation

Type de formation

Non certifiante

Sortie

Sans niveau spécifique

Contact de la formation

41 Rue de la Découverte
31670 - Labège
Téléphone fixe : 0972567567
Contacter l'organisme

Contact de l'organisme formateur

Data Value
SIRET : 81837224500014
Responsable : Monsieur Cédric CALAS
Téléphone fixe : 0972567567
Contacter l'organisme

Information fournie par :