DES RESSOURCES ET DES OUTILS AU SERVICE DES ACTEURS ET DES PROFESSIONNELS.

Python sur Spark avec Databricks

Date de mise à jour : 14/02/2024 | Identifiant OffreInfo : 03_241193117F

Information fournie par :
Via Compétences (Carif-Oref Auvergne-Rhône-Alpes)

Objectifs, programme, validation de la formation

Objectifs



Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.

Programme de la formation

- Présentation de Databricks


  • Historique

  • Différence entre l'utilisation Administrateur et Utilisateur

  • Comment mettre en place un projet sur Databricks/AWS

  • Comment créer un cluster de calcul avec Databricks/AWS

  • Gestion des notebooks, des utilisateurs et des ressources

- Introduction à Spark

  • Rappels sur le Big Data

  • Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX

  • Configurer un Spark Context et une Spark Session

  • Gestion de la mémoire sous Spark

- Présentation de PySpark et l'API Pyspark RDD

  • Présentation de Pyspark et fonctionnement avec les Java Virtual Machines

  • Présentation de l'API Pyspark RDD et manipulation de données non structurées

  • Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d'un fichier texte structuré) et avec des opérations d'agrégation sur PairRDDs

- Utilisation de l'API Pyspark SQL

  • Présentation de l'API Pyspark SQL

  • Lecture de fichiers csv, json, parquet et sauvegarde de fichier

  • Nettoyage et manipulation de données

  • Groupby et agrégation

  • Jointure de tables

  • Lien entre SQL et Python

  • Manipulation d'objets Row, et Window

  • Manipulation de dates

  • Utilisation de User Defined Function et de Pandas User Defined functions

  • Présentation de Pyspark Pandas

  • Nombreuses mises en pratique sur des jeux de données

- Introduction au Machine Learning

  • Qu'est-ce que le Machine Learning? Apprentissages supervisé et non supervisé

  • Compromis Biais Variance

  • Modèles Linéaires

  • Modèles Non Linéaires

  • Modèles ensemblistes

  • Modèles de clustering

  • Métriques et évaluation des performances

- Machine Learning avec PySpark

  • Différence entre MLlib SQL et MLlib RDD

  • Les transformations de processing sur les données et notions de Pipeline

  • Mise en pratique avec des modèles de Machine Learning sur des problématiques de clustering, de classification (données numériques et texte)

  • Evaluation des performances avec Pyspark MLlib

  • Utilisation de la librairie Xgboost sous un environnement Spark

  • Utilisation de Pandas UDF pour faire tourner des modèles scikit-learn ou tensorflow en inférence

Validation et sanction

Attestation de formation

Type de formation

Non certificiante

Sortie

Sans niveau spécifique

Métiers visés

Code Rome

Durée, rythme, financement

Modalités pédagogiques
Pédagogie active mêlant exposés, exercices et applications pratiques. La formation s'effectue sur un environnement Databricks.
Durée
35 heures en centre

Conventionnement : Non

Financeur(s)

Entreprise

Bénéficiaire de l'action

Conditions d'accès

Public(s)
Salarié, Tout public
Modalités de recrutement et d'admission

Niveau d'entrée : Sans niveau spécifique

Conditions spécifiques et prérequis

Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation Python – Bases et introduction aux librairies scientifiques ou d'avoir atteint par la pratique un niveau équivalent

Modalités d'accès

Lieu de réalisation de l'action

formation entièrement présentielle
Adresse
33 Rue de la République
69002 - Lyon 2e
Responsable : ASI
Téléphone fixe :
Contacter l'organisme

Contacts

Contact sur la formation
41 rue de la Découverte
CS 37621
31676 - Labège
Responsable :
Téléphone fixe : 0972567567
fax :
Site web :
Contacter l'organisme
Contacter l'organisme formateur
Data Value
SIRET: 81837224500014

Responsable : CALAS
Téléphone fixe : 0972567567
Site web :
Contacter l'organisme

Période prévisibles de déroulement des sessions

du 27/05/2024 au 31/05/2024
débutant le : 27/05/2024
Adresse d'inscription
41 rue de la Découverte
31676 - Labège
Etat du recrutement : Ouvert
Modalités : Entrées / Sorties à dates fixes

Organisme responsable

Data Value
SIRET : 81837224500014

Adresse
41 rue de la Découverte
CS 37621
31676 - Labège
Téléphone fixe : 0972567567
Contacter l'organisme