14_AF_0000172696_SE_0001058747 # Spark Python Human Coders

Spark Python

Date de mise à jour : 21/03/2025 | Identifiant OffreInfo : 14_AF_0000172696
Organisme responsable : Human Coders

Objectifs

- Comprendre les concepts fondamentaux de Spark et du calcul distribué
- Manipuler et analyser des dataframes
- Effectuer de l'analyse temps réel avec Spark Streaming
- Effectuer du machine learning avec Spark MLlib
- Déployer une application Spark

Programme de la formation

####Jour 1 : Découverte de Spark, premières opérations
- Comprendre dans quels cas utiliser et ne pas utiliser Spark
- Appréhender le fonctionnement global de Spark et du calcul distribué
- Découvrir le principe de lazy evaluation
- Utiliser les transformations de base : `map`, `flatmap`, `filter`, `groupby`, `join`
- Connaître les actions de base : `save`, `collect`, `count`, `show`
- Lire, transformer et sauvegarder des dataframes en mode batch
***Mises en pratique*** :
- *Configurer un environnement de développement big data*
- *Analyser des données de transport aérien avec les fonctions de base Spark*

####Jour 2 : Spark streaming
- Découvrir les cas d'application de traitements temps réel
- Transposer les principes des opération batch au traitement de données en temps réel (streaming)
- Transformer des données avec une latence faible (~1 seconde)
- Gérer les cas spécifiques aux cas d'usage en temps réel :
- Late data
- Triggers
- Agrégation par fenêtre
***Mises en pratique*** :
- *Créer un flux de données streaming*
- *Traiter des données IoT (internet of things) d'un capteur d'ouverture/fermeture de porte, et des données financières d'achat et vente d'action en temps réel*
- *Sauvegarder des données dans AWS*
####Jour 3 : Optimisation, déploiement et Spark ML
- Optimisation, déploiement et Spark ML
- Optimiser des jobs Spark grâce à des bonnes pratiques
- Économiser des coûts de ressources en évitant les anti-patterns
- Comprendre l'utilité de Spark dans l'intelligence artificielle
- Utiliser les fonctions machine learning de Spark (Spark MLlib) :
- `Estimator`
- `Transformer`
- `Pipeline`
- Les différentes approches pour déployer une application Spark

***Mises en pratique*** :
- *Développer une pipeline de machine learning pour prédire la survie des passagers du Titanic*
- *Prédire le churn de clients d'une entreprise*
- *Déployer une application Spark sur AWS*

Validation et sanction

Attestation de formation

Type de formation

Non certifiante

Sortie

Sans niveau spécifique

Contact de la formation

11bis Passage Doisy
75017 - Paris 17e
Téléphone fixe : 0184173896
Contacter l'organisme

Contact de l'organisme formateur

Human Coders
SIRET : 53999885600030
Responsable : Madame Nathalie ROUESNEL
Téléphone fixe : 0184173896
Contacter l'organisme

Information fournie par :