Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.
- Présentation de DatabricksCette introduction permet de vous initier à l'environnement Databricks et ses outils
- Historique
- Différence entre l'utilisation Administrateur et Utilisateur
- Comment mettre en place un projet sur Databricks/AWS
- Comment créer un cluster de calcul avec Databricks/AWS
- Gestion des notebooks, des utilisateurs et des ressources
- Introduction à SparkSpark est un environnement de travail distribué qui permet d'effectuer des calculs sur des gros volumes de données
- Rappels sur le Big Data
- Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX
- Configurer un Spark Context et une Spark Session
- Gestion de la mémoire sous Spark
- Présentation de PySpark et l'API Pyspark RDDPyspark est l'API Python de Spark
- Présentation de Pyspark et fonctionnement avec les Java Virtual Machines
- Présentation de l'API Pyspark RDD et manipulation de données non structurées
- Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d'un fichier texte structuré) et avec des opérations d'agrégation sur PairRDDs
- Utilisation de l'API Pyspark SQLL'API Pyspark SQL permet de manipuler des données structurées sous format de Dataframes avec du Python et du SQL
- Présentation de l'API Pyspark SQL
- Lecture de fichiers csv, json, parquet et sauvegarde de fichier
- Nettoyage et manipulation de données
- Groupby et agrégation
- Jointure de tables
- Lien entre SQL et Python
- Manipulation d'objets Row, et Window
- Manipulation de dates
- Utilisation de User Defined Function et de Pandas User Defined functions
- Présentation de Pyspark Pandas
- Nombreuses mises en pratique sur des jeux de données
- Introduction au Machine LearningRappels des fondamentaux du Machine Learning
- Qu'est-ce que le Machine Learning? Apprentissages supervisé et non supervisé
- Compromis Biais Variance
- Modèles Linéaires
- Modèles Non Linéaires
- Modèles ensemblistes
- Modèles de clustering
- Métriques et évaluation des performances
- Machine Learning avec PySparkLes librairies associées à Pyspark MLlib permettent de faire tourner des modèles de Machine Learning dans un environnement de calcul distribué
Attestation de formation
Non certifiante
Sans niveau spécifique