Date de mise à jour : 21/03/2025 | Identifiant OffreInfo :
14_AF_0000045933
Organisme responsable :
Data Value
Objectifs :
Connaitre les fonctionnements d'Hadoop Distributed File System (HDFS) et YARN / MapReduce
Savoir explorer HDFS et suivre l'exécution d'une application YARN
Déterminer les fonctionnements et l'utilisation les différents outils de manipulation des données
Compétences visées :
- Comprendre ce que sont Hadoop et YARN
- Connaître les différents outils et les Framework dans un environnement Hadoop
- Appréhender MapReduce
- Comprendre comment exécuter une tâche de MapReduce sur YARN
- Exécuter des modifications en masse avec PIG
- Savoir écrire des requêtes pour HIVE afin d'analyser ses données
- Savoir utiliser Sqoop pour transférer les données entre Hadoop et une base de données relationnelle
- Découverte d'autres briques : automatiser vos process avec Oozie
- Utiliser une base de données No-SQL (HBase)
- Hadoop
Comprendre Hadoop 2.0 et son écosystème
Quels impacts de l'arrivée d'Hadoop dans un SI traditionnel ?
Le Hadoop Distributed File System (HDFS)
Introduction aux données dans HDFS
MapReduce Framework et YARN
- Pig
Introduction à Pig
Programmation Pig avancée
Troubleshooting et optimisation avec Pig
Résolution des problèmes avec Pig
Utiliser l'UI Web d'Hadoop
Démo optionnelle : résolution d'un « Failed Job » avec l'UI Web
Echantillonnage de données et débogage
Vue d'ensemble des performances
Comprendre le plan d'exécution
Astuces pour améliorer la performance de vos « Pig Jobs »
- Hive
Programmation Hive
Utilisation de HCatalog
Programmation Hive avancée
Etendre Hive
Transformation de données avec des Scripts personnalisés
Fonctions définies par l'utilisateur
Paramétrer les requêtes
Exercices « Hands-On » : transformation de données avec Hive
Programmation Hive avancée (suite)
Analyse de données et statistiques
- Sqoop
Import/Export avec Sqoop (SGBDR HDFS)
Sqoop, fonctions avancées
Définition de workflow avec Oozie
- Optionnel : (sous réserve de temps)
Introduction à H-Base
Exemple d'ingestion de données avec l'ETL Talend
Créer son propre cluster Hadoop (plateforme de test)
Attestation de formation
Non certifiante
Sans niveau spécifique