Objectifs, programme, validation de la formation
Connaitre les fonctionnements d'Hadoop Distributed File System (HDFS) et YARN / MapReduce
Savoir explorer HDFS et suivre l'exécution d'une application YARN
Déterminer les fonctionnements et l'utilisation les différents outils de manipulation des données
- Hadoop
- Comprendre Hadoop 2.0 et son écosystème
- Quels impacts de l'arrivée d'Hadoop dans un SI traditionnel ?
- Le Hadoop Distributed File System (HDFS)
- Introduction aux données dans HDFS
- MapReduce Framework et YARN
- Pig
- Introduction à Pig
- Programmation Pig avancée
- Troubles hooting et optimisation avec Pig
- Résolution des problèmes avec Pig
- Utiliser l'UI Web d'Hadoop
- Démo optionnelle : résolution d'un « Failed Job » avec l'UI Web
- Échantillonnage de données et débogage
- Vue d'ensemble des performances
- Comprendre le plan d'exécution
- Astuces pour améliorer la performance de vos « Pig Jobs »
- Hive
- Programmation Hive
- Utilisation de HCatalog
- Programmation Hive avancée
- Étendre Hive
- Transformation de données avec des Scripts personnalisés
- Fonctions définies par l'utilisateur
- Paramétrer les requêtes
- Exercices « Hands-On » : transformation de données avec Hive
- Programmation Hive avancée (suite)
- Analyse de données et statistiques
- Sqoop
- Import/Export avec Sqoop (SGBDR HDFS)
- Sqoop, fonctions avancées
- Définition de workflow avec Oozie
- Optionnel : (sous réserve de temps)
- Introduction à H-Base
- Exemple d'ingestion de données avec l'ETL Talend
- Créer son propre cluster Hadoop (plateforme de test).
Attestation de formation
Non certificiante
Sans niveau spécifique