Comprendre le concept du Big Data
Être capable d'identifier l'écosystème et comprendre les technologies associées
Savoir anticiper son intégration dans les activités informatiques de l'entreprise
- Définition commune du Big Data selon les grands acteurs du marché
- Caractéristiques techniques des 3V de Gartner (Vélocité, Variété et Volume) et les variantes (Véracité, Valeur, Validité....)
- Big Data : pourquoi maintenant ?
- Traitement des données structurées, semi-structurées et déstructurées
- Transformation des données massives en informations utiles et en valeur
- Gestion des données en cycles, de l'acquisition à la gouvernance. Use Case et stratégies (GAFA (Google, Apple, Facebook, Amazon), exemples santé, grande distribution, bancassurance…)
- Les grands acteurs et le marché du Big Data
- Description des technologies de référence du Big Data
- NoSQL (Not Only SQL) et les nouvelles compétences attendues (Python, R, Scala, Java)…
- Hadoop : un modèle d'open source du Big Data adopté par les grands acteurs de l'informatique (IBM, Oracle, Amazone, EMC, Google...)
- Principaux composants d'Hadoop : HDFS (Hadoop Distributed File System), MapReduce, Pig, Flume, Zookeeper, H-BASE, Lucene, Hive, Cloudera, Oozie, Cassandra, Machine Learning...
- Autres solutions : Docker, OpenStack, Elastic, Splunk…
- Nouvelles architectures techniques pour traiter des données massives et non-structurées, en temps réel (SPARK)
- Relation entre Big Data et Cloud DaaS (Data as a Service)
- Technologies associées au Cloud (datacenters, stockage, virtualisation, Grid, OS d'orchestration d'Openstack, réseaux...)
- Emergence des solutions Big Data proposées en mode Cloud DaaS (Data as a service)
- Déploiement et utilisation du Big Data
- Description d'une plate-forme de Big Data et bonnes pratiques
- Intégration des données et systèmes existants à la plate-forme Big Data
- Acquisition et qualification des données ouvertes des organisations publiques et sociales (Open Data)
- Traitement des données à la volée (Data Streaming)
- Analyse de données (Data Analytics et Business Intelligence)
- Présentation des informations (Data Visualization)
- L'apport du NoSQL
- Description des principales familles de bases de données NoSQL
- Zoom sur MongoDb
- Zoom sur Cassandra
- Zoom sur Neo4j
- Une journée au cœur des écosystèmes Hadoop et Spark
- Introduction générale
- Les principales briques et leur rôle
- PIG, Hive, Oozie, Flume, HDFS, MapReduce, Sqoop, Zookeeper, Hbase, Mahout, les connecteurs, …
- SparkML, SparkQL, MLlib, Kafka, Storm, Flink , Beam,
Attestation de formation
Non certifiante
Sans niveau spécifique