Date de mise à jour : 10/10/2023 | Identifiant OffreInfo :
14_AF_0000156671
Organisme responsable :
OCTO Academy
S'approprier les 5 problématiques de performances les plus communes dans une application Spark et leurs principales méthodes de résolution
Investiguer, identifier et traiter des problèmes de performances les plus communs associés à l'ingestion de données.
Appréhender les nouvelles fonctionnalités de Spark 3.x permettant de traiter les problèmes de performance dans vos applications Spark.
Configurer des clusters Spark pour une performance maximale pour des besoins métier spécifiques.
Apache Spark™ est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs tels que Netflix, Yahoo et eBay l'ont déployé à très grande échelle, traitant ensemble plusieurs péta-octets de données sur des clusters de plus de 8 000 noeuds.
Dans ce cours, les apprenants exploreront les 5 problèmes majeurs de performance rencontrés dans une application Apache Spark™ : skew, spill, shuffle, stockage et serialization.
Au travers d'exemples basés sur des datasets de 100Go à 1To, le focus sera mis sur investigation et la réalisation de diagnostic des différentes sources de goulets d'étranglement avec Spark UI, ainsi que sur l'appropriation de stratégies de résolution efficaces.
Enfin, un temps sera également consacré à la découverte des nouvelles fonctionnalités proposées par Spark 3.x qui adressent automatiquement ces problèmes de performance communs.
Attestation de suivi de présence
Non certifiante
Sans niveau spécifique
Information fournie par :