Approfondir la connaissance de la détection d'anomalies dans un contexte de données numériques et/ou fonctionnelles à l'aide de méthodes principalement non-supervisées
Compétences visées
- Différencier une anomalie des valeurs influentes et extrêmes
- Comprendre l'intérêt de détecter les anomalies
- Mettre en œuvre les différentes méthodes statistiques pour la détection selon le contexte des données : méthodes univariées, méthodes multivariées basées sur un modèle probabiliste, sur la détermination d'un sous-espace ou sur la notion de proximité, méthodes pour des données fonctionnelles, méthodes pour des données en HDLSS
Programme
- Introduction
- Qu'est-ce qu'une anomalie ? une valeur influente ? une valeur extrême ?
- Les différentes motivations à la détection d'anomalies
- La notion de robustesse
- Les méthodes univariées
- La règle du k-sigma et test de Grubbs
- Règles du boxplot
- Tests en fonction de la distribution
- Les méthodes multivariées - généralités
- Les grandes approches dans la détection d'anomalies
- Évaluation des méthodes
- Caractéristiques souhaitées
- Métriques
- Contributeurs ou signature des défauts
- Les méthodes multivariées basées sur un modèle probabiliste
- T2 de Hotelling, la distance de Mahalanobis et sa version robuste
- Notion de profondeur et notion d'angles
- Les méthodes multivariées basées sur la détermination d'un sous-espace
- L'ACP et sa version robuste
- Les réseaux de neurones
- Les méthodes multivariées basées sur la notion de proximité
- La classification non supervisée
- Le LOF basé sur la densité
- Les méthodes pour des données fonctionnelles
- Introduction au contexte de données fonctionnelles
- L'analyse de données fonctionnelles
- Méthode de lissage
- Spline cubique
- Polynômes locaux
- Réduction de dimension
- Grandeurs statistiques (moyenne…)
- Décomposition en coefficients d'ondelettes
- Méthodes de détection d'anomalies dans un contexte univarié
- Méthodes de détection d'anomalies dans un contexte multivarié
- Les méthodes pour des données en HDLSS (grande dimension, faible taille d'échantillonnage)
- Présentation des challenges induits par ce contexte
- Les principales méthodes
Attestation de formation
Non certifiante
Sans niveau spécifique