Apprendre à utiliser le langage Python pour analyser des données. Mettre en œuvre avec Python les méthodes de statistique descriptive, décisionnelle, analyse de la variance, régression linéaire et analyse de données multidimensionnelles.
- Introduction et mise en place de l'environnement
- Installation et configuration des environnements (Anaconda, Jupyter Notebook)
- Présentation des bibliothèques Python clés pour les statistiques (Pandas, Matplotlib, Scipy, Statsmodels)
- Manipulation et nettoyage des données
- Chargement et exploration des données avec Pandas
- Lecture/écriture de fichiers CSV, Excel, JSON
- Traitement des données manquantes
- Gestion des types de données et transformations
- Analyses exploratoires des données (EDA)
- Calculs de statistiques descriptives
- Moyennes, médianes, quartiles, variance, écart-type
- Création de résumés statistiques groupés
- Visualisations avec Matplotlib et Seaborn
- Histogrammes, boxplots, nuages de points
- Introduction aux tests statistiques
- Bases des tests d'hypothèses
- Concepts : p-value, seuils de significativité, hypothèses nulle et alternative
- Tests courants avec SciPy
- Test t (indépendant et pairé)
- Tests de normalité (Shapiro-Wilk)
- Tests du chi-carré pour les tables de contingence
- Interprétation des résultats
- Régression linéaire et introduction à la modélisation
- Introduction aux modèles linéaires
- Régression linéaire simple avec Statsmodels
- Analyse des coefficients et des résidus
- Régression multiple
- Construction d'un modèle avec plusieurs variables explicatives
- Validation du modèle (tests de significativité, R²)
- Introduction à la régression logistique
- Concepts de base et mise en œuvre pour les données catégoriques
- Découvrir les principales méthodes d'analyse multidimensionnelle des données à l'aide de la bibliothèque Prince
Attestation de formation
Non certifiante
Sans niveau spécifique