- Identifier les possibilités d'utilisation des données, en fonction des besoins métier, en étant force de proposition dans l'exploration, l'évaluation de la qualité et l'interprétation de ces données
- Définir une stratégie de prise de décision par les données
- Réaliser des requêtes avancées répondant à des besoins métier
- Mettre en place une interface standard de partage automatique de données entre différentes applications et langages
- Contrôler les modalités de collecte et d'utilisation de données et mesurer les enjeux du RGPD
- Effectuer des choix méthodologiques pour l'automatisation des traitements et les documenter avec clarté et concision
- Utiliser les outils et méthodes modernes : méthodes agiles afin de permettre le travail en équipe, outils de suivi de projets, logiciel adapté à la rédaction de code
- Manipuler des structures de données et utiliser l'algorithmie afin de traduire en script des besoins de traitements de données
- Appliquer les bonnes pratiques de la programmation afin d'avoir un code organisé, réutilisable et partageable
- Utiliser les tableaux de données afin de faciliter l'import, la manipulation et la fusion de données
- Nettoyer les données, retraiter les valeurs aberrantes (outliers) et les valeurs manquantes
- Utiliser les expressions régulières (RegEx) pour traiter les valeurs textuelles et permettre une anonymisation des données personnelles dans le cadre du RGPD
- Utiliser les statistiques descriptives afin de modéliser les données
- Maîtriser le process d'apprentissage automatique (Machine Learning)
- Modéliser des régressions afin de définir des modèles de prévisions, et de trouver des tendances futures
- Modéliser des classifications et interpréter les métriques associées afin de catégoriser automatiquement des informations
- Traiter automatiquement le langage naturel (NLP) à partir de texte brut
- Contrôler et documenter les biais d'un modèle et des données d'entrainement afin d'estimer les risques éthiques
- Identifier et prioriser les informations à rendre accessibles et à présenter visuellement
- Utiliser les visualisations descriptives afin de représenter graphiquement des données statistiques et des informations modélisées
- Manipuler la Dataviz interactive et dynamique
- Réaliser de la cartographie
- Utiliser un Tableur afin de proposer des croisements de variables pour obtenir des informations recherchées
- Réaliser des tableaux de bord avec des outils de Business Intelligence afin d'intégrer et de croiser des informations utiles à des approches stratégiques de problématiques
- Prendre en compte les handicaps visuels afin de produire des graphiques lisibles par tous
- Présenter à l'oral et à l'écrit de manière claire, concise et sans ambiguité les informations
Collecter des données :
Explorer les bases de données pour identifier des usages, modéliser des bases relationnelles (SQL) et réaliser des requêtes.
Effectuer des agrégations, automatiser le web scraping et les requêtes à une API REST, et utiliser des outils de geocodage.
Contrôler la collecte et l'utilisation des données tout en évaluant les enjeux du RGPD.
Automatisation du traitement des données :
Analyser les besoins de traitement de données et structurer des outils.
Fiabiliser les outils et organiser le code. Utiliser Google Colab ou JupyterLab pour exécuter des scripts en Python, manipuler des données avec NumPy et Pandas, et traiter les valeurs aberrantes.
Appliquer des expressions régulières pour le texte tout en respectant les principes du clean code.
Modélisation des données structurées :
Maîtriser les techniques de Machine Learning en modélisant des régressions et classifications supervisées.
Utiliser le clustering non-supervisé, appliquer des méthodes de réduction dimensionnelle, et traiter automatiquement le langage naturel (NLP) pour extraire des informations pertinentes.
Interpréter les données à l'aide d'outils statistiques avancés comme scikit-learn.
Visualisation des données :
Prioriser les données à rendre accessibles et créer des tableaux de bord.
Utiliser des visualisations comme nuages de points, boîtes à moustache et histogrammes.
Manipuler la dataviz interactive avec Plotly et réaliser des cartographies avec Folium.
Utiliser des tableurs pour croiser des variables et créer des tableaux de bord avec Power BI ou Tableau pour intégrer des informations stratégiques.
Data analyst
Certifiante
Bac + 3 et 4