
Contexte et objectifs pédagogiques
Cette formation approfondit les techniques d’analyse exploratoire des données fiscales et douanières, en s’appuyant sur le langage R et les bases issues du système SYDONIA.
Elle permet aux participant·es de développer une véritable rigueur dans la préparation des données : identification des doublons, traitement des variables manquantes, des erreurs d’importation, des valeurs aberrantes ou mal formatées. Ils y apprennent à distinguer et manipuler les types de variables (logiques, dates, facteurs, numériques), et à garantir la qualité statistique des bases utilisées. L’objectif est de produire des jeux de données propres, robustes et exploitables, condition indispensable à toute démarche prédictive ou décisionnelle.
À travers des cas pratiques, cette formation renforce la capacité des administrations à produire des diagnostics fiables, à mieux documenter leurs interventions et à sécuriser leurs analyses en amont des politiques publiques.
Cette formation fait partie du parcours « La science des données pour la mobilisation des recettes et la lutte contre la fraude ». Les formations de ce parcours peuvent être suivies indépendamment les unes des autres. Pour être éligible à la session présentielle de regroupement qui clôture le parcours, il est nécessaire d’avoir obtenu le certificat des trois formations à distance suivantes :
- « La science des données dans les administrations : potentiels et enjeux organisationnels »
- « Premier pas sur le logiciel R avec des données douanières »
- « Mener une analyse exploratoire avec des données douanières sur le logiciel R».
Publics concernés
- Fonctionnaires des administrations fiscales et douanières en charge du traitement et de l’analyse des données
- Membres des unités de politiques fiscales
- Partenaires techniques et financiers des administrations.
Programme
Maîtriser les prérequis pour conduire une analyse exploratoire des données douanières à l’aide du logiciel R, en utilisant les outils adaptés à de grands jeux de données.
Repérer les variables vides et les doublons dans de gros jeux de données, puis appliquer les méthodes appropriées pour les traiter avec le logiciel R.
Recoder des variables logiques et corriger les erreurs d'importation associées, en s’appuyant sur les fonctionnalités du logiciel R.
Identifier les problèmes courants liés aux variables dates et adapter leur format pour assurer une reconnaissance correcte par le logiciel R.
Détecter les erreurs fréquentes associées aux variables numériques et caractères, puis mettre en œuvre des solutions efficaces pour les corriger dans le cadre d’une analyse exploratoire.
Comprendre l’intérêt des variables en format facteur et savoir convertir des variables numériques ou caractères en facteurs pour enrichir l’analyse des données.
Identifier les valeurs manquantes non détectées comme des variables vides et appliquer les méthodes adéquates pour les traiter efficacement.
Définir, repérer et corriger les valeurs aberrantes dans un jeu de données à l’aide du logiciel R.
Utiliser les options avancées d'importation du logiciel R pour contrôler le format d’entrée des variables dans un jeu de données.
Appliquer les compétences acquises à travers des cas pratiques, afin de réaliser une analyse exploratoire complète et structurée sur des données réelles.
Modalités
Cette formation est dispensée en ligne, offrant aux apprenant·es une flexibilité totale grâce à un accès illimité aux contenus, disponibles 24h/24 et 7j/7 sur la plateforme d’enseignement à distance de l’IHEDD. Chaque participant·e peut ainsi avancer à son propre rythme, selon ses disponibilités.
Pour favoriser l’échange et l’entraide, un forum est mis à disposition sur l’espace de formation, complété par un groupe WhatsApp permettant de créer une communauté d’apprenants.
En complément, des rendez-vous réguliers en visioconférence (classe virtuelle) sont organisés avec les formateur·rices et la communauté d’apprenant·es. Ces sessions permettent d’approfondir les notions abordées, d’échanger sur les problématiques rencontrées et d’obtenir des réponses aux questions.
Validation des acquis
À l’issue de la formation, un certificat est délivré par l'IHEDD au nom de la Ferdi, reconnue organisme de formation professionnelle. Ce certificat atteste du titre de la formation suivie ainsi que du nombre d’heures d’enseignement validées. La certification est conditionnée à la réussite d’une évaluation finale sous forme de quiz, avec un score minimum de 60 % requis pour son obtention.
Historique des sessions précédentes
Session 1 : 13 mai au 3 juin 2024
Nombre de participant·es : 17
Taux de réussite : 53 %
Session 2 : 17 février au 24 mars 2025
Nombre de participant.es : 20
Taux de réussite : 14 %
Infos pratiques
- Prochaine session : 20 octobre 2025 > 24 novembre 2025
- Date limite d’inscription : 6 octobre 2025
- Date limite de paiement : 16 octobre 2025
- Durée : 13 heures de travail estimé en autonomie sur les modules + 7 heures 30 minutes de classes virtuelles
- La formation est délivrée en français
- Matériel : Il est indispensable de disposer d’un ordinateur et d’une connexion internet.
- La formation est accessible aux personnes en situation de handicap.
- Prérequis : Prérequis : Bac+4, Bac+5 ou doctorat, diplôme en ingénierie, statistique, économétrie, science des données, informatique ; il est recommandé d’avoir suivi la formation « Premiers pas sur R avec des données douanières ».
- Nombre de places : 80
Participation aux frais de formation
Formatrices et formateurs
- Alou Adessé DAMAChargé de recherche, Ferdi