Ferdi website

Mener une analyse exploratoire des données douanières sur le logiciel R

Contexte et objectifs pédagogiques

Cette formation approfondit les techniques d’analyse exploratoire des données fiscales et douanières, en s’appuyant sur le langage R et les bases issues du système SYDONIA. 

Elle permet aux participant·es de développer une véritable rigueur dans la préparation des données : identification des doublons, traitement des variables manquantes, des erreurs d’importation, des valeurs aberrantes ou mal formatées. Ils y apprennent à distinguer et manipuler les types de variables (logiques, dates, facteurs, numériques), et à garantir la qualité statistique des bases utilisées. L’objectif est de produire des jeux de données propres, robustes et exploitables, condition indispensable à toute démarche prédictive ou décisionnelle. 

À travers des cas pratiques, cette formation renforce la capacité des administrations à produire des diagnostics fiables, à mieux documenter leurs interventions et à sécuriser leurs analyses en amont des politiques publiques.

Parcours

Cette formation fait partie du parcours  « La science des données pour la mobilisation des recettes et la lutte contre la fraude ». Les formations de ce parcours peuvent être suivies indépendamment les unes des autres. Pour être éligible à la session présentielle de regroupement qui clôture le parcours, il est nécessaire d’avoir obtenu le certificat des trois formations à distance suivantes :

  • « La science des données dans les administrations : potentiels et enjeux organisationnels » 
  • « Premier pas sur le logiciel R avec des données douanières » 
  • « Mener une analyse exploratoire avec des données douanières sur le logiciel R».

Publics concernés

  • Fonctionnaires des administrations fiscales et douanières en charge du traitement et de l’analyse des données
  • Membres des unités de politiques fiscales
  • Partenaires techniques et financiers des administrations.


Programme

Module 1 • Les outils de l’analyse exploratoire
1 h

Maîtriser les prérequis pour conduire une analyse exploratoire des données douanières à l’aide du logiciel R, en utilisant les outils adaptés à de grands jeux de données.

Module 2 • Traiter les variables vides et les doublons
1 h 20 min

Repérer les variables vides et les doublons dans de gros jeux de données, puis appliquer les méthodes appropriées pour les traiter avec le logiciel R.

Module 3 • Traiter les variables logiques
1 h 40 min

Recoder des variables logiques et corriger les erreurs d'importation associées, en s’appuyant sur les fonctionnalités du logiciel R.

Module 4 • Traiter les variables dates
1 h 20 min

Identifier les problèmes courants liés aux variables dates et adapter leur format pour assurer une reconnaissance correcte par le logiciel R.

Module 5 • Traiter les variables numériques et caractères
1 h 30 min

Détecter les erreurs fréquentes associées aux variables numériques et caractères, puis mettre en œuvre des solutions efficaces pour les corriger dans le cadre d’une analyse exploratoire.

Module 6 • Créer des variables en format facteur
1 h 20 min

Comprendre l’intérêt des variables en format facteur et savoir convertir des variables numériques ou caractères en facteurs pour enrichir l’analyse des données.

Module 7 • Traiter les valeurs manquantes
1 h 30 min

Identifier les valeurs manquantes non détectées comme des variables vides et appliquer les méthodes adéquates pour les traiter efficacement.

Module 8 • Traiter les valeurs aberrantes
45 min

Définir, repérer et corriger les valeurs aberrantes dans un jeu de données à l’aide du logiciel R.

Module 9 • Aller plus loin avec les options d’importation
40 min

Utiliser les options avancées d'importation du logiciel R pour contrôler le format d’entrée des variables dans un jeu de données.

Module 10 • S'exercer sur des cas pratiques
2 h

Appliquer les compétences acquises à travers des cas pratiques, afin de réaliser une analyse exploratoire complète et structurée sur des données réelles.

Modalities

Cette formation est dispensée en ligne, offrant aux apprenant·es une flexibilité totale grâce à un accès illimité aux contenus, disponibles 24h/24 et 7j/7 sur la plateforme d’enseignement à distance de l’IHEDD. Chaque participant·e peut ainsi avancer à son propre rythme, selon ses disponibilités.

Pour favoriser l’échange et l’entraide, un forum est mis à disposition sur l’espace de formation, complété par un groupe WhatsApp permettant de créer une communauté d’apprenants.

En complément, des rendez-vous réguliers en visioconférence (classe virtuelle) sont organisés avec les formateur·rices et la communauté d’apprenant·es. Ces sessions permettent d’approfondir les notions abordées, d’échanger sur les problématiques rencontrées et d’obtenir des réponses aux questions.

Validation of acquired knowledge

À l’issue de la formation, un certificat est délivré par l'IHEDD au nom de la Ferdi, reconnue organisme de formation professionnelle. Ce certificat atteste du titre de la formation suivie ainsi que du nombre d’heures d’enseignement validées. La certification est conditionnée à la réussite d’une évaluation finale sous forme de quiz, avec un score minimum de 60 % requis pour son obtention.

History of previous sessions

Session 1 : 13 mai au 3 juin 2024
Nombre de participant·es : 17
Taux de réussite : 53 %

Session 2 : 17 février au 24 mars 2025
Nombre de participant.es :
20
Taux de réussite : 14 %

Practical information

  • Next session: October 20, 2025 > November 24, 2025
  • Registration deadline: October 06, 2025
  • Payment deadline: October 16, 2025
  • Duration: 13 heures de travail estimé en autonomie sur les modules + 7 heures 30 minutes de classes virtuelles
  • The training is delivered in français
  • Equipment: It is essential to have a computer and an internet connection.
  • The training is accessible to people with disabilities.
  • Prerequisites: Prérequis : Bac+4, Bac+5 ou doctorat, diplôme en ingénierie, statistique, économétrie, science des données, informatique ; il est recommandé d’avoir suivi la formation « Premiers pas sur R avec des données douanières ».
  • Capacity: 80

Participation in training costs

The training is free of charge.
Apply
Deadline: October 06, 2025

Trainers

Last update: 07/08/2025

Science des données pour la mobilisation des recettes et la lutte contre la fraude

All trainings in the program

Discover trainings on this topic

See more trainings
Discover all our trainings