Ferdi website

Mener une analyse exploratoire des données douanières sur le logiciel R

Contexte et objectifs pédagogiques

Face à la croissance exponentielle des flux de données fiscales et douanières, l’aptitude à réaliser une analyse exploratoire approfondie devient cruciale pour les administrations.

La nature volumineuse de ces données, en particulier celles issues du système SYDONIA, dépasse souvent les capacités des outils traditionnels comme Excel. Le langage R émerge donc comme une solution  incontournable pour traiter et analyser efficacement ces masses d’informations.

Il s’agit du deuxième volet distanciel du parcours « Science des données pour la lutte contre la fraude et la mobilisation des recettes ».

Publics concernés

  • Fonctionnaires des administrations fiscales et douanières en charge du traitement et de l’analyse des données
  • Membres des unités de politiques fiscales
  • Partenaires techniques et financiers des administrations


Programme

Module 1 • Les outils de l’analyse exploratoire
1 h

Ce module vous apprend les prérequis pour conduire une analyse exploratoire des données, appliquée aux données douanières  Sydonia. Vous verrez principalement comment le logiciel R avec ses outils indispensables peut vous être utile pour conduire une analyse exploratoire sur de gros jeux de données. 

Module 2 • Traiter les variables vides et les doublons
1 h 20 min

Vous allez conduire l'une des premières étapes de l'analyse exploratoire en travaillant sur des gros jeux de données : repérer les variables vides et les doublons. Nous verrons comment les traiter avec le logiciel R.

Module 3 • Traiter les variables logiques
1 h 40 min

Dans ce module, nous allons découvrir le traitement des variables logiques. Nous verrons comment recoder une variable logique et comment corriger une erreur d'importation.

Module 4 • Traiter les variables dates
1 h 20 min

Après avoir importé des données, il est important de porter une attention particulière aux variables dates, pour qu'elles soient reconnues dans le bon format par le logiciel R. Vous allez voir les principaux problèmes liés aux variables dates et comment les traiter .

Module 5 • Traiter les variables numériques et caractères
1 h 30 min

Vérifier les variables numériques et caractères constituent une partie importante du travail de l'analyse exploratoire des données. Vous allez apprendre les problèmes souvent rencontrés avec ces types de variables et comment les traiter de manière efficace.

Module 6 • Créer des variables en format facteur
1 h 20 min

Après avoir vu les cas des variables caractères, logiques, numériques et dates, vous allez travailler avec un type particulier de variable sur R : les variables facteurs. Ce module vous donnera les clés à maîtriser pour savoir à quoi sert une variable facteur, comment convertir une variable numérique ou caractère en facteur et leur intérêt pour l'analyse exploratoire.

Module 7 • Traiter les valeurs manquantes
1 h 30 min

Nous avons précédemment présenté les clés pour repérer et supprimer les variables vides d'un jeu de données. En suivant le module 7, vous allez faire face à un autre problème courant : comment identifier et traiter les variables contenant des valeurs manquantes, mais qui ne sont pas des variables vides.

Module 8 • Traiter les valeurs aberrantes
45 min

Dans l'analyse exploratoire des données, le problème de valeurs aberrantes est fréquent. En suivant ce module, vous allez apprendre à définir les valeurs aberrantes, les repérer et les traiter avec le logiciel R.

Module 9 • Aller plus loin avec les options d’importation
40 min

Ce nouveau module vous présente différentes options d'importation d'un jeu de données avec un R. Vous apprenez ainsi à guider le logiciel pour importer des variables dans un format souhaité.

Module 10 • S'exercer sur des cas pratiques
2 h

Vous êtes familier avec les grands principes de l'analyse exploratoire. Dans ce module, plusieurs cas pratiques, vous sont proposés pour conduire une analyse plus exhaustive des données.

Modalities

Cette formation est dispensée en ligne, offrant aux apprenant·es une flexibilité totale grâce à un accès illimité aux contenus, disponibles 24h/24 et 7j/7 sur la plateforme d’enseignement à distance de l’IHEDD. Chaque participant·e peut ainsi avancer à son propre rythme, selon ses disponibilités.

Pour favoriser l’échange et l’entraide, un forum est mis à disposition sur l’espace de formation, complété par un groupe WhatsApp permettant de créer une communauté d’apprenants.

En complément, des rendez-vous réguliers en visioconférence (classe virtuelle) sont organisés avec les formateur·rices et la communauté d’apprenant·es. Ces sessions permettent d’approfondir les notions abordées, d’échanger sur les problématiques rencontrées et d’obtenir des réponses aux questions.

Validation of acquired knowledge

À l’issue de la formation, un certificat est délivré par la Ferdi, reconnue organisme de formation professionnelle, au nom de l’IHEDD. Ce certificat atteste du titre de la formation suivie ainsi que du nombre d’heures d’enseignement validées. La certification est conditionnée à la réussite d’une évaluation finale sous forme de quiz, avec un score minimum de 60 % requis pour son obtention.

History of previous sessions

2024 : Nombre de participant·es : 17 | Taux de réussite : 53 %

Practical information

  • Duration: 13 heures de travail estimé en autonomie sur les modules + 7 heures 30 minutes de classes virtuelles
  • The training is delivered in français
  • Equipment: It is essential to have a computer and an internet connection.
  • The training is accessible to people with disabilities.
  • Aucun pré-requis académique n’est exigé mais il est recommandé d’avoir suivi la formation « Premiers pas sur R avec des données douanières ».
  • Capacity: 40

Participation in training costs

The training is free of charge.

Trainers

Last update: 10/04/2025

Science des données pour la mobilisation des recettes et la lutte contre la fraude

All trainings in the program

Discover trainings on this topic

See more trainings
Discover all our trainings