
Contexte et objectifs pédagogiques
Face à la croissance exponentielle des flux de données fiscales et douanières, l’aptitude à réaliser une analyse exploratoire approfondie devient cruciale pour les administrations.
La nature volumineuse de ces données, en particulier celles issues du système SYDONIA, dépasse souvent les capacités des outils traditionnels comme Excel. Le langage R émerge donc comme une solution incontournable pour traiter et analyser efficacement ces masses d’informations.
Il s’agit du deuxième volet distanciel du parcours « Science des données pour la lutte contre la fraude et la mobilisation des recettes ».
Publics concernés
- Fonctionnaires des administrations fiscales et douanières en charge du traitement et de l’analyse des données
- Membres des unités de politiques fiscales
- Partenaires techniques et financiers des administrations
Programme
Ce module vous apprend les prérequis pour conduire une analyse exploratoire des données, appliquée aux données douanières Sydonia. Vous verrez principalement comment le logiciel R avec ses outils indispensables peut vous être utile pour conduire une analyse exploratoire sur de gros jeux de données.
Vous allez conduire l'une des premières étapes de l'analyse exploratoire en travaillant sur des gros jeux de données : repérer les variables vides et les doublons. Nous verrons comment les traiter avec le logiciel R.
Dans ce module, nous allons découvrir le traitement des variables logiques. Nous verrons comment recoder une variable logique et comment corriger une erreur d'importation.
Après avoir importé des données, il est important de porter une attention particulière aux variables dates, pour qu'elles soient reconnues dans le bon format par le logiciel R. Vous allez voir les principaux problèmes liés aux variables dates et comment les traiter .
Vérifier les variables numériques et caractères constituent une partie importante du travail de l'analyse exploratoire des données. Vous allez apprendre les problèmes souvent rencontrés avec ces types de variables et comment les traiter de manière efficace.
Après avoir vu les cas des variables caractères, logiques, numériques et dates, vous allez travailler avec un type particulier de variable sur R : les variables facteurs. Ce module vous donnera les clés à maîtriser pour savoir à quoi sert une variable facteur, comment convertir une variable numérique ou caractère en facteur et leur intérêt pour l'analyse exploratoire.
Nous avons précédemment présenté les clés pour repérer et supprimer les variables vides d'un jeu de données. En suivant le module 7, vous allez faire face à un autre problème courant : comment identifier et traiter les variables contenant des valeurs manquantes, mais qui ne sont pas des variables vides.
Dans l'analyse exploratoire des données, le problème de valeurs aberrantes est fréquent. En suivant ce module, vous allez apprendre à définir les valeurs aberrantes, les repérer et les traiter avec le logiciel R.
Ce nouveau module vous présente différentes options d'importation d'un jeu de données avec un R. Vous apprenez ainsi à guider le logiciel pour importer des variables dans un format souhaité.
Vous êtes familier avec les grands principes de l'analyse exploratoire. Dans ce module, plusieurs cas pratiques, vous sont proposés pour conduire une analyse plus exhaustive des données.
Modalités
Cette formation est dispensée en ligne, offrant aux apprenant·es une flexibilité totale grâce à un accès illimité aux contenus, disponibles 24h/24 et 7j/7 sur la plateforme d’enseignement à distance de l’IHEDD. Chaque participant·e peut ainsi avancer à son propre rythme, selon ses disponibilités.
Pour favoriser l’échange et l’entraide, un forum est mis à disposition sur l’espace de formation, complété par un groupe WhatsApp permettant de créer une communauté d’apprenants.
En complément, des rendez-vous réguliers en visioconférence (classe virtuelle) sont organisés avec les formateur·rices et la communauté d’apprenant·es. Ces sessions permettent d’approfondir les notions abordées, d’échanger sur les problématiques rencontrées et d’obtenir des réponses aux questions.
Validation des acquis
À l’issue de la formation, un certificat est délivré par la Ferdi, reconnue organisme de formation professionnelle, au nom de l’IHEDD. Ce certificat atteste du titre de la formation suivie ainsi que du nombre d’heures d’enseignement validées. La certification est conditionnée à la réussite d’une évaluation finale sous forme de quiz, avec un score minimum de 60 % requis pour son obtention.
Historique des sessions précédentes
2024 : Nombre de participant·es : 17 | Taux de réussite : 53 %
Infos pratiques
- Durée : 13 heures de travail estimé en autonomie sur les modules + 7 heures 30 minutes de classes virtuelles
- La formation est délivrée en français
- Matériel : Il est indispensable de disposer d’un ordinateur et d’une connexion internet.
- La formation est accessible aux personnes en situation de handicap.
- Aucun pré-requis académique n’est exigé mais il est recommandé d’avoir suivi la formation « Premiers pas sur R avec des données douanières ».
- Nombre de places : 40
Participation aux frais de formation
Formatrices et formateurs
- Alou Adessé DAMAChargé de recherche, Ferdi