L’appariement de données statistiques vise à alléger l’interrogation des publics.


"Les appariements de données de la statistique publique : des analyses enrichies, un cadre juridique protecteur", Insee le blog, septembre 2023

Un digest sur ce qu’est l’appariement, leur réalité pour les entreprises, et le cadre juridique.

 

♦ Qu’est-ce qu’un appariement de données ?
Apparier ou croiser des données relatives aux individus consiste à rassembler pour une même personne ou entreprise des données qui la concernent et qui sont issues de différentes sources. On utilise des appariements de données parce qu’une source seule n’est pas toujours suffisante et ne couvre qu’une partie de ce que l’on veut analyser.

 

Lorsque l’on veut alléger les questionnaires d’enquête, les statisticiens publics cherchent à éviter de demander à un ménage (ou à une entreprise) une information qu’il (elle) a déjà transmise à une administration, en particulier si elle est complexe et longue à reconstituer. 

 

♦ Ce qui permet l’appariement pour les entreprises.

Pour les données portant sur les entreprises, l’existence d’un identifiant unique et partagé au niveau de l’entreprise (Siren) ou de l’établissement (Siret), géré par l’Insee dans le répertoire Sirene, permet depuis 1970 de rapprocher facilement les différentes informations disponibles pour une entreprise pour produire des statistiques.
Dans une étude parue récemment en 2021, les données de chiffres d’affaires issues des déclarations mensuelles de TVA ont ainsi été appariées avec des données de la source Esane (Élaboration des statistiques annuelles d’entreprise) afin de caractériser les 600 000 entreprises de l’étude, d’analyser les évolutions d’activité pendant la crise sanitaire et de dégager quatre profils type d’impact de cette crise.

 

♦ Comment réalise-t-on en pratique un appariement ?
Pour apparier deux fichiers de données, il faut se baser sur des variables communes présentes dans les deux fichiers sous la même forme ou qui peuvent être ramenées à la même forme pour être comparées. 

 

♦ Quel cadre juridique pour les appariements de données personnelles à des fins
statistiques ?
Le cadre juridique général des appariements de données personnelles à des fins statistiques est constitué des deux lois qui encadrent toute la collecte de données et la production des statistiques du service statistique public :
• Tout d’abord la loi de 1951 sur l’obligation, la coordination et le secret en matière de statistique,
• La loi relative à l’informatique, aux fichiers et aux libertés de 1978, qui encadre le traitement informatique de ces données. Elle a été modifiée au fil du temps et en particulier pour intégrer certaines dispositions de la loi pour une République numérique de 2016 (comme la mise en place du Code statistique non signifiant), puis lors de la mise en place en 2018 au niveau européen du Règlement général sur la protection des données (RGPD), qui encadre l’utilisation des données personnelles.

Les appariements à des fins de recherche scientifique ou historique sont également prévus et encadrés par la loi, qui prévoit des dispositions spécifiques, garantissant à la fois la possibilité de réaliser de tels appariement et la protection des données concernées.

 

♦ Exemples d’appariements récents :
• Pôle emploi et chômeurs,

• Formation et emploi (inserjeunes),

• Les trajectoires passées des bénéficiaires de minima sociaux,

• Les trajectoires mensuelles d’activité d’entreprises sur 2019-2020.

 

Pour en savoir davantage : https://blog.insee.fr/appariements-de-donnees-de-la-statistique-publique/