Le match Google-Insee sur les données statistiques..


"Google en sait-il plus que l’Insee sur les Français ?" Insee le blog, décembre 2020

Les grandes entreprises numériques, dont Google, recueillent des volumes considérables de données sur leurs clients. Néanmoins, l’apport de ces nouvelles sources de données ne peut être jugé en bloc, toutes ayant leurs spécificités : la donnée ne fait pas l’information statistique, et encore moins la compréhension de phénomènes économiques ou sociaux complexes pour éclairer les débats publics.

 

Les données des Instituts statistiques sont publiques et établies selon des protocoles rigoureux et lourds pour dégager des enseignements indispensables à la prise de décision publique, alors que Google vise avant tout un but commercial et au profit de structures individuelles.

 

L’objet social de l’Insee est de diffuser des chiffres et des analyses sur des données agrégées, qui ne peuvent être reliées à un individu particulier au-delà des caractéristiques qu’il partage avec un groupe plus large (âge, niveau de vie, catégorie sociale, lieu de résidence, etc.), alors que le modèle économique de Google est à l’inverse d’exploiter de l’information au niveau individuel….Il est donc légitime de se demander si toutes ces « traces numériques » peuvent se substituer aux collectes classiques de la statistique publique, voire si Google peut remplacer l’Insee dans ses missions.

 

La statistique publique se distingue enfin avant tout par les conditions de son exercice : tout ce que l’Insee sait des Français est public, de même que la façon dont ces savoirs sont construits ; son programme de travail est orienté par les demandes sociales, exprimées à travers le Conseil national de l’information statistique (Cnis), et son indépendance vis-à-vis de toute influence extérieure est contrôlée par l’Autorité de la statistique publique (ASP). Nul ne sait aujourd’hui tout ce que Google sait des Français, encore moins pour quelles finalités il produit ces savoirs et avec qui il les partage.

 

Le premier atout des « traces numériques » est leur disponibilité quasi instantanées :

-Les séries disponibles sur Google Trends ne correspondent pas à un comptage exhaustif des termes retenus, mais à un échantillonnage avec des retraitements qui ne sont pas documentés et peuvent introduire de l’instabilité.

-Il n’est pas possible de connaître le contexte des requêtes effectuées, qui peuvent avoir des motivations très diverses et sans rapport avec l’activité économique que l’on cherche à mesurer. 

-Dans le domaine de la mesure de l’inflation, une des missions les plus emblématiques des instituts statistiques nationaux (INS);  Google par définition, ne couvre que les prix de vente en ligne de produits vendus en ligne, alors que l’inflation mesurée par les INS est représentative de la totalité de la consommation des ménages.

-Les enquêtes menées auprès des entreprises ou des ménages par l’Insee reposent souvent sur des protocoles assez lourds, des questionnaires relativement longs car il s’agit de mesurer des phénomènes complexes qu’il n’est ni possible ni souhaitable de déléguer à une observation indirecte.

 

Toutefois le recours aux « traces numériques » peut être envisagé comme un complément.