A l’heure où la France, avec plusieurs modifications de la réglementation ou des lois, vient de s’engager sur la voie d’un meilleur accès aux données administratives et d’ouvrir davantage de possibilités d’appariement pour la recherche, il est intéressant de voir comment se posent ces questions dans d’autres pays ainsi que les solutions apportées ou envisagées.
Un rapport sur ces questions vient ainsi d’être rendu aux Etats-Unis, pays pourtant souvent cité comme exemple en matière d’accès aux données pour la recherche, mais où l’accès aux données administratives demeure très difficile.
Les difficultés d’exploiter les sources administratives, soulignées tant au sein des instances gouvernementales que dans le milieu de la recherche, ont ainsi conduit à mettre en place une commission qui vient de rendre son rapport et ses recommandations au Président des Etats-Unis et au Congrès. Le rapport, « The promise of Evidence-Based Policymaking », souligne l’importance d’ouvrir très largement les données pour mieux fonder et évaluer les politiques publiques.
La commission, présidée par une universitaire, Katharine G Abraham, a procédé à un état des lieux approfondi, auditionnant pendant plusieurs mois un très grand nombre d’acteurs et s’intéressant également aux expériences étrangères en matière d’accès aux données administratives : pour l’Europe, celles de Statistics Denmark, du réseau ADRN récemment mis en place pour l’accès aux données administratives au Royaume-Uni, de la Bundesbank en Allemagne et du CASD pour la France.
Sans être strictement dépendant des structures des systèmes statistiques qui diffèrent d’un pays à l’autre, l’accès pour les chercheurs aux données administratives, s’en trouve néanmoins plus ou moins facilité. Les pays dont la statistique publique repose sur les registres offrent ainsi une situation souvent plus favorable comme c’est le cas au Danemark par exemple. Dans le cas des Etats-Unis, aux difficultés qui sont celles des pays dont la statistique publique repose initialement sur les enquêtes et ont ainsi plus de mal à mobiliser les données administratives, s’ajoutent celles liées à la décentralisation au sein du niveau fédéral et celles liées à la structure fédérale même, avec les États qui ont aussi leur propre système statistique.
Si le contexte institutionnel américain est bien évidemment spécifique, nombre de recommandations faites par la commission américaine sont intéressantes à analyser à l’aune des discussions sur les difficultés qui restent à surmonter et les solutions et moyens à mettre en place pour exploiter pleinement le mouvement d’ouverture des données en France (cf A. Bozio & P.Y Geoffard, « L’accès des chercheurs aux données administratives », Groupe de travail du Conseil National de l’Information Statistique).
Le rapport américain aborde comme un tout deux questions, celle de la mobilisation par la statistique gouvernementale des données administratives et celle de l’accès des chercheurs à ces données. L’objectif commun étant celui d’une meilleure contribution aux politiques publiques et à leur évaluation fondée sur des données factuelles et vérifiables. La Commission appelle donc à une très forte ouverture des données administratives tant pour l’appareil statistique que pour la recherche.
Un contexte juridique complexe
Les difficultés soulignées sont essentiellement de deux ordres. Les premières, très semblables à celles constatées pour la France, tiennent à la pluralité et diversité des lois et règlementations prises au fil du temps qui se superposent pour empêcher l’accès aux données administratives pour d’autres fins que celles de l’administration en charge et de son domaine particulier. Le rapport souligne notamment l’impact des règlementations spécifiques à chaque source, citant ainsi l’exemple du recensement dont l’utilisation, même si elle est ouverte aux chercheurs, est circonscrite en principe aux objectifs des travaux réalisés pour le recensement.
Le rapport souligne également, à l’instar du constat fait en France, la diversité des interprétations des administrations, dans les cas où l’utilisation par des chercheurs n’est pas proscrite formellement dans les textes. L’autre ordre de difficultés, plus spécifique aux Etats-Unis, constitue un facteur aggravant. Il tient à la décentralisation – voulue – des départements statistiques au sein même du système fédéral à laquelle s’ajoute l’autonomie des États tant en matière de production statistique qu’en matière de réglementation. Une difficulté analogue à celle que rencontre l’Union européenne avec l’harmonisation des enquêtes de la statistique publique et qui risque de s’aggraver dès lors qu’il faudra de façon croissante mobiliser des données administratives très diverses d’un pays à l’autre, voire celle des régions qui montent en puissance.
La solution préconisée pour les Etats-Unis par la Commission ofnEvidence-Based Policymaking passe d’abord par la modification de l’ensemble des lois et réglementations pour qu’elles prennent en compte de façon formelle la possibilité de mobiliser l’ensemble des données administratives à des fins statistiques ou de recherche tout en renforçant la sécurité nécessaire pour assurer la confidentialité et la protection de la vie privée.
Une nécessité de transparence de l’action publique
La commission met ensuite un très fort accent sur la question de la transparence qu’elle considère comme un élément crucial pour mener à bien la mobilisation des données. Il s’agit de fournir, de façon systématique et publique, toutes les informations sur l’ensemble des processus. Cela va au-delà de la simple liste des travaux réalisés et inclut les objectifs et les résultats des travaux, les données précises mobilisées, les appariements réalisés, la sécurité mise en œuvre à toutes les étapes pour assurer la confidentialité et la protection de la vie privée ou encore les audits et certifications en la matière dont la Commission recommande la mise en place systématique. Et cela vaut pour la statistique gouvernementale comme pour la recherche On note là, une insistance très semblable à celle que l’on trouve au Royaume-Uni, sur l’importance d’obtenir et d’entretenir l’assentiment des citoyens quant à l’utilité de cette mobilisation des données et au respect de la confidentialité.
La création d’un service centralisé
En ce qui concerne plus spécifiquement l’organisation de l’accès des chercheurs aux données, le rapport recommande la création d’un service national pour l’accès aux données pour la recherche, le National Secure Data Service, NSDS, en insistant sur deux points: un rôle de centralisation et un rôle de service.
L’avantage de la centralisation est triple du point de vue de la Commission : un point d’accès unique pour les chercheurs, une procédure d’habilitation harmonisée pour l’ensemble des données mobilisées, la possibilité d’utiliser conjointement des données de plusieurs administrations et la possibilité de réaliser des appariements de données, dernière mission que la Commission assigne comme centrale pour le NDSD, misant ainsi sur une croissance très forte de ces appariements.
De telles questions ne manqueront pas de se poser rapidement en France, l’inscription dans la loi de l’ouverture des données ayant laissé au choix des administrations le passage ou pas par le Comité du secret statistique en ce qui concerne l’habilitation des projets. Il en va de même en ce qui concerne les voies d’accès sécurisés qui pourraient à l’avenir se multiplier même si pour l’instant plusieurs administrations ont choisi de passer par le CASD facilitant ainsi une utilisation conjointe de données lorsque nécessaire.
Un centre de données orienté service
La commission défend par ailleurs avec vigueur pour le SNDS une mission de service qu’elle oppose à celle d’entrepôt de données. Il ne s’agit pas de créer une banque centrale de données confidentielles, solution qui avait été préconisée à plusieurs reprises dans le passé et suggérée dans l’Act de création de la commission, mais qui apparaît à la commission comme faisant peser un risque trop fort en matière de sécurité, propre à renforcer les craintes du public. Qu’il s’agisse de l’accès aux données ou des appariements, il s’agit donc d’un service délivré de façon strictement limitée dans le temps, les données restant par ailleurs à la charge de chacune des administrations. On observera à cet égard que la question de l’archivage sur le long terme des données ainsi que des appariements réalisés n’est pas traitée dans le rapport à la différence de celui du groupe de travail du CNIS qui préconise une coopération avec les Archives nationales (que s’apprête à mettre en œuvre le CASD en signant une convention avec le Service des Archives).
La Commission recommande également un recours parcimonieux aux données confidentielles, qui doit être restreint aux données strictement nécessaires et devra prendre en compte les alternatives possibles avec les développements en cours sur les données synthétiques et les techniques du SMC (Secure Multiparty Computation) qui permettraient de travailler « à la volée » sur des données localisées en des points différents sans les rapprocher.
La sécurité: une technologie, une nécessité
Sur l’accès sécurisé même, la commission souligne un retard en termes d’innovation technologique: notant que les accès actuels coordonnés par le Census Bureau sont des accès sur site, elle met en avant la nécessité de s’intéresser à l’accès à distance, point sur lequel elle s’est particulièrement intéressée à la technologie du CASD (voir dans le rapport l’encadré sur le CASD). Le SNDS aurait notamment pour mission de rattraper le retard technologique.
Un financement à organiser
La préconisation est d’appuyer la création de ce SNDS sur l’actuel Census Bureau, tout en lui assurant un statut plus indépendant au sein de l’OMB (Office of Management and Budget, service le plus important du bureau exécutif du président des Etats-Unis et dont la principale mission est d’assister le président dans la tâche de préparation du budget) qui en est le cadre institutionnel actuel. S’appuyer sur le Census Bureau permettrait de construire sur l’existant : le Census Bureau qui gère pour le compte des agences statistique fédérales un réseau d’actuellement 27 centres sécurisés dans les universités (Federal Statistical Research Data Centres, FSRDSCs) permet l’accès – sur site- aux données confidentielles pour les chercheurs. Une montée en puissance progressive serait ainsi possible, avec des moyens renforcés dont la Commission souligne la nécessité. La Commission considère sur ce point qu’un autofinancement à terme, fondé sur la tarification des services auprès des utilisateurs, ne pourra être réalisé et que les différentes administrations devront aussi être mises à contribution.
La documentation des données, un élément essentiel
La commission souligne notamment l’importance des moyens à accorder à la documentation des données sans laquelle ses recommandations risquent de rester lettre morte. Un premier niveau indispensable sur lequel la commission insiste fortement est celui de disposer d’une liste exhaustive des sources de données existantes, qu’elles soient disponibles ou non disponibles. L’ensemble des administrations devrait ainsi, pour la commission, avoir l’obligation de produire et mettre à jour régulièrement cette liste en indiquant le niveau de confidentialité des fichiers (ce qui va très au-delà du vademecum préconisé pour la France par le rapport du groupe de travail du CNIS sur les modalités d’accès aux différents types de données). La commission insiste ensuite sur la nécessité de disposer de metadonnées plus détaillées portant au minimum sur la liste des variables. Consciente de la masse de travail à réaliser dans l’état actuel, elle recommande une priorisation des données administratives à documenter. Ce travail sur les metadonnées, serait aussi un préalable à des réflexions à engager, en lien avec les chercheurs, sur la comparabilité des données (nécessaires notamment pour les appariements) et au–delà sur l’évolution des données nécessaires pour mieux fonder les politiques publiques et leur évaluation.
Conclusion
Autant de questions qui se posent également en France. Un rapport à lire donc et à suivre dans sa mise en œuvre dont on peut espérer qu’une solution centralisée facilitera à terme l’accès pour les chercheurs non-résidents aux Etats-Unis.
Annexe : Quelques recommandations importantes de la Commission
RECOMMANDATION 2.1: The Congress and the President should enact legislation establishing the National Secure Data Service (NSDS) to facilite access for evidence building while ensuring transparency and privacy …
RECOMMANDATION 4.3: To ensure exemplary transparency and accountability for the Federal government’s use of data for evidence building, the NSDS should maintain a searchable inventory of approved projects using data and undergo regular auditing of compliance with rules governing privacy, confidentiality, and access.
RECOMMANDATION 2.2: The NSDS should be a service, not a data clearinghouse or warehouse. The NSDS should facilitate data linkage in support of distinct authorized projects.
RECOMMANDATION 2.8: The Office of Management and Budget should promulgate a single, streamlined process for researchers external to government to apply, become qualified and gain approval to access government data that are not publicly available. Approval would remain subject to any restrictions appropriate to the data in questions.
RECOMMANDATION 4.5: The Office of Management and Budget should increase efforts to make information available on existing Federal datasets including data inventories, metadata and data documentation in a searchable format.
RECOMMANDATION 5: The Congress and the President should consider repealing current bans and limiting future bans on collection and use of data for evidence building