Planifier la gestion des données de son projet

La planification correspond à la première étape du cycle de vie des données, durant laquelle les besoins et ressources nécessaires à la réalisation du projet de recherche sont identifiés. Les prochaines étapes du cycle de vie des données sont anticipées durant cette première phase. L’étape de planification permet précisément de questionner la façon dont les données seront collectées, analysées, documentées, stockées, conservées, exposées et réutilisables ou encore protégées.  

Les ressources sélectionnées par l’équipe de CoDataSorb vous permettront de comprendre, pas à pas, les bénéfices qu'apporte une planification vertueuse et raisonnée de la gestion de vos données. Grâce à ces ressources, vous serez en mesure de définir vos données de recherche et leur cycle de vie, comprendre le contexte juridique de l'open data, rédiger votre plan de gestion de données. Vous pourrez aussi poursuivre votre autoformation sur les données via des sites de références ou encore solliciter des personnes-ressources pour vous accompagner au mieux dans l'anticipation de la gestion de vos données.

Définition(s) et cycle de vie des données de recherche

  • Définitions des données de recherche

    Les données de recherche peuvent se définir de diverses façons, plus ou moins étendues. Selon les objectifs recherchés (objectifs de diffusion, de partage, d'archivage), le périmètre de définition des données de recherche peut varier.
    Dans un rapport consacré aux données issus de projets financés, la définition proposée par l'Organisation de coopération et de développement économiques (OCDE) définit les données comme les sources et les preuves de la recherche  : 

     "Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche."


    L'association des archivistes français propose quant à elle une définition plus large, les données pouvant désigner tout matériaux nourrissant la recherche : 

    "Les données de la recherche sont l’ensemble des informations et matériaux produits et reçus par des équipes de recherche et des chercheurs. Elles sont collectées et documentées à des fins de recherche scientifique. A ce titre, elles constituent une partie des archives de la recherche".


    La définition du décret n°2021-1572 du 03 décembre 2021 relatif au respect des exigences de l'intégrité scientifique par les établissements publics contribuant au service public de la recherche insiste sur les données comme résultats bruts, soit comme tout ce qui a été produit dans le cadre de la recherche : 

    "Les résultats bruts des travaux scientifiques mentionnés au troisième alinéa de l'article L. 211-2 du code de la recherche sont constitués des données produites au cours du processus de recherche, ou à défaut des données traitées et scientifiquement validées, ainsi que des codes sources utilisés dans le traitement de ces données" (article 5).


    Ces différentes définitions ne s'excluent pas mutuellement : elles peuvent se compléter selon les objectifs recherchés dans le cadre de sa gestion des données.

    A l'image de la diversité de définitions, il est possible d'identifier plusieurs types de données de recherche. Christine Borgman propose par exemple de classer les données selon leur mode d'obtention : données d'observation, données d'expérimentation, données de simulation, records (traces), données compilées ou dérivées, données de référence. Le rapport d'Isabelle Blanc et Anne Laurent du Ministère de l'Enseignement Supérieur et de la Recherche propose une autre typologie de données de recherche par mode d'obtention, proche de celle de C. Borgman : données d'expérimentation, données issues de capteurs ou d'instruments scientifiques, données d'enquête, données synthétiques (reproduisant les caractéristiques statistiques de données réelles), données de simulation (générée par des modèles informatiques ou mathématiques, reproduisant artificiellement un phénomène), données textuelles ou documentaires, données dérivées.
    Le mode d’obtention n'est pas le seul critère permettant de classer les données de recherche, et plusieurs typologies peuvent ainsi se cumuler. C. Borgman propose aussi, par exemple, de classer les types de données selon leur usage : données de recherche (liées à un projet), données "ressources" (validées par la communauté et réutilisables), et données "de référence" (gérées par des normes solides et pérennes et une gouvernance décentralisée).

    Ces paragraphes et cette sélection de ressources sur la définition des données de recherche sont librement inspirés de la formation de l'Urfist de Paris proposée par Claire Tignolet "Données, codes, logiciels : Introduction aux enjeux" (2026), que CoDataSorb remercie.


    Les données de recherche recouvrent donc des réalités très diverses, telles que des données d’observation, d’expérimentation, de simulation ou de référence. Parmi cet ensemble, certaines constituent des données à caractère personnel, dès lors qu’elles permettent d’identifier, directement ou indirectement, une personne physique. Lorsque la recherche scientifique implique la collecte ou l’utilisation de telles informations, elle relève alors du champ d’application de la réglementation générale sur la protection des données personnelles (RGPD). Les sciences humaines et sociales sont tout particulièrement concernées, dans la mesure où elles s’intéressent directement aux individus et aux réalités sociales qu’ils produisent. Elles mobilisent ainsi des matériaux de recherche étroitement liés aux personnes elles-mêmes, ce qui implique fréquemment la collecte et l’exploitation de données personnelles.

    Pour plus d'informations sur la spécificité des données personnelles et sensibles, consultez la page dédiée dans [Protection des personnes].


    Si la diversité des données de recherche est donc certaine et recoupe de multiples facettes qu'il convient d'appréhender pour mettre en place une bonne gestion, elles désignent aussi, d'un point de vue pratique, tout ce dont la perte ou le vol aurait une incidence grave sur les résultats de recherche. Une bonne gestion des données de recherche permet de prévenir au mieux ces risques. L'application des principes FAIR (Faciles à trouver, Accessibles, Interopérables, Réutilisables) aux données de recherche est une bonne pratique et un cadre vertueux de coopération. Par essence impliqués dans la méthodologie de recherche par des approches techniques concrètes, les principes FAIR offrent la possibilité d'anticiper aux mieux les différentes étapes de leur gestion dans le cadre d'un projet de recherche.

    Pour plus d'informations sur les données de recherche FAIR, consultez la page dédiée dans [Documentation] .

  • Le cycle de vie des données de recherche

    L'Inist-CNRS propose un bref diaporama interactif revenant sur plusieurs étapes du cycle de vie des données de recherche ainsi que sur leurs principaux enjeux.

     

    La gestion des données de recherche se matérialise par le schéma du cycle de vie des données de recherche, constitué par plusieurs étapes essentielles. 

     

    • [Documentation]

    La gestion des données de recherche dans le cadre de leur cycle de vie se structure, entre autres, grâce à l'application des principes FAIR (Faciles à trouver, Accessibles, Interopérables, Réutilisables). Par essence impliqués dans la méthodologie de recherche par des approches techniques concrètes, les principes FAIR offrent la possibilité d'anticiper au mieux les différentes étapes du cycle de vie des données dans le cadre d'un projet de recherche. 


    Pour plus d'informations sur les données de recherche FAIR, consultez la page dédiée dans [Documentation] .

Le contexte réglementaire et juridique de la gestion des données de recherche

Les conventions de partenariats [à venir]

Protection des personnes : RGPD et données personnelles, un contexte réglementaire déterminant pour les sciences humaines et sociales [à venir]

  • Contexte réglementaire et législatif de l’open data

    Le mouvement d'ouverture des données (ou open data) est encadré par plusieurs grands textes législatifs et réglementaires depuis les années 1970, afin de déterminer les principes de droit d'accès, d'ouverture, de réutilisation et de protection des données (administratives, de recherche, personnelles...).

    Pour aller plus loin sur le lien entre le contexte réglementaire et juridique de l'ouverture des données (et plus généralement la science ouverte) avec l'éthique et l'intégrité scientifique de la recherche, voir la rubrique dédiée [Éthique et intégrité scientifique].

    Ce diaporama interactif conçu par DoRANum propose un panorama synthétique des textes législatifs et réglementaires encadrant l'open data.

     

    Le Lab de Ressources et d'Accompagnement aux Données de la Recherche (LabRADoR) de Sorbonne Université propose une frise chronologique interactive sur le cadre légal de l'open data avec de courts articles synthétiques sur les principaux textes législatifs et réglementaires, agrémentés de brèves vidéos didactiques.  

     

    Produit par le Comité pour la science ouverte, le guide d'application de la Loi pour une République numérique pour les données de recherche propose des recommandations pour l'application des mesures de cette loi, mesures qui ont notamment été transposées dans le Code de la recherche et dans le Code régissant les relations entre le public et l'administration. A ce titre, ce guide revient donc sur le périmètre d'ouverture des données publiques (principes et exceptions à leur ouverture et leur réutilisation, cas particuliers). 

  • L’articulation réglementaire et juridique des politiques nationales et internationales avec les agences de financement de la recherche

    La mise en œuvre de la science ouverte et de l'ouverture des données de recherche prend effet dans le cadre de politiques nationales et internationales, mais aussi des stratégies des agences de financement. En articulation avec le Plan S et les Plans nationaux pour la science ouverte, l'Agence nationale de la recherche (ANR) exige la livraison d'un Plan de gestion de données (PGD) pour les projets financés. Dans le cadre de la Commission Européenne et du Conseil européen de la recherche, les projets financés par le programme "Horizon Europe" doivent fournir un PGD pour les projets financés.

    Pour aller plus loin sur les conditions d'ouverture des données des agences de financement, articulées avec les stratégies de science ouverte et d'open data, voir la rubrique dédiée [Exigences des financeurs] .
     

    La cOAlition S est un consortium d'organismes de financement de la recherche engagés à l'application du Plan S, qui œuvre à "l'accès libre, complet et immédiat aux publications savantes". A ce titre, l'ouverture et le partage des données de recherche sont fortement encouragés par le consortium, tout comme la mise en relation des publications avec leurs données et codes, rendus accessibles par un dépôt externe. 

     

    La gestion des données de recherche constitue l'un des principaux enjeux du Deuxième plan national pour la Science ouverte. Le second axe, intitulé "Structurer, partager et ouvrir les données de la recherche" souligne l'importance de développer les offres d'accompagnement et les outils de gestion des données, de reconnaître et d'amplifier leur réutilisation, ainsi que de coordonner et de promouvoir leur politique d'ouverture. Ce plan confirme ainsi que le partage et la structuration des données deviennent de véritables priorités scientifiques. 

     

    Dans le cadre de sa politique de science ouverte, elle-même articulée avec les Plans nationaux pour la science ouverte, l'ANR considère explicitement l'ouverture, le partage et la réutilisation des données, des codes sources et des logiciels comme l'un des trois objectifs primordiaux. A ce titre, l'ANR demande la rédaction de PGD pour les projets financés. 

     

    L'accès aux données fait partie des priorités du programme-cadre de l'Union européenne pour la recherche et l'innovation (2021-2027) "Horizon Europe". Dans cet objectif, les projets financés doivent ouvrir l'accès aux publications et aux données, ainsi qu’élaborer un PGD. 

  • L’IA dans le cadre de la recherche, un contexte réglementaire et juridique spécifique

    Le développement et l'utilisation de l'Intelligence Artificielle (IA) soulèvent des problématiques renouvelées dans la recherche, et il apparaît alors déterminant de connaître la législation européenne en vigueur ainsi que les questionnements liés à l'IA en contexte de science ouverte et d'ouverture des données. 

    Cet article de la Commission Européenne revient sur le plan d'action de l'Union Européenne en matière d'intelligence artificielle, de son application stratégique ainsi que sur le cadre législatif mis en place depuis la fin des années 2010. 

     

    La Commission Européenne offre un article de synthèse sur le récent règlement européen sur l'IA ("AI Act"), en revenant sur les raisons d'une telle réglementation, sur son approche construite autour de la notion de risque, sur sa mise en conformité et son implémentation depuis 2025. 

     

    Le Centre de formation et de soutien aux données de la recherche d'Aix-Marseille Université met à disposition un cycle de trois webinaires de moins d'une heure portant sur les différents enjeux juridiques liés à l'IA dans le domaine de la recherche : "Éthique et règlementation de l’IA dans le cadre de la recherche, pour une mise en conformité de vos projets", "Protection des données à caractère personnel et encadrement de l’IA dans le cadre de la recherche, pour une sécurisation de vos projets", "Protection des droits de propriété intellectuelle et IA dans le cadre de la recherche, pour une valorisation de vos projets". 

     

    Dans un bref article, la commission recherche de l'Association française des directeurs et personnels de direction des bibliothèques universitaires et de la documentation (ADBU) replace la science ouverte -et, par extension, les données de recherche- au cœur de la réflexion autour de l'Intelligence Artificielle générative. 

     

    L'Urfist de Toulouse met à disposition en libre-accès un parcours d'autoformation permettant de questionner l'Intelligence Artificielle dans le contexte de la Science ouverte, et, par extension, de la gestion des données : enjeux juridiques, conséquences éthiques ou encore compatibilité de ces deux domaines sont autant de questions abordées. 

Focus thématique

  • Plan de gestion de données (PGD)

    Le Plan de Gestion de Données (PGD) ou Data Management Plan (DMP) est un document synthétique d'accompagnement aux projets de recherche. Il s'agit d'un outil, évolutif et descriptif, d'aide à la gestion des données de recherche. Tout au long de votre projet, le PGD documente la manière dont vos données sont collectées, traitées, décrites, stockées, archivées, partagées ou au contraire protégées. Le PGD participe à l'intégrité scientifique de vos projets de recherche grâce à l'anticipation renforcée de vos pratiques de gestion des données. Au-delà d'être un outil pratique et technique recommandé pour tout projet, le PGD est un livrable obligatoire demandé par plusieurs agences de financement de la recherche, qui proposent différents modèles. A ce titre, le modèle structuré est à privilégier pour les projets financés par l’Agence nationale de la recherche (ANR).

     

    Il est également possible de documenter un Plan de gestion de logiciel (PGL) ou Software Management Plan (SMP) afin de décrire la façon dont un logiciel, développé dans le cadre de vos activités de recherche, sera géré depuis sa conception jusqu'à sa maintenance. 

     

    Les ressources sélectionnées par l’équipe de CoDataSorb vous permettront de comprendre les attendus et les enjeux d’un PGD, ainsi que d’identifier les acteurs, les outils et les compétences utiles pour la rédaction de ce document indispensable !  

     

    A destination d'un large public, la plateforme de formation en ligne sur la gestion des données de recherche DoRANum met à disposition de nombreuses ressources constamment réactualisées (fiches, vidéos, guides, autoévaluation...) afin de comprendre les attendus et enjeux du PGD.

     

    Le PGD dépeint en moins de 3 minutes-chrono : la vidéo de l'Inist-CNRS revient en quelques minutes sur la définition du PGD, sur son insertion dans le contexte d'un projet de recherche, sur les principaux éléments à y faire figurer.

     

    Ce parcours pédagogique conçu par l'Inist-CNRS permet de synthétiser les enjeux du PGD afin de mieux comprendre l'intérêt de ce document, d'identifier les acteurs et outils offrant une aide à sa rédaction, d'appréhender son élaboration en suivant le cycle de données.  

     

    Cette fiche synthétique proposée par CoopIST aux chercheurs et spécialistes de l'information scientifiques et techniques se propose de revenir sur l'essentiel des enjeux de la rédaction d'un PGD : la structure globale, le cadre éthique et juridique dans lequel la gestion des données s'inscrit, mais aussi la description des données, leur sauvegarde et mise en sécurité, leurs modalités de diffusion et de partage.

     

    DMP OPIDoR est l'un des outils de référence en France pour la rédaction et l'implémentation des PGD et PGL. Afin de guider les chercheurs dans l'élaboration de ces documents, DMP OPIDoR met à disposition un parcours de création de plans, des recommandations ainsi que des modèles de PGD produits par les organismes et les agences de financement.

     

    Les financeurs et les organismes de recherche proposent différents modèles de PGD accompagnés de recommandations, mis à disposition dans DMP OPIDoR. Pour les projets financés par l'ANR, le modèle structuré est à privilégier ("ANR - Modèle commun structuré").

     

    L'Inist-CNRS propose un tutoriel sur l'outil de rédaction de PGD DMP OPIDoR afin d'en faciliter la prise en main. 

     

    L'estimation des coûts de la gestion des données est un aspect important à considérer lors de l'élaboration du PGD. A cette fin, l'Inist-CNRS met à disposition un guide dédié à cette thématique afin d'accompagner au mieux les chercheurs. 

     

    UK Data Service met à disposition une checklist pour évaluer les coûts de la gestion des données, accompagnée de recommandations, offrant ainsi une ressource d'aide à la rédaction du PGD. 

     

    La bibliothèque de l'Ecole Polytechnique Fédérale de Lausanne propose un calculateur pour estimer les coûts de la gestion des données, mettant ainsi à disposition un outil pratique d'aide à l'élaboration du PGD. 

     

    Ce court article proposé par l'Institut Pasteur revient sur la définition et les attendus du Plan de gestion de logiciel (PGL), sur son insertion dans le contexte d'un projet de recherche, sur les principaux éléments à y faire figurer. 

     

    En quelques paragraphes, l'Institut Pasteur revient sur les options disponibles actuellement pour la mise en place pratique du PGL : modèles et outils pour l'élaboration du PGL, recommandations pour la rédaction. 

Pour aller plus loin :

  • Une sélection de ressources complémentaires

    Portée par l'Inist-CNRS et le Groupement d’intérêt scientifique (GIS) Réseau Urfist, la plateforme DoRANum met à disposition un ensemble de ressources pour l'apprentissage en auto-formation de la gestion des données de recherche. De la découverte à la consolidation des connaissances autour des données, les ressources proposées sont de niveaux et de natures variés (infographies, vidéos, fiches synthétiques, parcours e-learning…), issues de travaux collaboratifs avec de nombreuses structures. Intégrant les spécificités disciplinaires dont les SHS, les ressources abordent de nombreux thèmes (aspects juridiques et intégrité scientifique, plans de gestion de données, identifiants pérennes, stockage et archivage, data papers, visualisation). DoRANum fait partie des centres de ressources nationaux fédérés par Recherche Data Gouv. 

     

    Conçu par l'INRAE, le parcours d'auto-formation OSCAR (Ouvrir la Science, Connaissances à AcquériR) permet de se former à son rythme sur les enjeux de la science ouverte. L'un des 9 modules développés s'intéresse spécifiquement à la gestion et au partage des données, tandis que d'autres abordent ce même thème pour les algorithmes, codes et logiciels, mais également les enjeux autour des sciences participatives ou encore les questions d'intégrité scientifique en contexte de science ouverte. 

     

    Le Groupe de Travail Science Ouverte du consortium Couperin (GTSO Couperin) œuvre à la mise à disposition "d'outils de terrain et de valorisation" autour de la science ouverte, notamment grâce aux activités de différents sous-groupes de travail thématiques. Le GTSO Données propose des ressources sur la gestion des données de recherche, afin d'accompagner les chercheurs et les établissements. 

     

    Le Groupe de Travail Science Ouverte du consortium Couperin (GTSO Couperin) œuvre à la mise à disposition "d'outils de terrain et de valorisation" autour de la science ouverte, notamment grâce aux activités de différents sous-groupes de travail thématiques. Le Groupe Juridique du GSTO propose des ressources accessibles autour des questions de droit en contexte de science ouverte, afin d'accompagner les chercheurs et les établissements. 

     

    Mis en place par le Ministère de l'Enseignement supérieur et de la Recherche, le site Ouvrir la Science est piloté par le CoSo (Comité pour la Science Ouverte), qui propose de nombreuses ressources à destination de l'ensemble de la communauté scientifique et citoyenne. Dans ce cadre, plusieurs collèges et groupes d'expertises produisent et mettent à disposition une importante documentation, parmi lesquels le Collèges Données de la recherche ou encore Logiciels & Codes sources, afin de proposer des ressources et des outils autour de ces thématiques. 

     

    Mis en place par le Ministère de l'Enseignement supérieur et de la Recherche, le site Ouvrir la Science est piloté par le Comité pour la Science Ouverte (CoSo), qui propose de nombreuses ressources à destination de l'ensemble de la communauté scientifique et citoyenne. Cette documentation est accessible par la "bibliothèque de la science ouverte", intégrant notamment les productions sur les données de recherche.

     

    Cat OPIDoR est un catalogue collaboratif des services français dédiés à la gestion des données de recherche. Ce catalogue permet d'identifier le(s) service(s) adapté(s) et bénéfique(s) pour son projet de recherche, étape particulièrement importante dès la planification de sa gestion de données. Cat OPIDoR est intégré à la plateforme de services et d'outils OPIDoR, qui fait partie des centres de ressources nationaux fédérés par Recherche Data Gouv. 

Contacts

Une seule adresse mail générique à retenir pour contacter CoDataSorb, l'Atelier de la donnée de Sorbonne Alliance : codatasorb@sorbonne-alliance.fr