Documenter ses données

La documentation des données renvoie à un ensemble de pratiques d'organisation, de structuration, de description et de communication de ses matériaux de recherche et de leur contexte de production. Documenter ses données constitue une étape essentielle d'un projet de recherche, permettant de les préserver, les réutiliser et les partager. Ces pratiques s'inscrivent au sein des préconisations FAIR qui œuvrent à rendre les données de recherche Faciles à trouver, Accessibles Interopérables et Réutilisables. L'ensemble de ces pratiques de documentation FAIR permet de renforcer la découverte et la réutilisation de ses données de recherche, et participe ainsi à la mise en œuvre d'une recherche éthique et reproductible.

Les ressources sélectionnées par l’équipe de CoDataSorb vous permettront de comprendre, pas à pas, comment documenter vos données de recherche pour renforcer leur préservation, leur réutilisation et leur partage selon les préconisations des principes FAIR.

Grâce à ces ressources, vous serez en mesure d'appliquer les recommandations en matière d'organisation de vos fichiers de données (plan de classement, arborescence hiérarchisée, nommage). Vous serez également aptes à prendre en main les outils de description de vos jeux de données, notamment les métadonnées reconnues dans votre discipline comme les standards et vocabulaires contrôlés, ou encore d'autres outils documentaires tels que les fichiers README. Des préconisations, pratiques et outils de documentation vous sont également proposés selon vos corpus de recherche et vos données (données textuelles, statistiques, images, sonores et linguistiques). 

Vous pourrez aussi poursuivre votre autoformation via des sites de références ou encore solliciter des personnes-ressources pour vous accompagner au mieux dans la documentation de vos données de recherche.

Organiser ses données de recherche

Un ensemble de bonnes pratiques d'organisation, de nommage et plus généralement de structuration des fichiers permet tout à la fois de réduire les risques de perte de données et de gagner du temps pour retrouver et réutiliser ses données ou celles d'autres chercheurs. Constituant un aspect essentiel pour la reproductibilité de la recherche, l'organisation des données est une part intégrante des principes FAIR et plus généralement d'une gestion vertueuse de ses données de recherche.

Les ressources sélectionnées par l’équipe de CoDataSorb vous permettront de comprendre les enjeux, recommandations et outils permettant de renforcer l'organisation de vos données de recherche. 
 

Décrire et communiquer ses données de recherche

Décrire ses données de recherche et rendre leur contexte de création compréhensible et explicite constituent une étape de documentation essentielle d'un projet de recherche, afin de pouvoir préserver ses données, les réutiliser ou encore les partager auprès de ses pairs. La description des données de recherche peut prendre différentes formes documentaires, parmi lesquelles les métadonnées, qui permettent de vous inscrire dans des pratiques disciplinaires communes et d'ainsi renforcer la découverte et la réutilisation de vos données de recherche par vos pairs. D'autres outils documentaires complètent les métadonnées, à l'instar des fichiers README. Par ailleurs, la mise à disposition des données de recherche est concomitante du format de fichiers, un sujet déterminant pour renforcer le potentiel de réutilisation de vos données.

Les ressources sélectionnées par l’équipe de CoDataSorb vous permettront de comprendre les modalités de description des données à votre disposition (métadonnées, standards, schémas, vocabulaires contrôlés, README) ainsi que les modalités de communication des fichiers de données (formats), qui constituent un enjeu de documentation central dans la gestion vertueuse de vos matériaux de recherche. 

  • Les métadonnées, un outil de description des données de recherche essentiel

    Les métadonnées désignent "un ensemble d'informations structurées qui décrit, explicite et localise une ressource informationnelle, dans le but d'en faciliter la recherche, l'usage et la gestion". Plusieurs types de métadonnées existent : les métadonnées embarquées, directement intégrées dans les fichiers de données eux-mêmes (informations techniques et contextuelles), et les métadonnées externes, ajoutées aux fichiers de données (titre, auteur, date de création, conditions d'accès, mots-clés...). Parce qu'elles sont garantes de la réutilisabilité et de la pérennité des jeux de données, les métadonnées occupent un rôle central pour la découverte, le partage et la réutilisation des données.

    Citation et texte adapté issus de la définition proposée par le Collège Données de la recherche du Comité pour la science ouverte "Faciliter la documentation des données grâce aux métadonnées dans un projet de recherche"

    DoRANum, "La minute Métadonnées"
    En moins de 3 minutes, cette brève vidéo de l'Inist-CNRS propose une introduction aux métadonnées : définition, enjeux, standards et outils à disposition de la communauté de recherche. 

    DoRANum, "Cours introductif sur les métadonnées"
    Ce guide interactif de l'Inist-CNRS propose une introduction des principales notions et outils essentiels entourant les métadonnées : définition et enjeux, différences de types de métadonnées (enrichies et embarquées), standards et schémas de métadonnées, enrichissement par des vocabulaires contrôlés.

    Blog de l'Institut Pasteur, "Documenter ses données par des métadonnées tout au long de son projet : une check-list pour ne rien oublier"
    L'Institut Pasteur met à disposition sur son blog un article synthétique autour de l'importance des métadonnées tout au long de son projet de recherche. Plusieurs étapes du cycle de vie des données sont ainsi passées en revue, en insistant sur le rôle des métadonnées pour chacune d'entre elles. Cet article est une synthèse du guide-checklist "Faciliter la documentation des données grâce aux métadonnées dans un projet de recherche" conçu par le collège Données de la recherche du Comité pour la science ouverte, qu'il est recommandé de consulter pour bénéficier de l'entièreté des préconisations.

    Urfist Méditerranée, "Les métadonnées sont partout ! Focus sur les métadonnées embarquées"
    L'Urfist Méditerranée met à disposition un guide sur les métadonnées embarquées, leurs avantages et les risques qu'elles comportent. Ces données encodées dans les fichiers eux-mêmes contiennent de nombreuses informations sur les caractéristiques du document, y compris des métadonnées sensibles pour lesquelles la mise en place de mesures de sécurité est essentielle. 

    Les standards de métadonnées

    Les standards de métadonnées permettent de mobiliser les métadonnées qui sont couramment utilisées pour chaque discipline et qui sont adoptées comme modèle reconnu et normalisé par les communautés de recherche. Constitués de différents schémas, ces standards favorisent la réutilisation et l'interopérabilité des données de recherche, en conformité avec les principes FAIR. 
    Des répertoires de standards disciplinaires existent afin d'identifier les standards de métadonnées reconnus dans votre discipline, tels que ceux de FAIRsharing, de Digital Curation Centre (DCC) et de Research Data Alliance (RDA). Afin de faciliter ces recherches, les standards peuvent être classés par disciplines : "Social Sciences" et "Art and Humanities".

    DoRANum, "Les schémas de métadonnées"
    En moins de 5 minutes, la vidéo de l'Urfist Méditerranée propose une introduction aux schémas de métadonnées, soit les normes structurant les différents standards de métadonnées. Ces schémas de métadonnées sont constitués par des listes d'éléments descriptifs reliés entre eux et sont définis par diverses caractéristiques structurantes. 
     

    Les vocabulaires contrôlés

    Les vocabulaires contrôlés désignent des lexiques normalisés (tels que des thésaurus, listes, ontologies...) couramment utilisés par les communautés scientifiques disciplinaires. Ils permettent d'enrichir les métadonnées au moment du dépôt des données dans un entrepôt, et de renforcer ainsi leur visibilité et réutilisation.

    Loterre, répertoire de vocabulaires contrôlés 
    Istex Loterre (Linked open terminology resources) est un répertoire de vocabulaires contrôlés classés par disciplines, dont les SHS.

    Outils d’aide à la saisie des métadonnées

    Des outils facilitant la saisie des métadonnées sont mis à disposition pour la communauté scientifique (générateur, checklist).

    DoRANum et le générateur de métadonnées "DataCite Metadata Generator"
    DoRANum met à disposition un générateur de métadonnées pour les données de recherche, en suivant le schéma de DataCite, un standard utilisé pour l'attribution d'identifiants pérennes Digital Object identifier (DOI).

    Collège Données de la recherche du Comité pour la science ouverte et sa cheklist "Faciliter la documentation des données grâce aux métadonnées dans un projet de recherche"
    Ce guide-checklist propose un ensemble de préconisations tout au long des étapes du cycle de vie des données (objectifs, acteurs concernés, actions). 

    Pour aller plus loin sur les métadonnées

    Quelques ressources complémentaires sur les métadonnées.  

    DoRANum, "Métadonnées, standards, formats - Comment décrire les données ?"
    DoRANum met à disposition un vaste répertoire de ressources à explorer sur les métadonnées : fiche synthétique, vidéos, guide, autoévaluation pour tester ses connaissances...

    DARIAH et le service Vocabs autour de la création, la maintenance et l'utilisation de vocabulaires contrôlés en ALL-SHS
    À destination de la communauté ALL-SHS, le service Vocabs de DARIAH (Digital Research Infrastructure for the Arts and Humanities) permet de parcourir des vocabulaires contrôlés publiés sur la plateforme (Vocabs browse) mais aussi d'en créer et d'en éditer de manière collaborative (Vocabs editor).

    CLARIN et son répertoire de domaines d'application des standards par sujet 
    L'infrastructure européenne CLARIN consacrée au partage de ressources et d'outils autour du langage met à disposition une liste de domaines d'application des standards de métadonnées. 

    CLARIN et son répertoire de métadonnées par champ disciplinaire
    CLARIN propose un répertoire de métadonnées par champ disciplinaire. 

    DARIAH et son catalogue d'outils et de services
    L'infrastructure européenne DARIAH à destination des disciplines ALL-SHS met à disposition un ensemble de services, d'outils et de ressources (volets "core services" et "community services"), notamment autour de la documentation des jeux de données. 

  • Décrire le contexte et l’organisation de ses données : fichiers README et autres outils documentaires

    Fichiers README

    En plus des métadonnées, d'autres modalités et outils documentaires sont disponibles pour mettre en œuvre la description des données de recherche, de leur contexte de production et de leur organisation, à l'instar des fichiers README (ou "Lisez-moi"). Préconisés dans les pratiques FAIR, les fichiers README sont pensés comme un complément des métadonnées et permettent dès lors de renforcer encore davantage la découverte et la réutilisation de vos jeux de données. 

    Recherche Data Gouv, "Modèle de README"
    Recherche Data Gouv met à disposition un modèle de README, conçu pour aider à structurer la documentation de vos données de recherche.

    Les autres outils documentaires pour décrire l’organisation de vos données

    En plus des fichiers README, d'autres documents conçus et utilisés pour gérer vos données de recherche peuvent aussi être employés et pensés comme de véritables outils de documentation : le plan de gestion de données documentant les différentes étapes de votre projet, ou encore le cahier de laboratoire (ou carnet de recherche) décrivant la méthodologie et les résultats tout au long de votre projet. Ces différents documents décrivent vos données en les contextualisant et en donnant toute information nécessaire à leur compréhension.

    Texte adapté de l'article du blog de l'Institut Pasteur "Comment décrire ses données pour les rendre compréhensibles et réutilisables ?"
     

  • Les formats de fichiers de données

    La communication des jeux de données se concrétise par l'utilisation de formats de fichiers, et particulièrement les formats ouverts comme préconisés dans les pratiques FAIR. Appliquer un format de fichier ouvert et adapté pour vos types de document est essentiel pour renforcer le partage et la réutilisation de vos données. 

    L'Urfist Méditerranée et l'Inist-CNRS proposent une fiche synthétique sur les formats ouverts et fermés (définitions, enjeux, alternatives aux formats fermés).

    L'Urfist Méditerranée et l'Inist-CNRS mettent à disposition un tableau comparatif des formats ouverts et fermés par type de document (texte, image, tableau, vidéo, audio, présentation, archivage, dessin). La diversité des formats ouverts démontre qu'il existe de nombreuses alternatives ouvertes face aux formats propriétaires.

    DoRANum, "Quiz : Format ouvert ou fermé ? Testez vos connaissances des formats de fichiers"
    L'Urfist Méditerranée et l'Inist-CNRS proposent un article synthétique accompagné d'un quiz pour tester ses connaissances sur les formats de fichiers.

    INRAE, "Choix des formats de fichiers"
    Pour aller plus loin, consulter aussi la page sur le choix des formats de fichiers de l'INRAE, relayant notamment les listes réalisées par la Library of Congress sur les formats par types de fichiers. Cette liste peut vous aider dans le choix du format adapté à votre projet de recherche.