2 Qu’est-ce qu’un jeu de données de recherche ?
2.1 Pourquoi s’intéresser à vos données de recherche ?
- d’un point de vue administratif, le plan de gestion de données
depuis 2019, l’Agence Nationale de la Recherche demande de renseigner un plan de gestion de données tout au long du déroulé du programme financé
- du point de vue de la pratique de recherche, un enjeu de qualité
s’interroger sur ses données de recherche permet aussi d’interroger ses travaux d’un point de vue différent
2.2 Que sont les données de recherche ?
- il n’y a pas de consensus sur ce que sont les données de recherche
pour chaque projet de recherche, les données peuvent être de nature différentes, même si on peut dégager une typologie en fonction des disciplines
- le terme “donnée” est polysémique et sa définition canonique ambigüe
la donnée, les données, donné (voir Annexe)
- au sein du dossier de la revue de la Société Française de l’Information et la Communication (SFIC), les données sont
générées, récoltées, filtrées, massifiées, inférées, essentialisées, recherchées, mesurées, collectées, produites, construites, obtenues et réutilisées ou reproduites, regroupées (Le Deuff & Kembellec, 2022)
- elles peuvent aussi être
primaires, dérivées, interopérables etc.
- des capta ou données construites par une relation co-constitutive
the abandonment of interpretation in favor of a naïve approach to statistical certainly skews the game from the outset in favor of a belief that data is intrinsically quantitative — self-evident, value neutral, and observer-independent. This belief excludes the possibilities of conceiving data as qualitative, co-dependently constituted — in other words, of recognizing that all data is capta (Drucker, 2011).
2.3 Que sont les jeux de données ?
2.3.1 Dans la presse spécialisée
- en technologies
une collection d’éléments connexes de données associées entre elles et accessibles individuellement ou de façon combinée, ou gérées comme une entité. (TechTarget, 2016)
- dans le numérique
un dataset qui permet d’entraîner, valider et tester les modèles d’intelligence artificielle et tout particulièrement de machine learning. (…) [Il est] un ensemble homogène de données se présentant sous différents formes : textes, chiffres, images, vidéos, sons… Il prend généralement la forme d’un tableau avec des lignes et des colonnes. Les lignes correspondent aux variables et les colonnes aux paramètres les définissant (Journal du Net, 2023)
2.3.2 Pour des organismes de recherche
- [pour le CIRAD] l’agrégation d’enregistrements de données organisés pour former un ensemble cohérent.
Les jeux de données numériques sont formatés de telle sorte qu’ils soient communicables, interprétables et adaptés à un traitement informatisé. Pour être utilisé et cité, un jeu de données doit être accompagné de métadonnées descriptives : titre, producteur, …. Certains jeux de données, annotés, revus par les pairs et mis à disposition deviennent des données de référence, par exemple les données génomiques disponibles dans la base de données GenBank. (Dedieu & Fily, 2015)
- [pour l’IRD] un ensemble cohérent de données produites dans le cadre d’un même projet, sur un même objet d’étude et/ou recueillies sur un même lieu
Toutes les données d’un dataset peuvent donc être décrites avec une majorité de métadonnées communes. Il comprend des datafiles (fichiers de données), mais aussi le code, la documentation et les métadonnées associées (IRD Data, 2021)
2.3.3 Pour le service public de la recherche
- il est possible d’utiliser les ressources documentaires d’Etalab qui définissent le jeu de données (du secteur public) ainsi
un jeu de données se compose de ressources, de la même manière qu’un album est composé de chansons. Dit autrement, un jeu de données peut avoir plusieurs ressources et une ressource appartient nécessairement à un jeu de données
- Un jeu de données comporte
- un titre (obligatoire) ;
- un sigle (facultatif) ;
- une description (obligatoire) ;
- une licence (facultative) ;
- une fréquence de mise à jour (obligatoire) ;
- une date de dernière mise à jour (facultative) ;
- des mots-clefs (facultatifs) ;
- un intervalle de couverture temporelle (facultatif) ;
- une zone de couverture spatiale (facultative) ;
- un niveau de granularité spatiale (facultatif).
2.3.4 Cas particulier des jeux de données spatiales
Elles doivent s’inscrire dans la directive INSPIRE