Le cadre général du document est l’étude des données de production scientifique du laboratoire venant en support à ses membres. Il s’inscrit dans le paradigme de la science ouverte.

Les implications sont les suivantes:
- accessibilité et fiabilité des données,
- explicitation des méthodes mobilisées pour leur traitement et leur visualisation,
- réplicabilité des méthodes, les données étant susceptibles d’évoluer au cours du temps.

1.1 Objectifs

L’étude vise deux objectifs complémentaires :
- apporter des informations utiles pour le dispositif d’auto-évaluation du laboratoire,
- fournir des données ou instruments utiles à ses équipes et ses membres pour leurs besoins propres.

En ce sens, le document computationnel constitue un dispositif support de dialogues au sein du laboratoire.

1.2 Moyens

HAL est une archive ouverte fondée sur une base de données hiérarchique centrée sur les notices de documents et dotée de plusieurs référentiels. Son évolution dans le temps suit une tendance d’ouverture et de “liage” des données vers les standards des données ouvertes liées (LOD), appelée le web sémantique, à l’image de la figure ci-dessous.

Figure 1: Représentation du modèle de données HAL “document” centré. Le document (fabio:Document) est lié <dcterms:creator> à l’auteur⋅ice (hal:Author) qui a pour structure <hal:structure> le terme laboratoire, représenté par son identifiant unique de référence (URI).
Source : dataHAL.science, Documentation, URL: https://data.hal.science/doc/schema

La spécificité de l’approche proposée dans cette étude est qu’elle articule différentes modalités d’accès aux données. Elle interroge aussi les limites actuelles des dispositifs existants dans le paradigme de données FAIR.

L’une des ces modalités d’accès aux données est indirecte (voir Partie 2) à partir du formulaire https://monevaluation.hceres.fr/hal. Elle permet de télécharger un jeu de feuilles de calculs (format propriétaire .xlsm) où figure la liste des notices HAL des documents et leurs métadonnées, rattachées au laboratoire choisi et pour un période donnée.
Une autre modalité (voir Partie 3), directe, mobilise l’interface de programmation de l’application HAL. L’archive HAL compte 11 référentiels qui permettent d’interroger la base de données.
Enfin, une dernière modalité, empirique, explore la standardisation progressive des données issues de l’archive de la science ouverte en France. Elle mobilise quelques requêtes SPARQL sur les 6 graphes de l’archive HAL, notamment.

1.3 Enjeux

Cette étude permet de rendre compte de la visibilité des activités de l’UMR IDEES et de ses membres sur les réseaux “canons” de la communauté scientifique internationale, notamment via des identifiants académiques ouverts du web (ORCID).

Elle permet aussi d’envisager la mise en place de chaînes de traitement des données de production scientifique pour créer des pages personnelles, d’équipes ou de projets et leur mise à jour de manière semi-automatique.

Une première réalisation de cette mise en oeuvre est le champ “publications” de la page chercheur/chercheuse de l’annuaire du site web de l’UMR IDEES. À partir d’une requête avec l’API HAL, une fonction “tire” les données actuelles de production scientifique directement de l’archive HAL, prenant comme donnée d’entrée l’identifiant HAL (Idhal) de la personne membre du laboratoire.

Figure 2 : exemple de profil issu de l’annuaire du site web de l’UMR IDEES. Les dernières publications et la liste complète des publications par type sont tirées automatiquement depuis l’Idhal. Ce dernier est renseigné par l’auteur⋅rice dans sa fiche annuaire, accessible directement sur le site web de l’UMR, à côté d’autres informations.

La tutelle choisit le dispositif HAL comme base de connaissances des activités des collègues, du laboratoire et de ses équipes.

Il est donc nécessaire de
- disposer d’un identifiant HAL (Idhal)
- de renseigner les notices des documents associés à la production scientifique (articles de revue à comité de lecture, ouvrages mais aussi d’autres documents)

Une typologie des documents, retenue par l’archive HAL, est listée dans le tableau suivant :

Code
library(httr2)
library(dplyr)
# URL de l'API
req_root = "https://api.archives-ouvertes.fr/ref/doctype/"
# Champ interrogé
df <- request(req_root)  %>%  
      req_url_query(
        q = "instance_s",
        wt = "json")  %>% 
      req_perform()  %>% 
      resp_body_json()
# Traitement et affichage des données JSON collectées
library(jsonlite)
dg <- toJSON(df$response$result$doc) %>% fromJSON(, simplifyDataFrame = TRUE)
dg_type_doc <- t(as.data.frame(dg$str))
row.names(dg_type_doc) <- c()
colnames(dg_type_doc) <- c("ACRONYME","Type de document")
Acronyme
Type de document
ART Article dans une revue
COMM Communication dans un congrès
POSTER Poster de conférence
PROCEEDINGS Proceedings/Recueil des communications
ISSUE N°spécial de revue/special issue
OUV Ouvrages
COUV Chapitre d'ouvrage
BLOG Article de blog scientifique
NOTICE Notice d’encyclopédie ou de dictionnaire
TRAD Traduction
PATENT Brevet
OTHER Autre publication scientifique
UNDEFINED Pré-publication, Document de travail
REPORT Rapport
THESE Thèse
HDR HDR
LECTURE Cours
MEM Mémoire d'étudiant
IMG Image
VIDEO Vidéo
SON Son
MAP Carte
SOFTWARE Logiciel
PRESCONF Document associé à des manifestations scientifiques
CREPORT Chapitre de rapport
ETABTHESE Thèse d'établissement
MEMLIC typdoc_MEMLIC
NOTE Note de lecture
OTHERREPORT Autre rapport, séminaire, workshop
REPACT Rapport d'activité
SYNTHESE Notes de synthèse
Table 1.1: Typologie des documents objets de dépôt de notices HAL