1 Introduction

Le cadre général du document est l’étude des données de production scientifique du laboratoire venant en support à ses membres. Il s’inscrit dans le paradigme de la science ouverte.

Les implications sont les suivantes:
- accessibilité et fiabilité des données,
- explicitation des méthodes mobilisées pour leur traitement et leur visualisation,
- réplicabilité des méthodes, les données étant susceptibles d’évoluer au cours du temps.

1.1 Objectifs

L’étude vise deux objectifs complémentaires :
- apporter des informations utiles pour le dispositif d’auto-évaluation du laboratoire,
- fournir des données ou instruments utiles à ses équipes et ses membres pour leurs besoins propres.

En ce sens, le document computationnel constitue un dispositif support de dialogues au sein du laboratoire.

1.2 Moyens

HAL est une archive ouverte fondée sur une base de données hiérarchique centrée sur les notices de documents et dotée de plusieurs référentiels. Son évolution dans le temps suit une tendance d’ouverture et de “liage” des données vers les standards des données ouvertes liées (LOD), appelée le web sémantique, à l’image de la figure ci-dessous.

Figure 1: Représentation du modèle de données HAL “document” centré. Le document (`fabio:Document`) est lié <`dcterms:creator`> à l’auteur⋅ice (`hal:Author`) qui a pour structure <`hal:structure`> le terme laboratoire, représenté par son identifiant unique de référence (URI).
Source : dataHAL.science, Documentation, URL: https://data.hal.science/doc/schema

La spécificité de l’approche proposée dans cette étude est qu’elle articule différentes modalités d’accès aux données. Elle interroge aussi les limites actuelles des dispositifs existants dans le paradigme de données FAIR.

L’une des ces modalités d’accès aux données est indirecte (voir Partie 2) à partir du formulaire https://monevaluation.hceres.fr/hal. Elle permet de télécharger un jeu de feuilles de calculs (format propriétaire .xlsm) où figure la liste des notices HAL des documents et leurs métadonnées, rattachées au laboratoire choisi et pour un période donnée.
Une autre modalité (voir Partie 3), directe, mobilise l’interface de programmation de l’application HAL. L’archive HAL compte 11 référentiels qui permettent d’interroger la base de données.
Enfin, une dernière modalité, empirique, explore la standardisation progressive des données issues de l’archive de la science ouverte en France. Elle mobilise quelques requêtes SPARQL sur les 6 graphes de l’archive HAL, notamment.

1.3 Enjeux

Cette étude permet de rendre compte de la visibilité des activités de l’UMR IDEES et de ses membres sur les réseaux “canons” de la communauté scientifique internationale, notamment via des identifiants académiques ouverts du web (ORCID).

Elle permet aussi d’envisager la mise en place de chaînes de traitement des données de production scientifique pour créer des pages personnelles, d’équipes ou de projets et leur mise à jour de manière semi-automatique.

Une première réalisation de cette mise en oeuvre est le champ “publications” de la page chercheur/chercheuse de l’annuaire du site web de l’UMR IDEES. À partir d’une requête avec l’API HAL, une fonction “tire” les données actuelles de production scientifique directement de l’archive HAL, prenant comme donnée d’entrée l’identifiant HAL (Idhal) de la personne membre du laboratoire.

Figure 2 : exemple de profil issu de l’annuaire du site web de l’UMR IDEES. Les dernières publications et la liste complète des publications par type sont tirées automatiquement depuis l’Idhal. Ce dernier est renseigné par l’auteur⋅rice dans sa fiche annuaire, accessible directement sur le site web de l’UMR, à côté d’autres informations.

Note 1.1: Identifiant chercheur/chercheuse HAL (Idhal) & production scientifique

La tutelle choisit le dispositif HAL comme base de connaissances des activités des collègues, du laboratoire et de ses équipes.

Il est donc nécessaire de
- disposer d’un identifiant HAL (Idhal)
- de renseigner les notices des documents associés à la production scientifique (articles de revue à comité de lecture, ouvrages mais aussi d’autres documents)

Une typologie des documents, retenue par l’archive HAL, est listée dans le tableau suivant :

Code

library(httr2)
library(dplyr)
# URL de l'API
req_root = "https://api.archives-ouvertes.fr/ref/doctype/"
# Champ interrogé
df <- request(req_root)  %>%  
      req_url_query(
        q = "instance_s",
        wt = "json")  %>% 
      req_perform()  %>% 
      resp_body_json()
# Traitement et affichage des données JSON collectées
library(jsonlite)
dg <- toJSON(df$response$result$doc) %>% fromJSON(, simplifyDataFrame = TRUE)
dg_type_doc <- t(as.data.frame(dg$str))
row.names(dg_type_doc) <- c()
colnames(dg_type_doc) <- c("ACRONYME","Type de document")

Acronyme	Type de document
ART	Article dans une revue
COMM	Communication dans un congrès
POSTER	Poster de conférence
PROCEEDINGS	Proceedings/Recueil des communications
ISSUE	N°spécial de revue/special issue
OUV	Ouvrages
COUV	Chapitre d'ouvrage
BLOG	Article de blog scientifique
NOTICE	Notice d’encyclopédie ou de dictionnaire
TRAD	Traduction
PATENT	Brevet
OTHER	Autre publication scientifique
UNDEFINED	Pré-publication, Document de travail
REPORT	Rapport
THESE	Thèse
HDR	HDR
LECTURE	Cours
MEM	Mémoire d'étudiant
IMG	Image
VIDEO	Vidéo
SON	Son
MAP	Carte
SOFTWARE	Logiciel
PRESCONF	Document associé à des manifestations scientifiques
CREPORT	Chapitre de rapport
ETABTHESE	Thèse d'établissement
MEMLIC	typdoc_MEMLIC
NOTE	Note de lecture
OTHERREPORT	Autre rapport, séminaire, workshop
REPACT	Rapport d'activité
SYNTHESE	Notes de synthèse

Table 1.1: Typologie des documents objets de dépôt de notices HAL

# Introduction > Le cadre général du document est l'étude des données de production scientifique du laboratoire venant en support à ses membres. Il s'inscrit dans le paradigme de la science ouverte. Les implications sont les suivantes: - accessibilité et fiabilité des données, - explicitation des méthodes mobilisées pour leur traitement et leur visualisation, - réplicabilité des méthodes, les données étant susceptibles d'évoluer au cours du temps. ## Objectifs L'étude vise deux objectifs complémentaires : - apporter des informations utiles pour le dispositif d'auto-évaluation du laboratoire, - fournir des données ou instruments utiles à ses équipes et ses membres pour leurs besoins propres. > En ce sens, le document computationnel constitue un dispositif support de dialogues au sein du laboratoire. ## Moyens {#sec-schema-doc} [HAL](https://doc.hal.science/#accessibilite) est une archive ouverte fondée sur une base de données hiérarchique centrée sur les notices de documents et dotée de plusieurs référentiels. Son évolution dans le temps suit une tendance d'ouverture et de "liage" des données vers les standards des données ouvertes liées (LOD), appelée le web sémantique, à l'image de la figure ci-dessous. ![Figure 1: Représentation du modèle de données HAL "document" centré. Le document (`fabio:Document`) est lié <`dcterms:creator`> à l'auteur⋅ice (`hal:Author`) qui a pour structure <`hal:structure`> le terme laboratoire, représenté par son identifiant unique de référence (URI). <br> Source : dataHAL.science, Documentation, URL: [https://data.hal.science/doc/schema](https://data.hal.science/doc/schema) ](https://data.hal.science/img/schema/document.png) > La spécificité de l'approche proposée dans cette étude est qu'elle articule différentes modalités d'accès aux données. Elle interroge aussi les limites actuelles des dispositifs existants dans le paradigme de données FAIR. L'une des ces modalités d'accès aux données est indirecte (voir Partie [-@sec-mon-evaluation-hceres]) à partir du formulaire [https://monevaluation.hceres.fr/hal](https://monevaluation.hceres.fr/hal). Elle permet de télécharger un jeu de feuilles de calculs (format propriétaire `.xlsm`) où figure la liste des notices HAL des documents et leurs métadonnées, rattachées au laboratoire choisi et pour un période donnée. Une autre modalité (voir Partie [-@sec-dataESR]), directe, mobilise l'[interface de programmation de l'application HAL](https://api.archives-ouvertes.fr/docs/). L'archive HAL compte [11 référentiels](https://api.documentation-administrative.gouv.fr/docs/ref) qui permettent d'interroger la base de données. Enfin, une dernière modalité, empirique, explore la standardisation progressive des données issues de l'archive de la science ouverte en France. Elle mobilise quelques requêtes SPARQL sur les [6 graphes](http://sparql.archives-ouvertes.fr/sparql?query=select%20distinct%20%3Fg%2C%20count%28%2A%29%20%0Awhere%20%7B%0A%20graph%20%3Fg%20%7B%20%3Fs%20%3Fp%20%3Fo%20%7D%0A%7D) de l'archive HAL, notamment. ## Enjeux > Cette étude permet de rendre compte de la visibilité des activités de l'UMR IDEES et de ses membres sur les réseaux "canons" de la communauté scientifique internationale, notamment via des **identifiants académiques ouverts** du web (ORCID). Elle permet aussi d'envisager la mise en place de chaînes de traitement des données de production scientifique pour créer des pages personnelles, d'équipes ou de projets et leur mise à jour de manière semi-automatique. Une première réalisation de cette mise en oeuvre est le champ "publications" de la page chercheur/chercheuse de l'annuaire du site web de l'UMR IDEES. À partir d'une requête avec l'API HAL, une fonction "tire" les données actuelles de production scientifique directement de l'archive HAL, prenant comme donnée d'entrée l'identifiant HAL (Idhal) de la personne membre du laboratoire. <figure><iframe src="https://umr-idees.fr/annuaire/christophe-imbert" style="width:100%; height:800px;" title="Page annuaire UMR IDEES" ></iframe> <figcaption>Figure 2 : exemple de profil issu de l'annuaire du site web de l'UMR IDEES. Les dernières publications et la liste complète des publications par type sont tirées automatiquement depuis l'Idhal. Ce dernier est renseigné par l'auteur⋅rice dans sa fiche annuaire, accessible directement sur le site web de l'UMR, à côté d'autres informations.</figcaption> </figure> ::: {#nte-corpus .callout-note collapse="true"} ## Identifiant chercheur/chercheuse HAL (Idhal) & production scientifique La tutelle choisit le dispositif HAL comme base de connaissances des activités des collègues, du laboratoire et de ses équipes. Il est donc nécessaire de - **disposer d'un identifiant HAL (Idhal)** - de renseigner les notices des documents associés à la production scientifique (articles de revue à comité de lecture, ouvrages mais aussi d'autres documents) **Une typologie des documents, retenue par l'archive HAL, est listée dans le tableau suivant :** ```{r doctype_instance_s, eval=TRUE, echo=TRUE, warning= FALSE, message = FALSE} library(httr2) library(dplyr) # URL de l'API req_root = "https://api.archives-ouvertes.fr/ref/doctype/" # Champ interrogé df <- request(req_root) %>% req_url_query( q = "instance_s", wt = "json") %>% req_perform() %>% resp_body_json() # Traitement et affichage des données JSON collectées library(jsonlite) dg <- toJSON(df$response$result$doc) %>% fromJSON(, simplifyDataFrame = TRUE) dg_type_doc <- t(as.data.frame(dg$str)) row.names(dg_type_doc) <- c() colnames(dg_type_doc) <- c("ACRONYME","Type de document") ``` ```{r echo=FALSE, message=FALSE} #| label: tbl-doctype #| tbl-cap: "Typologie des documents objets de dépôt de notices HAL" require(kableExtra) dg_type_doc %>% kbl(col.names = NULL) %>% add_header_above(c("Acronyme","Type de document")) %>% kable_classic(full_width = F) # Informations sur la structure json : # dg %>% recurse(.[]) %>% keys() # jq(dg, ".[]") %>% keys() ``` :::