Le cadre général du document est l’étude des données de production scientifique du laboratoire venant en support à ses membres. Il s’inscrit dans le paradigme de la science ouverte.
Les implications sont les suivantes:
- accessibilité et fiabilité des données,
- explicitation des méthodes mobilisées pour leur traitement et leur visualisation,
- réplicabilité des méthodes, les données étant susceptibles d’évoluer au cours du temps.
1.1 Objectifs
L’étude vise deux objectifs complémentaires :
- apporter des informations utiles pour le dispositif d’auto-évaluation du laboratoire,
- fournir des données ou instruments utiles à ses équipes et ses membres pour leurs besoins propres.
En ce sens, le document computationnel constitue un dispositif support de dialogues au sein du laboratoire.
1.2 Moyens
HAL est une archive ouverte fondée sur une base de données hiérarchique centrée sur les notices de documents et dotée de plusieurs référentiels. Son évolution dans le temps suit une tendance d’ouverture et de “liage” des données vers les standards des données ouvertes liées (LOD), appelée le web sémantique, à l’image de la figure ci-dessous.
Figure 1: Représentation du modèle de données HAL “document” centré. Le document (fabio:Document) est lié <dcterms:creator> à l’auteur⋅ice (hal:Author) qui a pour structure <hal:structure> le terme laboratoire, représenté par son identifiant unique de référence (URI). Source : dataHAL.science, Documentation, URL: https://data.hal.science/doc/schema
La spécificité de l’approche proposée dans cette étude est qu’elle articule différentes modalités d’accès aux données. Elle interroge aussi les limites actuelles des dispositifs existants dans le paradigme de données FAIR.
L’une des ces modalités d’accès aux données est indirecte (voir Partie 2) à partir du formulaire https://monevaluation.hceres.fr/hal. Elle permet de télécharger un jeu de feuilles de calculs (format propriétaire .xlsm) où figure la liste des notices HAL des documents et leurs métadonnées, rattachées au laboratoire choisi et pour un période donnée.
Une autre modalité (voir Partie 3), directe, mobilise l’interface de programmation de l’application HAL. L’archive HAL compte 11 référentiels qui permettent d’interroger la base de données.
Enfin, une dernière modalité, empirique, explore la standardisation progressive des données issues de l’archive de la science ouverte en France. Elle mobilise quelques requêtes SPARQL sur les 6 graphes de l’archive HAL, notamment.
1.3 Enjeux
Cette étude permet de rendre compte de la visibilité des activités de l’UMR IDEES et de ses membres sur les réseaux “canons” de la communauté scientifique internationale, notamment via des identifiants académiques ouverts du web (ORCID).
Elle permet aussi d’envisager la mise en place de chaînes de traitement des données de production scientifique pour créer des pages personnelles, d’équipes ou de projets et leur mise à jour de manière semi-automatique.
Une première réalisation de cette mise en oeuvre est le champ “publications” de la page chercheur/chercheuse de l’annuaire du site web de l’UMR IDEES. À partir d’une requête avec l’API HAL, une fonction “tire” les données actuelles de production scientifique directement de l’archive HAL, prenant comme donnée d’entrée l’identifiant HAL (Idhal) de la personne membre du laboratoire.
Figure 2 : exemple de profil issu de l’annuaire du site web de l’UMR IDEES. Les dernières publications et la liste complète des publications par type sont tirées automatiquement depuis l’Idhal. Ce dernier est renseigné par l’auteur⋅rice dans sa fiche annuaire, accessible directement sur le site web de l’UMR, à côté d’autres informations.
Note 1.1: Identifiant chercheur/chercheuse HAL (Idhal) & production scientifique
La tutelle choisit le dispositif HAL comme base de connaissances des activités des collègues, du laboratoire et de ses équipes.
Il est donc nécessaire de
- disposer d’un identifiant HAL (Idhal)
- de renseigner les notices des documents associés à la production scientifique (articles de revue à comité de lecture, ouvrages mais aussi d’autres documents)
Une typologie des documents, retenue par l’archive HAL, est listée dans le tableau suivant :
Code
library(httr2)library(dplyr)# URL de l'APIreq_root ="https://api.archives-ouvertes.fr/ref/doctype/"# Champ interrogédf <-request(req_root) %>%req_url_query(q ="instance_s",wt ="json") %>%req_perform() %>%resp_body_json()# Traitement et affichage des données JSON collectéeslibrary(jsonlite)dg <-toJSON(df$response$result$doc) %>%fromJSON(, simplifyDataFrame =TRUE)dg_type_doc <-t(as.data.frame(dg$str))row.names(dg_type_doc) <-c()colnames(dg_type_doc) <-c("ACRONYME","Type de document")
Acronyme
Type de document
ART
Article dans une revue
COMM
Communication dans un congrès
POSTER
Poster de conférence
PROCEEDINGS
Proceedings/Recueil des communications
ISSUE
N°spécial de revue/special issue
OUV
Ouvrages
COUV
Chapitre d'ouvrage
BLOG
Article de blog scientifique
NOTICE
Notice d’encyclopédie ou de dictionnaire
TRAD
Traduction
PATENT
Brevet
OTHER
Autre publication scientifique
UNDEFINED
Pré-publication, Document de travail
REPORT
Rapport
THESE
Thèse
HDR
HDR
LECTURE
Cours
MEM
Mémoire d'étudiant
IMG
Image
VIDEO
Vidéo
SON
Son
MAP
Carte
SOFTWARE
Logiciel
PRESCONF
Document associé à des manifestations scientifiques
CREPORT
Chapitre de rapport
ETABTHESE
Thèse d'établissement
MEMLIC
typdoc_MEMLIC
NOTE
Note de lecture
OTHERREPORT
Autre rapport, séminaire, workshop
REPACT
Rapport d'activité
SYNTHESE
Notes de synthèse
Table 1.1: Typologie des documents objets de dépôt de notices HAL
# Introduction> Le cadre général du document est l'étude des données de production scientifique du laboratoire venant en support à ses membres. Il s'inscrit dans le paradigme de la science ouverte.Les implications sont les suivantes: - accessibilité et fiabilité des données, - explicitation des méthodes mobilisées pour leur traitement et leur visualisation, - réplicabilité des méthodes, les données étant susceptibles d'évoluer au cours du temps.## ObjectifsL'étude vise deux objectifs complémentaires : - apporter des informations utiles pour le dispositif d'auto-évaluation du laboratoire, - fournir des données ou instruments utiles à ses équipes et ses membres pour leurs besoins propres.> En ce sens, le document computationnel constitue un dispositif support de dialogues au sein du laboratoire.## Moyens {#sec-schema-doc}[HAL](https://doc.hal.science/#accessibilite) est une archive ouverte fondée sur une base de données hiérarchique centrée sur les notices de documents et dotée de plusieurs référentiels. Son évolution dans le temps suit une tendance d'ouverture et de "liage" des données vers les standards des données ouvertes liées (LOD), appelée le web sémantique, à l'image de la figure ci-dessous. ](https://data.hal.science/img/schema/document.png)> La spécificité de l'approche proposée dans cette étude est qu'elle articule différentes modalités d'accès aux données. Elle interroge aussi les limites actuelles des dispositifs existants dans le paradigme de données FAIR. L'une des ces modalités d'accès aux données est indirecte (voir Partie [-@sec-mon-evaluation-hceres]) à partir du formulaire [https://monevaluation.hceres.fr/hal](https://monevaluation.hceres.fr/hal). Elle permet de télécharger un jeu de feuilles de calculs (format propriétaire `.xlsm`) où figure la liste des notices HAL des documents et leurs métadonnées, rattachées au laboratoire choisi et pour un période donnée. Une autre modalité (voir Partie [-@sec-dataESR]), directe, mobilise l'[interface de programmation de l'application HAL](https://api.archives-ouvertes.fr/docs/). L'archive HAL compte [11 référentiels](https://api.documentation-administrative.gouv.fr/docs/ref) qui permettent d'interroger la base de données. Enfin, une dernière modalité, empirique, explore la standardisation progressive des données issues de l'archive de la science ouverte en France. Elle mobilise quelques requêtes SPARQL sur les [6 graphes](http://sparql.archives-ouvertes.fr/sparql?query=select%20distinct%20%3Fg%2C%20count%28%2A%29%20%0Awhere%20%7B%0A%20graph%20%3Fg%20%7B%20%3Fs%20%3Fp%20%3Fo%20%7D%0A%7D) de l'archive HAL, notamment. ## Enjeux> Cette étude permet de rendre compte de la visibilité des activités de l'UMR IDEES et de ses membres sur les réseaux "canons" de la communauté scientifique internationale, notamment via des **identifiants académiques ouverts** du web (ORCID).Elle permet aussi d'envisager la mise en place de chaînes de traitement des données de production scientifique pour créer des pages personnelles, d'équipes ou de projets et leur mise à jour de manière semi-automatique. Une première réalisation de cette mise en oeuvre est le champ "publications" de la page chercheur/chercheuse de l'annuaire du site web de l'UMR IDEES. À partir d'une requête avec l'API HAL, une fonction "tire" les données actuelles de production scientifique directement de l'archive HAL, prenant comme donnée d'entrée l'identifiant HAL (Idhal) de la personne membre du laboratoire.<figure><iframe src="https://umr-idees.fr/annuaire/christophe-imbert" style="width:100%; height:800px;" title="Page annuaire UMR IDEES"></iframe><figcaption>Figure 2 : exemple de profil issu de l'annuaire du site web de l'UMR IDEES. Les dernières publications et la liste complète des publications par type sont tirées automatiquement depuis l'Idhal. Ce dernier est renseigné par l'auteur⋅rice dans sa fiche annuaire, accessible directement sur le site web de l'UMR, à côté d'autres informations.</figcaption></figure>::: {#nte-corpus .callout-note collapse="true"}## Identifiant chercheur/chercheuse HAL (Idhal) & production scientifique La tutelle choisit le dispositif HAL comme base de connaissances des activités des collègues, du laboratoire et de ses équipes. Il est donc nécessaire de - **disposer d'un identifiant HAL (Idhal)** - de renseigner les notices des documents associés à la production scientifique (articles de revue à comité de lecture, ouvrages mais aussi d'autres documents)**Une typologie des documents, retenue par l'archive HAL, est listée dans le tableau suivant :**```{r doctype_instance_s, eval=TRUE, echo=TRUE, warning= FALSE, message = FALSE}library(httr2)library(dplyr)# URL de l'APIreq_root ="https://api.archives-ouvertes.fr/ref/doctype/"# Champ interrogédf <-request(req_root) %>%req_url_query(q ="instance_s",wt ="json") %>%req_perform() %>%resp_body_json()# Traitement et affichage des données JSON collectéeslibrary(jsonlite)dg <-toJSON(df$response$result$doc) %>%fromJSON(, simplifyDataFrame =TRUE)dg_type_doc <-t(as.data.frame(dg$str))row.names(dg_type_doc) <-c()colnames(dg_type_doc) <-c("ACRONYME","Type de document")``````{r echo=FALSE, message=FALSE}#| label: tbl-doctype#| tbl-cap: "Typologie des documents objets de dépôt de notices HAL"require(kableExtra)dg_type_doc %>%kbl(col.names =NULL) %>%add_header_above(c("Acronyme","Type de document")) %>%kable_classic(full_width = F)# Informations sur la structure json : # dg %>% recurse(.[]) %>% keys()# jq(dg, ".[]") %>% keys()```:::