Pour y répondre, il faudrait rappeler et approfondir les finalités de chacun des identifiants, expliciter les orientations institutionnelles et clarifier certains ressorts techniques sous-jacents. Plus modestement, ce billet vise à actualiser les actions au long court menées par l’Abes dans le domaine des identifiants et référentiels, actions précédemment détaillées dans un billet Punktokomo (2017).
De quelques questions récurrentes
- Comment fonctionne l’alignement entre IdRef et HAL ?
- Sur quels critères de correspondance se fait l’alignement entre les identifiants IdRef et IdHAL ?
- Cet alignement génère-t-il un enrichissement automatique d’IdHAL par IdRef ?
- Que faire s’il n’existe pas d’IdHAL ?
- Quels sont les bénéfices attendus des alignements d’identifiants, dans HAL en particulier ?
- Est-il prévu des transferts automatiques de références bibliographiques d’IdRef vers HAL ?
- Quelles recommandations pour les chercheurs publiants ?
Telles sont les questions qui sont posées régulièrement à l’équipe IdRef et voici quelques éléments de réponses.
Aligner les identifiants IdRef et IdHAL pour rendre visibles les références HAL dans IdRef
Rappelons tout d’abord qu’une notice IdRef peut être enrichie d’une gamme d’identifiants potentiellement associés à un auteur[1].
Parmi eux, la présence de l’identifiant IdHAL déclenche la récupération de l’ensemble des références bibliographiques publiées dans l’archive institutionnelle HAL[2]. Cet alignement des identifiants connait deux circuits possibles :
- si l’IdHAL est présent dans la notice IdRef, c’est qu’il a été a ajouté à l’unité par un catalogueur dans la base de données IdRef ou que l’Abes a procédé à cet ajout dans le cadre d’un alignement automatisé par lot ;
- si l’IdRef est présent dans le compte HAL d’un auteur, c’est a priori le détenteur du compte qui l’a ajouté.
En conséquence, l’alignement est tant « automatique » que « manuel » : dans la mesure du possible, il s’agit d’allier les avantages de la collecte à l’unité sur le terrain et des traitements par lots par l’Abes, en tant qu’agence de mutualisation de services.
Techniquement, et spécifiquement pour HAL, pour récupérer des données bibliographiques liées, un appel à l’API de HAL est déclenché à partir d’une notice IdRef : exemple avec la notice IdRef – https://www.idref.fr/139753753 – qui contient l’IdHal « dacos » et donc passe l’appel https://api.archives-ouvertes.fr/search/?q=authIdHal_s:dacos&wt=xml-tei&indent=true&fl=*&sort=publicationDate_s+desc&rows=1000
Les identifiants une fois alignés, les pages IdRef des auteurs concernés comportent l’ensemble des publications diffusées dans les différents environnements documentaires : Sudoc, theses.fr, BnF, Calames, Persée, HAL, ORCID, OATAO, etc.
Ainsi, une notice d’autorité IdRef présente le triple intérêt d’offrir un espace unique pour les opérations suivantes :
- la fédération des publications issues de différents environnements : theses.fr, Sudoc, Persée, HAL, ORCID, etc.
- la récupération des références de ces publications, par un logiciel de gestion des références bibliographiques Zotero[3] et/ou par les webservices de l’Abes[4]
- la mise à disposition d’alignements entre identifiants en utilisant le web service dédié[5] ou en s’appuyant sur le triple store https://data.idref.fr
Aligner sans limites, par-delà l’existant
La limite principale -et forcément gênante- réside dans la nécessaire existence de l’IdHAL pour opérer ce type d’alignement. Pour dépasser cette limite, l’Abes finalise actuellement une « chaine de traitements automatisée des références HAL » (chaque mot est important !), dans laquelle l’alignement des auteurs se fait directement à partir de la mention d’auteur (i.e. la chaine de caractères « nom prénom ») présente dans les métadonnées de la publication HAL et les notices IdRef.
C’est dans cette perspective que l’Abes a travaillé sur deux corpus complets – les portails HAL des Universités Bordeaux Montaigne et Limoges – selon deux axes :
- l’affichage des publications HAL via l’interface IdRef même en l’absence d’IdHAL avec pour bénéfice la complétude de la notice auteur et la possible récupération des données par Zotero ;
- le dépôt des liens IdRef-« mention d’auteur de document HAL » dans le triple store data.idref.fr avec pour bénéfice la redistribution synchrone des alignements et la possibilité d’un requêtage précis et fin grâce à la modélisation RDF.
Les premiers résultats de cette démarche sont d’ores et déjà visibles via l’interface IdRef. Illustration avec la chercheuse « Bogé-Rousseau, Patricia » affiliée au laboratoire « Cultures anglo-saxonnes [CAS] ». Bien qu’il n’existe pas d’IdHAL à son nom – https://aurehal.archives-ouvertes.fr/author/browse?critere=Bog%C3%A9-Rousseau%2C+Patricia
… cette personne est identifiée dans IdRef (IdRef 242218229) et ses publications dans HAL correctement liées à sa notice :
Actualisation au 10 mars 2021 :
Depuis la publication de ce billet, le workflow des alignements a été implémenté sur la base de production de data.idref. Les données de l’exemple « Bogé-Rousseau, Patricia » ci-dessus n’ont pas encore migré dans cette base.
Pour voir des alignements, voici l’exemple « Delaplace, Jean-Michel » : https://www.idref.fr/057200378
Ces exemples, issus d’une opération d’ensemble sur le portail HAL de l’Université BordeauxMontaigne, illustrent la capacité de ce workflow IdRef : opérer un alignement massif des auteurs d’un corpus HAL à partir d’une requête API qui en circonscrit le périmètre, en ciblant au choix :
- un portail institutionnel : https://api.archives-ouvertes.fr/search/?q=collCode_s:%22UNIV-BORDEAUX-MONTAIGNE%22
- un périmètre disciplinaire : https://api.archives-ouvertes.fr/search/?q=level1_domain_s:shs.droit&fl=*&wt=xml
Bien entendu, les données issues de ces traitements sont destinées à la réutilisation. Ainsi, de la page ScanR de cet auteur – https://scanr.enseignementsup-recherche.gouv.fr/person/idref242218229 – dont l’URI est construite sur l’identifiant IdRef et qui pourrait avantageusement profiter de cet alignement pour alimenter la section consacrée à ses « Productions ».
IdRef, IdHAL, (…) : ne pas choisir mais outiller tous les utilisateurs
Mis en place à l’ouverture de la V3 de HAL, l’identifiant IdHAL a pour objectif initial de permettre aux auteurs de disposer de leur CV de publications. Or, selon nos observations, l’usage d’IdHAL a ensuite été «détourné» par les professionnels de la documentation pour tenter de gérer les auteurs publiant dans HAL, dans la logique de l’injonction concernant la qualité des données, le suivi et le repérage des publications scientifiques de chaque institution.
Or, cette situation présente plus d’inconvénients que d’avantages. Elle laisse croire que les identifiants IdRef et les IdHAL se placent sur le même plan et pourraient être en concurrence, ce qui n’est pas le cas : l’IdHAL est destiné, rappelons-le, aux auteurs-chercheurs souhaitant constituer leur Curriculum Vitae dans HAL alors que l’IdRef constitue un outil à destination des professionnels de la documentation pour assurer la qualité du signalement documentaire et favoriser l’exploitation des données.
Que répondre enfin à la question concernant les « recommandations aux chercheurs » ? N’étant pas « sur le terrain », la réponse pourra sembler naïve … mais a le mérite d’être pragmatique : si les chercheurs-publiants dans HAL souhaitent obtenir leur CV, la création de l’IdHAL constitue naturellement une bonne recommandation ; en revanche, l’ajout des identifiants IdRef et ORCID constituera une bonne pratique pour favoriser la visibilité de leurs travaux aux niveaux national et international…
En effet – et c’est là un point à retenir et à actionner auprès des différents acteurs et au sein des systèmes d’information de l’ESR, le processus d’alignement d’identifiants est porteur de nombreux bénéfices. D’une part, la qualité des données est renforcée, les notices d’autorité IdRef étant enrichies automatiquement et chaque auteur correctement associé à l’ensemble de ses publications. D’autre part, le travail des professionnels de la documentation est facilité (détection des anomalies, identification des notices auteurs manquantes ainsi que du reliquat d’alignements à opérer manuellement …)
Au final, on obtient un corpus Auteurs enrichi, géré efficacement, pour le plus grand profit des utilisateurs, des auteurs et des institutions, ce qui constitue une des clés de voûte de la politique en faveur de la Science ouverte.
Notes
[1] Idem pour une collectivité, mais c’est une autre histoire qui fera l’objet d’un prochain billet
[2] Idem avec l’identifiant ORCID, mais c’est une autre histoire qui fera l’objet d’un prochain billet (bis)
[3] Depuis quelques mois, les pages IdRef sont moissonnables par Zotero. Un prochain billet Punktokomo détaillera cette passerelle.
[4] Web service de récupération des références bibliographiques liées : http://documentation.abes.fr/aideidrefdeveloppeur/index.html#MicroWebReferences
[5] Deux web services de récupération des alignements : http://documentation.abes.fr/aideidrefdeveloppeur/index.html#MicroWebIdref2id ; et sa réciproque : http://documentation.abes.fr/aideidrefdeveloppeur/index.html#MicroWeb_ServiceId2idref