L’alignement des identifiants auteurs entre IdRef & HAL : un état des lieux

Certaines questions récurrentes au sujet de l’alignement des identifiants auteurs – IdRef et IdHal en tête ; ORCID non loin  – dénotent, à tout le moins, un certain flou dans le paysage des identifiants au niveau national.

Pour y répondre, il faudrait rappeler et approfondir les finalités de chacun des identifiants, expliciter les orientations institutionnelles et clarifier certains ressorts techniques sous-jacents. Plus modestement, ce billet vise à actualiser les actions au long court menées par l’Abes dans le domaine des  identifiants et référentiels, actions précédemment détaillées dans un billet Punktokomo (2017).

De quelques questions récurrentes

  • Comment fonctionne l’alignement entre IdRef et HAL ?
  • Sur quels critères de correspondance se fait l’alignement entre les identifiants IdRef et IdHAL ?
  • Cet alignement génère-t-il un enrichissement automatique d’IdHAL par IdRef ?
  • Que faire s’il n’existe pas d’IdHAL ?
  • Quels sont les bénéfices attendus des alignements d’identifiants, dans HAL en particulier ?
  • Est-il prévu des transferts automatiques de références bibliographiques d’IdRef vers HAL ?
  • Quelles recommandations pour les chercheurs publiants ?

Telles sont les questions qui sont posées régulièrement à l’équipe IdRef et voici quelques éléments de réponses.

Aligner les identifiants IdRef et IdHAL pour rendre visibles les références HAL dans IdRef

Rappelons tout d’abord qu’une notice IdRef peut être enrichie d’une gamme d’identifiants potentiellement associés à un auteur[1].

Parmi eux, la présence de l’identifiant IdHAL déclenche la récupération de l’ensemble des références bibliographiques publiées dans l’archive institutionnelle HAL[2]. Cet alignement des identifiants connait deux circuits possibles : 

  • si l’IdHAL est présent dans la notice IdRef, c’est qu’il a été a ajouté à l’unité par un catalogueur dans la base de données IdRef ou que l’Abes a procédé à cet ajout dans le cadre d’un alignement automatisé par lot ;
  • si l’IdRef est présent dans le compte HAL d’un auteur, c’est a priori le détenteur du compte qui l’a ajouté.

En conséquence, l’alignement est tant « automatique » que « manuel » : dans la mesure du possible, il s’agit d’allier les avantages de la collecte à l’unité sur le terrain et des traitements par lots par l’Abes, en tant qu’agence de mutualisation de services.

Techniquement, et spécifiquement pour HAL, pour récupérer des données bibliographiques liées, un appel à l’API de HAL est déclenché à partir d’une notice IdRef : exemple avec la notice IdRef  – https://www.idref.fr/139753753 –  qui contient l’IdHal « dacos » et donc passe l’appel https://api.archives-ouvertes.fr/search/?q=authIdHal_s:dacos&wt=xml-tei&indent=true&fl=*&sort=publicationDate_s+desc&rows=1000

Les identifiants une fois alignés, les pages IdRef des auteurs concernés comportent l’ensemble des publications diffusées dans les différents environnements documentaires : Sudoc, theses.fr, BnF, Calames, Persée, HAL, ORCID, OATAO, etc.

Ainsi, une notice d’autorité IdRef présente le triple intérêt d’offrir un espace unique pour les opérations suivantes :

  • la fédération des publications issues de différents environnements : theses.fr, Sudoc, Persée, HAL, ORCID, etc.
  • la récupération des références de ces publications, par un logiciel de gestion des références bibliographiques Zotero[3] et/ou par les webservices de l’Abes[4]
  • la mise à disposition d’alignements entre identifiants en utilisant le web service dédié[5] ou en s’appuyant sur le triple store https://data.idref.fr

Aligner sans limites, par-delà l’existant

La limite principale -et forcément gênante- réside dans la nécessaire existence de l’IdHAL pour opérer ce type d’alignement. Pour dépasser cette limite, l’Abes finalise actuellement une « chaine de traitements automatisée des références HAL » (chaque mot est important !), dans laquelle l’alignement des auteurs se fait directement à partir de la mention d’auteur (i.e. la chaine de caractères « nom prénom ») présente dans les métadonnées de la publication HAL et les notices IdRef.

C’est dans cette perspective que l’Abes a travaillé sur deux corpus complets – les portails HAL des Universités Bordeaux Montaigne et Limoges – selon deux axes :

  • l’affichage des publications HAL via l’interface IdRef même en l’absence d’IdHAL avec pour bénéfice la complétude de la notice auteur et la possible récupération des données par Zotero ;
  • le dépôt des liens IdRef-« mention d’auteur de document HAL » dans le triple store data.idref.fr avec pour bénéfice la redistribution synchrone des alignements et la possibilité d’un requêtage précis et fin grâce à la modélisation RDF.

Les premiers résultats de cette démarche sont d’ores et déjà visibles via l’interface IdRef. Illustration avec la chercheuse « Bogé-Rousseau, Patricia » affiliée au laboratoire « Cultures anglo-saxonnes [CAS] ». Bien qu’il n’existe pas d’IdHAL à son nom – https://aurehal.archives-ouvertes.fr/author/browse?critere=Bog%C3%A9-Rousseau%2C+Patricia

… cette personne est identifiée dans IdRef (IdRef 242218229) et ses publications dans HAL correctement liées à sa notice :

Actualisation au 10 mars 2021 :

Depuis la publication de ce billet, le workflow des alignements a été implémenté sur la base de production de data.idref. Les données de l’exemple « Bogé-Rousseau, Patricia » ci-dessus n’ont pas encore migré dans cette base.
Pour voir des alignements, voici l’exemple « Delaplace, Jean-Michel » : https://www.idref.fr/057200378



Ces exemples, issus d’une opération d’ensemble sur le portail HAL de l’Université BordeauxMontaigne, illustrent la capacité de ce workflow IdRef : opérer un alignement massif des auteurs d’un corpus HAL à partir d’une requête API qui en circonscrit le périmètre, en ciblant au choix :

Bien entendu, les données issues de ces traitements sont destinées à la réutilisation. Ainsi, de la page ScanR de cet auteur –  https://scanr.enseignementsup-recherche.gouv.fr/person/idref242218229 – dont l’URI est construite sur l’identifiant IdRef et qui pourrait avantageusement profiter de cet alignement pour alimenter la section consacrée à ses « Productions ».

IdRef, IdHAL, (…) : ne pas choisir mais outiller tous les utilisateurs

Mis en place à l’ouverture de la V3 de HAL, l’identifiant IdHAL a pour objectif initial de permettre aux auteurs de disposer de leur CV de publications.  Or, selon nos observations, l’usage d’IdHAL a ensuite été «détourné» par les professionnels de la documentation pour tenter de gérer les auteurs publiant dans HAL, dans la logique de l’injonction concernant la qualité des données, le suivi et le repérage des publications scientifiques de chaque institution.

Or, cette situation présente plus d’inconvénients que d’avantages. Elle laisse croire que les identifiants IdRef et les IdHAL se placent sur le même plan et pourraient être en concurrence, ce qui n’est pas le cas : l’IdHAL est destiné, rappelons-le, aux auteurs-chercheurs souhaitant constituer leur Curriculum Vitae dans HAL alors que l’IdRef constitue un outil à destination des professionnels de la documentation pour assurer la qualité du signalement documentaire et favoriser l’exploitation des données.

Que répondre enfin à la question concernant les « recommandations aux chercheurs » ? N’étant pas « sur le terrain », la réponse pourra sembler naïve … mais a le mérite d’être pragmatique : si les chercheurs-publiants dans HAL souhaitent obtenir leur CV, la création de l’IdHAL constitue naturellement une bonne recommandation ; en revanche, l’ajout des identifiants IdRef et  ORCID constituera une bonne pratique pour favoriser la visibilité de leurs travaux aux niveaux national et international…

En effet – et c’est là un point à retenir et à actionner auprès des différents acteurs et au sein des systèmes d’information de l’ESR, le processus d’alignement d’identifiants est porteur de nombreux bénéfices.  D’une part, la qualité des données est renforcée, les notices d’autorité IdRef étant enrichies automatiquement et chaque auteur correctement associé à l’ensemble de ses publications. D’autre part, le travail des professionnels de la documentation est facilité (détection des anomalies, identification des notices auteurs manquantes ainsi que du reliquat d’alignements à opérer manuellement …)

Au final, on obtient un corpus Auteurs enrichi, géré efficacement, pour le plus grand profit des utilisateurs, des auteurs et des institutions, ce qui constitue une des clés de voûte de la politique en faveur de la Science ouverte.

Notes

[1] Idem pour une collectivité, mais c’est une autre histoire qui fera l’objet d’un prochain billet

[2] Idem avec l’identifiant ORCID, mais c’est une autre histoire qui fera l’objet d’un prochain billet (bis)

[3] Depuis quelques mois, les pages IdRef sont moissonnables par Zotero.  Un prochain billet Punktokomo détaillera cette passerelle.

[4] Web service de récupération des références bibliographiques liées : http://documentation.abes.fr/aideidrefdeveloppeur/index.html#MicroWebReferences

[5] Deux web services de récupération des alignements : http://documentation.abes.fr/aideidrefdeveloppeur/index.html#MicroWebIdref2id ; et sa réciproque : http://documentation.abes.fr/aideidrefdeveloppeur/index.html#MicroWeb_ServiceId2idref

Cet article a 2 commentaires

  1. Mistral François

    Plusieurs sollicitations demandant un mode d’emploi du service d’alignements automatiques entre le portail HAL d’une université et IdRef, je le livre ici. Donnez-nous la variante de requête permettant de lancer notre programme d’alignements :

    https://api.archives-ouvertes.fr/search/?q=collCode_s:%22UNIV-BORDEAUX-MONTAIGNE%22
    https://api.archives-ouvertes.fr/search/?q=UNIV-BORDEAUX-MONTAIGNE
    https://api.archives-ouvertes.fr/search/?q=hal-ubm

    [Il faut tester pour voir quel type de requête ramène le bon volume de résultats. Avec Montaigne, finalement, c’est la première qui a servi. mais avec UPHF c’est la troisième.]

    Notre machine à aligner va produire 4 types de résultats :
    – un tableau des anomalies détectées (traitées par le Correspondant autorités, interlocuteur de l’Abes en établissement)
    – un tableau des auteurs alignés (on partage alors les identifiants et on enrichit les notices IdRef avec vos données le cas échéant)
    – un tableau des auteurs non alignables (on crée par lot les autorités à partir de vos données source)
    – un tableau des auteurs dont on ne peut affirmer s’ils sont dans la base ou pas (on vérifie et alors on range dans l’une ou l’autre des 3 catégories « anomalies »/ »alignés » / »à créer »)

    La fourniture est une matière fort riche et donne une évaluation précieuse d’un corpus « chercheurs » pour un établissement donné.
    Cette fourniture d’alignements est d’abord établie sur la base de la fiabilité. On préfère donner des alignements sûrs que beaucoup d’alignements. Ceci étant dit, notre expérience en la matière nous amène à estimer que le taux de recouvrement sur votre corpus sera (très) élevé et (très) fiable. Le reste-à-faire par l’humain ne sera toutefois pas nul et la prise en charge de tous ces fichiers implique du temps et de la méticulosité : il faudra évidemment le prévoir du « jour/homme ». Ce sont diverses voies pour parvenir à aligner les données et à les monter en qualité.

Laisser un commentaire

Aller au contenu principal