Pour conclure la mini-série initiée avec les épisodes 1 et 2, voici une petite illustration récente d’un travail d’alignement (matching) à l’Abes.
L’alignement présente quelques similarités avec cette tâche rebutante qui nous revient avec la baisse des températures[1] : la corvée de chaussettes. Retrouver à chacun sa chacune, en fonction du nombre de personnes sous votre toit, peut s’avérer extrêmement fastidieux. Il y a les homonymes (Tiens, encore une chaussette grise ?), les faux amis (même modèle mais taille différente, 31-34 et pas 27-30), les singletons (ah oui, la gauche était trouée et est devenue chiffon) et les cas d’espèces (ah, cet étrange modèle dont un pied est orné de frites et l’autre d’une bouteille de ketchup mais qui forment une paire tout de même), et même les lèche-bottes[2]. Pour vous donner une bonne excuse pour procrastiner, lisez-donc la suite (et peut-être que vous verrez l’appariement sous un autre jour).
Depuis quelques temps, nous cherchons à rapprocher les référentiels IdRef et ROR (cf injection massive d’identifiants ROR au printemps décrite dans ce billet.) Lors des mois écoulés, l’Abes a constaté, notamment lors des AbesTour, que les établissements s’emparaient du sujet de la description de leurs structures de recherche. Cela peut venir d’une politique concertée de l’établissement en matière d’identifiants, d’une attitude proactive des professionnel-les de la documentation dont la familiarité avec les référentiels est ancienne, ou encore d’une démarche liée à des préoccupations bibliométriques : ROR est l’identifiant des organisations au sein de la base OpenAlex[3] , et est en cours d’intégration pour le WebOfScience[4].
Nous supposions donc que nombre de structures de recherche françaises avaient été créées dans le ROR depuis le premier round d’alignement. Il y avait donc présomption d’un recouvrement avec IdRef, qui notamment via le signalement des thèses, comprend au sein des collectivités recensées une part non négligeable desdites structures. Le projet d’alignement allait cette fois partir de ROR pour revenir vers IdRef. Pour affiner les données d’entrée et ne prendre de ROR que les structures susceptibles de nous intéresser, voici comment nous avons procédé.
Au sein d’IdRef, les établissements ayant une habilitation à délivrer le doctorat (passée ou actuelle) ont été « étiquetés » au moyen d’une zone A686. En filtrant sur ceux vivants, on récupère une liste, dont on conserve uniquement les identifiants ROR en A035. Par interrogation de l’API de ROR, on va récupérer les organisations qui ont le type de lien « child » avec ces institutions. On écarte les unités déjà alignées, en utilisant le microwebservice ROR2idref[5]. Les données d’entrée consistent donc en un jeu de métadonnées issues de l’API de ROR et décrivant les « enfants » des établissements, donc principalement des unités de recherche. Une unité pouvant avoir plusieurs tutelles, et donc être « enfant » de plusieurs « parents », le nombre dédoublonné d’unités à aligner n’est que de 685 (sur 1225 résultats).
La stratégie d’alignement va porter sur l’appariement de ces unités avec IdRef. On va utiliser la chaîne de caractères du libellé ROR (label) et leur ville de localisation. Ces paramètres (distincts et/ou couplés) sont envoyés via des requêtes SolR, qui permettent d’aller comparer avec toutes les variantes présentes dans la notice d’autorité IdRef. En combinant les approches, on arrive à 385 propositions d’alignement.
Pour évaluer la fiabilité de ces propositions, on va comparer l’intitulé IdRef (point d’accès) avec l’intitulé ROR (ROR-display label), sans prendre en compte les variantes, et leur attribuer un score à l’aide de 2 méthodes de comparaison de chaînes de caractères, la distance de Jaro-Winkler (JW)[6] et la distance de Lewenshtein (LV)[7]. Ces méthodes fournissent des métriques sous forme de scores, qui s’échelonnent entre 0 (pas de ressemblance) et 1 (ressemblance parfaite). On va considérer comme alignement sûrs les scores supérieurs à 0.8, car on sait que le point d’accès IdRef peut (devrait, même…) contenir un qualificatif de lieu et un qualificatif de dates, et que ces informations ne font pas partie du label ROR. Les scores entre 0,4 et 0,8 sont examinés manuellement et parmi les propositions, 5 sont rejetées, toutes les autres sont acceptées. Les propositions avec des scores entre 0,7 et 0,8 (au nombre de 18) sont toutes acceptées, mais comme nous avons noté que les propositions rejetées n’avaient pas les scores les plus bas (au contraire : entre 0,58 et 0,68 JW, et entre 0,43 et 0,67 LV.) cela montre bien qu’il est nécessaire de garder une vigilance sur cette zone. Les propositions rejetées le sont principalement lorsque des intitulés IdRef pour des équipes internes reprennent in extenso le nom de leur laboratoire chapeau : c’est donc un problème d’enchâssement des organisations.
Résultat : au total 379 nouveaux ROR tout beaux tout brillants pour décorer le sapin d’IdRef… en attendant les autres, qui pourront être glanés par de nouvelles méthodes, pour l’an prochain !
Carole Melzac
Service Autorités et Référentiels
Abes
[1] Parce qu’à Montpellier, évidemment, on vit tongs aux pieds d’avril à octobre.
[2] https://openbiblio.social/@PIDNetworkDE/112598851524209276
[3] https://docs.openalex.org/api-entities/institutions
[4] https://clarivate.com/academia-government/release-notes/web-of-science/web-of-science-november-7-2024-release-notes/
[5] Documenté ici : https://documentation.abes.fr/aideidrefdeveloppeur/index.html#MicroWebServiceId2idref
[6] Pour en savoir plus, cf https://fr.wikipedia.org/wiki/Distance_de_Jaro-Winkler
[7] Pour en savoir plus, cf https://fr.wikipedia.org/wiki/Distance_de_Levenshtein