Quand IdRef s’aligne sur ROR, ou comment rapprocher des référentiels 

Print Friendly, PDF & Email

 “Faire de la lumière, pauvres gens, c’est plus difficile que de faire de l’or.” (Paul Claudel, L’annonce faite à Marie)

Prémices de l’intérêt pour ROR Research Organization Registry

Tête de lion rugissant, Eugène Delacroix. Crédits : Photo (C) RMN-Grand Palais (musée du Louvre) / Michel Urtado.

Au printemps 2021, le service Autorités et Référentiels de l’Abes avait mené un travail de veille sur les référentiels dédiés aux structures. Contrairement aux personnes ou aux publications pour lesquelles un identifiant pérenne – respectivement ORCID et DOI – s’est progressivement imposé au plan international, les collectivités, dans le monde de la recherche, sont un secteur pour lequel plusieurs référentiels coexistent, notamment : ISNI, GRID, ROR, RingGold.

Au printemps 2023, nous avons décidé de prendre à bras le corps la question de la qualité des notices IdRef de type ‘Tb’ qui décrivent des collectivités liées à la recherche. Se posait alors alors la question du champ : que devions-nous couvrir ? Par pragmatisme, nous avons défini un premier cercle : les établissements habilités (actuellement ou dans le passé) à délivrer le doctorat. 216 notices ont ainsi été passées en revue, améliorées, et enrichies d’alignements vers le référentiel ROR.

Nous avons découvert que ROR, qui s’était jusqu’alors présenté comme un référentiel des top-level institutions, avait enrichi sa base pendant l’été 2023 avec de nombreuses structures de type laboratoires (unités mixtes de recherche) au moyen des données publiques issues du RNSR.

Cette inflexion semblait nécessaire pour poursuivre l’objectif de ROR, qui est de structurer les données d’affiliation des publications par des PID. Nous avons alors emboîté le pas, en élargissant le cercle : le début de l’année 2024 a vu l’injection de nouveaux alignements ROR dans IdRef, pour des structures, de type unités de recherche, et plus seulement pour des établissements.

Méthodologie

Nous sommes partis du dump des données ROR, avec lequel il est plus facile de travailler qu’avec l’API. En effet, celle-ci pagine les résultats, ce qui est peu pratique pour de gros corpus de plusieurs milliers de structures. La documentation de l’API ROR est d’ailleurs claire sur ce sujet : ce n’est pas le bon point d’entrée quand on veut travailler sur de gros volumes.

Ces données ont été chargées dans un projet OpenRefine pour être manipulées. Nous avons considéré les structures dont le pays est la France, et écarté celles de type privé. Pour ce faire, les types présents dans le modèle de données étant Education, Healthcare, Company, Archive, Nonprofit, Government, Facility, Other, nous avons donc exclu le type Company et conservé tous les autres types.

Nous avons conservé les structures ayant des statuts autres que active (à savoir inactive ou withdrawn – retirée du référentiel) en les considérant comme marginales mais dignes d’intérêt, puisque IdRef possède une profondeur historique certaine.

Étape 1 : Aligner IdRef vers ROR avec Wikidata comme pivot

Nous avons identifié les structures ROR possédant un ID Wikidata, puis interrogé Wikidata pour faire remonter les IdRef connus de Wikidata. Tous les alignements proposés ont été passés en revue : nous avons pu injecter les  ROR ID dans 840 notices IdRef ainsi que, lorsqu’ils n’y étaient pas encore, les ID Wikidata.

Au passage, nous avons corrigé les données dans Wikidata pour une poignée d’entités, et avons signalé à ROR les erreurs constatées. En outre, des doublons IdRef ont trépassé à cette occasion !

Étape 2 : Aligner IdRef vers ROR à l’aide du numéro d’UMR

Nous avons observé dans le dump que certaines entités possédaient un external ID CNRS correspondant au numéro d’UMR. Cette donnée ancienne est issue de GRID. Si vous n’avez pas encore lu l’article du numéro d’Arabesques 112 consacré à ROR, voici un petit rappel : GRID était une base de données créée par la société DigitalScience en 2015. Elle a fourni le premier noyau des données de ROR, lequel s’en est définitivement émancipé en 2021. ROR a défini pour son schéma de métadonnées v2.0 une politique claire : ne mentionner que des référentiels ouverts et pour lesquels les alignements sont maintenus. Ce n’est pas le cas de cette donnée, qui est donc vouée à disparaître.

Nous pensions qu’elle pouvait cependant se révéler utile, non en tant qu’identifiant, mais pour l’apparier avec le contenu des variantes (zones A410) des notices IdRef. Cette étape, un peu fastidieuse, a permis de repérer un nombre important de corrections à signaler à ROR, probablement parce qu’il s’agissait d’entités présentes de longue date dans le registre. Elle a tout de même abouti à l’ajout de 315 ROR ID dans les notices IdRef correspondantes.

Étape 3 : Aligner IdRef vers ROR en comparant des chaînes de caractères

Voici le programme des prochaines semaines. Nous attendons la sortie officielle prochaine de la v 2.0 du schéma pour bénéficier d’une information supplémentaire qui facilitera les traitements : l’étiquette de langue sur chaque appellation.

En effet, dans le registre, de nombreuses structures de type laboratoire ont un intitulé principal en anglais : il sera ainsi plus aisé de les isoler et de rechercher dans les variantes connues la forme en français pour la comparer au point d’accès des notices IdRef.

Par ailleurs, pour faciliter les allers-retours entre les deux référentiels, deux sous-services ont été ajoutés aux webservices IdRef2id et id2IdRef : idref2ror et ror2idref. A partir d’un PPN, on peut facilement savoir si un ROR ID est présent dans la notice. A l’inverse, à partir d’un ROR ID, on peut savoir si une notice IdRef le mentionne (ou plusieurs… mais là commencent les problèmes !)

Quelques chiffres

ROR recense près de 100 000 structures, dont 3 500 structures françaises de statut public. Au printemps 2021, quand l’Abes a commencé à s’intéresser à ROR, seules 72 notices IdRef étaient pourvues d’un ROR ID. La progression en trois ans est pharaonique puisqu’au 15 mars 2024, ce sont 1 561 notices qui sont pourvues d’un ROR : un bond de géant de plus de 2000 % !

Et la vraie bonne nouvelle, c’est que cet effort, pour récent qu’il soit, est partagé.  Parmi ces notices dotées d’un ROR ID, 1 247 ont vu l’injection de cet identifiant au cours du premier trimestre 2024. L’Abes ayant aligné 1 155 nouvelles notices, le reste est à mettre au compte du réseau, qui a été particulièrement actif, avec 92 ajouts pendant ce court laps de temps. Merci à tous les « coraut » !

ROR is the new chic, à n’en pas douter

Pour terminer, et parce que c’est le printemps, un peu de poésie avec une rime suffisante : ROR et OR partageant deux phonèmes, un joli score pour si peu de lettres !

Lire aussi dans le numéro d’Arabesques 112 consacré aux Autorités et Référentiels : https://publications-prairial.fr/arabesques/index.php?id=3836

 

 

 

Laisser un commentaire

Tweetez
Partagez
Partagez
Aller au contenu principal