Quand IdRef s’aligne sur ROR, ou comment rapprocher des référentiels 

 “Faire de la lumière, pauvres gens, c’est plus difficile que de faire de l’or.” (Paul Claudel, L’annonce faite à Marie)

Prémices de l’intérêt pour ROR Research Organization Registry

Tête de lion rugissant, Eugène Delacroix. Crédits : Photo (C) RMN-Grand Palais (musée du Louvre) / Michel Urtado.

Au printemps 2021, le service Autorités et Référentiels de l’Abes avait mené un travail de veille sur les référentiels dédiés aux structures. Contrairement aux personnes ou aux publications pour lesquelles un identifiant pérenne – respectivement ORCID et DOI – s’est progressivement imposé au plan international, les collectivités, dans le monde de la recherche, sont un secteur pour lequel plusieurs référentiels coexistent, notamment : ISNI, GRID, ROR, RingGold.

Au printemps 2023, nous avons décidé de prendre à bras le corps la question de la qualité des notices IdRef de type ‘Tb’ qui décrivent des collectivités liées à la recherche. Se posait alors alors la question du champ : que devions-nous couvrir ? Par pragmatisme, nous avons défini un premier cercle : les établissements habilités (actuellement ou dans le passé) à délivrer le doctorat. 216 notices ont ainsi été passées en revue, améliorées, et enrichies d’alignements vers le référentiel ROR.

Nous avons découvert que ROR, qui s’était jusqu’alors présenté comme un référentiel des top-level institutions, avait enrichi sa base pendant l’été 2023 avec de nombreuses structures de type laboratoires (unités mixtes de recherche) au moyen des données publiques issues du RNSR.

Cette inflexion semblait nécessaire pour poursuivre l’objectif de ROR, qui est de structurer les données d’affiliation des publications par des PID. Nous avons alors emboîté le pas, en élargissant le cercle : le début de l’année 2024 a vu l’injection de nouveaux alignements ROR dans IdRef, pour des structures, de type unités de recherche, et plus seulement pour des établissements.

Méthodologie

Nous sommes partis du dump des données ROR, avec lequel il est plus facile de travailler qu’avec l’API. En effet, celle-ci pagine les résultats, ce qui est peu pratique pour de gros corpus de plusieurs milliers de structures. La documentation de l’API ROR est d’ailleurs claire sur ce sujet : ce n’est pas le bon point d’entrée quand on veut travailler sur de gros volumes.

Ces données ont été chargées dans un projet OpenRefine pour être manipulées. Nous avons considéré les structures dont le pays est la France, et écarté celles de type privé. Pour ce faire, les types présents dans le modèle de données étant Education, Healthcare, Company, Archive, Nonprofit, Government, Facility, Other, nous avons donc exclu le type Company et conservé tous les autres types.

Nous avons conservé les structures ayant des statuts autres que active (à savoir inactive ou withdrawn – retirée du référentiel) en les considérant comme marginales mais dignes d’intérêt, puisque IdRef possède une profondeur historique certaine.

Étape 1 : Aligner IdRef vers ROR avec Wikidata comme pivot

Nous avons identifié les structures ROR possédant un ID Wikidata, puis interrogé Wikidata pour faire remonter les IdRef connus de Wikidata. Tous les alignements proposés ont été passés en revue : nous avons pu injecter les  ROR ID dans 840 notices IdRef ainsi que, lorsqu’ils n’y étaient pas encore, les ID Wikidata.

Au passage, nous avons corrigé les données dans Wikidata pour une poignée d’entités, et avons signalé à ROR les erreurs constatées. En outre, des doublons IdRef ont trépassé à cette occasion !

Étape 2 : Aligner IdRef vers ROR à l’aide du numéro d’UMR

Nous avons observé dans le dump que certaines entités possédaient un external ID CNRS correspondant au numéro d’UMR. Cette donnée ancienne est issue de GRID. Si vous n’avez pas encore lu l’article du numéro d’Arabesques 112 consacré à ROR, voici un petit rappel : GRID était une base de données créée par la société DigitalScience en 2015. Elle a fourni le premier noyau des données de ROR, lequel s’en est définitivement émancipé en 2021. ROR a défini pour son schéma de métadonnées v2.0 une politique claire : ne mentionner que des référentiels ouverts et pour lesquels les alignements sont maintenus. Ce n’est pas le cas de cette donnée, qui est donc vouée à disparaître.

Nous pensions qu’elle pouvait cependant se révéler utile, non en tant qu’identifiant, mais pour l’apparier avec le contenu des variantes (zones A410) des notices IdRef. Cette étape, un peu fastidieuse, a permis de repérer un nombre important de corrections à signaler à ROR, probablement parce qu’il s’agissait d’entités présentes de longue date dans le registre. Elle a tout de même abouti à l’ajout de 315 ROR ID dans les notices IdRef correspondantes.

Étape 3 : Aligner IdRef vers ROR en comparant des chaînes de caractères

Voici le programme des prochaines semaines. Nous attendons la sortie officielle prochaine de la v 2.0 du schéma pour bénéficier d’une information supplémentaire qui facilitera les traitements : l’étiquette de langue sur chaque appellation.

En effet, dans le registre, de nombreuses structures de type laboratoire ont un intitulé principal en anglais : il sera ainsi plus aisé de les isoler et de rechercher dans les variantes connues la forme en français pour la comparer au point d’accès des notices IdRef.

Par ailleurs, pour faciliter les allers-retours entre les deux référentiels, deux sous-services ont été ajoutés aux webservices IdRef2id et id2IdRef : idref2ror et ror2idref. A partir d’un PPN, on peut facilement savoir si un ROR ID est présent dans la notice. A l’inverse, à partir d’un ROR ID, on peut savoir si une notice IdRef le mentionne (ou plusieurs… mais là commencent les problèmes !)

Quelques chiffres

ROR recense près de 100 000 structures, dont 3 500 structures françaises de statut public. Au printemps 2021, quand l’Abes a commencé à s’intéresser à ROR, seules 72 notices IdRef étaient pourvues d’un ROR ID. La progression en trois ans est pharaonique puisqu’au 15 mars 2024, ce sont 1 561 notices qui sont pourvues d’un ROR : un bond de géant de plus de 2000 % !

Et la vraie bonne nouvelle, c’est que cet effort, pour récent qu’il soit, est partagé.  Parmi ces notices dotées d’un ROR ID, 1 247 ont vu l’injection de cet identifiant au cours du premier trimestre 2024. L’Abes ayant aligné 1 155 nouvelles notices, le reste est à mettre au compte du réseau, qui a été particulièrement actif, avec 92 ajouts pendant ce court laps de temps. Merci à tous les « coraut » !

ROR is the new chic, à n’en pas douter

Pour terminer, et parce que c’est le printemps, un peu de poésie avec une rime suffisante : ROR et OR partageant deux phonèmes, un joli score pour si peu de lettres !

Lire aussi dans le numéro d’Arabesques 112 consacré aux Autorités et Référentiels : https://publications-prairial.fr/arabesques/index.php?id=3836

 

 

 

Continuer la lectureQuand IdRef s’aligne sur ROR, ou comment rapprocher des référentiels 

IdRef : le projet ArchéoRef Alignements (ArchéoAl) est terminé

Depuis octobre 2020, l’Abes était partenaire du projet ArchéoRef Alignement – ArchéoAl  relatif aux notices d’autorité de sites archéologiques, projet financé par CollEx-Persée et porté par l’Institut français d’archéologie orientale du Caire (Ifao). Formellement terminé depuis fin 2022, le projet a fait l’objet d’un rapport scientifique publié courant mars 2023. Au printemps 2023, l’Abes a procédé au chargement des alignements PACTOLS dans IdRef.

Dans la continuité du projet ArchéoRef …

Entre 2014 et 2016, le réseau des Écoles Françaises à l’Étranger (EFE), l’Institut français d’archéologie orientale du Caire (Ifao), l’École française d’Athènes (EFA), l’École française de Rome (EFR), l’École française d’Extrême-Orient (EFEO) et la Casa de Velázquez (CVZ) ont mené un premier projet ayant abouti à l’enrichissement de 475 notices d’autorité IdRef décrivant des sites archéologiques. Il s’agissait principalement d’ajouter des coordonnées géographiques dans les notices afin de permettre la géolocalisation des sites.

Consulter les deux billets  publiés à ce sujet sur le blog Punktokomo : ici et ici

…en exploitant la méthodologie du projet RefDivinités

En 2019-2020, l’Abes a été sollicitée par la Bibliothèque interuniversitaire de la Sorbonne et FRANTIQ, Fédération et Ressources sur l’Antiquité (GDS 3378), dans le cadre d’un autre projet CollEx-Persée : RefDivinités. Il s’agissait de travailler sur des divinités et héros du monde méditerranéen antique, décrits à la fois dans IdRef et dans PACTOLS, thésaurus de référence pour les Sciences de l’Antiquité et l’Archéologie.  Ce travail d’enrichissement et d’alignement IdRef <-> PACTOLS a porté sur 663 notices de personnes physiques.

Consulter le billet Punktokomo qui retrace les étapes de ce projet

ArchéoAl : partenaires et finalités du projet

En 2020, sous la houlette de l’Ifao, les mêmes acteurs sont lauréats d’un nouvel appel à projet Collex-Persée : ArchéoAl commence. Le projet a été mené en deux phases :

  •  au sein de chaque école, collaboration entre chercheurs et professionnels de l’IST dans l’objectif d’améliorer les notices IdRef
  • recours à un personnel recruté sur financement Collex-Persée et hébergé par Bibracte afin d’aligner IdRef au thésaurus PACTOLS porté par FRANTIQ et, ainsi, l’ouvrir à d’autres référentiels.
Continuer la lectureIdRef : le projet ArchéoRef Alignements (ArchéoAl) est terminé

IdRef : chantier qualité autour des notices d’autorité Personnes physiques de statut 1

  • Auteur/autrice de la publication :
  • Post category:IdRefSudoc

Logo Chantier Qualité IdRefL’Abes sollicite la participation des Correspondants Autorités pour enrichir des notices d’autorités beaucoup trop succintes,

Le problème et la finalité du chantier

Le chantier concerne des notices de personnes physiques Tp1, issues de chargements de notices élémentaires d’origine BnF faits il y a quelques années. Le plus souvent, elles sont réduites à un point d’accès, sans données codées, sans mention de source, liées à peu de notices bibliographiques (voire mal liées).

Notice exemple
Notice PPN 057140057 en format professionnel, sans données codées, ni 340, ni 810.

 

L’existence de ces notices d’autorité pauvres est un problème pour la qualité globale du catalogue :
– elles génèrent du bruit pour le catalogueur qui souvent, faute d’élément discriminant, ne les traite pas ;
– elles perturbent le fonctionnement des programmes automatisés, notamment d’alignement, que l’Abes a développé depuis quelques années.
L’Abes souhaite aboutir à la disparition de ces notices au profit de notices enrichies et fiabilisées, basculées en statut 5 pour acter ces améliorations.
La finalité du chantier est de faire disparaitre le statut 1 dans les notices d’autorité Personnes physiques.

Continuer la lectureIdRef : chantier qualité autour des notices d’autorité Personnes physiques de statut 1

IdRef : chantier qualité autour des notices d’autorité Collectivités pour les besoins de Mir@bel

Logo Chantier Qualité IdRef

 

L’Abes et le réseau Mir@bel s’associent pour améliorer, avec l’aide des professionnels des réseaux Sudoc et Sudoc-PS, le signalement et les métadonnées descriptives des ressources continues publiées par l’édition scientifique française.

Le contexte du chantier

L’Abes est partenaire du réseau Mir@bel dans le projet MIRABEL2022 : « Favoriser la circulation ouverte des données d’identification et de référencement des revues et éditeurs scientifiques français et leur donner une visibilité internationale (DOAJ, Sherpa/Romeo) grâce à la coopération des acteurs impliqués dans l’écosystème de l’édition », financé par le Fonds national pour la science ouverte (FNSO) pour la publication et l’édition scientifiques ouvertes.

Pour l’Abes, l’objectif du projet est d’améliorer le taux de liage entre IdRef et les données éditeurs de Mir@bel, taux qui s’élève actuellement à environ 70% pour les éditeurs français, de façon à obtenir une couverture complète pour le corpus considéré.

Continuer la lectureIdRef : chantier qualité autour des notices d’autorité Collectivités pour les besoins de Mir@bel

Un bilan enthousiasmant du premier chantier CERCLES consacré aux autorités

Ce billet fait suite à un 1er billet, paru en 2018, consacré à ce chantier lors de son lancement.

La Bibliothèque Henri-Piéron, référence pour la psychologie universitaire

Bibliothèque Henri-Piéron
BU Henri-Piéron (Bibliothèques Université de Paris)

Aujourd’hui rattachée à la Direction Générale des Bibliothèques et Musées d’Université de Paris (qui résulte de la fusion des Universités Paris Descartes et Paris Diderot), la Bibliothèque Henri-Piéron a été fondée en 1889, en Sorbonne, au sein du premier laboratoire français de psychologie. Elle est ensuite devenue celle de l’Institut de psychologie de Paris lorsqu’il fut créé par Henri Piéron en 1921.

Ainsi la bibliothèque a mis ses collections au service de la psychologie scientifique depuis la naissance même de cette discipline universitaire. En 2017,  elle est nommée “délégataire” CollEx- Persée pour les domaines de la psychologie, de la psychanalyse, des sciences cognitives et des neurosciences, sur un programme qui comprend, entre autres, la création d’un plan national de conservation partagée des périodiques (“PCPsy”) et son prolongement numérique dans Persée, ainsi qu’une campagne d’enrichissement systématique des notices d’autorité des psychologues et de leurs institutions.Savante alliance de deux dispositifs

Soucieuse de “faciliter l’accès et de favoriser l’usage des collections de bibliothèques par les chercheurs”, ce qui est l’objectif premier de CollEx-Persée, la bibliothèque Henri-Piéron souhaite avant tout travailler sur les notices d’autorité afin de renforcer la visibilité dans l’écosystème IdRef de la production scientifique en psychologie et dans les disciplines connexes. Il s’agit de corriger, d’enrichir ou de créer, le cas échéant, les notices décrivant des personnes (les chercheurs en psychologie) et des collectivités (les universités, les congrès, les laboratoires), de relier à ces autorités les notices décrivant les ressources documentaires et enfin d’enrichir d’une indexation matière de qualité les titres de périodiques en psychologie.
Pour mener ce travail dans les meilleures conditions, la bibliothèque bénéficie, dès 2018, de deux dispositifs qui vont se compléter :

Continuer la lectureUn bilan enthousiasmant du premier chantier CERCLES consacré aux autorités

Divinités et héros du monde méditerranéen antique : retour sur le projet RefDivinités

Dyonisos – Source : Européana

Il y a un an, un billet publié sur le blog Fil’Abes proposait un coup de projecteur sur le projet RefDivinités, lauréat de la 2e vague de l’appel à projets CollEx-Persée, visant à faciliter l’indexation des documents et bases de données relatifs à l’Antiquité et à rapprocher IdRef, référentiel généraliste de PACTOLS, thésaurus spécialisé en archéologie.

Sans attendre la fin du projet, ce billet présente un premier bilan des opérations menées par la Bibliothèque interuniversitaire de la Sorbonne (BIS), le traitement des données dans IdRef étant finalisé depuis fin juillet 2020.

 

Une collaboration fructueuse entre chercheurs et bibliothécaires

Au lancement du projet, 23 chercheurs/ses en Sciences de l’Antiquité, plus particulièrement spécialistes des religions du monde méditerranéen antique et de ses marges, ont été sollicités pour définir le corpus. Au-delà des divinités et héros du monde méditerranéen antique, le comité scientifique a décidé d’élargir ce corpus aux entités celtiques ou germaniques connues par des sources romaines. Par ailleurs, certaines aires civilisationnelles, sous-représentées jusqu’à présent, ont fait l’objet d’un enrichissement important comme par exemple les corpus hittite ou étrusque.

 Le comité scientifique a par ailleurs été consulté à plusieurs reprises au cours du projet pour lever des ambiguïtés au sein des deux référentiels, comme, par exemple, lorsqu’il n’existait qu’une seule notice d’autorité décrivant à tort deux personnages distincts.

Des questions de vocabulaire ont également été débattues. En effet, jusqu’à présent – et sauf éventuelles évolutions normatives, les  divinités et les héros du monde antique sont traités par les catalogueurs en tant que notices d’autorité de type  «personne» alors que les chercheurs s’accordent plus volontiers sur les termes de «puissances suprahumaines» ou de «figures». Pour autant, le cap du projet n’a pas varié. En effet, RefDivinités ne se veut pas un projet encyclopédique mais bien un projet à visée catalographique destiné à mettre à disposition des professionnels de l’information des données de référence pour une indexation fine des documents, et à optimiser leur signalement dans le Catalogue Sudoc et le Catalogue Collectif Indexé (CCI) du réseau FRANTIQ.

Continuer la lectureDivinités et héros du monde méditerranéen antique : retour sur le projet RefDivinités

Bilan des chantiers « qualité » menés dans les établissements pendant le confinement (printemps 2020)

De mars à juin 2020, la situation sanitaire liée à la pandémie de coronavirus a contraint les bibliothèques à fermer leurs portes, à généraliser le télétravail et à ré-organiser leurs services.
Cette période de confinement a placé des catalogueurs dans une situation paradoxale, avec des outils à disposition (WinIBW, Calames Prod, IdRef, Paprika…), une gamme de webservices mais peu ou pas de nouveautés à cataloguer.
L’Abes a donc proposé aux membres des réseaux Autorités, Calames et Sudoc des chantiers d’enrichissement et de correction de données existantes, en fournissant, en plus de l’accès aux outils, des conseils méthodologiques pour encadrer, coordonner et réaliser ces chantiers réalisés sur la base du volontariat.

Plus que de lutter contre le désœuvrement, il s’agissait sans doute, pour ces établissements,  volontaires et convaincus de l’intérêt de proposer un catalogue aux données de qualité, de consacrer enfin du temps à un travail d’enrichissement nécessaire, prévu de longue date mais sans cesse repoussé par manque de disponibilité.

Certains établissements se sont fait connaître sur ces chantiers : demandes de précisions, présentation de leur organisation ou de leur méthodologie, communication d’un bilan. D’autres ont œuvré dans l’ombre*.
Nous ne citons ici que quelques-uns d’entre eux, pour illustrer le travail qui s’est fait, mais l’Abes remercie et félicite tous ceux qui ont œuvré à améliorer la qualité et la structuration des données.

Voici les initiatives connues de l’Abes réalisées pendant le confinement.

Continuer la lectureBilan des chantiers « qualité » menés dans les établissements pendant le confinement (printemps 2020)

Convertisseur IdRef : toute la richesse des services Zotero au service des utilisateurs

Dorénavant, que les données proviennent du Sudoc, de theses.fr, de Persée, de la BnF, de HAL, de OATAO ou d’ORCID, l’ensemble des références bibliographiques fédérées sur les pages IdRef sont récupérables par Zotero.

Comment ça marche ?

Lors d’une navigation dans une notice d’IdRef,  les connaisseurs auront identifié au premier coup d’œil dans la barre des tâches de leur navigateur, la présence de l’icône « dossier jaune » – qui ouvre tant de possibilités à l’utilisateur de Zotero au vu de l’étendue sans cesse croissante de cet outil formidable.

Continuer la lectureConvertisseur IdRef : toute la richesse des services Zotero au service des utilisateurs

L’alignement des identifiants auteurs entre IdRef & HAL : un état des lieux

  • Auteur/autrice de la publication :
  • Post category:IdReftechno

Certaines questions récurrentes au sujet de l’alignement des identifiants auteurs – IdRef et IdHal en tête ; ORCID non loin  – dénotent, à tout le moins, un certain flou dans le paysage des identifiants au niveau national.

Pour y répondre, il faudrait rappeler et approfondir les finalités de chacun des identifiants, expliciter les orientations institutionnelles et clarifier certains ressorts techniques sous-jacents. Plus modestement, ce billet vise à actualiser les actions au long court menées par l’Abes dans le domaine des  identifiants et référentiels, actions précédemment détaillées dans un billet Punktokomo (2017).

De quelques questions récurrentes

  • Comment fonctionne l’alignement entre IdRef et HAL ?
  • Sur quels critères de correspondance se fait l’alignement entre les identifiants IdRef et IdHAL ?
  • Cet alignement génère-t-il un enrichissement automatique d’IdHAL par IdRef ?
  • Que faire s’il n’existe pas d’IdHAL ?
  • Quels sont les bénéfices attendus des alignements d’identifiants, dans HAL en particulier ?
  • Est-il prévu des transferts automatiques de références bibliographiques d’IdRef vers HAL ?
  • Quelles recommandations pour les chercheurs publiants ?

Telles sont les questions qui sont posées régulièrement à l’équipe IdRef et voici quelques éléments de réponses.

Continuer la lectureL’alignement des identifiants auteurs entre IdRef & HAL : un état des lieux

AlgoLiens web : Bordeaux Montaigne fait contre mauvaise fortune (sanitaire) bon cœur (catalographique) et propose à qui veut de lui emboîter le pas (qualitatif)

Logo Université Bordeaux MontaigneDepuis le 16 mars 2020, du fait de la pandémie du Covid-19, toutes les bibliothèques universitaires ont fermé leurs portes, les personnels étant invités à travailler depuis chez eux dans la mesure du possible. Au sein des établissements Sudoc, cette situation inédite a donné lieu au lancement de nombreux chantiers Qualité des données, bénéficiant – autant que possible – de l’accompagnement de l’Abes.

Ainsi du SCD de l’université Bordeaux Montaigne qui, dès la première semaine de confinement, a incité l’ensemble de ses catalogueurs à mener des chantiers qualité et a choisi de s’adosser sur le webservice AlgoLiens en tant qu’outil de diagnostic. Cependant, AlgoLiens n’étant pas utilisé par les catalogueurs de manière quotidienne,  il a fallu envisager soit de former les collègues à distance, soit d’engager des développements pour leur simplifier la tâche. La deuxième option a été retenue.

Ce billet écrit de concert  raconte la genèse et présente “AlgoLiens web”, service développé par Sylvain Machefert, initialement pour le propre usage du SCD de l’Université Bordeaux Montaigne, mais désormais à disposition -via le GitHub de l’Abes- des établissements Sudoc qui souhaitent l’utiliser pour leurs propres chantiers Qualité.

Continuer la lectureAlgoLiens web : Bordeaux Montaigne fait contre mauvaise fortune (sanitaire) bon cœur (catalographique) et propose à qui veut de lui emboîter le pas (qualitatif)
Aller au contenu principal