Anatomie des alignements à l’Abes (ou métaphore des chaussettes), épisode 3/3

  • Auteur/autrice de la publication :
  • Post category:IdRef

Pour conclure la mini-série initiée avec les épisodes 1 et 2, voici une petite illustration récente d’un travail d’alignement (matching) à l’Abes.   L’alignement présente quelques similarités avec cette tâche rebutante qui nous revient avec la baisse des températures[1] : la corvée de chaussettes. Retrouver à chacun sa chacune, en fonction du nombre de personnes sous votre toit, peut s’avérer extrêmement fastidieux. Il y a les homonymes (Tiens, encore une chaussette grise ?), les faux amis (même modèle mais taille différente, 31-34 et pas 27-30), les singletons (ah oui, la gauche était trouée et est devenue chiffon) et les cas d’espèces (ah, cet étrange modèle dont un pied est orné de frites et l’autre d’une bouteille de ketchup mais qui forment une paire tout de même), et même les lèche-bottes[2]. Pour vous donner une bonne excuse pour procrastiner, lisez-donc la suite (et peut-être que vous verrez l’appariement sous un autre jour).     Depuis quelques temps, nous cherchons à rapprocher les référentiels IdRef et ROR (cf injection massive d’identifiants ROR au printemps décrite dans ce billet.) Lors des mois écoulés, l’Abes a constaté, notamment lors des AbesTour, que les établissements s’emparaient du sujet de la description de leurs structures de recherche. Cela peut venir d’une politique concertée de l’établissement en matière d’identifiants, d’une attitude proactive des professionnel-les de la documentation dont la familiarité avec les référentiels est ancienne, ou encore d’une démarche liée à des préoccupations bibliométriques : ROR est l’identifiant des organisations au sein de la base OpenAlex[3] , et est en cours d’intégration pour le WebOfScience[4]. Nous supposions donc que nombre de structures de recherche françaises avaient été créées dans le ROR depuis le premier round d’alignement. Il y avait donc présomption d’un recouvrement avec IdRef, qui notamment via le signalement des thèses, comprend au sein des collectivités recensées une part non négligeable desdites structures. Le projet d’alignement allait cette fois partir de ROR pour revenir vers IdRef. Pour affiner les données d’entrée et ne prendre de ROR que les structures susceptibles de nous intéresser, voici comment nous avons procédé. Au sein d’IdRef, les établissements ayant une habilitation à délivrer le doctorat (passée ou actuelle) ont été « étiquetés » au moyen d’une zone A686. En filtrant sur ceux vivants, on récupère une liste, dont on conserve uniquement les identifiants ROR en A035. Par interrogation de l’API de ROR, on va récupérer les organisations qui ont le type de lien « child » avec ces institutions. On écarte les unités déjà alignées, en utilisant le microwebservice ROR2idref[5]. Les données d’entrée consistent donc en un jeu de métadonnées issues de l’API de ROR et décrivant les « enfants » des établissements, donc principalement des unités de recherche. Une unité pouvant avoir plusieurs tutelles, et donc être « enfant » de plusieurs « parents », le nombre dédoublonné d’unités à aligner n’est que de 685 (sur 1225 résultats). La stratégie d’alignement va porter sur l’appariement de ces unités avec IdRef. On va utiliser la chaîne de caractères du libellé ROR (label) et leur ville de localisation. Ces paramètres (distincts et/ou couplés) sont…

Continuer la lectureAnatomie des alignements à l’Abes (ou métaphore des chaussettes), épisode 3/3

Anatomie (pathologique) des alignements, épisode 2/3

  • Auteur/autrice de la publication :
  • Post category:IdRef

Ce billet, à la suite du précédent, vise à partager via l’explicitation et la traduction les quatre billets co-publiés par les blogs de ROR et CrossRef au sujet de l’alignement (matching). Ce deuxième volet démolit les mythes et introduit la question de l’évaluation des stratégies d’alignement. Billets originaux : The Myth of Perfect Metadata Matching  et How Good Is Your Matching? Reconnaître les fausses croyances Le problème avec ces perceptions faussées, c’est qu’elles ne permettent pas d’avoir une idée réaliste de ce qu’on peut attendre d’un processus d’alignement. Parmi les problèmes qu’elles attirent, se trouvent surtout des attentes démesurées, ou la sous-estimation du temps et du travail nécessaire pour le mener à bien.     Premier espoir déçu : une stratégie doit être 100% correcte Hélas la perfection n’est pas de ce monde. Bien que ce soit évidemment l’idéal vers lequel on tend, la pratique des alignements nous fait rapidement entrevoir pourquoi ça n’est pas possible. Tout d’abord, parce que lorsqu’on a en entrée des données non structurées, donc des chaînes de caractères, elles ont été produites et pensées par des êtres humains. Divers. Faillibles. Mais aussi dotés, outre d’une imagination sans limite pour les fantaisies orthographiques, d’une capacité d’inférence liée au contexte, qui fait qu’elles rétablissent d’emblée, à partir de chaînes variables, le sens attendu. Pour mener un alignement via des machines, il faut trouver comment expliciter toutes ces opérations mentales de structuration, d’appariement, de développement d’acronymes ou d’abréviations, de distinctions d’homonymes, pour qu’elles puissent être systématisées et reproduites. Reprenons l’exemple du billet originel qui donne cette liste de données d’entrées : 1. "Department of Radiology, St. Mary's Hospital, London W2 1NY, UK" 2. "Saint Mary's Hospital, Manchester University NHS Foundation Trust" 3. "St. Mary's Medical Center, San Francisco, CA" 4. "St Mary's Hosp., Dublin" 5. "St Mary's Hospital Imperial College Healthcare NHS Trust" 6. "聖マリア病院"   Parmi ces chaînes de caractères, il va falloir objectiver les critères qui permettent de débrouiller plusieurs situations non triviales ! Une même organisation peut posséder plusieurs noms (variantes : Saint Mary’s Hospital / St Mary’s hospital / St. Mary’s Hosp.) Le nom d’une institution peut être utilisé dans des langues différentes (traduction : la ligne 6 “聖マリア病院” est la traduction en japonais de “St. Mary’s Hospital”) Plusieurs organisations sont homonymes, c’est-à-dire ont en commun au moins une partie de leur nom, alors qu’elles sont bien distinctes (il y a des Marie très saintes un peu partout ici) La dénomination géographique peut être fonction du contexte, et s’avérer insuffisamment précise au sein d’un jeu de données (parle-t-on de Dublin, la capitale de l’Irlande, de Dublin, Ohio aux Etats-Unis[1] ?) Une organisation peut faire partie d’une autre (enchâssement : le St. Mary’s Hospital de Londres appartient à l’Imperial College Healthcare NHS Trust par exemple, et ce savoir est extérieur au jeu de données lui-même) Méditons sur ce principe jamais démenti : “In real world circumstances, no dataset is fully accurate, complete, or current and certainly not all three.”  Que l’on pourrait traduire par « les métadonnées d’entrées avec lesquelles nous travaillons…

Continuer la lectureAnatomie (pathologique) des alignements, épisode 2/3

Anatomie des alignements, épisode 1/3

  • Auteur/autrice de la publication :
  • Post category:IdRef

Entre mai et novembre 2024, une série de billets ont été publiés conjointement sur les blogs de ROR et de Crossref par Adam Buttrick et Dominika Tkaczyk (Si vous avez un doute sur ce qu’est le ROR, pour Research Organizations Registry, allez réviser sur ce précédent billet Punktokomo.) Ils traitent d’un enjeu qui est à la fois central et quotidien pour le service Autorités et Référentiels de l’Abes : l’alignement. En anglais, on parle de matching. Voyons comment ces collègues qui travaillent eux aussi toute la journée sur des métadonnées situent les choses, quel vocabulaire elles et ils emploient, vers quoi tendre et sur quels os on peut tomber. Billets originaux : Metadata Matching , what is it and why do we need it ? et The Anatomy of Metadata matching Qu'est-ce que sont les alignements ? L’alignement, pour des métadonnées, a pour objectif de rapprocher des sources pour apparier des entités (dans les cas qui nous occupent à l’Abes, des personnes physiques et/ou des organisations) qui sont considérées comme identiques. On se lance dans des travaux d’alignement quand on sait, ou du moins qu’on suspecte, que deux sources de données parlent des mêmes choses. Par exemple, quand on entreprend d’aligner un annuaire des personnels d’une université vers IdRef, on suppose que les chercheuses, enseignantes-chercheuses, ingénieures[1] de recherche, etc. qui travaillent dans cette université ont probablement déjà une notice descriptive dans IdRef, car elles ont des rôles bibliographiques dans des documents signalés dans les gisements documentaires associés, comme le Sudoc et les thèses. Tout alignement commence donc par le présupposé d’un recouvrement.     Par ailleurs, pour ne pas mélanger les torchons et les serviettes, on ne se lance dans un alignement qu’en supposant aussi que la définition des entités qu’on veut apparier est suffisamment proche. Quand il s’agit de personnes physiques, c’est assez simple : chaque être humain est unique, et ne naît et ne meurt qu’une fois. La définition de base est la même. Une personne pourrait être décrite par plusieurs notices IdRef ou par plusieurs entrées dans un annuaire, mais alors, c’est un doublon : parce qu’on suppose l’unicité de chaque entité et un accord sur la définition de l’identité. Pour les collectivités, vous vous en doutez, c’est toujours un peu plus tordu, mais on y reviendra. Pourquoi aligner ? Voici la définition donnée dans le premier billet : “Matching in general can be defined as the task or process of finding an identifier for an item based on its structured or unstructured description.“ En français, on pourrait dire qu’il s’agit de l’appariement d’un élément décrit de manière plus ou moins structure avec un identifiant au sein d’un référentiel-cible. Les alignements sont un chemin qui mèneraient au Graal (des bibliothécaires, et surtout des bibliomètres) qu’est la description complète du research nexus, c’est-à-dire du graphe de la recherche, qui décrit toutes les relations existantes entre les personnes, les organisations, les publications, les données, les financements, les projets, etc. Ces relations permettent d’inscrire toutes les entités dans un contexte, une constellation de points qui…

Continuer la lectureAnatomie des alignements, épisode 1/3

Repères, Mir@bel et l’Abes : coopérer pour améliorer la visibilité des revues Diamant (2/2)

  • Auteur/autrice de la publication :
  • Post category:Sudoc PS

Ce billet est le second d’une série en deux volets présentant une coopération fructueuse entre Repères, Mir@bel et l’Abes (voir le billet n° 1). Mir@bel2022 : vers un référentiel partagé pour les structures éditoriales Sous l'égide du Comité pour la science ouverte, Mir@bel a pour mission de collecter les données relatives aux politiques de diffusion des revues scientifiques et des éditeurs français. Ce travail assure l’intégration de ces informations dans sa base de connaissances et leur diffusion dans la base  Sherpa Romeo. Le projet Mir@bel2022 contribue pleinement à cette mission en s’organisant autour de deux axes, dont l’un consiste à fédérer  les partenaires du projet autour d’un référentiel partagé des structures éditoriales produisant les revues scientifiques françaises.. Comme point de départ, Mir@bel dispose déjà une base de données regroupant les éditeurs associés aux revues référencées. Cette base recense principalement les éditeurs responsables de la publication et/ou diffusion des revues, mais inclut également ceux impliqués dans leur conception et rédaction. Les données collectées sont variées et distinctives : en plus des éléments d’identification standard, elles comportent souvent des liens URL vers leurs sites internet et réseaux sociaux. L’adoption d’un mode de description partagé de ces données implique leur alignement autour d’un identifiant commun pour tous les éditeurs concernés. C'est la base IdRef, gérée par l’Abes, qui a été retenue pour jouer ce rôle de référentiel pivot. Conforme aux principes FAIR, IdRef dispose actuellement de la couverture la plus étendue en France. Au delà de l’identification univoque des individus, des structures, des autorités Rameau et de leur interconnexion à d’autres entités, IdRef est aligné sur de nombreuses bases d’identifiants. De plus, son modèle de production de contenus se rapproche de celui de Mir@bel. La gestion dynamique du modèle Mir@bel au sein des 136 partenaires du réseau a favorisé diverses convergences, que ce soit par l’ajout de dates dans le modèle initial ou par la normalisation des informations d’éditeurs . Ainsi, IdRef et Mir@bel fonctionnent comme des bases complémentaires, alimentées d’une part par des experts des bibliothèques et de la recherche, et d’autre part par des spécialistes de l’édition et de la documentation. Ces deux réseaux bénéficient du travail de complétion, d’alignement et de curation réalisé par des communautés aux compétences complémentaires. Les deux réseaux bénéficient ainsi du travail de complétion, d’alignement et de curation réalisé par des communautés complémentaires. Faire converger les données d’éditeurs à l’aide d’IdRef Dès janvier 2021, cet objectif prend corps et des travaux de rapprochement entre les données éditeurs de Mir@bel et d’IdRef débutent. Après une première phase de comparaison des données présentes dans les deux outils, s’ensuit pour Mir@bel un important travail d’analyse, de correction et de préparation des données. Les données éditeurs sont fiabilisées, notamment les éléments sur leur localisation géographique ou leur intitulé ; des règles sur les changements de noms et de périmètres sont adoptées pour permettre des dédoublonnages. De même, des consignes actualisées de création sont adressées au réseau Mir@bel, l’ensemble des opérations visant à importer en masse des IdRef en vue de…

Continuer la lectureRepères, Mir@bel et l’Abes : coopérer pour améliorer la visibilité des revues Diamant (2/2)

Repères, Mir@bel et l’Abes : une coopération fructueuse pour améliorer la visibilité des revues Diamant (1/2)

  • Auteur/autrice de la publication :
  • Post category:Sudoc PS

Ce billet est le premier d'une série de deux billets présentant les résultats d'une coopération fructueuse entre Repères, Mir@bel et l’Abes (1/2) Dans le cadre du projet FNSO Mir@bel2022, un ensemble d’actions sont menées pour améliorer le signalement et la visibilité des revues scientifiques françaises et de leurs éditeurs, au sein de Mir@bel et à l’international vers le DOAJ (Directory of Open Access Journals). Ces actions s’organisent sur la base du travail fédéré de quatorze partenaires - dont le réseau Repères et l’Abes - impliqués dans l’écosystème de l’édition et du référencement et illustrent une action transversale forte pour l’amélioration partagée des données et la visibilité des revues. Le référencement des revues hébergées par les pépinières de revues du réseau Repères et de leurs éditeurs dans Mir@bel, ainsi que les développements qui en ont résulté avec la contribution de l’Abes, constituent un exemple concret de cette coopération fructueuse. Les grappes de revues, un outil dynamique pour créer des corpus de revues Dans le cadre du partenariat avec le réseau Repères, Mir@bel a pu déployer la fonctionnalité des grappes, qui permet la création de listes ou corpus de revues pouvant être explorés à travers des fonctionnalités de recherche avancée. Si, pour l’heure, les grappes disponibles sont liées à des projets menés au sein de Mir@bel, les partenaires pourront prochainement créer eux-mêmes leurs corpus, ce qui permettra de valoriser les listes de revues de leur choix (comme celles éditées par leur établissement, disponibles dans leur fonds ou d’un site géographique, etc.) ou de créer des listes de revues liées à des projets de recherche. Ces corpus peuvent être constitués à partir d’imports massifs de données (tableur) ou à travers les résultats d’une recherche avancée dans Mir@bel. Les grappes de revues peuvent être statiques ou dynamiques. Dans le premier cas, la liste est figée et les gestionnaires de la grappe peuvent ajouter ou retirer des titres manuellement. Dans le second cas, la grappe s’actualise automatiquement dès lors qu’une nouvelle revue répond aux critères établis à la création du corpus. La constitution d’une grappe pour les pépinières du réseau Repères a nécessité un travail commun entre Repères et Mir@bel. En exportant les données de l’API de Mir@bel et en les croisant avec les connaissances accumulées par les pépinières au sein du réseau Repères - une pépinière correspondant à une ressource dans Mir@bel, les ressources absentes et les revues non référencées sur le site ont pu être identifiées. Ensuite, il a suffi de compléter les données et, finalement, de récupérer les résultats de la recherche avancée correspondant à ce corpus de revues. Il est désormais possible d’effectuer des recherches ciblées sur ce corpus et de l’exploiter. Pour maintenir la grappe Repères, chaque pépinière veille à sa ressource et s’engage à mettre à jour les informations de ses revues, ce  avec l’aide de la personne en charge de la coordination de Repères qui propose un appui et une interface facilitante à l’équipe de Mir@bel. Actuellement, la grappe de revues est composée de 177 revues en accès…

Continuer la lectureRepères, Mir@bel et l’Abes : une coopération fructueuse pour améliorer la visibilité des revues Diamant (1/2)

Synchronisation entre les SGB et le Sudoc pour les exemplaires de ressources électroniques

  • Auteur/autrice de la publication :
  • Post category:Non classé

Rappel du contexte Dans le cadre du projet SGBm, un nouveau mode de coopération entre les établissements pilotes et l’Abes a été initié, basé sur un travail collaboratif dans l’intérêt des établissements, une coopération qui s’est prolongée jusqu’en 2020. Pour…

Continuer la lectureSynchronisation entre les SGB et le Sudoc pour les exemplaires de ressources électroniques

CERCLES : lancement d’un nouveau chantier sur le corpus Arte Vidéo Campus par le SCDI de Montpellier

  • Auteur/autrice de la publication :
  • Post category:Sudoc

En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner, aider et valoriser un établissement souhaitant s’investir sur l’enrichissement des données d’un corpus de documents spécifique. En 2024, un nouveau corpus de ressources électroniques…

Continuer la lectureCERCLES : lancement d’un nouveau chantier sur le corpus Arte Vidéo Campus par le SCDI de Montpellier

Bilan du chantier Qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet3

  • Auteur/autrice de la publication :
  • Post category:IdRefSudoc

Troisième d’une série de 3 billets dressant le bilan du chantier de traitement des notices d’autorité Personnes physiques en statut 1  (dites notices Tp1), ce billet  présente  la dernière phase du chantier, menée de novembre 2022 au 21 mars 2024,…

Continuer la lectureBilan du chantier Qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet3
Aller au contenu principal