Anatomie des alignements à l’Abes (ou métaphore des chaussettes), épisode 3/3

  • Auteur/autrice de la publication :
  • Post category:IdRef

Pour conclure la mini-série initiée avec les épisodes 1 et 2, voici une petite illustration récente d’un travail d’alignement (matching) à l’Abes.

5 paires de chaussettes épinglées sur une corde à linge
Illustration : Christian Fickinger (sur unsplash.com)

 

L’alignement présente quelques similarités avec cette tâche rebutante qui nous revient avec la baisse des températures[1] : la corvée de chaussettes. Retrouver à chacun sa chacune, en fonction du nombre de personnes sous votre toit, peut s’avérer extrêmement fastidieux. Il y a les homonymes (Tiens, encore une chaussette grise ?), les faux amis (même modèle mais taille différente, 31-34 et pas 27-30), les singletons (ah oui, la gauche était trouée et est devenue chiffon) et les cas d’espèces (ah, cet étrange modèle dont un pied est orné de frites et l’autre d’une bouteille de ketchup mais qui forment une paire tout de même), et même les lèche-bottes[2]. Pour vous donner une bonne excuse pour procrastiner, lisez-donc la suite (et peut-être que vous verrez l’appariement sous un autre jour).

 

 

Depuis quelques temps, nous cherchons à rapprocher les référentiels IdRef et ROR (cf injection massive d’identifiants ROR au printemps décrite dans ce billet.) Lors des mois écoulés, l’Abes a constaté, notamment lors des AbesTour, que les établissements s’emparaient du sujet de la description de leurs structures de recherche. Cela peut venir d’une politique concertée de l’établissement en matière d’identifiants, d’une attitude proactive des professionnel-les de la documentation dont la familiarité avec les référentiels est ancienne, ou encore d’une démarche liée à des préoccupations bibliométriques : ROR est l’identifiant des organisations au sein de la base OpenAlex[3] , et est en cours d’intégration pour le WebOfScience[4].

Nous supposions donc que nombre de structures de recherche françaises avaient été créées dans le ROR depuis le premier round d’alignement. Il y avait donc présomption d’un recouvrement avec IdRef, qui notamment via le signalement des thèses, comprend au sein des collectivités recensées une part non négligeable desdites structures. Le projet d’alignement allait cette fois partir de ROR pour revenir vers IdRef. Pour affiner les données d’entrée et ne prendre de ROR que les structures susceptibles de nous intéresser, voici comment nous avons procédé.

Au sein d’IdRef, les établissements ayant une habilitation à délivrer le doctorat (passée ou actuelle) ont été « étiquetés » au moyen d’une zone A686. En filtrant sur ceux vivants, on récupère une liste, dont on conserve uniquement les identifiants ROR en A035. Par interrogation de l’API de ROR, on va récupérer les organisations qui ont le type de lien « child » avec ces institutions. On écarte les unités déjà alignées, en utilisant le microwebservice ROR2idref[5]. Les données d’entrée consistent donc en un jeu de métadonnées issues de l’API de ROR et décrivant les « enfants » des établissements, donc principalement des unités de recherche. Une unité pouvant avoir plusieurs tutelles, et donc être « enfant » de plusieurs « parents », le nombre dédoublonné d’unités à aligner n’est que de 685 (sur 1225 résultats).

La stratégie d’alignement va porter sur l’appariement de ces unités avec IdRef. On va utiliser la chaîne de caractères du libellé ROR (label) et leur ville de localisation. Ces paramètres (distincts et/ou couplés) sont envoyés via des requêtes SolR, qui permettent d’aller comparer avec toutes les variantes présentes dans la notice d’autorité IdRef. En combinant les approches, on arrive à 385 propositions d’alignement.

Pour évaluer la fiabilité de ces propositions, on va comparer l’intitulé IdRef (point d’accès) avec l’intitulé ROR (ROR-display label), sans prendre en compte les variantes, et leur attribuer un score à l’aide de 2 méthodes de comparaison de chaînes de caractères, la distance de Jaro-Winkler (JW)[6] et la distance de Lewenshtein (LV)[7]. Ces méthodes fournissent des métriques sous forme de scores, qui s’échelonnent entre 0 (pas de ressemblance) et 1 (ressemblance parfaite). On va considérer comme alignement sûrs les scores supérieurs à 0.8, car on sait que le point d’accès IdRef peut (devrait, même…) contenir un qualificatif de lieu et un qualificatif de dates, et que ces informations ne font pas partie du label ROR. Les scores entre 0,4 et 0,8 sont examinés manuellement et parmi les propositions, 5 sont rejetées, toutes les autres sont acceptées. Les propositions avec des scores entre 0,7 et 0,8 (au nombre de 18) sont toutes acceptées, mais comme nous avons noté que les propositions rejetées n’avaient pas les scores les plus bas (au contraire : entre 0,58 et 0,68 JW, et entre 0,43 et 0,67 LV.) cela montre bien qu’il est nécessaire de garder une vigilance sur cette zone. Les propositions rejetées le sont principalement lorsque des intitulés IdRef pour des équipes internes reprennent in extenso le nom de leur laboratoire chapeau : c’est donc un problème d’enchâssement des organisations.

Résultat : au total 379 nouveaux ROR tout beaux tout brillants pour décorer le sapin d’IdRef… en attendant les autres, qui pourront être glanés par de nouvelles méthodes, pour l’an prochain !

Carole Melzac
Service Autorités et Référentiels
Abes

[1] Parce qu’à Montpellier, évidemment, on vit tongs aux pieds d’avril à octobre.

[2] https://openbiblio.social/@PIDNetworkDE/112598851524209276

[3] https://docs.openalex.org/api-entities/institutions

[4] https://clarivate.com/academia-government/release-notes/web-of-science/web-of-science-november-7-2024-release-notes/

[5] Documenté ici : https://documentation.abes.fr/aideidrefdeveloppeur/index.html#MicroWebServiceId2idref

[6] Pour en savoir plus,  cf https://fr.wikipedia.org/wiki/Distance_de_Jaro-Winkler

[7] Pour en savoir plus, cf https://fr.wikipedia.org/wiki/Distance_de_Levenshtein

Continuer la lectureAnatomie des alignements à l’Abes (ou métaphore des chaussettes), épisode 3/3

Anatomie (pathologique) des alignements, épisode 2/3

  • Auteur/autrice de la publication :
  • Post category:IdRef

Ce billet, à la suite du précédent, vise à partager via l’explicitation et la traduction les quatre billets co-publiés par les blogs de ROR et CrossRef au sujet de l’alignement (matching). Ce deuxième volet démolit les mythes et introduit la question de l’évaluation des stratégies d’alignement.
Billets originaux : The Myth of Perfect Metadata Matching  et How Good Is Your Matching?

Une longue route bordée de cyprès
Illustration : Sixième Rêve (unsplash.com)

Reconnaître les fausses croyances

Le problème avec ces perceptions faussées, c’est qu’elles ne permettent pas d’avoir une idée réaliste de ce qu’on peut attendre d’un processus d’alignement.

Parmi les problèmes qu’elles attirent, se trouvent surtout des attentes démesurées, ou la sous-estimation du temps et du travail nécessaire pour le mener à bien.

 

 

Premier espoir déçu : une stratégie doit être 100% correcte

Hélas la perfection n’est pas de ce monde. Bien que ce soit évidemment l’idéal vers lequel on tend, la pratique des alignements nous fait rapidement entrevoir pourquoi ça n’est pas possible. Tout d’abord, parce que lorsqu’on a en entrée des données non structurées, donc des chaînes de caractères, elles ont été produites et pensées par des êtres humains. Divers. Faillibles. Mais aussi dotés, outre d’une imagination sans limite pour les fantaisies orthographiques, d’une capacité d’inférence liée au contexte, qui fait qu’elles rétablissent d’emblée, à partir de chaînes variables, le sens attendu. Pour mener un alignement via des machines, il faut trouver comment expliciter toutes ces opérations mentales de structuration, d’appariement, de développement d’acronymes ou d’abréviations, de distinctions d’homonymes, pour qu’elles puissent être systématisées et reproduites.

Reprenons l’exemple du billet originel qui donne cette liste de données d’entrées :

1. « Department of Radiology, St. Mary’s Hospital, London W2 1NY, UK »

2. « Saint Mary’s Hospital, Manchester University NHS Foundation Trust »

3. « St. Mary’s Medical Center, San Francisco, CA »

4. « St Mary’s Hosp., Dublin »

5. « St Mary’s Hospital Imperial College Healthcare NHS Trust »

6. « 聖マリア病院 »

 

Parmi ces chaînes de caractères, il va falloir objectiver les critères qui permettent de débrouiller plusieurs situations non triviales !

  • Une même organisation peut posséder plusieurs noms (variantes : Saint Mary’s Hospital / St Mary’s hospital / St. Mary’s Hosp.)
  • Le nom d’une institution peut être utilisé dans des langues différentes (traduction : la ligne 6 “聖マリア病院” est la traduction en japonais de “St. Mary’s Hospital”)
  • Plusieurs organisations sont homonymes, c’est-à-dire ont en commun au moins une partie de leur nom, alors qu’elles sont bien distinctes (il y a des Marie très saintes un peu partout ici)
  • La dénomination géographique peut être fonction du contexte, et s’avérer insuffisamment précise au sein d’un jeu de données (parle-t-on de Dublin, la capitale de l’Irlande, de Dublin, Ohio aux Etats-Unis[1] ?)
  • Une organisation peut faire partie d’une autre (enchâssement : le St. Mary’s Hospital de Londres appartient à l’Imperial College Healthcare NHS Trust par exemple, et ce savoir est extérieur au jeu de données lui-même)

Méditons sur ce principe jamais démenti : “In real world circumstances, no dataset is fully accurate, complete, or current and certainly not all three.”  Que l’on pourrait traduire par « les métadonnées d’entrées avec lesquelles nous travaillons ne sont jamais toutes à la fois correctes, complètes et à jour. »  La connaissance de la signification et du contexte de toutes les chaînes de caractères qui composent le set de données n’existe pas : il y aura donc, dans le fatras de notre réalité, toujours des surprises, de l’inattendu, de l’incompréhensible, des ratés.

Deuxième désillusion : c’est toujours une bonne idée d’adapter la stratégie à la spécificité des données d’entrées

Les stratégies d’alignements ne sont donc pas parfaites. C’est donc qu’elles peuvent être améliorées ! Hum… C’est là que réside le second piège. Lorsqu’en parcourant les résultats, on rencontre un alignement erroné ou manquant, la tentation est grande de considérer ce cas un peu comme un bug logiciel, et de vouloir adapter la stratégie pour qu’elle fournisse un résultat plus enthousiasmant. Sur ce cas au moins. Mais sans forcément penser à tous les autres… Or, en réalité, la stratégie d’alignement va toujours naviguer entre deux pôles, précision (precision) et rappel (recall). Que signifient ces deux métriques ?

La précision est la mesure obtenue en divisant le nombre d’alignements corrects obtenus par le nombre total d’alignements réalisés. On peut l’interpréter comme la probabilité qu’un alignement fourni soit correct. Si la précision est faible, alors on se retrouve avec un grand nombre de faux positifs (false positive), c’est-à-dire que beaucoup d’alignements ont été proposés mais ne sont pas justes.

Le rappel est la métrique obtenue en divisant le nombre d’alignement corrects proposés par rapport au nombre d’alignements attendus. C’est donc la probabilité qu’un alignement soit créé. Un faible niveau de rappel signifie qu’on se retrouve avec beaucoup de faux négatifs (false négatives), c’est-à-dire que dans beaucoup de cas, aucun candidat à l’alignement n’a été proposé.

Le schéma ci-dessous résume la situation :

schéma

On cherche évidemment à ce que les deux ellipses, les paires correctes (true relationships) et les paires proposées (matched relationships) se recouvrent le plus possible.

Si une stratégie est très stricte, elle aura tendance à passer à côté d’alignements possibles, pour ne proposer que peu de paires, mais majoritairement correctes. On peut songer à l’amélioration en assouplissant des critères, mais alors on se retrouve avec certes davantage de paires, la probabilité que celles-ci soient correcte s’amenuise. Tout alignement est affaire de subtil dosage entre ces deux aspects, ce qui s’avère épineux quand les données d’entrée sont très hétérogènes. Une stratégie qui serait parfaitement adaptée à un cas précis (par exemple, la distinction des homonymes) amène le risque d’être … inadaptée au cas suivant (par exemple, la prise en compte des enchâssements institutionnels).

Troisième ornière : l’alignement sans regard humain, à grande échelle, c’est trop dangereux

Si la précision ne peut jamais être parfaite, n’est-ce pas être conséquent que de s’abstenir d’utiliser des stratégies d’alignement de manière automatique ? Certes. Et pourtant. Dans le domaine des métadonnées décrivant les productions de recherche, il est assez probable que la qualité intrinsèque des données ne soit pas parfaite au départ. Proposer un alignement non supervisé vers des identifiants, est-ce vraiment faire porter un risque substantiel de dégrader la qualité desdites données ? Au contraire, serait-on tenté de répondre. Travailler les métadonnées, les mettre en mouvement et exposer largement le résultat de ce travail, c’est offrir une bonne occasion de regarder la poussière cachée sous le tapis, plus ou moins consciemment et depuis plus ou moins longtemps. Cela nécessite de prévoir des circuits de recueil d’information (feedback) et d’amélioration des données.[2] Enfin, les bonnes pratiques consistent évidemment à sourcer et signaler les alignements créés sans supervision : ainsi, les personnes qui ré-utilisent ces données savent à quoi s’en tenir, et peuvent toujours choisir de ne pas prendre en considération ce qu’elles n’estiment pas assez digne de confiance.

Quatrième erreur : on ne peut évaluer le résultat qu’au doigt mouillé

Tant de limites s’imposent à nous : les données sont hétérogènes au sein d’un jeu de données, et d’un jeu à un autre. Les cas que nous pensons pouvoir traiter correctement sont-ils majoritaires ? N’en avons-nous pas oublié d’autres ? Enfin, nous voilà devant un questionnement parfaitement kantien : Que devons-nous faire ? Et que nous est-il permis d’espérer ?[3]

Il est possible et souhaitable d’évaluer une stratégie d’alignement. On peut distinguer 4 étapes majeures :

  1. Préparer un échantillon représentatif des données d’entrée, sur lequel on assigne manuellement le résultat attendu de l’opération
  2. Faire jouer la stratégie d’alignement sur tout le corpus des données d’entrée
  3. Comparer les résultats obtenus avec les résultats attendus
  4. Documenter ces résultats à l’aide de métriques.

La constitution d’un échantillon est donc le point de départ. On le souhaite robuste (donc d’une taille acceptable, qui dépend de celle du corpus total) et crédible (issu des vraies données telles qu’elles se présentent en entrée.)

Les métriques vont nous permettre de résumer les résultats de l’évaluation de manière chiffrée : cela permet d’estimer la pertinence de notre stratégie d’alignement, et surtout de pouvoir comparer plusieurs stratégies entre elles. Les métriques, pour donner une image fidèle, doivent pouvoir se combiner. Nous allons voir pourquoi.

La première métrique que l’on peut utiliser, c’est l’exactitude (accuracy), c’est-à-dire la proximité des résultats avec les valeurs correctes. Mais elle ne suffira jamais seule, car comme nous allons le voir à partir du tableau ci-dessous, elle a le tort de noyer le poisson.

Si l’on veut comparer les stratégies 1 et 2 à partir des trois cas du tableau, on se rend compte qu’elles partagent la même métrique d’exactitude : 0,67. En effet, sur les trois cas proposés, chaque stratégie opte pour le bon résultat deux fois sur trois. Mais l’exactitude manque de nuances. Nous avons vu plus tôt que les notions de précision et de rappel permettent d’illustrer plus finement le comportement d’une stratégie. Dans le cas ci-dessus, la stratégie 1 a un taux de rappel (0,5) identique à la stratégie 2, mais elles diffèrent quant à la précision : la stratégie 2 a une métrique de précision de 1,0 (à chaque fois qu’une paire a été proposée, elle est correcte) alors que la stratégie 1 n’a une précision que de 0,5 (la moitié de ses propositions sont justes).

On peut enfin combiner précision et rappel dans une métrique qu’on appelle F-mesure (F-score). Le but est d’évaluer les prédictions pertinentes (bonne précision) en suffisamment grand nombre (bon rappel) sur les données d’entrée. Tout comme la précision et le rappel, la F-mesure varie de 0 (plus mauvaise valeur) à 1 (meilleure valeur possible).[4] Elle peut pondérer le rappel et la précision soit à égalité (F1), soit en donnant prééminence à l’un (F0.5 valorise la précision, alors que F2 valorise le rappel).

À l’échelle d’un jeu de données complet, on suppose donc que la stratégie 1 produira davantage de faux positifs, et la stratégie 2 davantage de faux négatifs. C’est le cas d’usage qui décidera de l’orientation souhaitable. Par exemple, si l’on ne dispose que de peu de temps humain disponible, on peut s’orienter vers le choix de la fiabilité. Au contraire, si l’alignement est conçu comme une proposition à valider ou invalider par une personne, il peut apparaître plus avisé d’avoir un peu de bruit que du silence.

Lectrices, lecteurs, êtes-vous curieux de la manière dont on procède à l’Abes ? Le troisième et dernier billet de cette série est pour vous !

Carole Melzac
Service Autorités et Référentiels
Abes

[1] Dublin est un nom d’une bonne vingtaine des villes dispersées dans plusieurs pays, comme en atteste la page d’homonymie de Wikipédia https://en.wikipedia.org/wiki/Dublin_(disambiguation)

[2] C’est exactement ce que fait ROR avec le formulaire de proposition d’amélioration des données ouvert à toutes et à tous. Par ailleurs, on peut citer un parangon du genre, WorksMagnet , outil développé par le SIES du MESR pour identifier les erreurs d’alignements de structures vers le ROR dans les données d’OpenAlex. Pour en savoir plus, voir le Poster réalisé par l’Université de Lorraine et le MESR

[3] Quant à « Que pouvons-nous connaître ? », si vous arrivez au bout de cette série de billets, considérons que vous en saurez assez long sur ce que sont les alignements pour briller au prochain cocktail des Journées Abes.

[4] Cf https://fr.wikipedia.org/wiki/F-mesure

Continuer la lectureAnatomie (pathologique) des alignements, épisode 2/3

Anatomie des alignements, épisode 1/3

  • Auteur/autrice de la publication :
  • Post category:IdRef

Entre mai et novembre 2024, une série de billets ont été publiés conjointement sur les blogs de ROR et de Crossref par Adam Buttrick et Dominika Tkaczyk (Si vous avez un doute sur ce qu’est le ROR, pour Research Organizations Registry, allez réviser sur ce précédent billet Punktokomo.) Ils traitent d’un enjeu qui est à la fois central et quotidien pour le service Autorités et Référentiels de l’Abes : l’alignement. En anglais, on parle de matching.
Voyons comment ces collègues qui travaillent eux aussi toute la journée sur des métadonnées situent les choses, quel vocabulaire elles et ils emploient, vers quoi tendre et sur quels os on peut tomber.
Billets originaux : Metadata Matching , what is it and why do we need it ? et The Anatomy of Metadata matching

Qu’est-ce que sont les alignements ?

photo de roches grises alignées dans un champ d'herbe
« Formation rocheuse grise sur un champ d’herbe verte sous des nuages blancs pendant la journée »
par Johanneke Kroesbergen-Kamps

L’alignement, pour des métadonnées, a pour objectif de rapprocher des sources pour apparier des entités (dans les cas qui nous occupent à l’Abes, des personnes physiques et/ou des organisations) qui sont considérées comme identiques.

On se lance dans des travaux d’alignement quand on sait, ou du moins qu’on suspecte, que deux sources de données parlent des mêmes choses. Par exemple, quand on entreprend d’aligner un annuaire des personnels d’une université vers IdRef, on suppose que les chercheuses, enseignantes-chercheuses, ingénieures[1] de recherche, etc. qui travaillent dans cette université ont probablement déjà une notice descriptive dans IdRef, car elles ont des rôles bibliographiques dans des documents signalés dans les gisements documentaires associés, comme le Sudoc et les thèses. Tout alignement commence donc par le présupposé d’un recouvrement.

 

 

Par ailleurs, pour ne pas mélanger les torchons et les serviettes, on ne se lance dans un alignement qu’en supposant aussi que la définition des entités qu’on veut apparier est suffisamment proche. Quand il s’agit de personnes physiques, c’est assez simple : chaque être humain est unique, et ne naît et ne meurt qu’une fois. La définition de base est la même. Une personne pourrait être décrite par plusieurs notices IdRef ou par plusieurs entrées dans un annuaire, mais alors, c’est un doublon : parce qu’on suppose l’unicité de chaque entité et un accord sur la définition de l’identité. Pour les collectivités, vous vous en doutez, c’est toujours un peu plus tordu, mais on y reviendra.

Pourquoi aligner ?

Voici la définition donnée dans le premier billet : “Matching in general can be defined as the task or process of finding an identifier for an item based on its structured or unstructured description.“ En français, on pourrait dire qu’il s’agit de l’appariement d’un élément décrit de manière plus ou moins structure avec un identifiant au sein d’un référentiel-cible.

Les alignements sont un chemin qui mèneraient au Graal (des bibliothécaires, et surtout des bibliomètres) qu’est la description complète du research nexus, c’est-à-dire du graphe de la recherche, qui décrit toutes les relations existantes entre les personnes, les organisations, les publications, les données, les financements, les projets, etc. Ces relations permettent d’inscrire toutes les entités dans un contexte, une constellation de points qui sont ancrés par des identifiants pérennes : ces PIDs garantissent l’unicité et l’identité. Et rendre ces entités et leurs relations explicites permet d’exploiter les données, pour les transformer en informations, voire en connaissance.

Comment s’y prendre ?

On peut aligner avec ses petites mains et ses petits moyens. C’est une méthode très très fiable, mais très très lente. Si l’on est pressé (ou plutôt qu’on applique de manière avisée les conseils de Paul Lafargue pour revendiquer notre droit à la paresse[2]), on peut utiliser des procédés automatisés. Ces procédés peuvent être soit supervisés, c’est-à-dire que la machine propose pour que l’humain dispose, soit entièrement délégués, quand aucune intervention humaine ne valide les conclusions automatiques. Mais avant de savoir quelle artillerie on mobilise, un petit point sur le vocabulaire.

Il s’agit d’abord de spécifier le projet d’alignement (matching task) et ce n’est pas si anodin qu’il y parait. A partir de quelques questions apparemment simples :

  • Quel problème cherche-t-on à résoudre ?
  • Quelles sont les données d’entrée (input) : leur format, leur structuration ou absence de structuration, les informations qu’elles contiennent, l’hétérogénéité possible ?
  • Qu’attend-on comme résultat (ouput) : quels sont les identifiants cibles ? Attend-on un ou plusieurs identifiants, selon quelles conditions ? Veut-on que le résultat proposé soit assorti d’un indice de confiance, comme à la météo ?

On va choisir la ou les stratégies d’alignement ou heuristiques (matching strategies) mises en œuvre.

Schéma stratégie d'alignement
Stratégie d’alignement

 

Ceci nous amène à considérer les questions suivantes :

Est-ce qu’aligner une chaîne de caractères (telle que peut apparaître une affiliation au sein d’une publication) et des métadonnées structurées vers un identifiant, c’est la même matching task avec deux sortes d’input, ou bien deux tâches complètement différentes ?

Où commence la matching task : avec l’ensemble du texte brut, ou bien seulement une fois qu’à l’intérieur, on a délimité des entités, à l’aide d’outils qui font de la Reconnaissance d’Entités Nommées (Named Entity RecognitionNER) ?

Ce que fait l’Abes

Au service Autorités et Référentiels de l’Abes, nous pratiquons deux familles d’alignements.

La première, qui correspond bien à ce qui est décrit dans les billets ROR et CrossRef, consiste à travailler notamment avec comme données d’entrée une extraction de l’annuaire des personnes d’un établissement, sous forme tabulée[3]. Ce sont donc des données structurées, à peu près homogènes, sur lesquelles on applique une stratégie standardisée (algorithme développé en interne), et pour lesquelles on attend comme résultat idéalement 1 IdRef par entrée proposée.

La seconde consiste à partir d’un identifiant, pour aller vers un autre. Les stratégies mises en œuvre sont plus diverses :

  • Il peut s’agir d’une triangulation : si IdRef connaît pour une personne son ID Scopus, et que le même ID Scopus figure dans un profil ORCID, alors on peut postuler l’alignement entre l’IdRef et l’ORCID. Idem si un identifiant de structure dans AuréHAL connait un IdRef et que ce même identifiant AuréHAL est associé à un RNSR.
  • Il peut s’agir d’une « pêche au filet » : à partir d’un identifiant (IdRef ou RNSR), on va chercher des publications qui possèdent cet identifiant dans les métadonnées d’affiliation, et on observe si des identifiants appartenant à d’autres référentiels sont présents également.

 

Rendez-vous dans le billet suivant pour démolir, toujours en suivant les billets co-publiés par ROR et CrossRef, les mythes relatifs à l’alignement.

 

Carole Melzac
Service Autorités et Référentiels
Abes

[1] La féminisation aléatoire des pluriels est une manière de pratiquer une écriture inclusive, qui permet de ne pas alourdir sa lecture tout en rappelant aux personnes qui lisent que dans un groupe, on trouve souvent plusieurs genres.

[2] « Le travail ne deviendra un condiment de plaisir de la paresse, un exercice bienfaisant à l’organisme humain, une passion utile à l’organisme social que lorsqu’il sera sagement réglementé et limité à un maximum de trois heures par jour » Le droit à la paresse, Paul Lafargue, 1880.

[3] C’est l’occasion de vous remémorer cette excellente infographie parue dans le numéro 112 d’Arabesques : https://publications-prairial.fr/arabesques/index.php?id=3845

 

Continuer la lectureAnatomie des alignements, épisode 1/3

Repères, Mir@bel et l’Abes : coopérer pour améliorer la visibilité des revues Diamant (2/2)

  • Auteur/autrice de la publication :
  • Post category:Sudoc PS

Ce billet est le second d’une série en deux volets présentant une coopération fructueuse entre Repères, Mir@bel et l’Abes (voir le billet n° 1).

Mir@bel2022 : vers un référentiel partagé pour les structures éditoriales

Sous l’égide du Comité pour la science ouverte, Mir@bel a pour mission de collecter les données relatives aux politiques de diffusion des revues scientifiques et des éditeurs français. Ce travail assure l’intégration de ces informations dans sa base de connaissances et leur diffusion dans la base  Sherpa Romeo. Le projet Mir@bel2022 contribue pleinement à cette mission en s’organisant autour de deux axes, dont l’un consiste à fédérer  les partenaires du projet autour d’un référentiel partagé des structures éditoriales produisant les revues scientifiques françaises..

Comme point de départ, Mir@bel dispose déjà une base de données regroupant les éditeurs associés aux revues référencées. Cette base recense principalement les éditeurs responsables de la publication et/ou diffusion des revues, mais inclut également ceux impliqués dans leur conception et rédaction. Les données collectées sont variées et distinctives : en plus des éléments d’identification standard, elles comportent souvent des liens URL vers leurs sites internet et réseaux sociaux.

L’adoption d’un mode de description partagé de ces données implique leur alignement autour d’un identifiant commun pour tous les éditeurs concernés. C’est la base IdRef, gérée par l’Abes, qui a été retenue pour jouer ce rôle de référentiel pivot. Conforme aux principes FAIR, IdRef dispose actuellement de la couverture la plus étendue en France. Au delà de l’identification univoque des individus, des structures, des autorités Rameau et de leur interconnexion à d’autres entités, IdRef est aligné sur de nombreuses bases d’identifiants. De plus, son modèle de production de contenus se rapproche de celui de Mir@bel.

La gestion dynamique du modèle Mir@bel au sein des 136 partenaires du réseau a favorisé diverses convergences, que ce soit par l’ajout de dates dans le modèle initial ou par la normalisation des informations d’éditeurs . Ainsi, IdRef et Mir@bel fonctionnent comme des bases complémentaires, alimentées d’une part par des experts des bibliothèques et de la recherche, et d’autre part par des spécialistes de l’édition et de la documentation. Ces deux réseaux bénéficient du travail de complétion, d’alignement et de curation réalisé par des communautés aux compétences complémentaires. Les deux réseaux bénéficient ainsi du travail de complétion, d’alignement et de curation réalisé par des communautés complémentaires.

Faire converger les données d’éditeurs à l’aide d’IdRef

Dès janvier 2021, cet objectif prend corps et des travaux de rapprochement entre les données éditeurs de Mir@bel et d’IdRef débutent. Après une première phase de comparaison des données présentes dans les deux outils, s’ensuit pour Mir@bel un important travail d’analyse, de correction et de préparation des données. Les données éditeurs sont fiabilisées, notamment les éléments sur leur localisation géographique ou leur intitulé ; des règles sur les changements de noms et de périmètres sont adoptées pour permettre des dédoublonnages. De même, des consignes actualisées de création sont adressées au réseau Mir@bel, l’ensemble des opérations visant à importer en masse des IdRef en vue de l’alignement, mais aussi à fournir des données à l’Abes. Les alignements en tant que tels sont réalisés en deux vagues, entrecoupées d’un nouveau temps d’analyse, de dédoublonnage et de correction. Début 2022, ces travaux permettent d’atteindre un taux de correspondance de 70 % entre les éditeurs français signalés dans Mir@bel et IdRef.

Ce premier palier marque le début d’une nouvelle étape dans la mutualisation des données des éditeurs. En effet, pour améliorer encore le taux d’alignement entre les deux bases, il faut désormais enrichir IdRef avec les collectivités éditrices qui ne s’y trouvent pas encore. Une liste de 700 éditeurs, sans notice IdRef, est établie à partir des données de Mir@bel. À l’Abes, les équipes des services Ressources Continues et Autorités et Référentiels prennent en charge une partie des créations et sollicitent également l’aide de leurs réseaux (correspondants autorités et responsables CR du réseau Sudoc PS). Entre mars et juillet 2022, environ 650 notices sont ainsi créées dans IdRef, une cinquantaine de structures éditoriales sont écartées faute d’informations suffisantes pour pouvoir créer les notices IdRef, qui doivent être sourcées.

À l’automne 2022, et jusqu’à la fin de l’année, les données d’IdRef et de Mir@bel convergent à nouveau en une nouvelle vague d’alignements : les notices créées dans la base de l’Abes sont liées à leurs équivalents dans Mir@bel, et réciproquement, les identifiants Mir@bel sont massivement ajoutés dans les notices IdRef. Un encart est aussi ajouté dans IdRef permettant, pour chaque notice d’éditeur, le rebond vers les pages Mir@bel des revues liées.

Des opérations d’alignement entre deux systèmes riment souvent avec une montée en qualité du signalement. Ce projet-ci ne fait pas exception à la règle. Le référent « données éditeurs » au sein de Mir@bel met à jour le Guide de création des pages d’éditeurs et forme les partenaires veilleurs aux bonnes pratiques de signalement. Les travaux de nettoyage et d’harmonisation des données se poursuivent.

En parallèle, l’interface de Mir@bel évolue pour faciliter la saisie des éditeurs : interrogation automatique d’IdRef lors de la saisie d’un nouvel éditeur pour permettre la récupération des données principales, scripts de récupérations et vérifications d’informations, mise en place de redirections et plus grande robustesse des alignements.

Création d’une notice éditeur dans Mir@bel via l’interrogation d’IdRef

 

En plus du premier script, mis en place en février 2023 pour repérer les IdRef fusionnés, un nouveau script hebdomadaire permet de nouveaux contrôles en comparant plusieurs données sur les éditeurs alignés, ce qui facilite la récupération de l’information pour les nouveaux champs « dates de début et de fin » dans Mir@bel ou le signalement des différences. Ce script va donc au-delà de la vérification de données puisqu’il enrichit les données de Mir@bel et IdRef quand les dates d’éditeurs sont manquantes ou erronées.

Scripts permettant un suivi qualité pour les données des notices éditeurs

 

Claire Dandieu (Sciences Po Lyon) & Carolina Verlengia (Sciences Po Lyon), pour le réseau Mir@bel

Basile Bayoux (Université Jean Moulin Lyon 3), pour le réseau Repères

Morgane Parra, pour l’Abes

 

Continuer la lectureRepères, Mir@bel et l’Abes : coopérer pour améliorer la visibilité des revues Diamant (2/2)

Repères, Mir@bel et l’Abes : une coopération fructueuse pour améliorer la visibilité des revues Diamant (1/2)

  • Auteur/autrice de la publication :
  • Post category:Sudoc PS

Ce billet est le premier d’une série de deux billets présentant les résultats d’une coopération fructueuse entre Repères, Mir@bel et l’Abes (1/2)

Dans le cadre du projet FNSO Mir@bel2022, un ensemble d’actions sont menées pour améliorer le signalement et la visibilité des revues scientifiques françaises et de leurs éditeurs, au sein de Mir@bel et à l’international vers le DOAJ (Directory of Open Access Journals). Ces actions s’organisent sur la base du travail fédéré de quatorze partenaires – dont le réseau Repères et l’Abes – impliqués dans l’écosystème de l’édition et du référencement et illustrent une action transversale forte pour l’amélioration partagée des données et la visibilité des revues. Le référencement des revues hébergées par les pépinières de revues du réseau Repères et de leurs éditeurs dans Mir@bel, ainsi que les développements qui en ont résulté avec la contribution de l’Abes, constituent un exemple concret de cette coopération fructueuse.

Les grappes de revues, un outil dynamique pour créer des corpus de revues

Dans le cadre du partenariat avec le réseau Repères, Mir@bel a pu déployer la fonctionnalité des grappes, qui permet la création de listes ou corpus de revues pouvant être explorés à travers des fonctionnalités de recherche avancée.

Si, pour l’heure, les grappes disponibles sont liées à des projets menés au sein de Mir@bel, les partenaires pourront prochainement créer eux-mêmes leurs corpus, ce qui permettra de valoriser les listes de revues de leur choix (comme celles éditées par leur établissement, disponibles dans leur fonds ou d’un site géographique, etc.) ou de créer des listes de revues liées à des projets de recherche.

Ces corpus peuvent être constitués à partir d’imports massifs de données (tableur) ou à travers les résultats d’une recherche avancée dans Mir@bel. Les grappes de revues peuvent être statiques ou dynamiques. Dans le premier cas, la liste est figée et les gestionnaires de la grappe peuvent ajouter ou retirer des titres manuellement. Dans le second cas, la grappe s’actualise automatiquement dès lors qu’une nouvelle revue répond aux critères établis à la création du corpus.

La constitution d’une grappe pour les pépinières du réseau Repères a nécessité un travail commun entre Repères et Mir@bel. En exportant les données de l’API de Mir@bel et en les croisant avec les connaissances accumulées par les pépinières au sein du réseau Repères – une pépinière correspondant à une ressource dans Mir@bel, les ressources absentes et les revues non référencées sur le site ont pu être identifiées. Ensuite, il a suffi de compléter les données et, finalement, de récupérer les résultats de la recherche avancée correspondant à ce corpus de revues.

Il est désormais possible d’effectuer des recherches ciblées sur ce corpus et de l’exploiter. Pour maintenir la grappe Repères, chaque pépinière veille à sa ressource et s’engage à mettre à jour les informations de ses revues, ce  avec l’aide de la personne en charge de la coordination de Repères qui propose un appui et une interface facilitante à l’équipe de Mir@bel. Actuellement, la grappe de revues est composée de 177 revues en accès ouvert Diamant, un chiffre en croissance.

Précisons que le site du réseau Repères rassemble les sites des pépinières de revues, la présentation des informations étant axée sur les pépinières et non sur les revues. L’intérêt de cette grappe est bien de proposer une liste dynamique, une vue synoptique de revues en accès ouvert Diamant hébergées par les plateformes de diffusion fédérées et proposant des modèles éditoriaux variés, mais alignés sur les politiques nationales en faveur de la Science ouverte. Enfin, elle a pour avantage d’incarner un réseau par des données objectives et fiables et de replacer de manière très concrète le travail de chaque pépinière au sein d’un ensemble plus vaste.

De la production de contenus au lecteur : BACON au service des outils de découverte

BACON, Base de Connaissance Nationale gérée par l’Abes, est conçue comme un moyen de faciliter le signalement et la gestion des accès à la documentation électronique, en faisant le lien entre les données des éditeurs et les professionnels en bibliothèques. A cette fin, BACON centralise puis diffuse les métadonnées descriptives de plus de 1 000 bouquets de ressources électroniques sous forme de fichiers KBART, librement réutilisables. Grâce à cet entrepôt de données, les bibliothèques disposent donc de données fiabilisées et à jour correspondant à leurs collections de ressources électroniques, dans un format adapté à leurs besoins.

Depuis son origine, BACON porte une attention particulière aux données produites par les éditeurs et diffuseurs scientifiques francophones, aux corpus négociés par le consortium Couperin et à ceux acquis sous licence nationale, complétant avantageusement les contenus présents dans les bases de connaissances commerciales. De même, les ressources en libre accès, qui constituent le talon d’Achille des outils de découverte, font partie des ressources cibles de BACON. Ainsi, les usagers de la base ont accès à un large panel : fichiers provenant de réservoirs bibliographiques de référence (ROAD, BnF, etc.) ; contenus diffusés par de grandes plateformes (OpenEdition, Érudit, Persée, etc.) mais aussi produits par des cellules éditrices de plus petite taille (Numdam, Centre Mersenne, Episciences, etc.).

La production et l’échange de fichiers KBART sont à la confluence de plusieurs actions communes au réseau Repères, à Mir@bel et à l’Abes. Dès 2013, au vu de l’intérêt que représente le fichier KBART pour les communautés,  notamment pour leur utilisation au sein des outils de découverte, Mir@bel s’est appuyé sur ce formalisme pour partager les données d’accès aux revues signalées par ses membres partenaires. Mir@bel s’enrichit quotidiennement de nombreux contenus élaborés dans ce format – dont certains proviennent de BACON, tout en produisant en parallèle plusieurs fichiers qui sont ensuite mis à disposition des communautés.

Dans le cadre du projet FNSO Mir@bel2022, ces fichiers, actualisés chaque semaine, sont désormais exposés dans BACON et diffusés plus largement via ce canal auprès des usagers qui activent ces collections dans leurs outils de découverte. Initialement, l’offre KBART de Mir@bel se compose de trois fichiers, qui décrivent les états de collection et modalités d’accès pour :

 

Dès leur intégration dans BACON, ces trois fichiers ont bénéficié du label Qualité attribué par l’Abes aux fichiers cochant les critères optimaux de qualité de leurs contenus. Cette expertise dans la production de fichiers KBART a permis à Mir@bel d’étoffer son offre de service, grâce au développement de fonctionnalités d’export permettant de générer des fichiers sur mesure à partir des revues de sa base de connaissance.

En parallèle, et dans une dynamique inter-réseaux, Mir@bel a pris en charge la production d’un fichier KBART des épi-revues hébergées sur la plateforme Episciences, valorisant ainsi ces titres auprès d’une large communauté :

Un nouveau fichier, issu des grappes Mir@bel, vient désormais enrichir cette liste :

Celui-ci décrit l’ensemble des accès déclarés dans Mir@bel pour les revues accompagnées par les pépinières du réseau Repères (liste exhaustive). Grâce au travail de veille mené par les différentes pépinières, la qualité des données produites a également conduit  à la génération d’un fichier KBART doté du label Qualité BACON.

Ainsi, l’expertise fournie par l’ensemble du réseau Mir@bel a permis la mise à disposition de plusieurs fichiers KBART de qualité. Ce travail de veille collaborative participe fortement à la valorisation des titres en accès libre et à leur découvrabilité, notamment à partir des outils de découverte des bibliothèques.

Claire Dandieu (Sciences Po Lyon) & Carolina Verlengia (Sciences Po Lyon), pour le réseau Mir@bel

Basile Bayoux (Université Jean Moulin Lyon 3), pour le réseau Repères

Morgane Parra, pour l’Abes

Continuez la lecture avec le billet n°2.

 

En savoir plus :

Consulter la recommandation Kbart (traduction française)

Consulter les 232 fichiers labellisés sont actuellement exposés dans la base de connaissance BACON

Continuer la lectureRepères, Mir@bel et l’Abes : une coopération fructueuse pour améliorer la visibilité des revues Diamant (1/2)

Synchronisation entre les SGB et le Sudoc pour les exemplaires de ressources électroniques

  • Auteur/autrice de la publication :
  • Post category:Non classé

Rappel du contexte

Dans le cadre du projet SGBm, un nouveau mode de coopération entre les établissements pilotes et l’Abes a été initié, basé sur un travail collaboratif dans l’intérêt des établissements, une coopération qui s’est prolongée jusqu’en 2020. Pour accompagner ces opérations, certains services de l’Abes ont évolué ou sont en cours d’évolution :  la  synchronisation des flux entre le Sudoc et les SGB en est un exemple.

Dans un premier temps, un circuit de synchronisation entre le Sudoc et la solution Alma proposé par la société Clarivate (ex ExLibris) a été conçu, testé puis mis en production en relation étroite avec les équipes des SCD des Universités de Bordeaux et de Toulouse, premiers établissements à intégrer ce circuit, en mai 2022 pour Bordeaux, en septembre 2022 pour Toulouse.

En 2022, la société DM Cultura et l’Université Polytechnique Hauts-de-France (UPHF) sollicitaient l’Abes afin d’adapter le circuit de synchronisation à l’environnement SGB Sebina (utilisant le résolveur de liens SFX). Fort de l’expérience de l’Abes en ce domaine et grâce à une collaboration fructueuse entre les trois parties, l’UPHF déployait son circuit de synchronisation fin 2023. 

Dès le début du projet de synchronisation, l’Abes a veillé à utiliser des outils standardisés et réutilisables par les établissements ayant d’autres fournisseurs. Cette solution, basée sur les échanges OAI-PMH et les transferts réguliers, a donc pu être appliquée avec succès au SGB Sebina. Précisons que la particularité du fournisseur Alma, qui utilise le format MARC21, a été traitée comme une spécificité, sans exclure l’usage de l’UNIMARC.

Continuer la lectureSynchronisation entre les SGB et le Sudoc pour les exemplaires de ressources électroniques

Retour sur l’incident autour de l’application ITEM

  • Auteur/autrice de la publication :
  • Post category:Non classé

Ce billet constitue un post-mortem au sujet de l’incident qui a impacté l’application ITEM – pour la création ou la modification en masse d’exemplaires dans le Sudoc –  entre le 14 mars et le 4 avril 2024.

Symptômes et impact de l’incident

Dans un premier temps, l’incident a été signalé via le guichet AbesSTP, plusieurs utilisateurs ayant constaté que leurs demandes déposées via ITEM n’étaient pas traitées intégralement : à partir d’un certain moment dans le traitement du fichier, une erreur était levée, et le reste du fichier n’était pas traité correctement.

Pour contourner ce problème, certains utilisateurs ont tenté de relancer des demandes via ITEM en ne reprenant que les lignes non traitées, mais cette solution, bien que fonctionnelle, n’était pas satisfaisante et demandait, en outre, un certain temps pour reconstituer des fichiers.

Dans la mesure où l’application ITEM « écrit » dans la base Sudoc, afin de limiter les risques de corruption des données d’exemplaires dans le Sudoc, il a donc été décidé  de fermer l’accès à l’application, le temps de diagnostiquer l’origine du problème.

Continuer la lectureRetour sur l’incident autour de l’application ITEM

Retours sur trois jours de tempête

Ce billet constitue un post-mortem d’un incident critique survenu du 4 au 7 mars 2024 . Caractérisé par des ralentissements intermittents et des déconnexions sur l’ensemble des applications de l’Abes, qui ont affecté les établissements du réseau de l’Abes, cet incident a débuté le 4 mars 2024 et a été résolu le 7 mars 2024 à midi.  La cause de l’incident était liée aux scories d’une ancienne configuration de routeur, restées actives sans que l’on en soit conscient. Le redémarrage des machines, notamment des switches, a réactivé ces paramètres, provoquant une redirection alternée de paquets vers un routeur inexistant. Cela a conduit à des « tempêtes réseau » et à des ralentissements importants. 

Symptômes et impacts de l’incident 

Suite à la maintenance effectuée par l’Abes sur son infrastructure les 2 et 3 mars 2024, des ralentissements intermittents ont été observés sur le réseau du SI, provoquant des lenteurs d’accès, voire des déconnexions, sur l’ensemble des applications de l’Abes.

Les utilisateurs ont donc rencontré des difficultés pour accéder aux services en ligne, ce qui a entraîné une perturbation majeure de l’activité. Les tentatives de redémarrage des équipements réseaux n’ayant pas permis de résoudre immédiatement le problème, la période d’indisponibilité des applications a été prolongée.

Continuer la lectureRetours sur trois jours de tempête

CERCLES : lancement d’un nouveau chantier sur le corpus Arte Vidéo Campus par le SCDI de Montpellier

  • Auteur/autrice de la publication :
  • Post category:Sudoc

logo du dispositif CERCLES

En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner, aider et valoriser un établissement souhaitant s’investir sur l’enrichissement des données d’un corpus de documents spécifique.

En 2024, un nouveau corpus de ressources électroniques va bénéficier de ce dispositif : Arte Vidéo Campus.

Le corpus Arte Vidéo Campus

Guide d'utilisation du service Arte CampusEn décembre 2023, l’Abes informait le réseau Sudoc qu’un nouvel import réguliers de notices bibliographiques était mis en place : l’import des notices de vidéos en streaming de la plateforme de diffusion Arte Campus.
Arte Campus est la ressource pédagogique en ligne de la chaîne ARTE pour l’enseignement supérieur et la formation des adultes.
Le corpus se compose de 2.000 vidéos environ (en janvier 2024), disponibles et transcrites en 5 langues, qui prennent la forme de long-métrages documentaires, de magazines documentaires, de courts-métrages de fiction, de captations de pièces de théâtre, de ballets et d’opéras. Les domaines représentés sont les arts, la littérature, les langues, les sciences sociales, les sciences économiques et politiques la technologie et la santé.
Les services associés permettent aux établissements abonnés de visionner, télécharger, découper les vidéos, de rechercher dans les scripts.

Continuer la lectureCERCLES : lancement d’un nouveau chantier sur le corpus Arte Vidéo Campus par le SCDI de Montpellier

Bilan du chantier Qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet3

  • Auteur/autrice de la publication :
  • Post category:IdRefSudoc

Troisième d’une série de 3 billets dressant le bilan du chantier de traitement des notices d’autorité Personnes physiques en statut 1  (dites notices Tp1), ce billet  présente  la dernière phase du chantier, menée de novembre 2022 au 21 mars 2024, avec le concours de collègues volontaires.

Le billet n°1 décrit la finalité et l’ampleur du chantier. Le billet n°2 décrit les opérations menées de janvier 2022 à octobre 2022, dont la sollicitation des correspondants autorité au printemps 2022 (étape qui a fait l’objet d’un billet Punktokomo ad hoc publié le 29 mars 2022).

Le chantier a été mené en quatre étapes en croisant différentes méthodologies. Ce billet détaille la méthodologie, strictement manuelle, utilisée de novembre 2022 à mars 2024 dans la joie et la bonne humeur, par un groupe de volontaires. Toutes les méthodes pour regrouper des cas similaires et les traiter en masse ayant été utilisées au préalable, il s’agissait désormais de traiter à la main, une par une, les 15 806 notices Tp1 restantes.

Continuer la lectureBilan du chantier Qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet3
Aller au contenu principal