IdRef Archives - PUNKTOKOMO

Anatomie des alignements à l’Abes (ou métaphore des chaussettes), épisode 3/3

Auteur/autrice de la publication :Punktauteur
Publication publiée :4 décembre 2024
Post category:IdRef

Pour conclure la mini-série initiée avec les épisodes 1 et 2, voici une petite illustration récente d’un travail d’alignement (matching) à l’Abes.

5 paires de chaussettes épinglées sur une corde à linge — Illustration : Christian Fickinger (sur unsplash.com)

L’alignement présente quelques similarités avec cette tâche rebutante qui nous revient avec la baisse des températures[1] : la corvée de chaussettes. Retrouver à chacun sa chacune, en fonction du nombre de personnes sous votre toit, peut s’avérer extrêmement fastidieux. Il y a les homonymes (Tiens, encore une chaussette grise ?), les faux amis (même modèle mais taille différente, 31-34 et pas 27-30), les singletons (ah oui, la gauche était trouée et est devenue chiffon) et les cas d’espèces (ah, cet étrange modèle dont un pied est orné de frites et l’autre d’une bouteille de ketchup mais qui forment une paire tout de même), et même les lèche-bottes[2]. Pour vous donner une bonne excuse pour procrastiner, lisez-donc la suite (et peut-être que vous verrez l’appariement sous un autre jour).

Depuis quelques temps, nous cherchons à rapprocher les référentiels IdRef et ROR (cf injection massive d’identifiants ROR au printemps décrite dans ce billet.) Lors des mois écoulés, l’Abes a constaté, notamment lors des AbesTour, que les établissements s’emparaient du sujet de la description de leurs structures de recherche. Cela peut venir d’une politique concertée de l’établissement en matière d’identifiants, d’une attitude proactive des professionnel-les de la documentation dont la familiarité avec les référentiels est ancienne, ou encore d’une démarche liée à des préoccupations bibliométriques : ROR est l’identifiant des organisations au sein de la base OpenAlex[3] , et est en cours d’intégration pour le WebOfScience[4].

Nous supposions donc que nombre de structures de recherche françaises avaient été créées dans le ROR depuis le premier round d’alignement. Il y avait donc présomption d’un recouvrement avec IdRef, qui notamment via le signalement des thèses, comprend au sein des collectivités recensées une part non négligeable desdites structures. Le projet d’alignement allait cette fois partir de ROR pour revenir vers IdRef. Pour affiner les données d’entrée et ne prendre de ROR que les structures susceptibles de nous intéresser, voici comment nous avons procédé.

Au sein d’IdRef, les établissements ayant une habilitation à délivrer le doctorat (passée ou actuelle) ont été « étiquetés » au moyen d’une zone A686. En filtrant sur ceux vivants, on récupère une liste, dont on conserve uniquement les identifiants ROR en A035. Par interrogation de l’API de ROR, on va récupérer les organisations qui ont le type de lien « child » avec ces institutions. On écarte les unités déjà alignées, en utilisant le microwebservice ROR2idref[5]. Les données d’entrée consistent donc en un jeu de métadonnées issues de l’API de ROR et décrivant les « enfants » des établissements, donc principalement des unités de recherche. Une unité pouvant avoir plusieurs tutelles, et donc être « enfant » de plusieurs « parents », le nombre dédoublonné d’unités à aligner n’est que de 685 (sur 1225 résultats).

La stratégie d’alignement va porter sur l’appariement de ces unités avec IdRef. On va utiliser la chaîne de caractères du libellé ROR (label) et leur ville de localisation. Ces paramètres (distincts et/ou couplés) sont envoyés via des requêtes SolR, qui permettent d’aller comparer avec toutes les variantes présentes dans la notice d’autorité IdRef. En combinant les approches, on arrive à 385 propositions d’alignement.

Pour évaluer la fiabilité de ces propositions, on va comparer l’intitulé IdRef (point d’accès) avec l’intitulé ROR (ROR-display label), sans prendre en compte les variantes, et leur attribuer un score à l’aide de 2 méthodes de comparaison de chaînes de caractères, la distance de Jaro-Winkler (JW)[6] et la distance de Lewenshtein (LV)[7]. Ces méthodes fournissent des métriques sous forme de scores, qui s’échelonnent entre 0 (pas de ressemblance) et 1 (ressemblance parfaite). On va considérer comme alignement sûrs les scores supérieurs à 0.8, car on sait que le point d’accès IdRef peut (devrait, même…) contenir un qualificatif de lieu et un qualificatif de dates, et que ces informations ne font pas partie du label ROR. Les scores entre 0,4 et 0,8 sont examinés manuellement et parmi les propositions, 5 sont rejetées, toutes les autres sont acceptées. Les propositions avec des scores entre 0,7 et 0,8 (au nombre de 18) sont toutes acceptées, mais comme nous avons noté que les propositions rejetées n’avaient pas les scores les plus bas (au contraire : entre 0,58 et 0,68 JW, et entre 0,43 et 0,67 LV.) cela montre bien qu’il est nécessaire de garder une vigilance sur cette zone. Les propositions rejetées le sont principalement lorsque des intitulés IdRef pour des équipes internes reprennent in extenso le nom de leur laboratoire chapeau : c’est donc un problème d’enchâssement des organisations.

Résultat : au total 379 nouveaux ROR tout beaux tout brillants pour décorer le sapin d’IdRef… en attendant les autres, qui pourront être glanés par de nouvelles méthodes, pour l’an prochain !

Carole Melzac
Service Autorités et Référentiels
Abes

[1] Parce qu’à Montpellier, évidemment, on vit tongs aux pieds d’avril à octobre.

[2] https://openbiblio.social/@PIDNetworkDE/112598851524209276

[3] https://docs.openalex.org/api-entities/institutions

[4] https://clarivate.com/academia-government/release-notes/web-of-science/web-of-science-november-7-2024-release-notes/

[5] Documenté ici : https://documentation.abes.fr/aideidrefdeveloppeur/index.html#MicroWebServiceId2idref

[6] Pour en savoir plus, cf https://fr.wikipedia.org/wiki/Distance_de_Jaro-Winkler

[7] Pour en savoir plus, cf https://fr.wikipedia.org/wiki/Distance_de_Levenshtein

Continuer la lecture

Anatomie (pathologique) des alignements, épisode 2/3

Auteur/autrice de la publication :Punktauteur
Publication publiée :4 décembre 2024
Post category:IdRef

Ce billet, à la suite du précédent, vise à partager via l’explicitation et la traduction les quatre billets co-publiés par les blogs de ROR et CrossRef au sujet de l’alignement (matching). Ce deuxième volet démolit les mythes et introduit la question de l’évaluation des stratégies d’alignement.
Billets originaux : The Myth of Perfect Metadata Matching et How Good Is Your Matching?

Une longue route bordée de cyprès — Illustration : Sixième Rêve (unsplash.com)

Reconnaître les fausses croyances

Le problème avec ces perceptions faussées, c’est qu’elles ne permettent pas d’avoir une idée réaliste de ce qu’on peut attendre d’un processus d’alignement.

Parmi les problèmes qu’elles attirent, se trouvent surtout des attentes démesurées, ou la sous-estimation du temps et du travail nécessaire pour le mener à bien.

Premier espoir déçu : une stratégie doit être 100% correcte

Hélas la perfection n’est pas de ce monde. Bien que ce soit évidemment l’idéal vers lequel on tend, la pratique des alignements nous fait rapidement entrevoir pourquoi ça n’est pas possible. Tout d’abord, parce que lorsqu’on a en entrée des données non structurées, donc des chaînes de caractères, elles ont été produites et pensées par des êtres humains. Divers. Faillibles. Mais aussi dotés, outre d’une imagination sans limite pour les fantaisies orthographiques, d’une capacité d’inférence liée au contexte, qui fait qu’elles rétablissent d’emblée, à partir de chaînes variables, le sens attendu. Pour mener un alignement via des machines, il faut trouver comment expliciter toutes ces opérations mentales de structuration, d’appariement, de développement d’acronymes ou d’abréviations, de distinctions d’homonymes, pour qu’elles puissent être systématisées et reproduites.

Reprenons l’exemple du billet originel qui donne cette liste de données d’entrées :

1. « Department of Radiology, St. Mary’s Hospital, London W2 1NY, UK »

2. « Saint Mary’s Hospital, Manchester University NHS Foundation Trust »

3. « St. Mary’s Medical Center, San Francisco, CA »

4. « St Mary’s Hosp., Dublin »

5. « St Mary’s Hospital Imperial College Healthcare NHS Trust »

6. « 聖マリア病院 »

Parmi ces chaînes de caractères, il va falloir objectiver les critères qui permettent de débrouiller plusieurs situations non triviales !

Une même organisation peut posséder plusieurs noms (variantes : Saint Mary’s Hospital / St Mary’s hospital / St. Mary’s Hosp.)
Le nom d’une institution peut être utilisé dans des langues différentes (traduction : la ligne 6 “聖マリア病院” est la traduction en japonais de “St. Mary’s Hospital”)
Plusieurs organisations sont homonymes, c’est-à-dire ont en commun au moins une partie de leur nom, alors qu’elles sont bien distinctes (il y a des Marie très saintes un peu partout ici)
La dénomination géographique peut être fonction du contexte, et s’avérer insuffisamment précise au sein d’un jeu de données (parle-t-on de Dublin, la capitale de l’Irlande, de Dublin, Ohio aux Etats-Unis[1] ?)
Une organisation peut faire partie d’une autre (enchâssement : le St. Mary’s Hospital de Londres appartient à l’Imperial College Healthcare NHS Trust par exemple, et ce savoir est extérieur au jeu de données lui-même)

Méditons sur ce principe jamais démenti : “In real world circumstances, no dataset is fully accurate, complete, or current and certainly not all three.” Que l’on pourrait traduire par « les métadonnées d’entrées avec lesquelles nous travaillons ne sont jamais toutes à la fois correctes, complètes et à jour. » La connaissance de la signification et du contexte de toutes les chaînes de caractères qui composent le set de données n’existe pas : il y aura donc, dans le fatras de notre réalité, toujours des surprises, de l’inattendu, de l’incompréhensible, des ratés.

Deuxième désillusion : c’est toujours une bonne idée d’adapter la stratégie à la spécificité des données d’entrées

Les stratégies d’alignements ne sont donc pas parfaites. C’est donc qu’elles peuvent être améliorées ! Hum… C’est là que réside le second piège. Lorsqu’en parcourant les résultats, on rencontre un alignement erroné ou manquant, la tentation est grande de considérer ce cas un peu comme un bug logiciel, et de vouloir adapter la stratégie pour qu’elle fournisse un résultat plus enthousiasmant. Sur ce cas au moins. Mais sans forcément penser à tous les autres… Or, en réalité, la stratégie d’alignement va toujours naviguer entre deux pôles, précision (precision) et rappel (recall). Que signifient ces deux métriques ?

La précision est la mesure obtenue en divisant le nombre d’alignements corrects obtenus par le nombre total d’alignements réalisés. On peut l’interpréter comme la probabilité qu’un alignement fourni soit correct. Si la précision est faible, alors on se retrouve avec un grand nombre de faux positifs (false positive), c’est-à-dire que beaucoup d’alignements ont été proposés mais ne sont pas justes.

Le rappel est la métrique obtenue en divisant le nombre d’alignement corrects proposés par rapport au nombre d’alignements attendus. C’est donc la probabilité qu’un alignement soit créé. Un faible niveau de rappel signifie qu’on se retrouve avec beaucoup de faux négatifs (false négatives), c’est-à-dire que dans beaucoup de cas, aucun candidat à l’alignement n’a été proposé.

Le schéma ci-dessous résume la situation :

On cherche évidemment à ce que les deux ellipses, les paires correctes (true relationships) et les paires proposées (matched relationships) se recouvrent le plus possible.

Si une stratégie est très stricte, elle aura tendance à passer à côté d’alignements possibles, pour ne proposer que peu de paires, mais majoritairement correctes. On peut songer à l’amélioration en assouplissant des critères, mais alors on se retrouve avec certes davantage de paires, la probabilité que celles-ci soient correcte s’amenuise. Tout alignement est affaire de subtil dosage entre ces deux aspects, ce qui s’avère épineux quand les données d’entrée sont très hétérogènes. Une stratégie qui serait parfaitement adaptée à un cas précis (par exemple, la distinction des homonymes) amène le risque d’être … inadaptée au cas suivant (par exemple, la prise en compte des enchâssements institutionnels).

Troisième ornière : l’alignement sans regard humain, à grande échelle, c’est trop dangereux

Si la précision ne peut jamais être parfaite, n’est-ce pas être conséquent que de s’abstenir d’utiliser des stratégies d’alignement de manière automatique ? Certes. Et pourtant. Dans le domaine des métadonnées décrivant les productions de recherche, il est assez probable que la qualité intrinsèque des données ne soit pas parfaite au départ. Proposer un alignement non supervisé vers des identifiants, est-ce vraiment faire porter un risque substantiel de dégrader la qualité desdites données ? Au contraire, serait-on tenté de répondre. Travailler les métadonnées, les mettre en mouvement et exposer largement le résultat de ce travail, c’est offrir une bonne occasion de regarder la poussière cachée sous le tapis, plus ou moins consciemment et depuis plus ou moins longtemps. Cela nécessite de prévoir des circuits de recueil d’information (feedback) et d’amélioration des données.[2] Enfin, les bonnes pratiques consistent évidemment à sourcer et signaler les alignements créés sans supervision : ainsi, les personnes qui ré-utilisent ces données savent à quoi s’en tenir, et peuvent toujours choisir de ne pas prendre en considération ce qu’elles n’estiment pas assez digne de confiance.

Quatrième erreur : on ne peut évaluer le résultat qu’au doigt mouillé

Tant de limites s’imposent à nous : les données sont hétérogènes au sein d’un jeu de données, et d’un jeu à un autre. Les cas que nous pensons pouvoir traiter correctement sont-ils majoritaires ? N’en avons-nous pas oublié d’autres ? Enfin, nous voilà devant un questionnement parfaitement kantien : Que devons-nous faire ? Et que nous est-il permis d’espérer ?[3]

Il est possible et souhaitable d’évaluer une stratégie d’alignement. On peut distinguer 4 étapes majeures :

Préparer un échantillon représentatif des données d’entrée, sur lequel on assigne manuellement le résultat attendu de l’opération
Faire jouer la stratégie d’alignement sur tout le corpus des données d’entrée
Comparer les résultats obtenus avec les résultats attendus
Documenter ces résultats à l’aide de métriques.

La constitution d’un échantillon est donc le point de départ. On le souhaite robuste (donc d’une taille acceptable, qui dépend de celle du corpus total) et crédible (issu des vraies données telles qu’elles se présentent en entrée.)

Les métriques vont nous permettre de résumer les résultats de l’évaluation de manière chiffrée : cela permet d’estimer la pertinence de notre stratégie d’alignement, et surtout de pouvoir comparer plusieurs stratégies entre elles. Les métriques, pour donner une image fidèle, doivent pouvoir se combiner. Nous allons voir pourquoi.

La première métrique que l’on peut utiliser, c’est l’exactitude (accuracy), c’est-à-dire la proximité des résultats avec les valeurs correctes. Mais elle ne suffira jamais seule, car comme nous allons le voir à partir du tableau ci-dessous, elle a le tort de noyer le poisson.

Si l’on veut comparer les stratégies 1 et 2 à partir des trois cas du tableau, on se rend compte qu’elles partagent la même métrique d’exactitude : 0,67. En effet, sur les trois cas proposés, chaque stratégie opte pour le bon résultat deux fois sur trois. Mais l’exactitude manque de nuances. Nous avons vu plus tôt que les notions de précision et de rappel permettent d’illustrer plus finement le comportement d’une stratégie. Dans le cas ci-dessus, la stratégie 1 a un taux de rappel (0,5) identique à la stratégie 2, mais elles diffèrent quant à la précision : la stratégie 2 a une métrique de précision de 1,0 (à chaque fois qu’une paire a été proposée, elle est correcte) alors que la stratégie 1 n’a une précision que de 0,5 (la moitié de ses propositions sont justes).

On peut enfin combiner précision et rappel dans une métrique qu’on appelle F-mesure (F-score). Le but est d’évaluer les prédictions pertinentes (bonne précision) en suffisamment grand nombre (bon rappel) sur les données d’entrée. Tout comme la précision et le rappel, la F-mesure varie de 0 (plus mauvaise valeur) à 1 (meilleure valeur possible).[4] Elle peut pondérer le rappel et la précision soit à égalité (F1), soit en donnant prééminence à l’un (F0.5 valorise la précision, alors que F2 valorise le rappel).

À l’échelle d’un jeu de données complet, on suppose donc que la stratégie 1 produira davantage de faux positifs, et la stratégie 2 davantage de faux négatifs. C’est le cas d’usage qui décidera de l’orientation souhaitable. Par exemple, si l’on ne dispose que de peu de temps humain disponible, on peut s’orienter vers le choix de la fiabilité. Au contraire, si l’alignement est conçu comme une proposition à valider ou invalider par une personne, il peut apparaître plus avisé d’avoir un peu de bruit que du silence.

Lectrices, lecteurs, êtes-vous curieux de la manière dont on procède à l’Abes ? Le troisième et dernier billet de cette série est pour vous !

Carole Melzac
Service Autorités et Référentiels
Abes

[1] Dublin est un nom d’une bonne vingtaine des villes dispersées dans plusieurs pays, comme en atteste la page d’homonymie de Wikipédia https://en.wikipedia.org/wiki/Dublin_(disambiguation)

[2] C’est exactement ce que fait ROR avec le formulaire de proposition d’amélioration des données ouvert à toutes et à tous. Par ailleurs, on peut citer un parangon du genre, WorksMagnet , outil développé par le SIES du MESR pour identifier les erreurs d’alignements de structures vers le ROR dans les données d’OpenAlex. Pour en savoir plus, voir le Poster réalisé par l’Université de Lorraine et le MESR

[3] Quant à « Que pouvons-nous connaître ? », si vous arrivez au bout de cette série de billets, considérons que vous en saurez assez long sur ce que sont les alignements pour briller au prochain cocktail des Journées Abes.

[4] Cf https://fr.wikipedia.org/wiki/F-mesure

Continuer la lecture

Anatomie des alignements, épisode 1/3

Auteur/autrice de la publication :Punktauteur
Publication publiée :4 décembre 2024
Post category:IdRef

Entre mai et novembre 2024, une série de billets ont été publiés conjointement sur les blogs de ROR et de Crossref par Adam Buttrick et Dominika Tkaczyk (Si vous avez un doute sur ce qu’est le ROR, pour Research Organizations Registry, allez réviser sur ce précédent billet Punktokomo.) Ils traitent d’un enjeu qui est à la fois central et quotidien pour le service Autorités et Référentiels de l’Abes : l’alignement. En anglais, on parle de matching.
Voyons comment ces collègues qui travaillent eux aussi toute la journée sur des métadonnées situent les choses, quel vocabulaire elles et ils emploient, vers quoi tendre et sur quels os on peut tomber.
Billets originaux : Metadata Matching , what is it and why do we need it ? et The Anatomy of Metadata matching

Qu’est-ce que sont les alignements ?

photo de roches grises alignées dans un champ d'herbe — « Formation rocheuse grise sur un champ d’herbe verte sous des nuages blancs pendant la journée »
par Johanneke Kroesbergen-Kamps

L’alignement, pour des métadonnées, a pour objectif de rapprocher des sources pour apparier des entités (dans les cas qui nous occupent à l’Abes, des personnes physiques et/ou des organisations) qui sont considérées comme identiques.

On se lance dans des travaux d’alignement quand on sait, ou du moins qu’on suspecte, que deux sources de données parlent des mêmes choses. Par exemple, quand on entreprend d’aligner un annuaire des personnels d’une université vers IdRef, on suppose que les chercheuses, enseignantes-chercheuses, ingénieures[1] de recherche, etc. qui travaillent dans cette université ont probablement déjà une notice descriptive dans IdRef, car elles ont des rôles bibliographiques dans des documents signalés dans les gisements documentaires associés, comme le Sudoc et les thèses. Tout alignement commence donc par le présupposé d’un recouvrement.

Par ailleurs, pour ne pas mélanger les torchons et les serviettes, on ne se lance dans un alignement qu’en supposant aussi que la définition des entités qu’on veut apparier est suffisamment proche. Quand il s’agit de personnes physiques, c’est assez simple : chaque être humain est unique, et ne naît et ne meurt qu’une fois. La définition de base est la même. Une personne pourrait être décrite par plusieurs notices IdRef ou par plusieurs entrées dans un annuaire, mais alors, c’est un doublon : parce qu’on suppose l’unicité de chaque entité et un accord sur la définition de l’identité. Pour les collectivités, vous vous en doutez, c’est toujours un peu plus tordu, mais on y reviendra.

Pourquoi aligner ?

Voici la définition donnée dans le premier billet : “Matching in general can be defined as the task or process of finding an identifier for an item based on its structured or unstructured description.“ En français, on pourrait dire qu’il s’agit de l’appariement d’un élément décrit de manière plus ou moins structure avec un identifiant au sein d’un référentiel-cible.

Les alignements sont un chemin qui mèneraient au Graal (des bibliothécaires, et surtout des bibliomètres) qu’est la description complète du research nexus, c’est-à-dire du graphe de la recherche, qui décrit toutes les relations existantes entre les personnes, les organisations, les publications, les données, les financements, les projets, etc. Ces relations permettent d’inscrire toutes les entités dans un contexte, une constellation de points qui sont ancrés par des identifiants pérennes : ces PIDs garantissent l’unicité et l’identité. Et rendre ces entités et leurs relations explicites permet d’exploiter les données, pour les transformer en informations, voire en connaissance.

Comment s’y prendre ?

On peut aligner avec ses petites mains et ses petits moyens. C’est une méthode très très fiable, mais très très lente. Si l’on est pressé (ou plutôt qu’on applique de manière avisée les conseils de Paul Lafargue pour revendiquer notre droit à la paresse[2]), on peut utiliser des procédés automatisés. Ces procédés peuvent être soit supervisés, c’est-à-dire que la machine propose pour que l’humain dispose, soit entièrement délégués, quand aucune intervention humaine ne valide les conclusions automatiques. Mais avant de savoir quelle artillerie on mobilise, un petit point sur le vocabulaire.

Il s’agit d’abord de spécifier le projet d’alignement (matching task) et ce n’est pas si anodin qu’il y parait. A partir de quelques questions apparemment simples :

Quel problème cherche-t-on à résoudre ?
Quelles sont les données d’entrée (input) : leur format, leur structuration ou absence de structuration, les informations qu’elles contiennent, l’hétérogénéité possible ?
Qu’attend-on comme résultat (ouput) : quels sont les identifiants cibles ? Attend-on un ou plusieurs identifiants, selon quelles conditions ? Veut-on que le résultat proposé soit assorti d’un indice de confiance, comme à la météo ?

On va choisir la ou les stratégies d’alignement ou heuristiques (matching strategies) mises en œuvre.

Schéma stratégie d'alignement — Stratégie d’alignement

Ceci nous amène à considérer les questions suivantes :

Est-ce qu’aligner une chaîne de caractères (telle que peut apparaître une affiliation au sein d’une publication) et des métadonnées structurées vers un identifiant, c’est la même matching task avec deux sortes d’input, ou bien deux tâches complètement différentes ?

Où commence la matching task : avec l’ensemble du texte brut, ou bien seulement une fois qu’à l’intérieur, on a délimité des entités, à l’aide d’outils qui font de la Reconnaissance d’Entités Nommées (Named Entity Recognition – NER) ?

Ce que fait l’Abes

Au service Autorités et Référentiels de l’Abes, nous pratiquons deux familles d’alignements.

La première, qui correspond bien à ce qui est décrit dans les billets ROR et CrossRef, consiste à travailler notamment avec comme données d’entrée une extraction de l’annuaire des personnes d’un établissement, sous forme tabulée[3]. Ce sont donc des données structurées, à peu près homogènes, sur lesquelles on applique une stratégie standardisée (algorithme développé en interne), et pour lesquelles on attend comme résultat idéalement 1 IdRef par entrée proposée.

La seconde consiste à partir d’un identifiant, pour aller vers un autre. Les stratégies mises en œuvre sont plus diverses :

Il peut s’agir d’une triangulation : si IdRef connaît pour une personne son ID Scopus, et que le même ID Scopus figure dans un profil ORCID, alors on peut postuler l’alignement entre l’IdRef et l’ORCID. Idem si un identifiant de structure dans AuréHAL connait un IdRef et que ce même identifiant AuréHAL est associé à un RNSR.
Il peut s’agir d’une « pêche au filet » : à partir d’un identifiant (IdRef ou RNSR), on va chercher des publications qui possèdent cet identifiant dans les métadonnées d’affiliation, et on observe si des identifiants appartenant à d’autres référentiels sont présents également.

Rendez-vous dans le billet suivant pour démolir, toujours en suivant les billets co-publiés par ROR et CrossRef, les mythes relatifs à l’alignement.

Carole Melzac
Service Autorités et Référentiels
Abes

[1] La féminisation aléatoire des pluriels est une manière de pratiquer une écriture inclusive, qui permet de ne pas alourdir sa lecture tout en rappelant aux personnes qui lisent que dans un groupe, on trouve souvent plusieurs genres.

[2] « Le travail ne deviendra un condiment de plaisir de la paresse, un exercice bienfaisant à l’organisme humain, une passion utile à l’organisme social que lorsqu’il sera sagement réglementé et limité à un maximum de trois heures par jour » Le droit à la paresse, Paul Lafargue, 1880.

[3] C’est l’occasion de vous remémorer cette excellente infographie parue dans le numéro 112 d’Arabesques : https://publications-prairial.fr/arabesques/index.php?id=3845

Continuer la lecture

Bilan du chantier Qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet3

Auteur/autrice de la publication :Punktauteur
Publication publiée :16 mai 2024
Post category:IdRef Sudoc

Troisième d’une série de 3 billets dressant le bilan du chantier de traitement des notices d’autorité Personnes physiques en statut 1 (dites notices Tp1), ce billet présente la dernière phase du chantier, menée de novembre 2022 au 21 mars 2024, avec le concours de collègues volontaires.

Le billet n°1 décrit la finalité et l’ampleur du chantier. Le billet n°2 décrit les opérations menées de janvier 2022 à octobre 2022, dont la sollicitation des correspondants autorité au printemps 2022 (étape qui a fait l’objet d’un billet Punktokomo ad hoc publié le 29 mars 2022).

Le chantier a été mené en quatre étapes en croisant différentes méthodologies. Ce billet détaille la méthodologie, strictement manuelle, utilisée de novembre 2022 à mars 2024 dans la joie et la bonne humeur, par un groupe de volontaires. Toutes les méthodes pour regrouper des cas similaires et les traiter en masse ayant été utilisées au préalable, il s’agissait désormais de traiter à la main, une par une, les 15 806 notices Tp1 restantes.

Continuer la lecture

Bilan du chantier qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet2

Auteur/autrice de la publication :Punktauteur
Publication publiée :14 mai 2024
Post category:IdRef Sudoc

Second d’une série de 3 billets dressant le bilan du chantier lancé début 2022 et terminé le 21 mars 2024 pour traiter des notices d’autorité Personnes physiques en statut 1 (dites notices Tp1), ce billet décrit les opérations menées entre janvier 2022 et octobre 2022, dont la sollicitation des Correspondants Autorités au printemps 2022 (étape ayant fait l’objet d’un billet Punktokomo publié le 29 mars 2022).

Le billet n°1 décrit la finalité et l’ampleur du chantier et le billet n°3 présente la dernière phase du chantier, menée de novembre 2022 à mars 2024, avec le concours de collègues volontaires.

Le chantier a été mené en quatre étapes en croisant différentes méthodologies. Ce billet détaille les opérations menées de janvier à octobre 2022.

Janvier – février 2022 : correction automatique de ce qui était automatisable

Début 2022, 11 295 notices d’autorité Tp1 avaient pour double caractéristique :

de n’être liées qu’à une seule notice bibliographique
le fait que l’Abes soit le dernier modificateur

Ces notices ont été isolées dans un projet OpenRefine. Après analyse humaine et multiples sondages pour vérifier que ce lot était homogène et pouvait faire l’objet d’un traitement en masse, l’Abes a décidé d’enrichir ces notices d’une zone A810 construite grâce à la notice bibliographique liée et de basculer le statut de 1 à 5.

Continuer la lecture

Bilan du chantier Qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet1

Auteur/autrice de la publication :Punktauteur
Publication publiée :13 mai 2024
Post category:IdRef Sudoc

Premier d’une série de 3 billets dressant le bilan du chantier lancé début 2022 et terminé le 21 mars 2024 pour traiter des notices d’autorité Personnes physiques en statut 1 (dites notices Tp1), ce billet décrit la finalité et l’ampleur du chantier. Le billet n°2 décrit les opérations menées de janvier 2022 à octobre 2022, dont la participation des Correspondants Autorités au printemps 2022 (étape ayant fait l’objet d’un billet Punktokomo publié le 29 mars 2022). Le billet n°3 décrit la dernière phase du chantier, menée de novembre 2022 au 21 mars 2024, avec le concours de collègues volontaires.

17 mois, 4 phases de travail aux méthodologies distinctes, 150 catalogueurs de plusieurs dizaines d’établissements, beaucoup de café et de gâteaux, de la musique, de la convivialité auront été nécessaires pour améliorer la qualité de 35 000 notices d’autorité Personnes physiques et de leurs liens bibliographiques dans le Sudoc.

Les mascottes du chantier Tp1 — *Mascottes du chantier Tp1*

Continuer la lecture

Quand IdRef s’aligne sur ROR, ou comment rapprocher des référentiels

Auteur/autrice de la publication :Punktauteur
Publication publiée :20 mars 2024
Post category:IdRef Non classé

“Faire de la lumière, pauvres gens, c’est plus difficile que de faire de l’or.” (Paul Claudel, L’annonce faite à Marie)

Prémices de l’intérêt pour ROR – Research Organization Registry

Tête de lion rugissant, Eugène Delacroix. Crédits : Photo (C) RMN-Grand Palais (musée du Louvre) / Michel Urtado.

Au printemps 2021, le service Autorités et Référentiels de l’Abes avait mené un travail de veille sur les référentiels dédiés aux structures. Contrairement aux personnes ou aux publications pour lesquelles un identifiant pérenne – respectivement ORCID et DOI – s’est progressivement imposé au plan international, les collectivités, dans le monde de la recherche, sont un secteur pour lequel plusieurs référentiels coexistent, notamment : ISNI, GRID, ROR, RingGold.

Au printemps 2023, nous avons décidé de prendre à bras le corps la question de la qualité des notices IdRef de type ‘Tb’ qui décrivent des collectivités liées à la recherche. Se posait alors alors la question du champ : que devions-nous couvrir ? Par pragmatisme, nous avons défini un premier cercle : les établissements habilités (actuellement ou dans le passé) à délivrer le doctorat. 216 notices ont ainsi été passées en revue, améliorées, et enrichies d’alignements vers le référentiel ROR.

Nous avons découvert que ROR, qui s’était jusqu’alors présenté comme un référentiel des top-level institutions, avait enrichi sa base pendant l’été 2023 avec de nombreuses structures de type laboratoires (unités mixtes de recherche) au moyen des données publiques issues du RNSR.

Cette inflexion semblait nécessaire pour poursuivre l’objectif de ROR, qui est de structurer les données d’affiliation des publications par des PID. Nous avons alors emboîté le pas, en élargissant le cercle : le début de l’année 2024 a vu l’injection de nouveaux alignements ROR dans IdRef, pour des structures, de type unités de recherche, et plus seulement pour des établissements.

Continuer la lecture

IdRef : le projet ArchéoRef Alignements (ArchéoAl) est terminé

Auteur/autrice de la publication :Punktauteur
Publication publiée :5 juin 2023
Post category:IdRef Non classé

Depuis octobre 2020, l’Abes était partenaire du projet ArchéoRef Alignement – ArchéoAl relatif aux notices d’autorité de sites archéologiques, projet financé par CollEx-Persée et porté par l’Institut français d’archéologie orientale du Caire (Ifao). Formellement terminé depuis fin 2022, le projet a fait l’objet d’un rapport scientifique publié courant mars 2023. Au printemps 2023, l’Abes a procédé au chargement des alignements PACTOLS dans IdRef.

Dans la continuité du projet ArchéoRef …

Entre 2014 et 2016, le réseau des Écoles Françaises à l’Étranger (EFE), l’Institut français d’archéologie orientale du Caire (Ifao), l’École française d’Athènes (EFA), l’École française de Rome (EFR), l’École française d’Extrême-Orient (EFEO) et la Casa de Velázquez (CVZ) ont mené un premier projet ayant abouti à l’enrichissement de 475 notices d’autorité IdRef décrivant des sites archéologiques. Il s’agissait principalement d’ajouter des coordonnées géographiques dans les notices afin de permettre la géolocalisation des sites.

Consulter les deux billets publiés à ce sujet sur le blog Punktokomo : ici et ici

…en exploitant la méthodologie du projet RefDivinités

En 2019-2020, l’Abes a été sollicitée par la Bibliothèque interuniversitaire de la Sorbonne et FRANTIQ, Fédération et Ressources sur l’Antiquité (GDS 3378), dans le cadre d’un autre projet CollEx-Persée : RefDivinités. Il s’agissait de travailler sur des divinités et héros du monde méditerranéen antique, décrits à la fois dans IdRef et dans PACTOLS, thésaurus de référence pour les Sciences de l’Antiquité et l’Archéologie. Ce travail d’enrichissement et d’alignement IdRef <-> PACTOLS a porté sur 663 notices de personnes physiques.

Consulter le billet Punktokomo qui retrace les étapes de ce projet

ArchéoAl : partenaires et finalités du projet

En 2020, sous la houlette de l’Ifao, les mêmes acteurs sont lauréats d’un nouvel appel à projet Collex-Persée : ArchéoAl commence. Le projet a été mené en deux phases :

au sein de chaque école, collaboration entre chercheurs et professionnels de l’IST dans l’objectif d’améliorer les notices IdRef
recours à un personnel recruté sur financement Collex-Persée et hébergé par Bibracte afin d’aligner IdRef au thésaurus PACTOLS porté par FRANTIQ et, ainsi, l’ouvrir à d’autres référentiels.

Continuer la lecture

IdRef : chantier qualité autour des notices d’autorité Personnes physiques de statut 1

Auteur/autrice de la publication :Punktauteur
Publication publiée :29 mars 2022
Post category:IdRef Sudoc

L’Abes sollicite la participation des Correspondants Autorités pour enrichir des notices d’autorités beaucoup trop succintes,

Le problème et la finalité du chantier

Le chantier concerne des notices de personnes physiques Tp1, issues de chargements de notices élémentaires d’origine BnF faits il y a quelques années. Le plus souvent, elles sont réduites à un point d’accès, sans données codées, sans mention de source, liées à peu de notices bibliographiques (voire mal liées).

Notice exemple — Notice PPN 057140057 en format professionnel, sans données codées, ni 340, ni 810.

L’existence de ces notices d’autorité pauvres est un problème pour la qualité globale du catalogue :
– elles génèrent du bruit pour le catalogueur qui souvent, faute d’élément discriminant, ne les traite pas ;
– elles perturbent le fonctionnement des programmes automatisés, notamment d’alignement, que l’Abes a développé depuis quelques années.
L’Abes souhaite aboutir à la disparition de ces notices au profit de notices enrichies et fiabilisées, basculées en statut 5 pour acter ces améliorations.
La finalité du chantier est de faire disparaitre le statut 1 dans les notices d’autorité Personnes physiques.

Continuer la lecture

IdRef : chantier qualité autour des notices d’autorité Collectivités pour les besoins de Mir@bel

Auteur/autrice de la publication :Punktauteur
Publication publiée :16 mars 2022
Post category:IdRef Sudoc Sudoc PS

L’Abes et le réseau Mir@bel s’associent pour améliorer, avec l’aide des professionnels des réseaux Sudoc et Sudoc-PS, le signalement et les métadonnées descriptives des ressources continues publiées par l’édition scientifique française.

Le contexte du chantier

L’Abes est partenaire du réseau Mir@bel dans le projet MIRABEL2022 : « Favoriser la circulation ouverte des données d’identification et de référencement des revues et éditeurs scientifiques français et leur donner une visibilité internationale (DOAJ, Sherpa/Romeo) grâce à la coopération des acteurs impliqués dans l’écosystème de l’édition », financé par le Fonds national pour la science ouverte (FNSO) pour la publication et l’édition scientifiques ouvertes.

Pour l’Abes, l’objectif du projet est d’améliorer le taux de liage entre IdRef et les données éditeurs de Mir@bel, taux qui s’élève actuellement à environ 70% pour les éditeurs français, de façon à obtenir une couverture complète pour le corpus considéré.

Continuer la lecture

Articles plus anciens

Reconnaître les fausses croyances

Premier espoir déçu : une stratégie doit être 100% correcte

Deuxième désillusion : c’est toujours une bonne idée d’adapter la stratégie à la spécificité des données d’entrées

Troisième ornière : l’alignement sans regard humain, à grande échelle, c’est trop dangereux

Quatrième erreur : on ne peut évaluer le résultat qu’au doigt mouillé

Qu’est-ce que sont les alignements ?

Pourquoi aligner ?

Comment s’y prendre ?

Ce que fait l’Abes

Janvier – février 2022 : correction automatique de ce qui était automatisable

Prémices de l’intérêt pour ROR – Research Organization Registry

Dans la continuité du projet ArchéoRef …

…en exploitant la méthodologie du projet RefDivinités

ArchéoAl : partenaires et finalités du projet

Le problème et la finalité du chantier

Le contexte du chantier

Janvier – février 2022 : correction automatique de ce qui était automatisable