Anatomie des alignements, épisode 1/3
Entre mai et novembre 2024, une série de billets ont été publiés conjointement sur les blogs de ROR et de Crossref par Adam Buttrick et Dominika Tkaczyk (Si vous avez un doute sur ce qu’est le ROR, pour Research Organizations Registry, allez réviser sur ce précédent billet Punktokomo.) Ils traitent d’un enjeu qui est à la fois central et quotidien pour le service Autorités et Référentiels de l’Abes : l’alignement. En anglais, on parle de matching.
Voyons comment ces collègues qui travaillent eux aussi toute la journée sur des métadonnées situent les choses, quel vocabulaire elles et ils emploient, vers quoi tendre et sur quels os on peut tomber.
Billets originaux : Metadata Matching , what is it and why do we need it ? et The Anatomy of Metadata matching
Qu’est-ce que sont les alignements ?

par Johanneke Kroesbergen-Kamps
L’alignement, pour des métadonnées, a pour objectif de rapprocher des sources pour apparier des entités (dans les cas qui nous occupent à l’Abes, des personnes physiques et/ou des organisations) qui sont considérées comme identiques.
On se lance dans des travaux d’alignement quand on sait, ou du moins qu’on suspecte, que deux sources de données parlent des mêmes choses. Par exemple, quand on entreprend d’aligner un annuaire des personnels d’une université vers IdRef, on suppose que les chercheuses, enseignantes-chercheuses, ingénieures[1] de recherche, etc. qui travaillent dans cette université ont probablement déjà une notice descriptive dans IdRef, car elles ont des rôles bibliographiques dans des documents signalés dans les gisements documentaires associés, comme le Sudoc et les thèses. Tout alignement commence donc par le présupposé d’un recouvrement.
Par ailleurs, pour ne pas mélanger les torchons et les serviettes, on ne se lance dans un alignement qu’en supposant aussi que la définition des entités qu’on veut apparier est suffisamment proche. Quand il s’agit de personnes physiques, c’est assez simple : chaque être humain est unique, et ne naît et ne meurt qu’une fois. La définition de base est la même. Une personne pourrait être décrite par plusieurs notices IdRef ou par plusieurs entrées dans un annuaire, mais alors, c’est un doublon : parce qu’on suppose l’unicité de chaque entité et un accord sur la définition de l’identité. Pour les collectivités, vous vous en doutez, c’est toujours un peu plus tordu, mais on y reviendra.




