Anatomie (pathologique) des alignements, épisode 2/3
Ce billet, à la suite du précédent, vise à partager via l’explicitation et la traduction les quatre billets co-publiés par les blogs de ROR et CrossRef au sujet de l’alignement (matching). Ce deuxième volet démolit les mythes et introduit la question de l’évaluation des stratégies d’alignement.
Billets originaux : The Myth of Perfect Metadata Matching et How Good Is Your Matching?

Reconnaître les fausses croyances
Le problème avec ces perceptions faussées, c’est qu’elles ne permettent pas d’avoir une idée réaliste de ce qu’on peut attendre d’un processus d’alignement.
Parmi les problèmes qu’elles attirent, se trouvent surtout des attentes démesurées, ou la sous-estimation du temps et du travail nécessaire pour le mener à bien.
Premier espoir déçu : une stratégie doit être 100% correcte
Hélas la perfection n’est pas de ce monde. Bien que ce soit évidemment l’idéal vers lequel on tend, la pratique des alignements nous fait rapidement entrevoir pourquoi ça n’est pas possible. Tout d’abord, parce que lorsqu’on a en entrée des données non structurées, donc des chaînes de caractères, elles ont été produites et pensées par des êtres humains. Divers. Faillibles. Mais aussi dotés, outre d’une imagination sans limite pour les fantaisies orthographiques, d’une capacité d’inférence liée au contexte, qui fait qu’elles rétablissent d’emblée, à partir de chaînes variables, le sens attendu. Pour mener un alignement via des machines, il faut trouver comment expliciter toutes ces opérations mentales de structuration, d’appariement, de développement d’acronymes ou d’abréviations, de distinctions d’homonymes, pour qu’elles puissent être systématisées et reproduites.




