Ce billet est le second d’une série en deux volets présentant une coopération fructueuse entre Repères, Mir@bel et l’Abes (voir le billet n° 1).
Mir@bel2022 : vers un référentiel partagé pour les structures éditoriales
Sous l’égide du Comité pour la science ouverte, Mir@bel a pour mission de collecter les données relatives aux politiques de diffusion des revues scientifiques et des éditeurs français. Ce travail assure l’intégration de ces informations dans sa base de connaissances et leur diffusion dans la base Sherpa Romeo. Le projet Mir@bel2022 contribue pleinement à cette mission en s’organisant autour de deux axes, dont l’un consiste à fédérer les partenaires du projet autour d’un référentiel partagé des structures éditoriales produisant les revues scientifiques françaises..
Comme point de départ, Mir@bel dispose déjà une base de données regroupant les éditeurs associés aux revues référencées. Cette base recense principalement les éditeurs responsables de la publication et/ou diffusion des revues, mais inclut également ceux impliqués dans leur conception et rédaction. Les données collectées sont variées et distinctives : en plus des éléments d’identification standard, elles comportent souvent des liens URL vers leurs sites internet et réseaux sociaux.
L’adoption d’un mode de description partagé de ces données implique leur alignement autour d’un identifiant commun pour tous les éditeurs concernés. C’est la base IdRef, gérée par l’Abes, qui a été retenue pour jouer ce rôle de référentiel pivot. Conforme aux principes FAIR, IdRef dispose actuellement de la couverture la plus étendue en France. Au delà de l’identification univoque des individus, des structures, des autorités Rameau et de leur interconnexion à d’autres entités, IdRef est aligné sur de nombreuses bases d’identifiants. De plus, son modèle de production de contenus se rapproche de celui de Mir@bel.
La gestion dynamique du modèle Mir@bel au sein des 136 partenaires du réseau a favorisé diverses convergences, que ce soit par l’ajout de dates dans le modèle initial ou par la normalisation des informations d’éditeurs . Ainsi, IdRef et Mir@bel fonctionnent comme des bases complémentaires, alimentées d’une part par des experts des bibliothèques et de la recherche, et d’autre part par des spécialistes de l’édition et de la documentation. Ces deux réseaux bénéficient du travail de complétion, d’alignement et de curation réalisé par des communautés aux compétences complémentaires. Les deux réseaux bénéficient ainsi du travail de complétion, d’alignement et de curation réalisé par des communautés complémentaires.
Faire converger les données d’éditeurs à l’aide d’IdRef
Dès janvier 2021, cet objectif prend corps et des travaux de rapprochement entre les données éditeurs de Mir@bel et d’IdRef débutent. Après une première phase de comparaison des données présentes dans les deux outils, s’ensuit pour Mir@bel un important travail d’analyse, de correction et de préparation des données. Les données éditeurs sont fiabilisées, notamment les éléments sur leur localisation géographique ou leur intitulé ; des règles sur les changements de noms et de périmètres sont adoptées pour permettre des dédoublonnages. De même, des consignes actualisées de création sont adressées au réseau Mir@bel, l’ensemble des opérations visant à importer en masse des IdRef en vue de l’alignement, mais aussi à fournir des données à l’Abes. Les alignements en tant que tels sont réalisés en deux vagues, entrecoupées d’un nouveau temps d’analyse, de dédoublonnage et de correction. Début 2022, ces travaux permettent d’atteindre un taux de correspondance de 70 % entre les éditeurs français signalés dans Mir@bel et IdRef.
Ce premier palier marque le début d’une nouvelle étape dans la mutualisation des données des éditeurs. En effet, pour améliorer encore le taux d’alignement entre les deux bases, il faut désormais enrichir IdRef avec les collectivités éditrices qui ne s’y trouvent pas encore. Une liste de 700 éditeurs, sans notice IdRef, est établie à partir des données de Mir@bel. À l’Abes, les équipes des services Ressources Continues et Autorités et Référentiels prennent en charge une partie des créations et sollicitent également l’aide de leurs réseaux (correspondants autorités et responsables CR du réseau Sudoc PS). Entre mars et juillet 2022, environ 650 notices sont ainsi créées dans IdRef, une cinquantaine de structures éditoriales sont écartées faute d’informations suffisantes pour pouvoir créer les notices IdRef, qui doivent être sourcées.
À l’automne 2022, et jusqu’à la fin de l’année, les données d’IdRef et de Mir@bel convergent à nouveau en une nouvelle vague d’alignements : les notices créées dans la base de l’Abes sont liées à leurs équivalents dans Mir@bel, et réciproquement, les identifiants Mir@bel sont massivement ajoutés dans les notices IdRef. Un encart est aussi ajouté dans IdRef permettant, pour chaque notice d’éditeur, le rebond vers les pages Mir@bel des revues liées.
Des opérations d’alignement entre deux systèmes riment souvent avec une montée en qualité du signalement. Ce projet-ci ne fait pas exception à la règle. Le référent « données éditeurs » au sein de Mir@bel met à jour le Guide de création des pages d’éditeurs et forme les partenaires veilleurs aux bonnes pratiques de signalement. Les travaux de nettoyage et d’harmonisation des données se poursuivent.
En parallèle, l’interface de Mir@bel évolue pour faciliter la saisie des éditeurs : interrogation automatique d’IdRef lors de la saisie d’un nouvel éditeur pour permettre la récupération des données principales, scripts de récupérations et vérifications d’informations, mise en place de redirections et plus grande robustesse des alignements.
En plus du premier script, mis en place en février 2023 pour repérer les IdRef fusionnés, un nouveau script hebdomadaire permet de nouveaux contrôles en comparant plusieurs données sur les éditeurs alignés, ce qui facilite la récupération de l’information pour les nouveaux champs « dates de début et de fin » dans Mir@bel ou le signalement des différences. Ce script va donc au-delà de la vérification de données puisqu’il enrichit les données de Mir@bel et IdRef quand les dates d’éditeurs sont manquantes ou erronées.
Claire Dandieu & Carolina Verlengia, pour le réseau Mir@bel
Basile Bayoux, pour le réseau Repères
Morgane Parra, pour l’Abes
Ping : Repères, Mir@bel et l’Abes : une coopération fructueuse pour améliorer la visibilité des revues Diamant (1/2) - PUNKTOKOMO