; PUNKTOKOMO

Calames : l’IA au service des chantiers qualité #1

Auteur/autrice de la publication :Punktauteur
Publication publiée :1 juillet 2025
Post category:Non classé

Chantiers qualité dans Calames : contexte et objectifs

Dans la seconde moitié des années 2010, plusieurs chantiers qualité ont été menés en concertation avec le groupe de travail Calames. Ces opérations reposaient principalement sur des modifications de masse réalisées par l’Abes, avec une simple information communiquée au réseau.

En 2020, dans le contexte particulier du confinement, un chantier qualité ciblant les autorités et leurs liens avec les notices IdRef s’est déroulé sur plusieurs mois. Pour la première fois, les établissements du réseau ont été sollicités pour améliorer ces liens, grâce à l’envoi par l’Abes d’un tableau de diagnostic détaillé.

En 2023, lors de la journée réseau Calames intitulée « Le Voyage des données », ces chantiers qualité ont été évoqués à nouveau. Il a été annoncé qu’ils seraient relancés afin de préparer la migration des données Calames vers un nouvel outil destiné à remplacer l’actuel.

Cette attention à la qualité des données est également essentielle pour anticiper d’éventuelles conversions vers de nouveaux modèles, comme EAD 4 (dont la publication est prévue en 2026) ou RiC (publié fin 2023).

Identifier les chantiers pertinents

En 2024, l’équipe Calames a identifié les chantiers qualité pertinents en procédant au requêtage de la base de production. Deux types de cas ont été privilégiés :

Des cas repérés dans la base avec une certaine régularité lors d’interventions sur les données ou de traitements de tickets d’assistance

Des éléments EAD estimés « stratégiques » du fait qu’ils alimentent des index de recherche dans l’interface publique de Calames : ID de composant, cotes, dates, indexation de personne physique, collectivité, famille, lieu géographique, sujet ou langue.

Une trentaine de chantiers qualité potentiels ont ainsi été identifiés et classés en ordre de priorité selon le degré d’importance de l’élément ou de l’attribut EAD concerné dans les index de recherche Calames et du nombre de formes erronées à corriger sur l’ensemble des données publiées dans Calames, les données présentes en base de production, mais non publiées, ayant été systématiquement écartées de l’analyse.

S’aider de l’intelligence artificielle pour modifier les données en masse

Pour réaliser des modifications de masse sur les données, l’Abes utilise deux outils internes : l’un dédié au Sudoc et à IdRef, l’autre à Calames.

Ces outils reposent sur des scripts développés en langage Java, s’appuyant sur l’API standard du DOM W3C. Cette bibliothèque permet de créer, manipuler et analyser des documents XML, en offrant une navigation fine au sein de la structure arborescente des nœuds XML. Grâce à cette technologie, il est possible, en théorie, d’accéder à tout élément ou attribut EAD contenu dans les composants d’un fichier, afin de les modifier de manière ciblée.

L’IA à la rescousse de la qualité des données Calames

La production de ces scripts peut toutefois s’avérer fastidieuse pour des non-informaticiens, notamment selon la complexité des éléments ou attributs EAD à modifier. Afin d’accélérer ce processus et de limiter la sollicitation récurrente des informaticiens, il a été décidé de recourir à un modèle d’intelligence artificielle.

A cette fin, un agent LLM (Large Language Model) a été entraîné pour permettre aux utilisateurs de générer des scripts Java adaptés aux données Calames, sans avoir besoin de connaissances en développement ou en langage de programmation. L’objectif : traduire automatiquement une demande formulée en langage naturel — par exemple, une requête manuscrite décrivant le type de modification souhaitée — en instructions compréhensibles par la machine, tout en respectant la DTD EAD.

Concrètement, un agent LLM est un programme informatique avancé, fondé sur un grand modèle de langage. Il est capable de comprendre et de produire du texte grâce à l’intelligence artificielle. Basé sur un modèle préalablement entraîné, il est ensuite configuré de manière spécifique pour répondre à un usage ciblé — ici, la génération de scripts Java pour le traitement de données XML dans Calames.

Entraînement et configuration des agents LLM

Dans notre cas, les tests ont été menés avec deux agents LLM : l’un basé sur GPT-4-turbo via ChatGPT, l’autre sur Codestral 25.01, accessible via La Plateforme de Mistral AI.

Pour que les agents puissent produire des scripts pertinents, un contexte précis leur a été fourni : normes à respecter (notamment la DTD EAD), bibliothèques Java utilisées, et un échantillon représentatif des données Calames.
La configuration intègre également les spécificités du langage XML, les pièges classiques identifiés lors de l’écriture de scripts, ainsi que des consignes permettant de limiter les erreurs récurrentes.

Construction d’un jeu d’entraînement

En amont, une liste de requêtes de modification courantes a été constituée. Pour chaque demande, un développeur a rédigé le script Java correspondant, servant de référence.
Cette base a ensuite permis d’entraîner l’agent LLM, afin qu’il puisse adapter ses réponses à des formulations en langage naturel, tout en produisant du code exploitable.

Des instructions précises ont également été données sur le format de sortie attendu, la syntaxe à respecter, ainsi que le style de commentaire dans les scripts.

Un nombre conséquent de tests et d’itérations a été nécessaire pour affiner les réponses de l’agent, et le rapprocher au maximum du cahier des charges défini initialement.

Utilisation concrète via Mistral AI

Les tests ont été réalisés avec des agents basés sur GPT-4-turbo via chatGPT et Codestral 25.01 via La Plateforme de Mistral AI.

Pour la configuration, le contexte, les normes et les librairies utilisées ont été fournies aux agents LLM. Un échantillon du type de données à partir duquel il doit travailler a également été fourni. La configuration a dû faire état des particularités du langage et des écueils connus lors de l’écriture de scripts afin de circonscrire les erreurs connues.

Dans le cas de Mistral, l’utilisateur accède à l’agent conversationnel via la page dédiée de “Mistral AI : Le Chat”, où il peut appeler l’agent LLM entraîné par l’Abes. Il lui suffit alors de formuler sa demande comme il le ferait auprès d’un développeur, en langage courant.

Dans l’exemple ci-dessous, l’agent produit un script Java destiné à être utilisé dans l’outil de modification de masse de Calames. Le fichier texte d’entrée n’a pas besoin d’être détaillé dans son contenu ; seule l’indication de la colonne à cibler dans ce fichier est nécessaire pour générer le script adéquat.

En quelques secondes l’agent LLM génère un nouveau script Java en suivant les instructions. Si l’utilisateur n’est pas satisfait, il peut modifier sa demande plusieurs fois.

Des scripts en Java étant également utilisés pour les modifications de masse côté Sudoc, un agent LLM a été adapté pour produire de la même manière des scripts adaptés à Unimarc.

Le résultat généré par l’agent LLM est un script adaptable qui vise à modifier en masse, de manière très précise les données ciblées. Lors de la génération d’un script, l’agent LLM peut énumérer les détails du script qu’il a généré et permettre à un interlocuteur profane de comprendre ce qu’il fait.

Mais l’IA peut se tromper et des itérations sont parfois nécessaires si le script produit provoque des messages d’erreur : dans ce cas, une fois qu’on lui a indiqué l’erreur, l’IA est capable de corriger elle-même son propre script.

Par sécurité, avant toute exécution en base de production, les scripts sont testés sur des cas types en base de formation Calames et le fichier EAD modifié est alors vérifié par un humain dans un comparateur de fichiers XML. La comparaison avec la version avant modification permet de visualiser ce qui a été modifié ou non et si des modifications non voulues ne se sont pas produites.

Comment fonctionnent les scripts en Java ?

La structure de tous les scripts produits par l’IA est la même : ils débutent par l’identification du composant où se trouve(nt) la ou les données à modifier ; chaque composant EAD ayant un identifiant unique dans Calames, les identifiants des composants concernés sont listés dans la colonne d’un fichier txt appelé par le script :

Puis les scripts procèdent à des boucles pour isoler le ou les éléments EAD concerné(s) au sein de chaque composant, comme ci-dessous pour un élément <extref> :

Les scripts procèdent, si nécessaire, à la suppression des valeurs à corriger dans un ou plusieurs éléments ciblés. Le cas échéant, de nouvelles valeurs sont générées automatiquement pour les remplacer. Une fois les modifications appliquées à un composant, le script passe au suivant, en bouclant à nouveau sur les éléments à traiter dans ce nouveau composant. Ce processus se répète jusqu’à ce que tous les composants concernés aient été parcourus.

Grâce à ce fonctionnement, des milliers de composants répartis dans des dizaines de fichiers EAD issus d’une même base de données peuvent être traités en quelques minutes par un seul et même script.

Pour sécuriser l’opération, l’outil utilisé par l’Abes pour la modification de masse permet de cibler précisément les fichiers EAD concernés : il suffit d’indiquer leurs clés (identifiants de fichiers). Cela garantit que seuls les fichiers explicitement sélectionnés seront modifiés, évitant ainsi toute intervention involontaire sur des données non concernées.

Identifier précisément la donnée à modifier

Aussi rapide soit-elle, la génération d’un script ne dispense pas de vigilance : le script doit cibler avec précision la donnée à corriger ou à mettre à jour, sans risquer d’altérer d’autres données similaires mais correctes.

Lorsqu’un élément EAD est non répétable, sa présence unique dans un composant garantit que le script agira sur la bonne cible. En revanche, dans la majorité des cas, les éléments concernés sont répétables — autrement dit, plusieurs occurrences du même type d’élément peuvent coexister dans un composant. Il devient alors indispensable de mettre en place des critères de sélection fiables pour que le script n’intervienne que sur l’occurrence à modifier, sans toucher aux autres qui sont déjà conformes ou à jour.

Exemple de ciblage précis : le cas des éléments `<unitid>`

Prenons un cas concret : un composant contient cinq éléments <unitid>, dont un seul doit être modifié. Il est essentiel que le script identifie précisément celui-ci, sans toucher aux autres.

Si le <unitid> à modifier est le seul à porter l’attribut @type="cote" tandis que les quatre autres ont @type="ancienne_cote", alors l’attribut type suffit à le cibler de manière fiable.

En revanche, si l’élément à modifier est lui aussi un <unitid> de type="ancienne_cote", l’attribut seul ne suffit plus : il faudra alors croiser ce critère avec le contenu textuel de l’élément (ayant une valeur spécifique) pour s’assurer qu’il s’agit bien du bon <unitid>.

Ce genre de vérification conditionne la qualité du script : un ciblage trop large peut entraîner des modifications non souhaitées, tandis qu’un ciblage trop restrictif peut empêcher la modification attendue. D’où l’importance de bien analyser les cas de figure avant d’automatiser.

Plutôt pas assez que trop : les limites du ciblage par valeur

La vérification des valeurs d’attributs et du contenu textuel d’un élément est ce qui garantit la fiabilité du ciblage. Mais cette méthode a aussi ses limites.
En effet, si le contenu textuel contient des caractères parasites — espaces superflus, tabulations, retours à la ligne —, le script peut ne pas reconnaître l’élément comme correspondant à la valeur attendue. Ce problème se pose plus rarement sur les attributs, généralement mieux structurés.

Dans ce cas, l’élément ciblé n’est pas trouvé, et le script passe à l’occurrence suivante, que ce soit dans le même composant ou dans un composant différent, sans effectuer la modification attendue.

Ce type d’imprécision explique pourquoi, à l’issue d’une opération de modification de masse, le nombre de modifications effectivement réalisées peut être légèrement inférieur à celui initialement prévu ou identifié.

Limites des scripts et enjeux de qualité des données

Entre deux risques — corriger trop largement au point d’introduire de nouvelles erreurs, ou corriger trop peu et laisser passer certaines anomalies — l’Abes choisit résolument la prudence. Mieux vaut que quelques erreurs subsistent plutôt que de risquer d’en créer de nouvelles.

Un fichier EAD est structuré en trois grandes parties :

<eadheader>, qui contient des métadonnées sur le fichier lui-même,
le haut niveau de description,
<archdesc>, qui regroupe les informations communes à l’ensemble du contenu,
et enfin le <dsc>, enfant de <archdesc>, qui contient les composants (unités documentaires décrites).

Les scripts Java évoqués plus haut sont conçus pour intervenir uniquement au niveau des composants, ce qui couvre l’essentiel des données publiées dans Calames. Toutefois, certaines mises à jour peuvent également concerner des données situées en <eadheader> ou en <archdesc>.

Dans ces cas-là, il est nécessaire d’effectuer des requêtes SQL UPDATE directement dans la base. Bien que plus sensibles, ces interventions restent maîtrisées : en cas d’erreur, il est possible de restaurer les fichiers à partir des versions de sauvegarde. Les établissements sont d’ailleurs invités à ne pas intervenir simultanément dans la base lorsque l’Abes procède à des modifications de masse, pour garantir la cohérence des données.

Lorsque des corrections doivent être apportées à la fois dans <archdesc> et dans les composants, il est possible de les regrouper dans un même chantier, mené sur une journée.

Conclusion : une amélioration continue de la qualité

La qualité des données n’est jamais totalement acquise — ni à leur production par les collègues des établissements du réseau Calames, ni après correction par l’Abes. Mais ce sont bien ces efforts progressifs, concertés et itératifs qui permettent de tendre vers un niveau de qualité toujours plus élevé, au service des usagers et des outils de signalement.

D’autres billets sont à suivre sur les chantiers qualité menés entre mars et juillet 2025 dans Calames afin de donner plus de détails pour chaque chantier.

Continuer la lecture

Homologation de sécurité des systèmes d’information : l’Abes s’engage avec MonServiceSécurisé

Auteur/autrice de la publication :Punktauteur
Publication publiée :23 juin 2025
Post category:Non classé

La cybersécurité est devenue un enjeu central pour les établissements publics, notamment depuis la parution de l’Instruction générale interministérielle n°1337 du 26 octobre 2022, qui impose une obligation d’homologation des systèmes d’information (SI) pour toutes les structures concourant aux missions de l’État ou placées sous sa tutelle.

Consulter : Texte officiel sur Légifrance

Une obligation réglementaire à l’horizon 2025

Depuis avril 2023, les établissements disposent d’un délai de deux ans pour se mettre en conformité. Passé ce délai, les pénalités seront encadrées par l’ANSSI, comme précisé dans la section 6.3 de l’Instruction.

Consulter : Section 6.3 sur Légifrance

Qu’est-ce que l’homologation de sécurité ?

L’homologation est un acte formel par lequel une autorité qualifiée (l’AQSSI ou son délégataire) atteste que :

les risques de sécurité ont été identifiés
les mesures de maîtrise des risques ont été mises en œuvre
les risques résiduels sont acceptés en pleine connaissance de cause.

Ce processus doit précéder toute mise en production d’un nouveau service numérique. Il s’applique à tous les SI relevant du périmètre de l’État ou de réglementations spécifiques, et est adapté en fonction de la sensibilité des systèmes concernés.

Une gouvernance assumée

L’autorité d’homologation doit occuper une position hiérarchique suffisamment élevée pour porter la responsabilité de la mise en ligne des services.

Dans le cas de l’Abes, c’est le directeur qui fixe la durée de validité de l’homologation selon une échelle d’évaluation (ex. : note de 4,5 ➝ 3 ans d’homologation).

L’Abes engagée avec MonServiceSécurisé

En tant que DPO et RSSI de l’Abes, nous avons engagé début 2024 une démarche ambitieuse d’homologation, en nous appuyant sur MonServiceSécurisé, la plateforme développée par l’ANSSI pour faciliter cette mise en conformité.

Ce chantier a mobilisé plusieurs parties prenantes en interne : les responsables applicatifs, un expert sécurité. l’AQSSI (rôle assumé par le directeur de l’Abes), la Déléguée à la Protection des données (DPO), le Responsables de la Sécurité des Systèmes d’Information (RSSI).

Au total, plus de 50 applications ont été intégrées à la plateforme. Cette dynamique illustre une volonté forte de structurer la sécurité numérique à l’échelle de l’établissement.

Retour d’expérience dans la communauté ESR

Le 26 juin 2024, nous avons eu le plaisir de partager notre retour d’expérience lors d’un webinaire consacré aux synergies entre urbanistes SI, RSSI et DPO. Organisée par la communauté urbaESR, coanimée par l’Amue et le Csiesr, cette rencontre a rassemblé plus de 50 participants issus de ces trois domaines d’expertise. À cette occasion, Maria Castillo (DPO, Abes), Frédéric Pouilloux (RSSI, Abes) et Catherine Balleydier (Grenoble INP) ont présenté des exemples concrets de collaboration au sein de leurs établissements.

Nous avons notamment présenté :

les apports concrets de MonServiceSécurisé
la méthodologie d’évaluation des applications
l’intérêt d’une collaboration étroite entre urbanistes SI, DPO et RSSI

Consulter : Les liens entre urbanistes SI, DPO et RSSI : retour sur un webinaire urbaESR

Une reconnaissance inspirante

Notre engagement a été salué en avril 2025 par l’équipe de MonServiceSécurisé, qui nous a adressé un message de remerciement chaleureux, soulignant notre rôle d’ambassadrice et d’ambassadeur des innovations de l’ANSSI.

Cette reconnaissance renforce notre détermination à poursuivre cette dynamique, et à contribuer à la diffusion des bonnes pratiques en matière de sécurité numérique dans le secteur public.

Et demain ?

La cybersécurité est l’affaire de tous. Nous sommes convaincus que les outils et initiatives comme MonServiceSécurisé jouent un rôle essentiel dans l’évolution des pratiques du secteur public. À l’Abes, cette dynamique va se poursuivre en élargissant l’homologation à de nouveaux services et en partageant nos retours d’expérience avec la communauté ESR.

Maria Castillo, DPO et Frédéric Pouilloux, RSSI

Continuer la lecture

Lenteurs des applications Abes : retour sur un incident aux multiples pistes

Auteur/autrice de la publication :Punktauteur
Publication publiée :17 juin 2025
Post category:Non classé

Incident survenu du 19 au 28 mai 2025

Quand on ne trouve pas, c’est qu’en général on ne cherche pas au bon endroit

Tout a commencé vers la mi-avril, avec quelques signaux faibles : des retours isolés, des lenteurs sporadiques, parfois impossibles à reproduire, des utilisateurs gênés… mais rien de franchement alarmant. Puis, le 19 mai, la situation s’accélère : les alertes se multiplient. Calames devient poussif, le moissonnage des entrepôts de données rame, l’autocomplétion des auteurs sur idref.fr prend une pause-café, et même le Sudoc public (sudoc.abes.fr) débouche parfois sur un message « délai dépassé ».

Pour ne rien arranger, certaines de nos sondes de surveillance se sont mises à faire le yoyo (en ligne, hors ligne, de nouveau en ligne, puis encore hors ligne), accentuant la confusion et renforçant le sentiment d’instabilité générale.

Le plus déconcertant ? À l’Abes, ou via notre VPN, tout fonctionne parfaitement. Aucune lenteur, rien à signaler. Impossible de reproduire le problème. En revanche, à distance, les soucis sont présents mais pas de façon constante. D’où cette impression étrange : ce n’est pas l’application qui flanche, mais l’accès. Et pourtant, côté réseau, tout semble en ordre. Aucun indicateur suspect, aucune alerte. Rien.

Alors, on creuse. On mène des tests en direct avec un établissement impacté (la bibliothèque de l’Académie Nationale de Médecine). On inspecte les trames avec les outils de développement du navigateur, puis avec Wireshark. Les lenteurs sont tangibles. Et pourtant, dans les logs, aucune anomalie liée aux IP publiques des utilisateurs concernés. Le vide.

Alors, on continue à chercher. On redémarre des services, on inspecte le DNS, les interfaces réseau, les journaux système, les pares-feux, le débit, la mémoire, la CPU, la couche de virtualisation, les bloqueurs de pub (oui, vraiment), et même Matomo, notre outil de statistiques web.

Mais rien. Les lenteurs persistent, réelles, mesurables… et insaisissables. Comme si le problème s’amusait à jouer à cache-cache avec nous.

Alors, où chercher maintenant ?

Quand on finit (enfin) par chercher au bon endroit

C’est en basculant notre application exemple « hello.abes.fr » sur un autre reverse proxy que l’on a le déclic. Lente et poussive derrière le reverse proxy central, elle devient fluide et réactive lorsqu’on la place derrière un autre proxy. Ce contraste nous met sur la piste. On met donc en place un nouveau reverse proxy central, puis on y migre l’application Calames. Résultat sans appel : sans VPN, tout fonctionne parfaitement. La source du problème se précise nettement.

En creusant la piste du reverse proxy, on s’intéresse de plus près au pare-feu présent sur la machine, on analyse les différentes règles iptables présentes, dont certaines n’ont pas été modifiées depuis des années, sans jamais avoir été réellement réévaluées. En particulier, une règle limitait le nombre de connexions entrantes pour contrer les attaques DoS. Sauf qu’en 2025, avec plus d’applications, plus d’usagers, plus de moissonnages… ces seuils ont fini par faire du zèle. Trop de trafic ? Hop, on bloque. Résultat : un effet de seuil inattendu, où le trafic légitime se retrouve victime d’une politique de sécurité un peu trop stricte.

Les petits réglages qui font toute la différence

Une fois la cause identifiée, les ajustements s’enchaînent avec méthode.

Les règles iptables de protection contre les attaques DoS sont repensées : les seuils sont relevés et les limitations appliquées par adresse IP source. Une approche à la fois plus juste et moins restrictive.

Du côté du serveur web Apache (HTTPd), plusieurs optimisations sont opérées : augmentation des caches pour les sessions HTTPS (de 2 Mo à 5 Mo puis à 10 Mo), ajout de threads sur les serveurs, ajustement du nombre de connexions simultanées… chaque paramètre est affiné pour garantir un fonctionnement fluide et stable.

Enfin, une des règles iptables, oubliée lors des dernières modifications, a provoqué, par effet de bord, le blocage involontaire des accès HTTP. Sa correction a rétabli le fonctionnement normal.

Et le plus réjouissant dans tout ça ? C’est que ça marche. Les lenteurs disparaissent. Les applications redeviennent fluides. Les sondes se stabilisent. Et l’équipe respire enfin.

Ce qu’on en retient

Derrière cet incident se cache une belle leçon de mécanique logicielle et d’archéologie système : des règles oubliées, des seuils devenus obsolètes, un reverse proxy vieillissant, et une croissance d’activité sous-estimée. Cet effet de seuil est, par ailleurs, inhérent à tout système. Un système en fonctionnement repose sur un équilibre défini par de multiples paramètres techniques, fixés à un moment de sa conception ou de son déploiement, qu’il est essentiel de réévaluer dès lors que les usages évoluent.

Mais surtout, c’est l’occasion de rappeler que, quand on ne trouve pas, ce n’est pas toujours parce qu’il n’y a rien. C’est peut-être simplement qu’on ne cherche pas au bon endroit.

Remerciements au SIAT (Service Infrastructure et architecture technique de l’Abes) pour son intervention réactive, aux collègues de l’Abes pour leurs précieuses remontées, ainsi qu’à la Bibliothèque de l’Académie Nationale de Médecine pour sa collaboration lors des tests.

Continuer la lecture

Indexation RAMEAU assistée par IA : le décryptage du Labo

Auteur/autrice de la publication :Punktauteur
Publication publiée :25 avril 2025
Post category:Non classé

À l’issue d’une expérimentation conduite entre octobre 2024 et janvier 2025, l’Abes a publié le rapport « Indexation RAMEAU assistée par IA ». Retour en détail sur la façon dont fonctionne cette IA prometteuse.

Lire aussi le Billet Fil’Abes : L’indexation RAMEAU assistée par IA : retour sur une expérimentation prometteuse

Contexte : du projet Labo à l’expérimentation in vivo

En 2023, le Labo de l’Abes a mené un projet dont l’objectif était d’évaluer la faisabilité d’une indexation RAMEAU de qualité satisfaisante au moyen d’une intelligence artificielle (IA), à partir du titre et du résumé d’une monographie en français. Encore fallait-il définir ce qu’est une indexation « satisfaisante », question délicate….

Les particularités de cette tâche nous ont tout d’abord conduits à adopter plusieurs stratégies d’évaluation complémentaires :

Évaluation des indexations machines avec les métriques classiques adaptées à la classification multilabel (= Sudoc comme la vérité).
Évaluation des indexations machines en les comparant à plusieurs indexations humaines, et pas seulement à l’indexation humaine du Sudoc (= pluralité des vérités). Pour ce faire, nous avons demandé à 6 collègues de l’Abes (nommés les “réindexeurs”) d’indexer une centaine de documents déjà indexés dans le Sudoc, sélectionnés de manière aléatoire.
Évaluation qualitative de toutes les indexations, humaines et machines, au moyen d’une grille de notation (= notation comme la vérité). Selon cette grille, noter une indexation, c’était, d’une part, noter chaque sujet retenu pour une notice donnée (on notait l’exactitude et la spécificité de chaque sujet) et, d’autre part, noter le bloc des sujets retenus pour une notice donnée (on notait la complétude et la redondance de chaque bloc).

Les évaluations menées nous ont permis de conclure que l’indexation RAMEAU par une IA est aujourd’hui réalisable en garantissant un niveau de qualité suffisant et un temps de traitement satisfaisant. Cependant, du fait de la grande difficulté à évaluer la qualité d’une indexation et de la nouveauté que présente l’assistance d’une IA, l’Abes a souhaité prolonger ce travail de recherche & développement interne sous la forme d’une expérimentation in vivo, en situation réelle, c’est-à-dire dans WinIBW, l’environnement de catalogage dans le Sudoc.

Dans le cadre de cette expérimentation, il s’agissait d’évaluer à la fois la qualité ressentie du service de suggestion d’indexations et la qualité ressentie de l’intégration de ce service dans l’outil de travail quotidien. L’évaluation de ces deux dimensions a permis de mesurer la satisfaction globale des collègues ayant participé aux tests et d’envisager les améliorations pertinentes. Le rapport final publié récemment décrit les modalités et les conclusions de cette expérimentation.

Dans ce billet, nous nous concentrerons sur la solution technique mise au point et retenue par le Labo de l’Abes pour rendre possible ce nouveau service d’indexation RAMEAU assisté par l’IA. De fait, celui-ci prend la forme d’un web service classique : la requête est une URL qui prend en paramètre le titre+résumé d’un document (outre d’autres paramètres) et renvoie des suggestions sous une forme structurée en JSON. Les détails de ce web service seront présentés plus loin, mais nous souhaitons avant tout présenter de manière simple la solution utilisée pour calculer les concepts RAMEAU à renvoyer, solution basée sur l’état de l’art récent en IA. Cette solution est implémentée dans ce notebook de démonstration.

L’indexation comme recherche des bons concepts

La tâche consiste à trouver dans le vocabulaire RAMEAU les concepts qui représentent le mieux ce dont parle un document. Pour ce faire, il faut trouver une manière de comparer le contenu du document et l’ensemble des concepts RAMEAU.

Mais comment représenter le contenu de ce document ? Et comment représenter un concept RAMEAU ? Et comment les comparer ?

Soit un document à indexer. Supposons que le contenu de ce document est correctement représenté par son titre et son résumé, quand ce dernier existe (pour faire court, on parlera ici de « titre+résumé ».). On peut imaginer d’autres manières de faire, plus ou moins pratiques, plus ou moins efficaces : exploiter tout le texte du document ; exploiter seulement son introduction et sa conclusion ; exploiter sa table des matières ; exploiter un résumé automatique. Dans l’approche retenue, c’est le “titre+résumé” qui est considéré comme le reflet du contenu du document, ce dont il parle.

Côté RAMEAU, il faut également trouver une manière de représenter le « sens » de chaque concept. Il pourrait s’agir de son libellé principal (ex : Élite (sciences sociales)), ou de la liste de tous ses libellés : « Élite (sciences sociales) », « Élites (sciences sociales) », « Establishment », « Haute société », « Notables », « Société, Haute »… Dans l’approche retenue, chaque concept RAMEAU est représenté par l’ensemble des notices bibliographiques Sudoc qui lui sont liées. Plus précisément, dans chaque notice bibliographique liée, on s’intéresse à son titre, et à son résumé s’il existe.

L’indexation sujet revient désormais à comparer deux choses qui semblent comparables :

D’un côté, le “titre+résumé” d’une notice bibliographique à indexer
De l’autre, l’ensemble des “titres+résumés” des notices bibliographiques liées à un concept RAMEAU

On comprend aisément que cette comparaison doit être faite autant de fois qu’il y a de concepts RAMEAU : ainsi, pour chaque document à indexer, il y a donc des dizaines de milliers de comparaison à effectuer, pour trouver les concepts les plus « ressemblants » au “titre+résumé” de la notice à indexer, ce qui peut prendre un certain temps…

On sait désormais ce qu’on veut comparer, mais comment les comparer ? Que signifie « ressemblant » ici ? On pourrait par exemple comparer les mots présents de chaque côté, si possible en prenant en compte la fréquence des mots dans toute la base et dans les “titres+résumés” de chaque notice bibliographique (avec TF-IDF). Mais bien souvent, le libellé d’un concept RAMEAU pertinent n’est pas explicitement présent dans le “titre+résumé” du document à indexer. Par exemple, le concept « Classes dirigeantes » semble bien convenir pour un document dont le titre (Les sommets de l’État : essai sur l’élite du pouvoir en France) ne contient pas ce terme.

L’indexation comme recherche sémantique des bons concepts

Or, dans le domaine de l’intelligence artificielle, la notion d’embedding permet justement de représenter un mot, une phrase ou un texte en prenant en compte son « sens », et pas seulement sa forme linguistique. Ainsi, le terme « allocution » sera calculé comme plus proche de « discours » que d' »allocation ».

Dans notre cas, il s’agit de calculer des embeddings de phrases (sentence embedding). Il existe différents modèles pour le faire, plus ou moins lourds et adaptés à tel ou tel contexte. Nous avons choisi d’en retenir plusieurs, ce qui permet de croiser ensuite les résultats, qui s’avèrent souvent complémentaires.

C’est ainsi que nous pouvons calculer l’embedding de n’importe quelle notice bibliographique (ou plutôt son “titre+résumé”). Précisons qu’en indexant, nous ne cherchons pas à comparer deux notices bibliographiques via leurs embeddings) mais à comparer un embedding de notice bibliographique à l’ensemble des embeddings des notices bibliographiques liées à un concept RAMEAU donné. Comment représenter cet ensemble d’embeddings sous la forme d’un seul ? Autrement dit, comment agréger les embeddings de plusieurs notices ?

Nous avons retenu la solution la plus simple : la moyenne. L’embedding d’un concept RAMEAU est donc la moyenne des embeddings des “titres+résumés” des notices bibliographiques qui lui sont liées. Nous aurions pu retenir d’autres méthodes d’agrégation, plus complexes, et possiblement plus pertinentes (ex : moyenne pondérée en fonction de la fréquence des mots ou d’un autre facteur).

L’indexation sujet donc revient désormais à comparer deux embeddings, exprimés sous forme numérique (des vecteurs) :

D’un côté, l’embedding du “titre+résumé” d’une notice bibliographique à indexer

De l’autre, l’embedding d’un concept RAMEAU (calculé comme nous venons de l’indiquer)

Voici un exemple (issu du notebook de démonstration) :

text = "Les sommets de l'État : essai sur l'élite du pouvoir en France" predict(text, 10) ⇒ 027322610#Hauts_fonctionnaires 027229629#Bureaucratie 027223345#Classes_dirigeantes 027994775#Institutions_politiques 027792102#Aspect_politique 027225224#Élite_(sciences_sociales) 027365581#Pouvoir_(sciences_sociales) 02726470X#Histoire 027728110#Politique_et_gouvernement 027311163#Caractère_national_français

Ces suggestions de concepts RAMEAU ont été générées par une petite base de vecteurs RAMEAU calculée à partir de 10 000 notices Sudoc (livres), grâce au modèle d’embeddings intfloat/multilingual-e5-large.

Sur cet exemple, malgré la taille du corpus bibliographique et l’absence de résumé, on peut constater que les suggestions sont de très bonne qualité. On observe également des concepts moins pertinents, trop généraux (Histoire) ou « à côté de la plaque » (Caractère national français). Quoique…

En l’état, cette liste de concepts s’avère donc être une très bonne aide à la décision pour l’indexeur, mais encore insuffisante pour une indexation automatique, sans contrôle humain.

Dans cette base de démonstration, on ne trouve que 8 804 concepts RAMEAU, présents dans les 10 000 notices bibliographiques. Les autres concepts RAMEAU ne pouvaient donc pas être suggérés par ce modèle. Il a donc fallu élargir le corpus de notices bibliographiques à exploiter, pour espérer prendre en compte le maximum de concepts RAMEAU.

Dans notre expérimentation (fin 2025), le corpus contenait 400 000 notices de livres. On pourrait inclure des centaines de milliers de thèses pour augmenter encore la couverture de RAMEAU (et inclure des concepts pointus et peu utilisés). On entrevoit la limite de notre approche : même si on peut imaginer des artifices pour dépasser cette limite, un tout nouveau concept RAMEAU, pas encore utilisé dans une notice bibliographique, ne sera jamais proposé.

Plusieurs modèles d’embeddings, jugés par un grand modèle de langage (LLM)

Nous aurions pu décider de ne conserver que le meilleur modèle. Nos évaluations nous ont permis d’observer que les résultats des différents modèles sont souvent complémentaires : les oublis des uns peuvent être compensés par les suggestions des autres. Il est donc intéressant de conserver plusieurs modèles et d’agréger leurs suggestions.

Ainsi, outre les résultats bruts générés par les différents modèles retenus, le web service d’indexation renvoie plusieurs modes d’agrégation de ces résultats :

« union » : on cumule toutes les suggestions
« intersection » : on ne garde que les suggestions communes à tous les modèles
« intersection2best » : on ne garde que les suggestions communes à au moins deux modèles parmi les meilleurs modèles
« llm » (ou « llm_bad ») : on demande à un LLM d’identifier les suggestions qui lui semblent erronées et on les exclut de la liste renvoyée par ce mode d’agrégation
« llm_good » : on demande à un LLM d’identifier les suggestions qui lui semblent adéquates
« llm_scores » : on demande à un LLM de donner un indice de fiabilité pour chacune des suggestions

Emballer l’IA dans un web service

L’agent (humain ou machine) qui reçoit les résultats du web service possède une grande marge de liberté. Il peut choisir de ne conserver que les résultats du meilleur modèle, ou bien de ceux de l’intersection, ou encore ceux de « llm_good », ou encore les résultats de « llm_score » qui dépassent un certain seuil de confiance (s’il a confiance en eux…). Il peut enfin inventer sa propre méthode de sélection, à partir de la réponse du web service.

Cependant, un grand choix suscite parfois de l’embarras. Le service propose des sorties prémâchées, plus simples à exploiter que la sortie brute (en JSON) :

Une sortie UNIMARC classique (en texte ou en HTML)
Une sortie UNIMARC affichant les relations hiérarchiques entre les concepts suggérés
Une page HTML interactive pour affiner et construire une indexation riche, par drag and drop (expérimental)

Le web service prévoit d’autres paramètres :

Nombre de suggestions par modèle
Nom du vocabulaire (aujourd’hui RAMEAU, mais demain…)
Identifiant du document

Terminons cette démonstration par un exemple complet :

Notice Sudoc : https://www.sudoc.fr/000308838

Titre : Les sommets de l’État : essai sur l’élite du pouvoir en France

Résumé : Du XIXe siècle à nos jours, l’Etat « fort » à la française a connu bien des vicissitudes que l’on se propose de retracer ici. Institution prestigieuse attirant vers elle les élites de la nation issues des Grandes Ecoles, l’Etat organise les activités les plus diverses grâce à son armée de fonctionnaires fidèles à la logique de leur rôle et aux valeurs du service public. Les élites politiques et celles de l’Etat en viennent alors souvent à se confondre, d’autant que l’état demeure fermé aux intrus du monde des affaires, des professions libérales ou des milieux syndicaux. La République des fonctionnaires étend son contrôle loin dans la société à travers les entreprises publiques, ou encore par le biais du pantouflage. Cet Etat « fort » n’en rencontre pas moins la vive hostilité des élites issues des partis de masse ou des notables de province solidement attachés à leurs fiefs ; le mouvement ouvrier et, davantage encore, les milieux économiques dominants récusent aussi sa légitimité au nom de leurs valeurs propres. En dépit de ces refus, en France, l’Etat est demeuré le lieu de régulation de la vie sociale ou culturelle. De nos jours pourtant, après les diverses alternances, de nouveaux processus de circulation des élites se profilent, estompant peu à peu les frontières autrefois si nettement défendues de l’Etat.

Modèles appelés : victor3_chain, victor1_concept, victor2

Agrégations : toutes

Nombre de résultats par modèle : 6

{
  "DocumentID": "https://www.sudoc.fr/000308838",
  "PredictionByModel": {
    "victor3_chain": {
      "Result": [
        {
          "label": "Élite (sciences sociales)",
          "id": "027225224",
          "score": 0.9189762967389044
        },
        {
          "label": "Classes dirigeantes",
          "id": "027223345",
          "score": 0.9186880052734565
        },
        {
          "label": "Monarchie",
          "id": "050124277",
          "score": 0.9074089154291344
        },
        {
          "label": "Pouvoir (sciences sociales)",
          "id": "027365581",
          "score": 0.9068471643349856
        },
        {
          "label": "Hauts fonctionnaires",
          "id": "027322610",
          "score": 0.906553947770748
        },
        {
          "label": "Élite (sciences sociales)--Histoire",
          "id": "027225224--02726470X",
          "score": 0.9064290266314496
        }
      ],
      "ResponseTime": "0.41 secondes"
    },
    "victor1_concept": {
      "Result": [
        {
          "label": "Hauts fonctionnaires",
          "id": "027322610",
          "score": 0.7638581153626636
        },
        {
          "label": "État",
          "id": "027297942",
          "score": 0.7440623350425135
        },
        {
          "label": "Fédéralisme",
          "id": "027826538",
          "score": 0.737714937615626
        },
        {
          "label": "Centralisation administrative",
          "id": "027465853",
          "score": 0.7310664369558111
        },
        {
          "label": "Armée de métier",
          "id": "030768268",
          "score": 0.7291465091067392
        },
        {
          "label": "Service militaire obligatoire",
          "id": "050549928",
          "score": 0.7253427565342923
        }
      ],
      "ResponseTime": "0.09 secondes"
    },
    "victor2": {
      "Result": [
        {
          "label": "Classes dirigeantes",
          "id": "027223345",
          "score": 0.6716704033357916
        },
        {
          "label": "Hauts fonctionnaires",
          "id": "027322610",
          "score": 0.6692576043596348
        },
        {
          "label": "Élite (sciences sociales)",
          "id": "027225224",
          "score": 0.6563994626198374
        },
        {
          "label": "Pouvoir (sciences sociales)",
          "id": "027365581",
          "score": 0.6537038100972423
        },
        {
          "label": "Pouvoir exécutif",
          "id": "027836622",
          "score": 0.6521094623337023
        },
        {
          "label": "Forces armées françaises",
          "id": "028235460",
          "score": 0.6428029516927859
        }
      ],
      "ResponseTime": "0.14 secondes"
    }
  },
  "PredictionByAggregation": {
    "union": [
      {
        "label": "Centralisation administrative",
        "id": "027465853"
      },
      {
        "label": "État",
        "id": "027297942"
      },
      {
        "label": "Forces armées françaises",
        "id": "028235460"
      },
      {
        "label": "Fédéralisme",
        "id": "027826538"
      },
      {
        "label": "Service militaire obligatoire",
        "id": "050549928"
      },
      {
        "label": "Pouvoir exécutif",
        "id": "027836622"
      },
      {
        "label": "Classes dirigeantes",
        "id": "027223345"
      },
      {
        "label": "Armée de métier",
        "id": "030768268"
      },
      {
        "label": "Monarchie",
        "id": "050124277"
      },
      {
        "label": "Hauts fonctionnaires",
        "id": "027322610"
      },
      {
        "label": "Élite (sciences sociales)",
        "id": "027225224"
      },
      {
        "label": "Élite (sciences sociales)--Histoire",
        "id": "027225224--02726470X"
      },
      {
        "label": "Pouvoir (sciences sociales)",
        "id": "027365581"
      }
    ],
    "intersection": [
      {
        "label": "Hauts fonctionnaires",
        "id": "027322610"
      }
    ],
    "intersection2models": [
      {
        "label": "Hauts fonctionnaires",
        "id": "027322610"
      },
      {
        "label": "Élite (sciences sociales)",
        "id": "027225224"
      },
      {
        "label": "Pouvoir (sciences sociales)",
        "id": "027365581"
      },
      {
        "label": "Classes dirigeantes",
        "id": "027223345"
      }
    ],
    "intersection2Models1Best": [
      {
        "label": "Hauts fonctionnaires",
        "id": "027322610"
      },
      {
        "label": "Élite (sciences sociales)",
        "id": "027225224"
      },
      {
        "label": "Pouvoir (sciences sociales)",
        "id": "027365581"
      },
      {
        "label": "Classes dirigeantes",
        "id": "027223345"
      }
    ],
    "llm": [
      {
        "label": "Centralisation administrative",
        "id": "027465853"
      },
      {
        "label": "État",
        "id": "027297942"
      },
      {
        "label": "Classes dirigeantes",
        "id": "027223345"
      },
      {
        "label": "Hauts fonctionnaires",
        "id": "027322610"
      },
      {
        "label": "Élite (sciences sociales)",
        "id": "027225224"
      },
      {
        "label": "Élite (sciences sociales)--Histoire",
        "id": "027225224--02726470X"
      },
      {
        "label": "Pouvoir (sciences sociales)",
        "id": "027365581"
      }
    ],
    "llm_good": [
      {
        "label": "État",
        "id": "027297942"
      },
      {
        "label": "Classes dirigeantes",
        "id": "027223345"
      },
      {
        "label": "Hauts fonctionnaires",
        "id": "027322610"
      },
      {
        "label": "Élite (sciences sociales)",
        "id": "027225224"
      },
      {
        "label": "Pouvoir (sciences sociales)",
        "id": "027365581"
      }
    ],
    "llm_scores": [
      {
        "label": "État",
        "score": 1,
        "id": "027297942"
      },
      {
        "label": "Hauts fonctionnaires",
        "score": 0.95,
        "id": "027322610"
      },
      {
        "label": "Classes dirigeantes",
        "score": 0.9,
        "id": "027223345"
      },
      {
        "label": "Élite (sciences sociales)",
        "score": 0.9,
        "id": "027225224"
      },
      {
        "label": "Centralisation administrative",
        "score": 0.8,
        "id": "027465853"
      },
      {
        "label": "Pouvoir (sciences sociales)",
        "score": 0.8,
        "id": "027365581"
      },
      {
        "label": "Élite (sciences sociales)--Histoire",
        "score": 0.7,
        "id": "027225224--02726470X"
      },
      {
        "label": "Fédéralisme",
        "score": 0.1,
        "id": "027826538"
      },
      {
        "label": "Service militaire obligatoire",
        "score": 0.1,
        "id": "050549928"
      },
      {
        "label": "Armée de métier",
        "score": 0.1,
        "id": "030768268"
      },
      {
        "label": "Monarchie",
        "score": 0.05,
        "id": "050124277"
      }
    ]
  }
}

Continuer la lecture

Les identifiants des structures de recherche de l’université de Strasbourg : retour d’expérience

Auteur/autrice de la publication :Punktauteur
Publication publiée :12 février 2025
Post category:Non classé

En 2024, le service des bibliothèques de l’université de Strasbourg s’est lancé dans un chantier autour des identifiants des structures de recherche dans le référentiel ROR et par extension dans IdRef et AuréHAL.

Pourquoi ce chantier ?

Alignements de bretzels — Alignements. Photo de Israel Albornoz sur Unsplash

Depuis plusieurs années, particulièrement dans le cadre de sa politique de science ouverte, l’université de Strasbourg porte une attention spécifique aux identifiants de la recherche : l’archive ouverte institutionnelle univOAK s’appuie notamment sur les identifiants IdRef pour ses chercheurs et ses structures. De même, l’équipe en charge des thèses travaille régulièrement à la mise à jour, toujours dans IdRef, des Ecoles doctorales de l’université.

A l’été 2023, le service des bibliothèques commence à s’intéresser aux identifiants ROR pour ses unités de recherche. Un premier inventaire réalisé à cette époque montre une couverture très parcellaire des unités de recherche strasbourgeoises dans ROR. Nous saisissons donc cette occasion pour proposer à notre direction de la recherche de mettre à jour le référentiel ROR pour les unités de recherche de l’université.

Après échanges avec la direction de la recherche, il est décidé d’attendre 2024 pour commencer les mises à jour dans ROR. En effet, le nouveau contrat quinquennal de l’université, qui a débuté en 2024, ayant fait évoluer le paysage des unités de recherche de l’université (fusions, éclatements, changement de noms, de tutelles, etc.), il a donc semblé plus pertinent d’attendre les changements de 2024 avant de se lancer dans cet important chantier.

Et tant qu’à plonger tête la première dans nos structures de recherche, l’occasion était parfaite pour faire également un état des lieux dans IdRef et AuréHAL, référentiels sur lesquels nous gardons un œil depuis plusieurs années mais dans lesquels nous n’avions jusqu’à présent pas fait d’opération de vérification systématique.

Continuer la lecture

Anatomie des alignements à l’Abes (ou métaphore des chaussettes), épisode 3/3

Auteur/autrice de la publication :Punktauteur
Publication publiée :4 décembre 2024
Post category:IdRef

Pour conclure la mini-série initiée avec les épisodes 1 et 2, voici une petite illustration récente d’un travail d’alignement (matching) à l’Abes.

5 paires de chaussettes épinglées sur une corde à linge — Illustration : Christian Fickinger (sur unsplash.com)

L’alignement présente quelques similarités avec cette tâche rebutante qui nous revient avec la baisse des températures[1] : la corvée de chaussettes. Retrouver à chacun sa chacune, en fonction du nombre de personnes sous votre toit, peut s’avérer extrêmement fastidieux. Il y a les homonymes (Tiens, encore une chaussette grise ?), les faux amis (même modèle mais taille différente, 31-34 et pas 27-30), les singletons (ah oui, la gauche était trouée et est devenue chiffon) et les cas d’espèces (ah, cet étrange modèle dont un pied est orné de frites et l’autre d’une bouteille de ketchup mais qui forment une paire tout de même), et même les lèche-bottes[2]. Pour vous donner une bonne excuse pour procrastiner, lisez-donc la suite (et peut-être que vous verrez l’appariement sous un autre jour).

Depuis quelques temps, nous cherchons à rapprocher les référentiels IdRef et ROR (cf injection massive d’identifiants ROR au printemps décrite dans ce billet.) Lors des mois écoulés, l’Abes a constaté, notamment lors des AbesTour, que les établissements s’emparaient du sujet de la description de leurs structures de recherche. Cela peut venir d’une politique concertée de l’établissement en matière d’identifiants, d’une attitude proactive des professionnel-les de la documentation dont la familiarité avec les référentiels est ancienne, ou encore d’une démarche liée à des préoccupations bibliométriques : ROR est l’identifiant des organisations au sein de la base OpenAlex[3] , et est en cours d’intégration pour le WebOfScience[4].

Nous supposions donc que nombre de structures de recherche françaises avaient été créées dans le ROR depuis le premier round d’alignement. Il y avait donc présomption d’un recouvrement avec IdRef, qui notamment via le signalement des thèses, comprend au sein des collectivités recensées une part non négligeable desdites structures. Le projet d’alignement allait cette fois partir de ROR pour revenir vers IdRef. Pour affiner les données d’entrée et ne prendre de ROR que les structures susceptibles de nous intéresser, voici comment nous avons procédé.

Au sein d’IdRef, les établissements ayant une habilitation à délivrer le doctorat (passée ou actuelle) ont été « étiquetés » au moyen d’une zone A686. En filtrant sur ceux vivants, on récupère une liste, dont on conserve uniquement les identifiants ROR en A035. Par interrogation de l’API de ROR, on va récupérer les organisations qui ont le type de lien « child » avec ces institutions. On écarte les unités déjà alignées, en utilisant le microwebservice ROR2idref[5]. Les données d’entrée consistent donc en un jeu de métadonnées issues de l’API de ROR et décrivant les « enfants » des établissements, donc principalement des unités de recherche. Une unité pouvant avoir plusieurs tutelles, et donc être « enfant » de plusieurs « parents », le nombre dédoublonné d’unités à aligner n’est que de 685 (sur 1225 résultats).

La stratégie d’alignement va porter sur l’appariement de ces unités avec IdRef. On va utiliser la chaîne de caractères du libellé ROR (label) et leur ville de localisation. Ces paramètres (distincts et/ou couplés) sont envoyés via des requêtes SolR, qui permettent d’aller comparer avec toutes les variantes présentes dans la notice d’autorité IdRef. En combinant les approches, on arrive à 385 propositions d’alignement.

Pour évaluer la fiabilité de ces propositions, on va comparer l’intitulé IdRef (point d’accès) avec l’intitulé ROR (ROR-display label), sans prendre en compte les variantes, et leur attribuer un score à l’aide de 2 méthodes de comparaison de chaînes de caractères, la distance de Jaro-Winkler (JW)[6] et la distance de Lewenshtein (LV)[7]. Ces méthodes fournissent des métriques sous forme de scores, qui s’échelonnent entre 0 (pas de ressemblance) et 1 (ressemblance parfaite). On va considérer comme alignement sûrs les scores supérieurs à 0.8, car on sait que le point d’accès IdRef peut (devrait, même…) contenir un qualificatif de lieu et un qualificatif de dates, et que ces informations ne font pas partie du label ROR. Les scores entre 0,4 et 0,8 sont examinés manuellement et parmi les propositions, 5 sont rejetées, toutes les autres sont acceptées. Les propositions avec des scores entre 0,7 et 0,8 (au nombre de 18) sont toutes acceptées, mais comme nous avons noté que les propositions rejetées n’avaient pas les scores les plus bas (au contraire : entre 0,58 et 0,68 JW, et entre 0,43 et 0,67 LV.) cela montre bien qu’il est nécessaire de garder une vigilance sur cette zone. Les propositions rejetées le sont principalement lorsque des intitulés IdRef pour des équipes internes reprennent in extenso le nom de leur laboratoire chapeau : c’est donc un problème d’enchâssement des organisations.

Résultat : au total 379 nouveaux ROR tout beaux tout brillants pour décorer le sapin d’IdRef… en attendant les autres, qui pourront être glanés par de nouvelles méthodes, pour l’an prochain !

Carole Melzac
Service Autorités et Référentiels
Abes

[1] Parce qu’à Montpellier, évidemment, on vit tongs aux pieds d’avril à octobre.

[2] https://openbiblio.social/@PIDNetworkDE/112598851524209276

[3] https://docs.openalex.org/api-entities/institutions

[4] https://clarivate.com/academia-government/release-notes/web-of-science/web-of-science-november-7-2024-release-notes/

[5] Documenté ici : https://documentation.abes.fr/aideidrefdeveloppeur/index.html#MicroWebServiceId2idref

[6] Pour en savoir plus, cf https://fr.wikipedia.org/wiki/Distance_de_Jaro-Winkler

[7] Pour en savoir plus, cf https://fr.wikipedia.org/wiki/Distance_de_Levenshtein

Continuer la lecture

Anatomie (pathologique) des alignements, épisode 2/3

Auteur/autrice de la publication :Punktauteur
Publication publiée :4 décembre 2024
Post category:IdRef

Ce billet, à la suite du précédent, vise à partager via l’explicitation et la traduction les quatre billets co-publiés par les blogs de ROR et CrossRef au sujet de l’alignement (matching). Ce deuxième volet démolit les mythes et introduit la question de l’évaluation des stratégies d’alignement.
Billets originaux : The Myth of Perfect Metadata Matching et How Good Is Your Matching?

Une longue route bordée de cyprès — Illustration : Sixième Rêve (unsplash.com)

Reconnaître les fausses croyances

Le problème avec ces perceptions faussées, c’est qu’elles ne permettent pas d’avoir une idée réaliste de ce qu’on peut attendre d’un processus d’alignement.

Parmi les problèmes qu’elles attirent, se trouvent surtout des attentes démesurées, ou la sous-estimation du temps et du travail nécessaire pour le mener à bien.

Premier espoir déçu : une stratégie doit être 100% correcte

Hélas la perfection n’est pas de ce monde. Bien que ce soit évidemment l’idéal vers lequel on tend, la pratique des alignements nous fait rapidement entrevoir pourquoi ça n’est pas possible. Tout d’abord, parce que lorsqu’on a en entrée des données non structurées, donc des chaînes de caractères, elles ont été produites et pensées par des êtres humains. Divers. Faillibles. Mais aussi dotés, outre d’une imagination sans limite pour les fantaisies orthographiques, d’une capacité d’inférence liée au contexte, qui fait qu’elles rétablissent d’emblée, à partir de chaînes variables, le sens attendu. Pour mener un alignement via des machines, il faut trouver comment expliciter toutes ces opérations mentales de structuration, d’appariement, de développement d’acronymes ou d’abréviations, de distinctions d’homonymes, pour qu’elles puissent être systématisées et reproduites.

Reprenons l’exemple du billet originel qui donne cette liste de données d’entrées :

1. « Department of Radiology, St. Mary’s Hospital, London W2 1NY, UK »

2. « Saint Mary’s Hospital, Manchester University NHS Foundation Trust »

3. « St. Mary’s Medical Center, San Francisco, CA »

4. « St Mary’s Hosp., Dublin »

5. « St Mary’s Hospital Imperial College Healthcare NHS Trust »

6. « 聖マリア病院 »

Parmi ces chaînes de caractères, il va falloir objectiver les critères qui permettent de débrouiller plusieurs situations non triviales !

Une même organisation peut posséder plusieurs noms (variantes : Saint Mary’s Hospital / St Mary’s hospital / St. Mary’s Hosp.)
Le nom d’une institution peut être utilisé dans des langues différentes (traduction : la ligne 6 “聖マリア病院” est la traduction en japonais de “St. Mary’s Hospital”)
Plusieurs organisations sont homonymes, c’est-à-dire ont en commun au moins une partie de leur nom, alors qu’elles sont bien distinctes (il y a des Marie très saintes un peu partout ici)
La dénomination géographique peut être fonction du contexte, et s’avérer insuffisamment précise au sein d’un jeu de données (parle-t-on de Dublin, la capitale de l’Irlande, de Dublin, Ohio aux Etats-Unis[1] ?)
Une organisation peut faire partie d’une autre (enchâssement : le St. Mary’s Hospital de Londres appartient à l’Imperial College Healthcare NHS Trust par exemple, et ce savoir est extérieur au jeu de données lui-même)

Méditons sur ce principe jamais démenti : “In real world circumstances, no dataset is fully accurate, complete, or current and certainly not all three.” Que l’on pourrait traduire par « les métadonnées d’entrées avec lesquelles nous travaillons ne sont jamais toutes à la fois correctes, complètes et à jour. » La connaissance de la signification et du contexte de toutes les chaînes de caractères qui composent le set de données n’existe pas : il y aura donc, dans le fatras de notre réalité, toujours des surprises, de l’inattendu, de l’incompréhensible, des ratés.

Deuxième désillusion : c’est toujours une bonne idée d’adapter la stratégie à la spécificité des données d’entrées

Les stratégies d’alignements ne sont donc pas parfaites. C’est donc qu’elles peuvent être améliorées ! Hum… C’est là que réside le second piège. Lorsqu’en parcourant les résultats, on rencontre un alignement erroné ou manquant, la tentation est grande de considérer ce cas un peu comme un bug logiciel, et de vouloir adapter la stratégie pour qu’elle fournisse un résultat plus enthousiasmant. Sur ce cas au moins. Mais sans forcément penser à tous les autres… Or, en réalité, la stratégie d’alignement va toujours naviguer entre deux pôles, précision (precision) et rappel (recall). Que signifient ces deux métriques ?

La précision est la mesure obtenue en divisant le nombre d’alignements corrects obtenus par le nombre total d’alignements réalisés. On peut l’interpréter comme la probabilité qu’un alignement fourni soit correct. Si la précision est faible, alors on se retrouve avec un grand nombre de faux positifs (false positive), c’est-à-dire que beaucoup d’alignements ont été proposés mais ne sont pas justes.

Le rappel est la métrique obtenue en divisant le nombre d’alignement corrects proposés par rapport au nombre d’alignements attendus. C’est donc la probabilité qu’un alignement soit créé. Un faible niveau de rappel signifie qu’on se retrouve avec beaucoup de faux négatifs (false négatives), c’est-à-dire que dans beaucoup de cas, aucun candidat à l’alignement n’a été proposé.

Le schéma ci-dessous résume la situation :

On cherche évidemment à ce que les deux ellipses, les paires correctes (true relationships) et les paires proposées (matched relationships) se recouvrent le plus possible.

Si une stratégie est très stricte, elle aura tendance à passer à côté d’alignements possibles, pour ne proposer que peu de paires, mais majoritairement correctes. On peut songer à l’amélioration en assouplissant des critères, mais alors on se retrouve avec certes davantage de paires, la probabilité que celles-ci soient correcte s’amenuise. Tout alignement est affaire de subtil dosage entre ces deux aspects, ce qui s’avère épineux quand les données d’entrée sont très hétérogènes. Une stratégie qui serait parfaitement adaptée à un cas précis (par exemple, la distinction des homonymes) amène le risque d’être … inadaptée au cas suivant (par exemple, la prise en compte des enchâssements institutionnels).

Troisième ornière : l’alignement sans regard humain, à grande échelle, c’est trop dangereux

Si la précision ne peut jamais être parfaite, n’est-ce pas être conséquent que de s’abstenir d’utiliser des stratégies d’alignement de manière automatique ? Certes. Et pourtant. Dans le domaine des métadonnées décrivant les productions de recherche, il est assez probable que la qualité intrinsèque des données ne soit pas parfaite au départ. Proposer un alignement non supervisé vers des identifiants, est-ce vraiment faire porter un risque substantiel de dégrader la qualité desdites données ? Au contraire, serait-on tenté de répondre. Travailler les métadonnées, les mettre en mouvement et exposer largement le résultat de ce travail, c’est offrir une bonne occasion de regarder la poussière cachée sous le tapis, plus ou moins consciemment et depuis plus ou moins longtemps. Cela nécessite de prévoir des circuits de recueil d’information (feedback) et d’amélioration des données.[2] Enfin, les bonnes pratiques consistent évidemment à sourcer et signaler les alignements créés sans supervision : ainsi, les personnes qui ré-utilisent ces données savent à quoi s’en tenir, et peuvent toujours choisir de ne pas prendre en considération ce qu’elles n’estiment pas assez digne de confiance.

Quatrième erreur : on ne peut évaluer le résultat qu’au doigt mouillé

Tant de limites s’imposent à nous : les données sont hétérogènes au sein d’un jeu de données, et d’un jeu à un autre. Les cas que nous pensons pouvoir traiter correctement sont-ils majoritaires ? N’en avons-nous pas oublié d’autres ? Enfin, nous voilà devant un questionnement parfaitement kantien : Que devons-nous faire ? Et que nous est-il permis d’espérer ?[3]

Il est possible et souhaitable d’évaluer une stratégie d’alignement. On peut distinguer 4 étapes majeures :

Préparer un échantillon représentatif des données d’entrée, sur lequel on assigne manuellement le résultat attendu de l’opération
Faire jouer la stratégie d’alignement sur tout le corpus des données d’entrée
Comparer les résultats obtenus avec les résultats attendus
Documenter ces résultats à l’aide de métriques.

La constitution d’un échantillon est donc le point de départ. On le souhaite robuste (donc d’une taille acceptable, qui dépend de celle du corpus total) et crédible (issu des vraies données telles qu’elles se présentent en entrée.)

Les métriques vont nous permettre de résumer les résultats de l’évaluation de manière chiffrée : cela permet d’estimer la pertinence de notre stratégie d’alignement, et surtout de pouvoir comparer plusieurs stratégies entre elles. Les métriques, pour donner une image fidèle, doivent pouvoir se combiner. Nous allons voir pourquoi.

La première métrique que l’on peut utiliser, c’est l’exactitude (accuracy), c’est-à-dire la proximité des résultats avec les valeurs correctes. Mais elle ne suffira jamais seule, car comme nous allons le voir à partir du tableau ci-dessous, elle a le tort de noyer le poisson.

Si l’on veut comparer les stratégies 1 et 2 à partir des trois cas du tableau, on se rend compte qu’elles partagent la même métrique d’exactitude : 0,67. En effet, sur les trois cas proposés, chaque stratégie opte pour le bon résultat deux fois sur trois. Mais l’exactitude manque de nuances. Nous avons vu plus tôt que les notions de précision et de rappel permettent d’illustrer plus finement le comportement d’une stratégie. Dans le cas ci-dessus, la stratégie 1 a un taux de rappel (0,5) identique à la stratégie 2, mais elles diffèrent quant à la précision : la stratégie 2 a une métrique de précision de 1,0 (à chaque fois qu’une paire a été proposée, elle est correcte) alors que la stratégie 1 n’a une précision que de 0,5 (la moitié de ses propositions sont justes).

On peut enfin combiner précision et rappel dans une métrique qu’on appelle F-mesure (F-score). Le but est d’évaluer les prédictions pertinentes (bonne précision) en suffisamment grand nombre (bon rappel) sur les données d’entrée. Tout comme la précision et le rappel, la F-mesure varie de 0 (plus mauvaise valeur) à 1 (meilleure valeur possible).[4] Elle peut pondérer le rappel et la précision soit à égalité (F1), soit en donnant prééminence à l’un (F0.5 valorise la précision, alors que F2 valorise le rappel).

À l’échelle d’un jeu de données complet, on suppose donc que la stratégie 1 produira davantage de faux positifs, et la stratégie 2 davantage de faux négatifs. C’est le cas d’usage qui décidera de l’orientation souhaitable. Par exemple, si l’on ne dispose que de peu de temps humain disponible, on peut s’orienter vers le choix de la fiabilité. Au contraire, si l’alignement est conçu comme une proposition à valider ou invalider par une personne, il peut apparaître plus avisé d’avoir un peu de bruit que du silence.

Lectrices, lecteurs, êtes-vous curieux de la manière dont on procède à l’Abes ? Le troisième et dernier billet de cette série est pour vous !

Carole Melzac
Service Autorités et Référentiels
Abes

[1] Dublin est un nom d’une bonne vingtaine des villes dispersées dans plusieurs pays, comme en atteste la page d’homonymie de Wikipédia https://en.wikipedia.org/wiki/Dublin_(disambiguation)

[2] C’est exactement ce que fait ROR avec le formulaire de proposition d’amélioration des données ouvert à toutes et à tous. Par ailleurs, on peut citer un parangon du genre, WorksMagnet , outil développé par le SIES du MESR pour identifier les erreurs d’alignements de structures vers le ROR dans les données d’OpenAlex. Pour en savoir plus, voir le Poster réalisé par l’Université de Lorraine et le MESR

[3] Quant à « Que pouvons-nous connaître ? », si vous arrivez au bout de cette série de billets, considérons que vous en saurez assez long sur ce que sont les alignements pour briller au prochain cocktail des Journées Abes.

[4] Cf https://fr.wikipedia.org/wiki/F-mesure

Continuer la lecture

Anatomie des alignements, épisode 1/3

Auteur/autrice de la publication :Punktauteur
Publication publiée :4 décembre 2024
Post category:IdRef

Entre mai et novembre 2024, une série de billets ont été publiés conjointement sur les blogs de ROR et de Crossref par Adam Buttrick et Dominika Tkaczyk (Si vous avez un doute sur ce qu’est le ROR, pour Research Organizations Registry, allez réviser sur ce précédent billet Punktokomo.) Ils traitent d’un enjeu qui est à la fois central et quotidien pour le service Autorités et Référentiels de l’Abes : l’alignement. En anglais, on parle de matching.
Voyons comment ces collègues qui travaillent eux aussi toute la journée sur des métadonnées situent les choses, quel vocabulaire elles et ils emploient, vers quoi tendre et sur quels os on peut tomber.
Billets originaux : Metadata Matching , what is it and why do we need it ? et The Anatomy of Metadata matching

Qu’est-ce que sont les alignements ?

photo de roches grises alignées dans un champ d'herbe — « Formation rocheuse grise sur un champ d’herbe verte sous des nuages blancs pendant la journée »
par Johanneke Kroesbergen-Kamps

L’alignement, pour des métadonnées, a pour objectif de rapprocher des sources pour apparier des entités (dans les cas qui nous occupent à l’Abes, des personnes physiques et/ou des organisations) qui sont considérées comme identiques.

On se lance dans des travaux d’alignement quand on sait, ou du moins qu’on suspecte, que deux sources de données parlent des mêmes choses. Par exemple, quand on entreprend d’aligner un annuaire des personnels d’une université vers IdRef, on suppose que les chercheuses, enseignantes-chercheuses, ingénieures[1] de recherche, etc. qui travaillent dans cette université ont probablement déjà une notice descriptive dans IdRef, car elles ont des rôles bibliographiques dans des documents signalés dans les gisements documentaires associés, comme le Sudoc et les thèses. Tout alignement commence donc par le présupposé d’un recouvrement.

Par ailleurs, pour ne pas mélanger les torchons et les serviettes, on ne se lance dans un alignement qu’en supposant aussi que la définition des entités qu’on veut apparier est suffisamment proche. Quand il s’agit de personnes physiques, c’est assez simple : chaque être humain est unique, et ne naît et ne meurt qu’une fois. La définition de base est la même. Une personne pourrait être décrite par plusieurs notices IdRef ou par plusieurs entrées dans un annuaire, mais alors, c’est un doublon : parce qu’on suppose l’unicité de chaque entité et un accord sur la définition de l’identité. Pour les collectivités, vous vous en doutez, c’est toujours un peu plus tordu, mais on y reviendra.

Pourquoi aligner ?

Voici la définition donnée dans le premier billet : “Matching in general can be defined as the task or process of finding an identifier for an item based on its structured or unstructured description.“ En français, on pourrait dire qu’il s’agit de l’appariement d’un élément décrit de manière plus ou moins structure avec un identifiant au sein d’un référentiel-cible.

Les alignements sont un chemin qui mèneraient au Graal (des bibliothécaires, et surtout des bibliomètres) qu’est la description complète du research nexus, c’est-à-dire du graphe de la recherche, qui décrit toutes les relations existantes entre les personnes, les organisations, les publications, les données, les financements, les projets, etc. Ces relations permettent d’inscrire toutes les entités dans un contexte, une constellation de points qui sont ancrés par des identifiants pérennes : ces PIDs garantissent l’unicité et l’identité. Et rendre ces entités et leurs relations explicites permet d’exploiter les données, pour les transformer en informations, voire en connaissance.

Comment s’y prendre ?

On peut aligner avec ses petites mains et ses petits moyens. C’est une méthode très très fiable, mais très très lente. Si l’on est pressé (ou plutôt qu’on applique de manière avisée les conseils de Paul Lafargue pour revendiquer notre droit à la paresse[2]), on peut utiliser des procédés automatisés. Ces procédés peuvent être soit supervisés, c’est-à-dire que la machine propose pour que l’humain dispose, soit entièrement délégués, quand aucune intervention humaine ne valide les conclusions automatiques. Mais avant de savoir quelle artillerie on mobilise, un petit point sur le vocabulaire.

Il s’agit d’abord de spécifier le projet d’alignement (matching task) et ce n’est pas si anodin qu’il y parait. A partir de quelques questions apparemment simples :

Quel problème cherche-t-on à résoudre ?
Quelles sont les données d’entrée (input) : leur format, leur structuration ou absence de structuration, les informations qu’elles contiennent, l’hétérogénéité possible ?
Qu’attend-on comme résultat (ouput) : quels sont les identifiants cibles ? Attend-on un ou plusieurs identifiants, selon quelles conditions ? Veut-on que le résultat proposé soit assorti d’un indice de confiance, comme à la météo ?

On va choisir la ou les stratégies d’alignement ou heuristiques (matching strategies) mises en œuvre.

Schéma stratégie d'alignement — Stratégie d’alignement

Ceci nous amène à considérer les questions suivantes :

Est-ce qu’aligner une chaîne de caractères (telle que peut apparaître une affiliation au sein d’une publication) et des métadonnées structurées vers un identifiant, c’est la même matching task avec deux sortes d’input, ou bien deux tâches complètement différentes ?

Où commence la matching task : avec l’ensemble du texte brut, ou bien seulement une fois qu’à l’intérieur, on a délimité des entités, à l’aide d’outils qui font de la Reconnaissance d’Entités Nommées (Named Entity Recognition – NER) ?

Ce que fait l’Abes

Au service Autorités et Référentiels de l’Abes, nous pratiquons deux familles d’alignements.

La première, qui correspond bien à ce qui est décrit dans les billets ROR et CrossRef, consiste à travailler notamment avec comme données d’entrée une extraction de l’annuaire des personnes d’un établissement, sous forme tabulée[3]. Ce sont donc des données structurées, à peu près homogènes, sur lesquelles on applique une stratégie standardisée (algorithme développé en interne), et pour lesquelles on attend comme résultat idéalement 1 IdRef par entrée proposée.

La seconde consiste à partir d’un identifiant, pour aller vers un autre. Les stratégies mises en œuvre sont plus diverses :

Il peut s’agir d’une triangulation : si IdRef connaît pour une personne son ID Scopus, et que le même ID Scopus figure dans un profil ORCID, alors on peut postuler l’alignement entre l’IdRef et l’ORCID. Idem si un identifiant de structure dans AuréHAL connait un IdRef et que ce même identifiant AuréHAL est associé à un RNSR.
Il peut s’agir d’une « pêche au filet » : à partir d’un identifiant (IdRef ou RNSR), on va chercher des publications qui possèdent cet identifiant dans les métadonnées d’affiliation, et on observe si des identifiants appartenant à d’autres référentiels sont présents également.

Rendez-vous dans le billet suivant pour démolir, toujours en suivant les billets co-publiés par ROR et CrossRef, les mythes relatifs à l’alignement.

Carole Melzac
Service Autorités et Référentiels
Abes

[1] La féminisation aléatoire des pluriels est une manière de pratiquer une écriture inclusive, qui permet de ne pas alourdir sa lecture tout en rappelant aux personnes qui lisent que dans un groupe, on trouve souvent plusieurs genres.

[2] « Le travail ne deviendra un condiment de plaisir de la paresse, un exercice bienfaisant à l’organisme humain, une passion utile à l’organisme social que lorsqu’il sera sagement réglementé et limité à un maximum de trois heures par jour » Le droit à la paresse, Paul Lafargue, 1880.

[3] C’est l’occasion de vous remémorer cette excellente infographie parue dans le numéro 112 d’Arabesques : https://publications-prairial.fr/arabesques/index.php?id=3845

Continuer la lecture

Repères, Mir@bel et l’Abes : coopérer pour améliorer la visibilité des revues Diamant (2/2)

Auteur/autrice de la publication :Punktauteur
Publication publiée :31 octobre 2024
Post category:Sudoc PS

Ce billet est le second d’une série en deux volets présentant une coopération fructueuse entre Repères, Mir@bel et l’Abes (voir le billet n° 1).

Mir@bel2022 : vers un référentiel partagé pour les structures éditoriales

Sous l’égide du Comité pour la science ouverte, Mir@bel a pour mission de collecter les données relatives aux politiques de diffusion des revues scientifiques et des éditeurs français. Ce travail assure l’intégration de ces informations dans sa base de connaissances et leur diffusion dans la base Sherpa Romeo. Le projet Mir@bel2022 contribue pleinement à cette mission en s’organisant autour de deux axes, dont l’un consiste à fédérer les partenaires du projet autour d’un référentiel partagé des structures éditoriales produisant les revues scientifiques françaises..

Comme point de départ, Mir@bel dispose déjà une base de données regroupant les éditeurs associés aux revues référencées. Cette base recense principalement les éditeurs responsables de la publication et/ou diffusion des revues, mais inclut également ceux impliqués dans leur conception et rédaction. Les données collectées sont variées et distinctives : en plus des éléments d’identification standard, elles comportent souvent des liens URL vers leurs sites internet et réseaux sociaux.

L’adoption d’un mode de description partagé de ces données implique leur alignement autour d’un identifiant commun pour tous les éditeurs concernés. C’est la base IdRef, gérée par l’Abes, qui a été retenue pour jouer ce rôle de référentiel pivot. Conforme aux principes FAIR, IdRef dispose actuellement de la couverture la plus étendue en France. Au delà de l’identification univoque des individus, des structures, des autorités Rameau et de leur interconnexion à d’autres entités, IdRef est aligné sur de nombreuses bases d’identifiants. De plus, son modèle de production de contenus se rapproche de celui de Mir@bel.

La gestion dynamique du modèle Mir@bel au sein des 136 partenaires du réseau a favorisé diverses convergences, que ce soit par l’ajout de dates dans le modèle initial ou par la normalisation des informations d’éditeurs . Ainsi, IdRef et Mir@bel fonctionnent comme des bases complémentaires, alimentées d’une part par des experts des bibliothèques et de la recherche, et d’autre part par des spécialistes de l’édition et de la documentation. Ces deux réseaux bénéficient du travail de complétion, d’alignement et de curation réalisé par des communautés aux compétences complémentaires. Les deux réseaux bénéficient ainsi du travail de complétion, d’alignement et de curation réalisé par des communautés complémentaires.

Faire converger les données d’éditeurs à l’aide d’IdRef

Dès janvier 2021, cet objectif prend corps et des travaux de rapprochement entre les données éditeurs de Mir@bel et d’IdRef débutent. Après une première phase de comparaison des données présentes dans les deux outils, s’ensuit pour Mir@bel un important travail d’analyse, de correction et de préparation des données. Les données éditeurs sont fiabilisées, notamment les éléments sur leur localisation géographique ou leur intitulé ; des règles sur les changements de noms et de périmètres sont adoptées pour permettre des dédoublonnages. De même, des consignes actualisées de création sont adressées au réseau Mir@bel, l’ensemble des opérations visant à importer en masse des IdRef en vue de l’alignement, mais aussi à fournir des données à l’Abes. Les alignements en tant que tels sont réalisés en deux vagues, entrecoupées d’un nouveau temps d’analyse, de dédoublonnage et de correction. Début 2022, ces travaux permettent d’atteindre un taux de correspondance de 70 % entre les éditeurs français signalés dans Mir@bel et IdRef.

Ce premier palier marque le début d’une nouvelle étape dans la mutualisation des données des éditeurs. En effet, pour améliorer encore le taux d’alignement entre les deux bases, il faut désormais enrichir IdRef avec les collectivités éditrices qui ne s’y trouvent pas encore. Une liste de 700 éditeurs, sans notice IdRef, est établie à partir des données de Mir@bel. À l’Abes, les équipes des services Ressources Continues et Autorités et Référentiels prennent en charge une partie des créations et sollicitent également l’aide de leurs réseaux (correspondants autorités et responsables CR du réseau Sudoc PS). Entre mars et juillet 2022, environ 650 notices sont ainsi créées dans IdRef, une cinquantaine de structures éditoriales sont écartées faute d’informations suffisantes pour pouvoir créer les notices IdRef, qui doivent être sourcées.

À l’automne 2022, et jusqu’à la fin de l’année, les données d’IdRef et de Mir@bel convergent à nouveau en une nouvelle vague d’alignements : les notices créées dans la base de l’Abes sont liées à leurs équivalents dans Mir@bel, et réciproquement, les identifiants Mir@bel sont massivement ajoutés dans les notices IdRef. Un encart est aussi ajouté dans IdRef permettant, pour chaque notice d’éditeur, le rebond vers les pages Mir@bel des revues liées.

Des opérations d’alignement entre deux systèmes riment souvent avec une montée en qualité du signalement. Ce projet-ci ne fait pas exception à la règle. Le référent « données éditeurs » au sein de Mir@bel met à jour le Guide de création des pages d’éditeurs et forme les partenaires veilleurs aux bonnes pratiques de signalement. Les travaux de nettoyage et d’harmonisation des données se poursuivent.

En parallèle, l’interface de Mir@bel évolue pour faciliter la saisie des éditeurs : interrogation automatique d’IdRef lors de la saisie d’un nouvel éditeur pour permettre la récupération des données principales, scripts de récupérations et vérifications d’informations, mise en place de redirections et plus grande robustesse des alignements.

*Création d’une notice éditeur dans Mir@bel via l’interrogation d’IdRef*

En plus du premier script, mis en place en février 2023 pour repérer les IdRef fusionnés, un nouveau script hebdomadaire permet de nouveaux contrôles en comparant plusieurs données sur les éditeurs alignés, ce qui facilite la récupération de l’information pour les nouveaux champs « dates de début et de fin » dans Mir@bel ou le signalement des différences. Ce script va donc au-delà de la vérification de données puisqu’il enrichit les données de Mir@bel et IdRef quand les dates d’éditeurs sont manquantes ou erronées.

*Scripts permettant un suivi qualité pour les données des notices éditeurs*

Claire Dandieu (Sciences Po Lyon) & Carolina Verlengia (Sciences Po Lyon), pour le réseau Mir@bel

Basile Bayoux (Université Jean Moulin Lyon 3), pour le réseau Repères

Morgane Parra, pour l’Abes

Continuer la lecture

Repères, Mir@bel et l’Abes : une coopération fructueuse pour améliorer la visibilité des revues Diamant (1/2)

Auteur/autrice de la publication :Punktauteur
Publication publiée :31 octobre 2024
Post category:Sudoc PS

Ce billet est le premier d’une série de deux billets présentant les résultats d’une coopération fructueuse entre Repères, Mir@bel et l’Abes (1/2)

Dans le cadre du projet FNSO Mir@bel2022, un ensemble d’actions sont menées pour améliorer le signalement et la visibilité des revues scientifiques françaises et de leurs éditeurs, au sein de Mir@bel et à l’international vers le DOAJ (Directory of Open Access Journals). Ces actions s’organisent sur la base du travail fédéré de quatorze partenaires – dont le réseau Repères et l’Abes – impliqués dans l’écosystème de l’édition et du référencement et illustrent une action transversale forte pour l’amélioration partagée des données et la visibilité des revues. Le référencement des revues hébergées par les pépinières de revues du réseau Repères et de leurs éditeurs dans Mir@bel, ainsi que les développements qui en ont résulté avec la contribution de l’Abes, constituent un exemple concret de cette coopération fructueuse.

Les grappes de revues, un outil dynamique pour créer des corpus de revues

Dans le cadre du partenariat avec le réseau Repères, Mir@bel a pu déployer la fonctionnalité des grappes, qui permet la création de listes ou corpus de revues pouvant être explorés à travers des fonctionnalités de recherche avancée.

Si, pour l’heure, les grappes disponibles sont liées à des projets menés au sein de Mir@bel, les partenaires pourront prochainement créer eux-mêmes leurs corpus, ce qui permettra de valoriser les listes de revues de leur choix (comme celles éditées par leur établissement, disponibles dans leur fonds ou d’un site géographique, etc.) ou de créer des listes de revues liées à des projets de recherche.

Ces corpus peuvent être constitués à partir d’imports massifs de données (tableur) ou à travers les résultats d’une recherche avancée dans Mir@bel. Les grappes de revues peuvent être statiques ou dynamiques. Dans le premier cas, la liste est figée et les gestionnaires de la grappe peuvent ajouter ou retirer des titres manuellement. Dans le second cas, la grappe s’actualise automatiquement dès lors qu’une nouvelle revue répond aux critères établis à la création du corpus.

La constitution d’une grappe pour les pépinières du réseau Repères a nécessité un travail commun entre Repères et Mir@bel. En exportant les données de l’API de Mir@bel et en les croisant avec les connaissances accumulées par les pépinières au sein du réseau Repères – une pépinière correspondant à une ressource dans Mir@bel, les ressources absentes et les revues non référencées sur le site ont pu être identifiées. Ensuite, il a suffi de compléter les données et, finalement, de récupérer les résultats de la recherche avancée correspondant à ce corpus de revues.

Il est désormais possible d’effectuer des recherches ciblées sur ce corpus et de l’exploiter. Pour maintenir la grappe Repères, chaque pépinière veille à sa ressource et s’engage à mettre à jour les informations de ses revues, ce avec l’aide de la personne en charge de la coordination de Repères qui propose un appui et une interface facilitante à l’équipe de Mir@bel. Actuellement, la grappe de revues est composée de 177 revues en accès ouvert Diamant, un chiffre en croissance.

Précisons que le site du réseau Repères rassemble les sites des pépinières de revues, la présentation des informations étant axée sur les pépinières et non sur les revues. L’intérêt de cette grappe est bien de proposer une liste dynamique, une vue synoptique de revues en accès ouvert Diamant hébergées par les plateformes de diffusion fédérées et proposant des modèles éditoriaux variés, mais alignés sur les politiques nationales en faveur de la Science ouverte. Enfin, elle a pour avantage d’incarner un réseau par des données objectives et fiables et de replacer de manière très concrète le travail de chaque pépinière au sein d’un ensemble plus vaste.

De la production de contenus au lecteur : BACON au service des outils de découverte

BACON, Base de Connaissance Nationale gérée par l’Abes, est conçue comme un moyen de faciliter le signalement et la gestion des accès à la documentation électronique, en faisant le lien entre les données des éditeurs et les professionnels en bibliothèques. A cette fin, BACON centralise puis diffuse les métadonnées descriptives de plus de 1 000 bouquets de ressources électroniques sous forme de fichiers KBART, librement réutilisables. Grâce à cet entrepôt de données, les bibliothèques disposent donc de données fiabilisées et à jour correspondant à leurs collections de ressources électroniques, dans un format adapté à leurs besoins.

Depuis son origine, BACON porte une attention particulière aux données produites par les éditeurs et diffuseurs scientifiques francophones, aux corpus négociés par le consortium Couperin et à ceux acquis sous licence nationale, complétant avantageusement les contenus présents dans les bases de connaissances commerciales. De même, les ressources en libre accès, qui constituent le talon d’Achille des outils de découverte, font partie des ressources cibles de BACON. Ainsi, les usagers de la base ont accès à un large panel : fichiers provenant de réservoirs bibliographiques de référence (ROAD, BnF, etc.) ; contenus diffusés par de grandes plateformes (OpenEdition, Érudit, Persée, etc.) mais aussi produits par des cellules éditrices de plus petite taille (Numdam, Centre Mersenne, Episciences, etc.).

La production et l’échange de fichiers KBART sont à la confluence de plusieurs actions communes au réseau Repères, à Mir@bel et à l’Abes. Dès 2013, au vu de l’intérêt que représente le fichier KBART pour les communautés, notamment pour leur utilisation au sein des outils de découverte, Mir@bel s’est appuyé sur ce formalisme pour partager les données d’accès aux revues signalées par ses membres partenaires. Mir@bel s’enrichit quotidiennement de nombreux contenus élaborés dans ce format – dont certains proviennent de BACON, tout en produisant en parallèle plusieurs fichiers qui sont ensuite mis à disposition des communautés.

Dans le cadre du projet FNSO Mir@bel2022, ces fichiers, actualisés chaque semaine, sont désormais exposés dans BACON et diffusés plus largement via ce canal auprès des usagers qui activent ces collections dans leurs outils de découverte. Initialement, l’offre KBART de Mir@bel se compose de trois fichiers, qui décrivent les états de collection et modalités d’accès pour :

l’ensemble des titres signalés dans Mir@bel et proposant au moins un accès – libre ou non – au texte intégral :
- https://bacon.abes.fr/package2kbart/MIRABEL_GLOBAL_TEXTEINTEGRAL
les titres en accès gratuit recensés par Mir@bel :
- https://bacon.abes.fr/package2kbart/MIRABEL_GLOBAL_LIBRESACCES
les titres référencés par le DOAJ et signalés dans Mir@bel :
- https://bacon.abes.fr/package2kbart/MIRABEL_GLOBAL_DOAJ-PARTIEL

Dès leur intégration dans BACON, ces trois fichiers ont bénéficié du label Qualité attribué par l’Abes aux fichiers cochant les critères optimaux de qualité de leurs contenus. Cette expertise dans la production de fichiers KBART a permis à Mir@bel d’étoffer son offre de service, grâce au développement de fonctionnalités d’export permettant de générer des fichiers sur mesure à partir des revues de sa base de connaissance.

En parallèle, et dans une dynamique inter-réseaux, Mir@bel a pris en charge la production d’un fichier KBART des épi-revues hébergées sur la plateforme Episciences, valorisant ainsi ces titres auprès d’une large communauté :

https://bacon.abes.fr/package2kbart/EPISCIENCES_GLOBAL_ALLJOURNALS

Un nouveau fichier, issu des grappes Mir@bel, vient désormais enrichir cette liste :

https://bacon.abes.fr/package2kbart/REPERES_GLOBAL_LIBRESACCES

Celui-ci décrit l’ensemble des accès déclarés dans Mir@bel pour les revues accompagnées par les pépinières du réseau Repères (liste exhaustive). Grâce au travail de veille mené par les différentes pépinières, la qualité des données produites a également conduit à la génération d’un fichier KBART doté du label Qualité BACON.

Ainsi, l’expertise fournie par l’ensemble du réseau Mir@bel a permis la mise à disposition de plusieurs fichiers KBART de qualité. Ce travail de veille collaborative participe fortement à la valorisation des titres en accès libre et à leur découvrabilité, notamment à partir des outils de découverte des bibliothèques.

Claire Dandieu (Sciences Po Lyon) & Carolina Verlengia (Sciences Po Lyon), pour le réseau Mir@bel

Basile Bayoux (Université Jean Moulin Lyon 3), pour le réseau Repères

Morgane Parra, pour l’Abes

Continuez la lecture avec le billet n°2.

En savoir plus :

Consulter la recommandation Kbart (traduction française)

Consulter les 232 fichiers labellisés sont actuellement exposés dans la base de connaissance BACON

Continuer la lecture

Articles plus anciens

Chantiers qualité dans Calames : contexte et objectifs

Identifier les chantiers pertinents

S’aider de l’intelligence artificielle pour modifier les données en masse

L’IA à la rescousse de la qualité des données Calames

Entraînement et configuration des agents LLM

Construction d’un jeu d’entraînement

Utilisation concrète via Mistral AI

Comment fonctionnent les scripts en Java ?

Identifier précisément la donnée à modifier

Exemple de ciblage précis : le cas des éléments <unitid>

Plutôt pas assez que trop : les limites du ciblage par valeur

Limites des scripts et enjeux de qualité des données

Conclusion : une amélioration continue de la qualité

Une obligation réglementaire à l’horizon 2025

Qu’est-ce que l’homologation de sécurité ?

Une gouvernance assumée

L’Abes engagée avec MonServiceSécurisé

Retour d’expérience dans la communauté ESR

Une reconnaissance inspirante

Et demain ?

Quand on ne trouve pas, c’est qu’en général on ne cherche pas au bon endroit

Quand on finit (enfin) par chercher au bon endroit

Les petits réglages qui font toute la différence

Ce qu’on en retient

Contexte : du projet Labo à l’expérimentation in vivo

L’indexation comme recherche des bons concepts

L’indexation comme recherche sémantique des bons concepts

Plusieurs modèles d’embeddings, jugés par un grand modèle de langage (LLM)

Emballer l’IA dans un web service

Pourquoi ce chantier ?

Reconnaître les fausses croyances

Premier espoir déçu : une stratégie doit être 100% correcte

Deuxième désillusion : c’est toujours une bonne idée d’adapter la stratégie à la spécificité des données d’entrées

Troisième ornière : l’alignement sans regard humain, à grande échelle, c’est trop dangereux

Quatrième erreur : on ne peut évaluer le résultat qu’au doigt mouillé

Qu’est-ce que sont les alignements ?

Pourquoi aligner ?

Comment s’y prendre ?

Ce que fait l’Abes

Mir@bel2022 : vers un référentiel partagé pour les structures éditoriales

Faire converger les données d’éditeurs à l’aide d’IdRef

Les grappes de revues, un outil dynamique pour créer des corpus de revues

De la production de contenus au lecteur : BACON au service des outils de découverte

Chantiers qualité dans Calames : contexte et objectifs

Exemple de ciblage précis : le cas des éléments `<unitid>`

Plutôt pas assez que trop : les limites du ciblage par valeur