Améliorer les dates normalisées dans Calames (2) : retours sur un chantier Qualité

  • Auteur/autrice de la publication :
  • Post category:Calames

Ce second billet présente la méthodologie et le diagnostic des cas analysés dans le cadre  du chantier Qualité consacré aux dates normalisées dans Calames.

L’un des trois chantiers Qualité dans Calames lancés au printemps 2025 portait sur les dates normalisées, présentes en EAD dans l’attribut NORMAL de <unitdate>.

Pour rappel, la norme ISAD(G) recommande que les dates de cet attribut respectent la norme ISO 8601, une exigence également reprise par les Bonnes pratiques EAD en bibliothèque.
La multiplicité des cas possibles — <unitdate> étant un élément répétable en EAD — a conduit l’Abes à concevoir une organisation ingénieuse pour améliorer la qualité de cette donnée, essentielle dans tout outil de production et de signalement, et tout particulièrement dans Calames.

Une approche mesurée pour rester réaliste 

À l’automne 2024, l’Abes a réalisé un examen des données en EAD de la base Calames considérées comme stratégiques afin d’identifier les principaux types d’erreurs, d’en mesurer la fréquence et de prioriser les potentiels Chantiers Qualité.

Ces données stratégiques sont notamment celles qui alimentent les index de recherche de l’interface publique de Calames : cote, indexation (personne, collectivité, sujet, lieu géographique, genre et forme, famille), date, langue, identifiants (ID, LEVEL dans <c> ou dans <eadheader>), ainsi que les liens vers des sites ou des documents numérisés.

(suite…)

Continuer la lectureAméliorer les dates normalisées dans Calames (2) : retours sur un chantier Qualité

Les documents iconographiques décrits dans Calames (1) : contours d’une analyse globale

  • Auteur/autrice de la publication :
  • Post category:Calames

Ce billet est le premier d’une série qui sera publiée au fil de l’analyse des données extraites de la base de production Calames, alimentée et consolidée par d’autres requêtes complémentaires. Cette série accompagne un recueil de besoin auprès des établissements du réseau Calames pour alimenter les documents produits par le GT EAD(B) national. Les établissements les plus concernés ou volontaires seront notamment incités à partager leurs besoins du point de vue de la description de ces fonds et leur expérience des données sur lesquelles les chercheurs s’appuient pour trouver et consulter ces documents.

Parfois jugés non prioritaires pour le signalement en bibliothèque, parfois au centre des attentions lors de projets de numérisation ou de valorisation, les documents iconographiques constituent un ensemble aux contours parfois difficile à définir. Leur volumétrie qui excède souvent les moyens disponibles pour un signalement fin scientifiquement et à la pièce, leur importance pour la recherche et leur place dans les politiques de patrimonialisation souvent de plus en plus étendues en font cependant un ensemble plein d’enseignements sous de multiples aspects. 

Depuis son lancement en 2008, l’application Calames a été choisie par de nombreux établissements de l’ESR pour décrire leurs documents iconographiques. Partie intégrante d’un fonds d’archives mêlant différentes typologies de documents ou formant une collection constituée en dehors de toute production d’archives, la description en EAD offre certains avantages, notamment par rapport à UNIMARC.  

En 2025, à la demande du Comité Stratégique Bibliographique (CSB), le GT EAD(B), réunissant l’Abes, la BnF et des représentants des réseaux Calames et TapIR, consacre l’année à la production de fiches pratiques pour aider à la description de ces documents en EAD. Ces travaux donnent l’occasion d’analyser les 379 310 <archdesc> ou composants repérés dans la base Calames comme décrivant au moins en partie des documents iconographiques, représentant 23% des composants publiés fin 2024 dans Calames, et d’en dégager quelques grandes lignes. 

(suite…)

Continuer la lectureLes documents iconographiques décrits dans Calames (1) : contours d’une analyse globale

Calames : l’IA au service des chantiers qualité  #1

  • Auteur/autrice de la publication :
  • Post category:Calames

Chantiers qualité dans Calames : contexte et objectifs

Dans la seconde moitié des années 2010, plusieurs chantiers qualité ont été menés en concertation avec le groupe de travail Calames. Ces opérations reposaient principalement sur des modifications de masse réalisées par l’Abes, avec une simple information communiquée au réseau.

En 2020, dans le contexte particulier du confinement, un chantier qualité ciblant les autorités et leurs liens avec les notices IdRef s’est déroulé sur plusieurs mois. Pour la première fois, les établissements du réseau ont été sollicités pour améliorer ces liens, grâce à l’envoi par l’Abes d’un tableau de diagnostic détaillé.

En 2023, lors de la journée réseau Calames intitulée « Le Voyage des données », ces chantiers qualité ont été évoqués à nouveau. Il a été annoncé qu’ils seraient relancés afin de préparer la migration des données Calames vers un nouvel outil destiné à remplacer l’actuel.

Cette attention à la qualité des données est également essentielle pour anticiper d’éventuelles conversions vers de nouveaux modèles, comme EAD 4 (dont la publication est prévue en 2026) ou RiC (publié fin 2023).

(suite…)

Continuer la lectureCalames : l’IA au service des chantiers qualité  #1

Homologation de sécurité des systèmes d’information : l’Abes s’engage avec MonServiceSécurisé

  • Auteur/autrice de la publication :
  • Post category:Non classé

Logo mon service sécuriséLa cybersécurité est devenue un enjeu central pour les établissements publics, notamment depuis la parution de l’Instruction générale interministérielle n°1337 du 26 octobre 2022, qui impose une obligation d’homologation des systèmes d’information (SI) pour toutes les structures concourant aux missions de l’État ou placées sous sa tutelle.

Consulter : Texte officiel sur Légifrance

Une obligation réglementaire à l’horizon 2025

Depuis avril 2023, les établissements disposent d’un délai de deux ans pour se mettre en conformité. Passé ce délai, les pénalités seront encadrées par l’ANSSI, comme précisé dans la section 6.3 de l’Instruction.

Consulter : Section 6.3 sur Légifrance

Qu’est-ce que l’homologation de sécurité ?

L’homologation est un acte formel par lequel une autorité qualifiée (l’AQSSI ou son délégataire) atteste que :

  • les risques de sécurité ont été identifiés

  • les mesures de maîtrise des risques ont été mises en œuvre

  • les risques résiduels sont acceptés en pleine connaissance de cause.

Ce processus doit précéder toute mise en production d’un nouveau service numérique. Il s’applique à tous les SI relevant du périmètre de l’État ou de réglementations spécifiques, et est adapté en fonction de la sensibilité des systèmes concernés.

(suite…)

Continuer la lectureHomologation de sécurité des systèmes d’information : l’Abes s’engage avec MonServiceSécurisé

Lenteurs des applications Abes : retour sur un incident aux multiples pistes

  • Auteur/autrice de la publication :
  • Post category:Non classé

Incident survenu du 19 au 28 mai 2025

Quand on ne trouve pas, c’est qu’en général on ne cherche pas au bon endroit

Tout a commencé vers la mi-avril, avec quelques signaux faibles : des retours isolés, des lenteurs sporadiques, parfois impossibles à reproduire, des utilisateurs gênés… mais rien de franchement alarmant. Puis, le 19 mai, la situation s’accélère : les alertes se multiplient. Calames devient poussif, le moissonnage des entrepôts de données rame, l’autocomplétion des auteurs sur idref.fr prend une pause-café, et même le Sudoc public (sudoc.abes.fr) débouche parfois sur un message « délai dépassé ».

Pour ne rien arranger, certaines de nos sondes de surveillance se sont mises à faire le yoyo (en ligne, hors ligne, de nouveau en ligne, puis encore hors ligne), accentuant la confusion et renforçant le sentiment d’instabilité générale.

Le plus déconcertant ? À l’Abes, ou via notre VPN, tout fonctionne parfaitement. Aucune lenteur, rien à signaler. Impossible de reproduire le problème. En revanche, à distance, les soucis sont présents mais pas de façon constante. D’où cette impression étrange : ce n’est pas l’application qui flanche, mais l’accès. Et pourtant, côté réseau, tout semble en ordre. Aucun indicateur suspect, aucune alerte. Rien.

Alors, on creuse. On mène des tests en direct avec un établissement impacté (la bibliothèque de l’Académie Nationale de Médecine). On inspecte les trames avec les outils de développement du navigateur, puis avec Wireshark. Les lenteurs sont tangibles. Et pourtant, dans les logs, aucune anomalie liée aux IP publiques des utilisateurs concernés. Le vide.

Alors, on continue à chercher. On redémarre des services, on inspecte le DNS, les interfaces réseau, les journaux système, les pares-feux, le débit, la mémoire, la CPU, la couche de virtualisation, les bloqueurs de pub (oui, vraiment), et même Matomo, notre outil de statistiques web.

Mais rien. Les lenteurs persistent, réelles, mesurables… et insaisissables. Comme si le problème s’amusait à jouer à cache-cache avec nous.

Alors, où chercher maintenant ?

(suite…)

Continuer la lectureLenteurs des applications Abes : retour sur un incident aux multiples pistes

Indexation RAMEAU assistée par IA : le décryptage du Labo

  • Auteur/autrice de la publication :
  • Post category:Non classé

À l’issue d’une expérimentation conduite entre octobre 2024 et janvier 2025, l’Abes a publié le rapport « Indexation  RAMEAU assistée par IA ». Retour en détail sur la façon dont fonctionne cette IA prometteuse.

Lire aussi le Billet Fil’Abes : L’indexation RAMEAU assistée par IA : retour sur une expérimentation prometteuse

Contexte : du projet Labo à l’expérimentation in vivo

En 2023, le Labo de l’Abes a mené un projet dont l’objectif était d’évaluer la faisabilité d’une indexation RAMEAU de qualité satisfaisante au moyen d’une intelligence artificielle (IA), à partir du titre et du résumé d’une monographie en français. Encore fallait-il définir ce qu’est une indexation « satisfaisante », question délicate….

Les particularités de cette tâche nous ont tout d’abord conduits à adopter plusieurs stratégies d’évaluation complémentaires :

  1. Évaluation des indexations machines avec les métriques classiques adaptées à la classification multilabel (= Sudoc comme la vérité).
  2. Évaluation des indexations machines en les comparant à plusieurs indexations humaines, et pas seulement à l’indexation humaine du Sudoc (= pluralité des vérités). Pour ce faire, nous avons demandé à 6 collègues de l’Abes (nommés les “réindexeurs”) d’indexer une centaine de documents déjà indexés dans le Sudoc, sélectionnés de manière aléatoire.
  3. Évaluation qualitative de toutes les indexations, humaines et machines, au moyen d’une grille de notation (= notation comme la vérité). Selon cette grille, noter une indexation, c’était, d’une part, noter chaque sujet retenu pour une notice donnée (on notait l’exactitude et la spécificité de chaque sujet) et, d’autre part, noter le bloc des sujets retenus pour une notice donnée (on notait la complétude et la redondance de chaque bloc).

(suite…)

Continuer la lectureIndexation RAMEAU assistée par IA : le décryptage du Labo

Les identifiants des structures de recherche de l’université de Strasbourg : retour d’expérience

  • Auteur/autrice de la publication :
  • Post category:Non classé

En 2024, le service des bibliothèques de l’université de Strasbourg s’est lancé dans un chantier autour des identifiants des structures de recherche dans le référentiel ROR et par extension dans IdRef et AuréHAL.

Pourquoi ce chantier ?

Alignements de bretzels
Alignements. Photo de Israel Albornoz sur Unsplash

Depuis plusieurs années, particulièrement dans le cadre de sa politique de science ouverte,  l’université de Strasbourg porte une attention spécifique aux identifiants de la recherche : l’archive ouverte institutionnelle univOAK s’appuie notamment sur les identifiants IdRef pour ses chercheurs et ses structures. De même, l’équipe en charge des thèses travaille régulièrement à la mise à jour, toujours dans IdRef, des Ecoles doctorales de l’université.

A l’été 2023, le service des bibliothèques commence à s’intéresser aux identifiants ROR pour ses unités de recherche. Un premier inventaire réalisé à cette époque montre une couverture très parcellaire des unités de recherche strasbourgeoises dans ROR. Nous saisissons donc cette occasion pour proposer à notre direction de la recherche de mettre à jour le référentiel ROR pour les unités de recherche de l’université.

Après échanges avec la direction de la recherche, il est décidé d’attendre 2024 pour commencer les mises à jour dans ROR. En effet, le nouveau contrat quinquennal de l’université, qui a débuté en 2024,  ayant fait évoluer le paysage des unités de recherche de l’université (fusions, éclatements, changement de noms, de tutelles, etc.), il a donc semblé plus pertinent d’attendre les changements de 2024 avant de se lancer dans cet important chantier.

Et tant qu’à plonger tête la première dans nos structures de recherche, l’occasion était parfaite pour faire également un état des lieux dans IdRef et AuréHAL, référentiels sur lesquels nous gardons un œil depuis plusieurs années mais dans lesquels nous n’avions jusqu’à présent pas fait d’opération de vérification systématique.

(suite…)

Continuer la lectureLes identifiants des structures de recherche de l’université de Strasbourg : retour d’expérience

Anatomie des alignements à l’Abes (ou métaphore des chaussettes), épisode 3/3

  • Auteur/autrice de la publication :
  • Post category:IdRef

Pour conclure la mini-série initiée avec les épisodes 1 et 2, voici une petite illustration récente d’un travail d’alignement (matching) à l’Abes.

5 paires de chaussettes épinglées sur une corde à linge
Illustration : Christian Fickinger (sur unsplash.com)

 

L’alignement présente quelques similarités avec cette tâche rebutante qui nous revient avec la baisse des températures[1] : la corvée de chaussettes. Retrouver à chacun sa chacune, en fonction du nombre de personnes sous votre toit, peut s’avérer extrêmement fastidieux. Il y a les homonymes (Tiens, encore une chaussette grise ?), les faux amis (même modèle mais taille différente, 31-34 et pas 27-30), les singletons (ah oui, la gauche était trouée et est devenue chiffon) et les cas d’espèces (ah, cet étrange modèle dont un pied est orné de frites et l’autre d’une bouteille de ketchup mais qui forment une paire tout de même), et même les lèche-bottes[2]. Pour vous donner une bonne excuse pour procrastiner, lisez-donc la suite (et peut-être que vous verrez l’appariement sous un autre jour).

 

(suite…)

Continuer la lectureAnatomie des alignements à l’Abes (ou métaphore des chaussettes), épisode 3/3

Anatomie (pathologique) des alignements, épisode 2/3

  • Auteur/autrice de la publication :
  • Post category:IdRef

Ce billet, à la suite du précédent, vise à partager via l’explicitation et la traduction les quatre billets co-publiés par les blogs de ROR et CrossRef au sujet de l’alignement (matching). Ce deuxième volet démolit les mythes et introduit la question de l’évaluation des stratégies d’alignement.
Billets originaux : The Myth of Perfect Metadata Matching  et How Good Is Your Matching?

Une longue route bordée de cyprès
Illustration : Sixième Rêve (unsplash.com)

Reconnaître les fausses croyances

Le problème avec ces perceptions faussées, c’est qu’elles ne permettent pas d’avoir une idée réaliste de ce qu’on peut attendre d’un processus d’alignement.

Parmi les problèmes qu’elles attirent, se trouvent surtout des attentes démesurées, ou la sous-estimation du temps et du travail nécessaire pour le mener à bien.

 

 

Premier espoir déçu : une stratégie doit être 100% correcte

Hélas la perfection n’est pas de ce monde. Bien que ce soit évidemment l’idéal vers lequel on tend, la pratique des alignements nous fait rapidement entrevoir pourquoi ça n’est pas possible. Tout d’abord, parce que lorsqu’on a en entrée des données non structurées, donc des chaînes de caractères, elles ont été produites et pensées par des êtres humains. Divers. Faillibles. Mais aussi dotés, outre d’une imagination sans limite pour les fantaisies orthographiques, d’une capacité d’inférence liée au contexte, qui fait qu’elles rétablissent d’emblée, à partir de chaînes variables, le sens attendu. Pour mener un alignement via des machines, il faut trouver comment expliciter toutes ces opérations mentales de structuration, d’appariement, de développement d’acronymes ou d’abréviations, de distinctions d’homonymes, pour qu’elles puissent être systématisées et reproduites.

(suite…)

Continuer la lectureAnatomie (pathologique) des alignements, épisode 2/3

Anatomie des alignements, épisode 1/3

  • Auteur/autrice de la publication :
  • Post category:IdRef

Entre mai et novembre 2024, une série de billets ont été publiés conjointement sur les blogs de ROR et de Crossref par Adam Buttrick et Dominika Tkaczyk (Si vous avez un doute sur ce qu’est le ROR, pour Research Organizations Registry, allez réviser sur ce précédent billet Punktokomo.) Ils traitent d’un enjeu qui est à la fois central et quotidien pour le service Autorités et Référentiels de l’Abes : l’alignement. En anglais, on parle de matching.
Voyons comment ces collègues qui travaillent eux aussi toute la journée sur des métadonnées situent les choses, quel vocabulaire elles et ils emploient, vers quoi tendre et sur quels os on peut tomber.
Billets originaux : Metadata Matching , what is it and why do we need it ? et The Anatomy of Metadata matching

Qu’est-ce que sont les alignements ?

photo de roches grises alignées dans un champ d'herbe
« Formation rocheuse grise sur un champ d’herbe verte sous des nuages blancs pendant la journée »
par Johanneke Kroesbergen-Kamps

L’alignement, pour des métadonnées, a pour objectif de rapprocher des sources pour apparier des entités (dans les cas qui nous occupent à l’Abes, des personnes physiques et/ou des organisations) qui sont considérées comme identiques.

On se lance dans des travaux d’alignement quand on sait, ou du moins qu’on suspecte, que deux sources de données parlent des mêmes choses. Par exemple, quand on entreprend d’aligner un annuaire des personnels d’une université vers IdRef, on suppose que les chercheuses, enseignantes-chercheuses, ingénieures[1] de recherche, etc. qui travaillent dans cette université ont probablement déjà une notice descriptive dans IdRef, car elles ont des rôles bibliographiques dans des documents signalés dans les gisements documentaires associés, comme le Sudoc et les thèses. Tout alignement commence donc par le présupposé d’un recouvrement.

 

 

Par ailleurs, pour ne pas mélanger les torchons et les serviettes, on ne se lance dans un alignement qu’en supposant aussi que la définition des entités qu’on veut apparier est suffisamment proche. Quand il s’agit de personnes physiques, c’est assez simple : chaque être humain est unique, et ne naît et ne meurt qu’une fois. La définition de base est la même. Une personne pourrait être décrite par plusieurs notices IdRef ou par plusieurs entrées dans un annuaire, mais alors, c’est un doublon : parce qu’on suppose l’unicité de chaque entité et un accord sur la définition de l’identité. Pour les collectivités, vous vous en doutez, c’est toujours un peu plus tordu, mais on y reviendra.

(suite…)

Continuer la lectureAnatomie des alignements, épisode 1/3
Aller au contenu principal