Améliorer les dates normalisées dans Calames (3) : résorber les sources d’erreurs et traiter les cas 

  • Auteur/autrice de la publication :
  • Post category:Calames

Résorber les sources d’erreur : améliorations de l’export Visio_controle

Dans Calames, comme dans d’autres bases, la méthodologie des Chantiers Qualité menés par l’Abes repose sur plusieurs principes communs. L’un des plus importants consiste à éliminer d’abord les sources d’erreurs afin d’éviter qu’elles ne se reproduisent, avant d’entreprendre le traitement rétrospectif des anomalies déjà présentes dans la base.

Dans Calames, en complément des messages de sensibilisation adressés au réseau, cette démarche repose principalement sur l’amélioration de l’outil “historique” de contrôle qualité : l’export Visio_controle, très fortement recommandé avant toute publication dans Calames – et largement utilisé.

Cet export, qui génère un fichier HTML consultable dans le navigateur de l’utilisateur, est produit par une transformation XSLT (Extensible Stylesheet Language Transformations)  détectant les erreurs grâce aux conditions appliquées à chaque élément ou attribut EAD, et/ou faisant l’objet d’une Bonne pratique EAD. En plus de quelques statistiques sur le fichier EAD en en-tête, le fichier récapitule ensuite l’ensemble des erreurs repérées, classées par type, au fil du <archdesc> et des composants.

Cependant, bien que le contrôle de la validité des dates au regard de l’ISO 8601 existait déjà, il laissait passer un certain nombre de cas.

(suite…)

Continuer la lectureAméliorer les dates normalisées dans Calames (3) : résorber les sources d’erreurs et traiter les cas 

Améliorer les dates normalisées dans Calames (2) : retours sur un chantier Qualité

  • Auteur/autrice de la publication :
  • Post category:Calames

Ce second billet présente la méthodologie et le diagnostic des cas analysés dans le cadre  du chantier Qualité consacré aux dates normalisées dans Calames.

L’un des trois chantiers Qualité dans Calames lancés au printemps 2025 portait sur les dates normalisées, présentes en EAD dans l’attribut NORMAL de <unitdate>.

Pour rappel, la norme ISAD(G) recommande que les dates de cet attribut respectent la norme ISO 8601, une exigence également reprise par les Bonnes pratiques EAD en bibliothèque.
La multiplicité des cas possibles — <unitdate> étant un élément répétable en EAD — a conduit l’Abes à concevoir une organisation ingénieuse pour améliorer la qualité de cette donnée, essentielle dans tout outil de production et de signalement, et tout particulièrement dans Calames.

Une approche mesurée pour rester réaliste 

À l’automne 2024, l’Abes a réalisé un examen des données en EAD de la base Calames considérées comme stratégiques afin d’identifier les principaux types d’erreurs, d’en mesurer la fréquence et de prioriser les potentiels Chantiers Qualité.

Ces données stratégiques sont notamment celles qui alimentent les index de recherche de l’interface publique de Calames : cote, indexation (personne, collectivité, sujet, lieu géographique, genre et forme, famille), date, langue, identifiants (ID, LEVEL dans <c> ou dans <eadheader>), ainsi que les liens vers des sites ou des documents numérisés.

(suite…)

Continuer la lectureAméliorer les dates normalisées dans Calames (2) : retours sur un chantier Qualité

Les documents iconographiques décrits dans Calames (1) : contours d’une analyse globale

  • Auteur/autrice de la publication :
  • Post category:Calames

Ce billet est le premier d’une série qui sera publiée au fil de l’analyse des données extraites de la base de production Calames, alimentée et consolidée par d’autres requêtes complémentaires. Cette série accompagne un recueil de besoin auprès des établissements du réseau Calames pour alimenter les documents produits par le GT EAD(B) national. Les établissements les plus concernés ou volontaires seront notamment incités à partager leurs besoins du point de vue de la description de ces fonds et leur expérience des données sur lesquelles les chercheurs s’appuient pour trouver et consulter ces documents.

Parfois jugés non prioritaires pour le signalement en bibliothèque, parfois au centre des attentions lors de projets de numérisation ou de valorisation, les documents iconographiques constituent un ensemble aux contours parfois difficile à définir. Leur volumétrie qui excède souvent les moyens disponibles pour un signalement fin scientifiquement et à la pièce, leur importance pour la recherche et leur place dans les politiques de patrimonialisation souvent de plus en plus étendues en font cependant un ensemble plein d’enseignements sous de multiples aspects. 

Depuis son lancement en 2008, l’application Calames a été choisie par de nombreux établissements de l’ESR pour décrire leurs documents iconographiques. Partie intégrante d’un fonds d’archives mêlant différentes typologies de documents ou formant une collection constituée en dehors de toute production d’archives, la description en EAD offre certains avantages, notamment par rapport à UNIMARC.  

En 2025, à la demande du Comité Stratégique Bibliographique (CSB), le GT EAD(B), réunissant l’Abes, la BnF et des représentants des réseaux Calames et TapIR, consacre l’année à la production de fiches pratiques pour aider à la description de ces documents en EAD. Ces travaux donnent l’occasion d’analyser les 379 310 <archdesc> ou composants repérés dans la base Calames comme décrivant au moins en partie des documents iconographiques, représentant 23% des composants publiés fin 2024 dans Calames, et d’en dégager quelques grandes lignes. 

(suite…)

Continuer la lectureLes documents iconographiques décrits dans Calames (1) : contours d’une analyse globale

Calames : l’IA au service des chantiers qualité  #1

  • Auteur/autrice de la publication :
  • Post category:Calames

Chantiers qualité dans Calames : contexte et objectifs

Dans la seconde moitié des années 2010, plusieurs chantiers qualité ont été menés en concertation avec le groupe de travail Calames. Ces opérations reposaient principalement sur des modifications de masse réalisées par l’Abes, avec une simple information communiquée au réseau.

En 2020, dans le contexte particulier du confinement, un chantier qualité ciblant les autorités et leurs liens avec les notices IdRef s’est déroulé sur plusieurs mois. Pour la première fois, les établissements du réseau ont été sollicités pour améliorer ces liens, grâce à l’envoi par l’Abes d’un tableau de diagnostic détaillé.

En 2023, lors de la journée réseau Calames intitulée « Le Voyage des données », ces chantiers qualité ont été évoqués à nouveau. Il a été annoncé qu’ils seraient relancés afin de préparer la migration des données Calames vers un nouvel outil destiné à remplacer l’actuel.

Cette attention à la qualité des données est également essentielle pour anticiper d’éventuelles conversions vers de nouveaux modèles, comme EAD 4 (dont la publication est prévue en 2026) ou RiC (publié fin 2023).

(suite…)

Continuer la lectureCalames : l’IA au service des chantiers qualité  #1

Homologation de sécurité des systèmes d’information : l’Abes s’engage avec MonServiceSécurisé

  • Auteur/autrice de la publication :
  • Post category:Non classé

Logo mon service sécuriséLa cybersécurité est devenue un enjeu central pour les établissements publics, notamment depuis la parution de l’Instruction générale interministérielle n°1337 du 26 octobre 2022, qui impose une obligation d’homologation des systèmes d’information (SI) pour toutes les structures concourant aux missions de l’État ou placées sous sa tutelle.

Consulter : Texte officiel sur Légifrance

Une obligation réglementaire à l’horizon 2025

Depuis avril 2023, les établissements disposent d’un délai de deux ans pour se mettre en conformité. Passé ce délai, les pénalités seront encadrées par l’ANSSI, comme précisé dans la section 6.3 de l’Instruction.

Consulter : Section 6.3 sur Légifrance

Qu’est-ce que l’homologation de sécurité ?

L’homologation est un acte formel par lequel une autorité qualifiée (l’AQSSI ou son délégataire) atteste que :

  • les risques de sécurité ont été identifiés

  • les mesures de maîtrise des risques ont été mises en œuvre

  • les risques résiduels sont acceptés en pleine connaissance de cause.

Ce processus doit précéder toute mise en production d’un nouveau service numérique. Il s’applique à tous les SI relevant du périmètre de l’État ou de réglementations spécifiques, et est adapté en fonction de la sensibilité des systèmes concernés.

(suite…)

Continuer la lectureHomologation de sécurité des systèmes d’information : l’Abes s’engage avec MonServiceSécurisé

Lenteurs des applications Abes : retour sur un incident aux multiples pistes

  • Auteur/autrice de la publication :
  • Post category:Non classé

Incident survenu du 19 au 28 mai 2025

Quand on ne trouve pas, c’est qu’en général on ne cherche pas au bon endroit

Tout a commencé vers la mi-avril, avec quelques signaux faibles : des retours isolés, des lenteurs sporadiques, parfois impossibles à reproduire, des utilisateurs gênés… mais rien de franchement alarmant. Puis, le 19 mai, la situation s’accélère : les alertes se multiplient. Calames devient poussif, le moissonnage des entrepôts de données rame, l’autocomplétion des auteurs sur idref.fr prend une pause-café, et même le Sudoc public (sudoc.abes.fr) débouche parfois sur un message « délai dépassé ».

Pour ne rien arranger, certaines de nos sondes de surveillance se sont mises à faire le yoyo (en ligne, hors ligne, de nouveau en ligne, puis encore hors ligne), accentuant la confusion et renforçant le sentiment d’instabilité générale.

Le plus déconcertant ? À l’Abes, ou via notre VPN, tout fonctionne parfaitement. Aucune lenteur, rien à signaler. Impossible de reproduire le problème. En revanche, à distance, les soucis sont présents mais pas de façon constante. D’où cette impression étrange : ce n’est pas l’application qui flanche, mais l’accès. Et pourtant, côté réseau, tout semble en ordre. Aucun indicateur suspect, aucune alerte. Rien.

Alors, on creuse. On mène des tests en direct avec un établissement impacté (la bibliothèque de l’Académie Nationale de Médecine). On inspecte les trames avec les outils de développement du navigateur, puis avec Wireshark. Les lenteurs sont tangibles. Et pourtant, dans les logs, aucune anomalie liée aux IP publiques des utilisateurs concernés. Le vide.

Alors, on continue à chercher. On redémarre des services, on inspecte le DNS, les interfaces réseau, les journaux système, les pares-feux, le débit, la mémoire, la CPU, la couche de virtualisation, les bloqueurs de pub (oui, vraiment), et même Matomo, notre outil de statistiques web.

Mais rien. Les lenteurs persistent, réelles, mesurables… et insaisissables. Comme si le problème s’amusait à jouer à cache-cache avec nous.

Alors, où chercher maintenant ?

(suite…)

Continuer la lectureLenteurs des applications Abes : retour sur un incident aux multiples pistes

Indexation RAMEAU assistée par IA : le décryptage du Labo

  • Auteur/autrice de la publication :
  • Post category:Non classé

À l’issue d’une expérimentation conduite entre octobre 2024 et janvier 2025, l’Abes a publié le rapport « Indexation  RAMEAU assistée par IA ». Retour en détail sur la façon dont fonctionne cette IA prometteuse.

Lire aussi le Billet Fil’Abes : L’indexation RAMEAU assistée par IA : retour sur une expérimentation prometteuse

Contexte : du projet Labo à l’expérimentation in vivo

En 2023, le Labo de l’Abes a mené un projet dont l’objectif était d’évaluer la faisabilité d’une indexation RAMEAU de qualité satisfaisante au moyen d’une intelligence artificielle (IA), à partir du titre et du résumé d’une monographie en français. Encore fallait-il définir ce qu’est une indexation « satisfaisante », question délicate….

Les particularités de cette tâche nous ont tout d’abord conduits à adopter plusieurs stratégies d’évaluation complémentaires :

  1. Évaluation des indexations machines avec les métriques classiques adaptées à la classification multilabel (= Sudoc comme la vérité).
  2. Évaluation des indexations machines en les comparant à plusieurs indexations humaines, et pas seulement à l’indexation humaine du Sudoc (= pluralité des vérités). Pour ce faire, nous avons demandé à 6 collègues de l’Abes (nommés les “réindexeurs”) d’indexer une centaine de documents déjà indexés dans le Sudoc, sélectionnés de manière aléatoire.
  3. Évaluation qualitative de toutes les indexations, humaines et machines, au moyen d’une grille de notation (= notation comme la vérité). Selon cette grille, noter une indexation, c’était, d’une part, noter chaque sujet retenu pour une notice donnée (on notait l’exactitude et la spécificité de chaque sujet) et, d’autre part, noter le bloc des sujets retenus pour une notice donnée (on notait la complétude et la redondance de chaque bloc).

(suite…)

Continuer la lectureIndexation RAMEAU assistée par IA : le décryptage du Labo

Les identifiants des structures de recherche de l’université de Strasbourg : retour d’expérience

  • Auteur/autrice de la publication :
  • Post category:Non classé

En 2024, le service des bibliothèques de l’université de Strasbourg s’est lancé dans un chantier autour des identifiants des structures de recherche dans le référentiel ROR et par extension dans IdRef et AuréHAL.

Pourquoi ce chantier ?

Alignements de bretzels
Alignements. Photo de Israel Albornoz sur Unsplash

Depuis plusieurs années, particulièrement dans le cadre de sa politique de science ouverte,  l’université de Strasbourg porte une attention spécifique aux identifiants de la recherche : l’archive ouverte institutionnelle univOAK s’appuie notamment sur les identifiants IdRef pour ses chercheurs et ses structures. De même, l’équipe en charge des thèses travaille régulièrement à la mise à jour, toujours dans IdRef, des Ecoles doctorales de l’université.

A l’été 2023, le service des bibliothèques commence à s’intéresser aux identifiants ROR pour ses unités de recherche. Un premier inventaire réalisé à cette époque montre une couverture très parcellaire des unités de recherche strasbourgeoises dans ROR. Nous saisissons donc cette occasion pour proposer à notre direction de la recherche de mettre à jour le référentiel ROR pour les unités de recherche de l’université.

Après échanges avec la direction de la recherche, il est décidé d’attendre 2024 pour commencer les mises à jour dans ROR. En effet, le nouveau contrat quinquennal de l’université, qui a débuté en 2024,  ayant fait évoluer le paysage des unités de recherche de l’université (fusions, éclatements, changement de noms, de tutelles, etc.), il a donc semblé plus pertinent d’attendre les changements de 2024 avant de se lancer dans cet important chantier.

Et tant qu’à plonger tête la première dans nos structures de recherche, l’occasion était parfaite pour faire également un état des lieux dans IdRef et AuréHAL, référentiels sur lesquels nous gardons un œil depuis plusieurs années mais dans lesquels nous n’avions jusqu’à présent pas fait d’opération de vérification systématique.

(suite…)

Continuer la lectureLes identifiants des structures de recherche de l’université de Strasbourg : retour d’expérience

Anatomie des alignements à l’Abes (ou métaphore des chaussettes), épisode 3/3

  • Auteur/autrice de la publication :
  • Post category:IdRef

Pour conclure la mini-série initiée avec les épisodes 1 et 2, voici une petite illustration récente d’un travail d’alignement (matching) à l’Abes.

5 paires de chaussettes épinglées sur une corde à linge
Illustration : Christian Fickinger (sur unsplash.com)

 

L’alignement présente quelques similarités avec cette tâche rebutante qui nous revient avec la baisse des températures[1] : la corvée de chaussettes. Retrouver à chacun sa chacune, en fonction du nombre de personnes sous votre toit, peut s’avérer extrêmement fastidieux. Il y a les homonymes (Tiens, encore une chaussette grise ?), les faux amis (même modèle mais taille différente, 31-34 et pas 27-30), les singletons (ah oui, la gauche était trouée et est devenue chiffon) et les cas d’espèces (ah, cet étrange modèle dont un pied est orné de frites et l’autre d’une bouteille de ketchup mais qui forment une paire tout de même), et même les lèche-bottes[2]. Pour vous donner une bonne excuse pour procrastiner, lisez-donc la suite (et peut-être que vous verrez l’appariement sous un autre jour).

 

(suite…)

Continuer la lectureAnatomie des alignements à l’Abes (ou métaphore des chaussettes), épisode 3/3

Anatomie (pathologique) des alignements, épisode 2/3

  • Auteur/autrice de la publication :
  • Post category:IdRef

Ce billet, à la suite du précédent, vise à partager via l’explicitation et la traduction les quatre billets co-publiés par les blogs de ROR et CrossRef au sujet de l’alignement (matching). Ce deuxième volet démolit les mythes et introduit la question de l’évaluation des stratégies d’alignement.
Billets originaux : The Myth of Perfect Metadata Matching  et How Good Is Your Matching?

Une longue route bordée de cyprès
Illustration : Sixième Rêve (unsplash.com)

Reconnaître les fausses croyances

Le problème avec ces perceptions faussées, c’est qu’elles ne permettent pas d’avoir une idée réaliste de ce qu’on peut attendre d’un processus d’alignement.

Parmi les problèmes qu’elles attirent, se trouvent surtout des attentes démesurées, ou la sous-estimation du temps et du travail nécessaire pour le mener à bien.

 

 

Premier espoir déçu : une stratégie doit être 100% correcte

Hélas la perfection n’est pas de ce monde. Bien que ce soit évidemment l’idéal vers lequel on tend, la pratique des alignements nous fait rapidement entrevoir pourquoi ça n’est pas possible. Tout d’abord, parce que lorsqu’on a en entrée des données non structurées, donc des chaînes de caractères, elles ont été produites et pensées par des êtres humains. Divers. Faillibles. Mais aussi dotés, outre d’une imagination sans limite pour les fantaisies orthographiques, d’une capacité d’inférence liée au contexte, qui fait qu’elles rétablissent d’emblée, à partir de chaînes variables, le sens attendu. Pour mener un alignement via des machines, il faut trouver comment expliciter toutes ces opérations mentales de structuration, d’appariement, de développement d’acronymes ou d’abréviations, de distinctions d’homonymes, pour qu’elles puissent être systématisées et reproduites.

(suite…)

Continuer la lectureAnatomie (pathologique) des alignements, épisode 2/3
Aller au contenu principal