Améliorer les dates normalisées dans Calames (2) : retours sur un chantier Qualité

  • Auteur/autrice de la publication :
  • Post category:Calames

Ce second billet présente la méthodologie et le diagnostic des cas analysés dans le cadre  du chantier Qualité consacré aux dates normalisées dans Calames. L’un des trois chantiers Qualité dans Calames lancés au printemps 2025 portait sur les dates normalisées, présentes en EAD dans l’attribut NORMAL de <unitdate>. Pour rappel, la norme ISAD(G) recommande que les dates de cet attribut respectent la norme ISO 8601, une exigence également reprise par les Bonnes pratiques EAD en bibliothèque.La multiplicité des cas possibles — <unitdate> étant un élément répétable en EAD — a conduit l'Abes à concevoir une organisation ingénieuse pour améliorer la qualité de cette donnée, essentielle dans tout outil de production et de signalement, et tout particulièrement dans Calames. Une approche mesurée pour rester réaliste  À l’automne 2024, l’Abes a réalisé un examen des données en EAD de la base Calames considérées comme stratégiques afin d’identifier les principaux types d’erreurs, d’en mesurer la fréquence et de prioriser les potentiels Chantiers Qualité. Ces données stratégiques sont notamment celles qui alimentent les index de recherche de l’interface publique de Calames : cote, indexation (personne, collectivité, sujet, lieu géographique, genre et forme, famille), date, langue, identifiants (ID, LEVEL dans <c> ou dans <eadheader>), ainsi que les liens vers des sites ou des documents numérisés. L’analyse a montré que les dates concentraient un nombre d’erreurs conséquent, à la fois élevé comparativement aux autres données, mais globalement compréhensible au regard des 17 années d’activité des établissements dans Calames et de la fréquence de cette donnée dans les instruments de recherche et les composants produits (environ 26 000 dates non indexées sur 1,1 million publiées). Face à la diversité des erreurs, l’Abes a opté pour une approche pragmatique sur les plus de 1,1 million de <unitdate> publiés fin 2024 : Se concentrer sur l’attribut NORMAL de <unitdate>, seule partie alimentant l’index de recherche par date (le contenu textuel n’étant pris en compte que pour la recherche plein texte). Ne pas viser la conformité parfaite à l’ISO 8601, mais corriger les erreurs empêchant l’indexation. En clair, l’ISO 8601 a évolué au cours du temps et ne permet plus aujourd’hui les dates sans tiret. Ainsi, par exemple, la forme 20250922 est désormais invalide au profit de 2025-09-22. Cependant, cette différence n’a pas d’impact fonctionnel sur l'indexation dans Calames, ni sur l'interopérabilité des données, de nombreux systèmes étant restés à l’état antérieur de l’ISO, et acceptant donc les dates sans tirets. Limiter le périmètre aux données publiées, les fichiers non publiés relevant soit de travaux en cours dans les établissements, soit d’archives non destinées à la publication. Ces choix pourront être réévalués lors de futures évolutions, notamment avec la migration vers un nouvel outil ou un nouveau modèle de données (EAD 4, RiC).  S’appuyer sur les outils existants  Avant même de connaître les chantiers qualité à prioriser, l’équipe Calames de l’Abes a développé à l’automne 2024 deux nouveaux exports de contrôle qualité générant des fichiers texte tabulés à partir des données EAD : Valeurs_controle-Filtre Element_controle-Filtre Ces exports permettent d’extraire, sur…

Continuer la lectureAméliorer les dates normalisées dans Calames (2) : retours sur un chantier Qualité

Les documents iconographiques décrits dans Calames (1) : contours d’une analyse globale

  • Auteur/autrice de la publication :
  • Post category:Calames

Ce billet est le premier d’une série qui sera publiée au fil de l’analyse des données extraites de la base de production Calames, alimentée et consolidée par d’autres requêtes complémentaires. Cette série accompagne un recueil de besoin auprès des établissements du réseau Calames pour alimenter les documents produits par le GT EAD(B) national. Les établissements les plus concernés ou volontaires seront notamment incités à partager leurs besoins du point de vue de la description de ces fonds et leur expérience des données sur lesquelles les chercheurs s’appuient pour trouver et consulter ces documents. Parfois jugés non prioritaires pour le signalement en bibliothèque, parfois au centre des attentions lors de projets de numérisation ou de valorisation, les documents iconographiques constituent un ensemble aux contours parfois difficile à définir. Leur volumétrie qui excède souvent les moyens disponibles pour un signalement fin scientifiquement et à la pièce, leur importance pour la recherche et leur place dans les politiques de patrimonialisation souvent de plus en plus étendues en font cependant un ensemble plein d’enseignements sous de multiples aspects.  Depuis son lancement en 2008, l’application Calames a été choisie par de nombreux établissements de l’ESR pour décrire leurs documents iconographiques. Partie intégrante d’un fonds d’archives mêlant différentes typologies de documents ou formant une collection constituée en dehors de toute production d’archives, la description en EAD offre certains avantages, notamment par rapport à UNIMARC.   En 2025, à la demande du Comité Stratégique Bibliographique (CSB), le GT EAD(B), réunissant l’Abes, la BnF et des représentants des réseaux Calames et TapIR, consacre l’année à la production de fiches pratiques pour aider à la description de ces documents en EAD. Ces travaux donnent l’occasion d’analyser les 379 310 <archdesc> ou composants repérés dans la base Calames comme décrivant au moins en partie des documents iconographiques, représentant 23% des composants publiés fin 2024 dans Calames, et d’en dégager quelques grandes lignes.  Avant toute analyse : quelle définition des documents iconographiques ?  Parcourir en diagonale quelques fichiers EAD - expression employée dans ce billet pour "instrument de recherche", car plus proche de la réalité technique dans Calames - ou composants comportant des <genreform> (voir plus bas pour les spécificités de cette indexation) se rapportant à l’iconographie, donc indexés - ce qui n’est pas toujours le cas (voir plus bas) - suffit pour tomber sur des cas difficiles à trancher : les dessins ou gravures scientifiques en relation avec un texte ou des notes rédigées par le savant ou le chercheur sont-ils des documents iconographiques ? Que faire de certaines valeurs de <genreform> qui peuvent recouvrir de l’iconographie comme des documents textuels, comme « publicité » ? Les cartes géographiques ou les plans, souvent manuscrits et toujours non édités dans Calames, en sont-ils ?   Pour effectuer cette analyse, le parti pris a été de considérer comme documents iconographiques toute unité documentaire ou ensemble d’unités documentaires qui s’est vu attribué un <genreform>« type de document », « technique » ou « genre, forme et fonction » dont la valeur en attribut NORMAL a été considérée comme propre à une certaine typologie de documents iconographiques, ou…

Continuer la lectureLes documents iconographiques décrits dans Calames (1) : contours d’une analyse globale

Calames : l’IA au service des chantiers qualité  #1

  • Auteur/autrice de la publication :
  • Post category:Calames

Chantiers qualité dans Calames : contexte et objectifs Dans la seconde moitié des années 2010, plusieurs chantiers qualité ont été menés en concertation avec le groupe de travail Calames. Ces opérations reposaient principalement sur des modifications de masse réalisées par l’Abes, avec une simple information communiquée au réseau. En 2020, dans le contexte particulier du confinement, un chantier qualité ciblant les autorités et leurs liens avec les notices IdRef s’est déroulé sur plusieurs mois. Pour la première fois, les établissements du réseau ont été sollicités pour améliorer ces liens, grâce à l’envoi par l’Abes d’un tableau de diagnostic détaillé. En 2023, lors de la journée réseau Calames intitulée « Le Voyage des données », ces chantiers qualité ont été évoqués à nouveau. Il a été annoncé qu’ils seraient relancés afin de préparer la migration des données Calames vers un nouvel outil destiné à remplacer l’actuel. Cette attention à la qualité des données est également essentielle pour anticiper d’éventuelles conversions vers de nouveaux modèles, comme EAD 4 (dont la publication est prévue en 2026) ou RiC (publié fin 2023). Identifier les chantiers pertinents  En 2024, l’équipe Calames a identifié les chantiers qualité pertinents en procédant au requêtage de la base de production. Deux types de cas ont été privilégiés :  Des cas repérés dans la base avec une certaine régularité lors d’interventions sur les données ou de traitements de tickets d’assistance Des éléments EAD estimés "stratégiques" du fait qu'ils alimentent des index de recherche dans l’interface publique de Calames : ID de composant, cotes, dates, indexation de personne physique, collectivité, famille, lieu géographique, sujet ou langue.  Une trentaine de chantiers qualité potentiels ont ainsi été identifiés et classés en ordre de priorité selon le degré d’importance de l’élément ou de l’attribut EAD concerné dans les index de recherche Calames et du nombre de formes erronées à corriger sur l’ensemble des données publiées dans Calames, les données présentes en base de production, mais non publiées, ayant été systématiquement écartées de l’analyse.  S’aider de l’intelligence artificielle pour modifier les données en masse  Pour réaliser des modifications de masse  sur les données, l’Abes utilise deux outils internes : l’un dédié au Sudoc et à IdRef, l’autre à Calames. Ces outils reposent sur des scripts développés en langage Java, s’appuyant sur l’API standard du DOM W3C. Cette bibliothèque permet de créer, manipuler et analyser des documents XML, en offrant une navigation fine au sein de la structure arborescente des nœuds XML. Grâce à cette technologie, il est possible, en théorie, d’accéder à tout élément ou attribut EAD contenu dans les composants d’un fichier, afin de les modifier de manière ciblée. L'IA à la rescousse de la qualité des données Calames La production de ces scripts peut toutefois s’avérer fastidieuse pour des non-informaticiens, notamment selon la complexité des éléments ou attributs EAD à modifier. Afin d’accélérer ce processus et de limiter la sollicitation récurrente des informaticiens, il a été décidé de recourir à un modèle d’intelligence artificielle. A cette fin, un agent LLM (Large Language Model) a été entraîné pour permettre…

Continuer la lectureCalames : l’IA au service des chantiers qualité  #1

Signalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Pas à pas vers l’EAD (2/2)

Du point de vue des processus de traitement de métadonnées de l’Abes, le cas des Archives du Parlement britannique constitue un cas inédit. La bonne manière de l’aborder n’allait pas de soi : pourrait-on réutiliser les méthodes et outils habituels ? Devrait-on imaginer une autre manière de faire ? Paradoxalement, comment traiter ce cas d’espèce tout en tirant des enseignements génériques pour dompter d’autres « ovnis documentaires » ?

Quelle méthode ? Passer par RDF ou rester en XML ?

L’Abes a une longue expérience d’intégration des métadonnées fournies par des éditeurs ou diffuseurs, en MARC ou en XML. Pour traiter les métadonnées obtenues dans le cadre des programmes d’acquisition ISTEX, CollEx-Persée et du Plan de soutien à l’édition scientifique française, l’Abes a conçu et développé un workflow, dont la pièce maîtresse est une base RDF. Habituellement, les métadonnées sont récupérées en XML, converties en RDF, chargées dans une base RDF, enrichies puis redistribuées vers le Sudoc, Bacon ou scienceplus.abes.fr.

Dans le cas de l’achat de ces archives numérisées, il a été décidé de ne pas suivre la voie RDF, mais plutôt d’emprunter un nouveau chemin, où les manipulations sont entièrement en XML, pour les raisons suivantes :

  • le traitement n’a qu’une sortie : il s’agit d’un format XML, en l’occurrence EAD. Le RDF serait un modèle/format pivot adéquat s’il fallait générer différentes sorties.
  • le format EAD de sortie possède une structure foncièrement hiérarchique, qui se prête mieux à une représentation en XML qu’en RDF (dont la vocation est d’exprimer des graphes).
  • le format EAD peut contenir du « contenu mixte », ie un élément XML ayant pour enfants à la fois un autre élément XML et directement du texte : <a>blabla <b>hum</b> blabla</a>. Essayer de modéliser du contenu mixte en RDF serait peu, voire absolument pas, efficient. Notons cependant que, dans ce projet,  l’EAD produit ne contient finalement pas de contenu mixte.

(suite…)

Continuer la lectureSignalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Pas à pas vers l’EAD (2/2)

Signalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Conception et sources pour la description du corpus (1/2)

Dans le cadre du programme d’acquisitions de ressources numériques sous licence nationale porté par le GIS CollEx-Persée, l’Abes a acquis le corpus des archives du Parlement britannique au XIXe siècle numérisées par ProQuest et choisi d’en assurer le signalement dans Calames

Des choix nécessaires pour une première

Le signalement dans Calames d’un corpus d’archives numérisées a posé des questions inédites, aussi bien d’un point de vue intellectuel que technique.

Il était en effet nécessaire de réfléchir au signalement en EAD d’archives numérisées, pour ce corpus mais également pour les suivants qui ne manqueront pas de se profiler, qu’il s’agisse de corpus acquis dans le même cadre ou de besoins spécifiques de la part d’établissements du réseau Calames, notamment dans le cadre de la collecte d’archives de projets de recherche, désormais objets de signalement.

Il a été décidé de décrire les archives dans leur version numérique, le fonds physique originel n’étant décrit qu’à un niveau élevé et général. Les données descriptives des archives originales se trouvent ainsi dans le fichier maître, plus haut niveau d’une arborescence EAD dans Calames, à titre d’informations générales pour contextualiser le corpus. Pour leur part, les niveaux inférieurs décrivent les archives numérisées.

(suite…)

Continuer la lectureSignalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Conception et sources pour la description du corpus (1/2)

Bilan des chantiers « qualité » menés dans les établissements pendant le confinement (printemps 2020)

De mars à juin 2020, la situation sanitaire liée à la pandémie de coronavirus a contraint les bibliothèques à fermer leurs portes, à généraliser le télétravail et à ré-organiser leurs services.
Cette période de confinement a placé des catalogueurs dans une situation paradoxale, avec des outils à disposition (WinIBW, Calames Prod, IdRef, Paprika…), une gamme de webservices mais peu ou pas de nouveautés à cataloguer.
L’Abes a donc proposé aux membres des réseaux Autorités, Calames et Sudoc des chantiers d’enrichissement et de correction de données existantes, en fournissant, en plus de l’accès aux outils, des conseils méthodologiques pour encadrer, coordonner et réaliser ces chantiers réalisés sur la base du volontariat.

Plus que de lutter contre le désœuvrement, il s’agissait sans doute, pour ces établissements,  volontaires et convaincus de l’intérêt de proposer un catalogue aux données de qualité, de consacrer enfin du temps à un travail d’enrichissement nécessaire, prévu de longue date mais sans cesse repoussé par manque de disponibilité.

Certains établissements se sont fait connaître sur ces chantiers : demandes de précisions, présentation de leur organisation ou de leur méthodologie, communication d’un bilan. D’autres ont œuvré dans l’ombre*.
Nous ne citons ici que quelques-uns d’entre eux, pour illustrer le travail qui s’est fait, mais l’Abes remercie et félicite tous ceux qui ont œuvré à améliorer la qualité et la structuration des données.

Voici les initiatives connues de l’Abes réalisées pendant le confinement.

(suite…)

Continuer la lectureBilan des chantiers « qualité » menés dans les établissements pendant le confinement (printemps 2020)
Aller au contenu principal