Améliorer les dates normalisées dans Calames (2) : retours sur un chantier Qualité

  • Auteur/autrice de la publication :
  • Post category:Calames
  • Commentaires de la publication :0 commentaire

Ce second billet présente la méthodologie et le diagnostic des cas analysés dans le cadre  du chantier Qualité consacré aux dates normalisées dans Calames.

L’un des trois chantiers Qualité dans Calames lancés au printemps 2025 portait sur les dates normalisées, présentes en EAD dans l’attribut NORMAL de <unitdate>.

Pour rappel, la norme ISAD(G) recommande que les dates de cet attribut respectent la norme ISO 8601, une exigence également reprise par les Bonnes pratiques EAD en bibliothèque.
La multiplicité des cas possibles — <unitdate> étant un élément répétable en EAD — a conduit l’Abes à concevoir une organisation ingénieuse pour améliorer la qualité de cette donnée, essentielle dans tout outil de production et de signalement, et tout particulièrement dans Calames.

Une approche mesurée pour rester réaliste 

À l’automne 2024, l’Abes a réalisé un examen des données en EAD de la base Calames considérées comme stratégiques afin d’identifier les principaux types d’erreurs, d’en mesurer la fréquence et de prioriser les potentiels Chantiers Qualité.

Ces données stratégiques sont notamment celles qui alimentent les index de recherche de l’interface publique de Calames : cote, indexation (personne, collectivité, sujet, lieu géographique, genre et forme, famille), date, langue, identifiants (ID, LEVEL dans <c> ou dans <eadheader>), ainsi que les liens vers des sites ou des documents numérisés.

L’analyse a montré que les dates concentraient un nombre d’erreurs conséquent, à la fois élevé comparativement aux autres données, mais globalement compréhensible au regard des 17 années d’activité des établissements dans Calames et de la fréquence de cette donnée dans les instruments de recherche et les composants produits (environ 26 000 dates non indexées sur 1,1 million publiées).

Face à la diversité des erreurs, l’Abes a opté pour une approche pragmatique sur les plus de 1,1 million de <unitdate> publiés fin 2024 :

  • Se concentrer sur l’attribut NORMAL de <unitdate>, seule partie alimentant l’index de recherche par date (le contenu textuel n’étant pris en compte que pour la recherche plein texte).

  • Ne pas viser la conformité parfaite à l’ISO 8601, mais corriger les erreurs empêchant l’indexation. En clair, l’ISO 8601 a évolué au cours du temps et ne permet plus aujourd’hui les dates sans tiret. Ainsi, par exemple, la forme 20250922 est désormais invalide au profit de 2025-09-22. Cependant, cette différence n’a pas d’impact fonctionnel sur l’indexation dans Calames, ni sur l’interopérabilité des données, de nombreux systèmes étant restés à l’état antérieur de l’ISO, et acceptant donc les dates sans tirets.

  • Limiter le périmètre aux données publiées, les fichiers non publiés relevant soit de travaux en cours dans les établissements, soit d’archives non destinées à la publication.

Ces choix pourront être réévalués lors de futures évolutions, notamment avec la migration vers un nouvel outil ou un nouveau modèle de données (EAD 4, RiC). 

S’appuyer sur les outils existants 

Avant même de connaître les chantiers qualité à prioriser, l’équipe Calames de l’Abes a développé à l’automne 2024 deux nouveaux exports de contrôle qualité générant des fichiers texte tabulés à partir des données EAD :

Ces exports permettent d’extraire, sur une même ligne, une valeur de contenu textuel et / ou d’attribut(s) d’un élément, associée à l’identifiant (ID) du composant concerné. Grâce à ces fichiers .txt tabulés, les établissements du réseau Calames peuvent ainsi analyser leurs propres données dans un tableur, en toute autonomie.

Restait à distinguer les dates non conformes de celles déjà correctes. Pour cela, l’expertise de l’Abes dans les « expressions régulières » a permis de concevoir une expression repérant les principaux types d’erreurs. Publiée dans la documentation Calames et accompagnée d’une courte vidéo explicative, cette expression peut être utilisée directement dans Notepad pour identifier les dates à corriger.

Cette démarche d’autonomisation des établissements répond à un double objectif :

  • permettre à l’Abes de conduire en parallèle d’autres chantiers qualité  dans Calames

  • permettre aux établissements d’effectuer la validation scientifique des dates, eux seuls disposant de l’expertise sur les fonds pour juger de la justesse, de l’inexactitude ou de l’incertitude d’une datation sur un document et pour prendre la responsabilité du contenu intellectuel du signalement.

Consulter : https://punktokomo.abes.fr/2025/10/09/les-documents-iconographiques-decrits-dans-calames-1-contours-dune-analyse-globale

Laisser un commentaire

Aller au contenu principal