Signalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Pas à pas vers l’EAD (2/2)

Du point de vue des processus de traitement de métadonnées de l’Abes, le cas des Archives du Parlement britannique constitue un cas inédit. La bonne manière de l’aborder n’allait pas de soi : pourrait-on réutiliser les méthodes et outils habituels ? Devrait-on imaginer une autre manière de faire ? Paradoxalement, comment traiter ce cas d’espèce tout en tirant des enseignements génériques pour dompter d’autres « ovnis documentaires » ?

Quelle méthode ? Passer par RDF ou rester en XML ?

L’Abes a une longue expérience d’intégration des métadonnées fournies par des éditeurs ou diffuseurs, en MARC ou en XML. Pour traiter les métadonnées obtenues dans le cadre des programmes d’acquisition ISTEX, CollEx-Persée et du Plan de soutien à l’édition scientifique française, l’Abes a conçu et développé un workflow, dont la pièce maîtresse est une base RDF. Habituellement, les métadonnées sont récupérées en XML, converties en RDF, chargées dans une base RDF, enrichies puis redistribuées vers le Sudoc, Bacon ou scienceplus.abes.fr.

Dans le cas de l’achat de ces archives numérisées, il a été décidé de ne pas suivre la voie RDF, mais plutôt d’emprunter un nouveau chemin, où les manipulations sont entièrement en XML, pour les raisons suivantes :

  • le traitement n’a qu’une sortie : il s’agit d’un format XML, en l’occurrence EAD. Le RDF serait un modèle/format pivot adéquat s’il fallait générer différentes sorties.
  • le format EAD de sortie possède une structure foncièrement hiérarchique, qui se prête mieux à une représentation en XML qu’en RDF (dont la vocation est d’exprimer des graphes).
  • le format EAD peut contenir du « contenu mixte », ie un élément XML ayant pour enfants à la fois un autre élément XML et directement du texte : <a>blabla <b>hum</b> blabla</a>. Essayer de modéliser du contenu mixte en RDF serait peu, voire absolument pas, efficient. Notons cependant que, dans ce projet,  l’EAD produit ne contient finalement pas de contenu mixte.

XML à tous les étages

Il a donc été décidé de travailler dans un environnement purement XML : des données XML, un système de gestion de base de données nativement XML (BaseX), un langage de requête XML (XQuery). Ces requêtes XQuery ne sont pas seulement des requêtes qui extraient de l’information. Elles servent surtout à modifier les données, à supprimer (DELETE) et créer (INSERT) des éléments ou attributs XML. On parle de XQuery Update.

Comme indiqué plus haut, parmi nos sources de données, trois ne sont pas en XML. Pour importer les deux fichiers Excel dans BaseX, il a fallu passer une commande qui utilise son module CSV. Mais, on s’en doute, BaseX ne propose pas de module MARC. Dans ce cas, il a fallu passer par une étape préalable qui convertisse le MARC en MARCXML avant de l’importer de manière standard.

A ce stade, on se retrouve avec quatre bases XML différentes dans BaseX. L’essentiel du processus consiste à fusionner ces bases avant de générer le résultat de cette fusion en EAD. L’ensemble du processus prend la forme d’une suite d’environ trente opérations successives, chaque opération étant l’exécution d’une requête XQuery.

En toute rigueur, il s’agit moins de fusionner ces quatre sources que d’injecter des éléments extraits des trois autres sources dans la source principale, à savoir les notices MARCXML. Après cette injection, on ne s’intéresse plus qu’à nos notices MARCXML enrichies d’éléments étrangers . C’est aussi le moment de raffiner les données MARCXML elles-mêmes pour préparer la suite des opérations. Il peut s’agir par exemple de :

  • normaliser un identifiant :
declare namespace marc="http://www.loc.gov/MARC21/slim";

for $record in db:open('marcxml_full')//marc:record

let $id := $record/marc:controlfield[@tag='001']/replace(replace(text(),'hcpp',"),'-',")

return insert node <abes_id<{$id}>/abes_id>into$record
  • nettoyer une date :
    declare namespace marc="http://www.loc.gov/MARC21/slim";
    
    for $z490 in //marc:datafield[@tag="490"]
    
    let $date := replace(replace($z490/marc:subfield[@code="a"]/text(), '\[', ''), '\] ;', '')
    
    return insert node <abes_date<{$date}>/abes_date>into $z490

    Là encore, sans aucun scrupule, on « décore » le MARCXML d’éléments intrus, comme ce <abes_id> ou ce <abes_date>.

    D’une série de notices MARCXML trafiquées à un arbre EAD valide

    L’étape suivante consiste à générer un composant EAD <c> pour chaque notice MARCXML. On n’obtient pas encore un fichier EAD hiérarchique (des <c> dans des <c> dans des <c>.), mais une série d’environ 76 000 <c>, à plat. Il s’agit alors de regrouper les <c> selon l’architecture hiérarchique qui a été définie.

    Pour le plaisir des yeux, voici une requête XQuery qui regroupe tous les documents de la série « Bills and Acts » sous un chapeau commun (qu’on appelle provisoirement <level>) :

    for $c in (/marc/marc:record[record/Paper_Series='Bills and Acts']/c)
    
    let $dateraw := $c/did/unitdate/@normal
    
    order by $dateraw
    
    return
    
    insert node $c into /level[@type="root"]/level[@type="Archives du circuit legislatif"]/level[@type="Bills and Acts"]/vrac
    

    On obtient toujours une série de <c> à plat, triés par date. Il s’agit alors de les regrouper par période :

    for $level in //level
    
    for $c in ($level/vrac/c)
    
    let $dateraw := $c/did/unitdate/@normal
    
    let $date := substring($dateraw, 1, 4)
    
    return
    
    if ( number($date) >= 1801 and number($date)<= 1819 )
    
    then  ( insert node $c into $level/c[did/unittitle = "1801-1819"] )
    
    else if ( number($date) >= 1820 and number($date) <= 1839 )
    
    then  ( insert node $c into $level/c[did/unittitle = "1820-1839"] )
    
    else if ( number($date) >= 1840 and number($date) <= 1859 )
    
    then  ( insert node $c into $level/c[did/unittitle = "1840-1859"] )
    
    else if ( number($date) >= 1860 and number($date) <=1879 )
    
    then  ( insert node $c into $level/c[did/unittitle = "1860-1879"] )
    
    else if ( number($date) >= 1880 and number($date) <= 1900 )
    
    then  ( insert node $c into $level/c[did/unittitle = "1880-1900"] )
    
    else insert node attribute error {'yes'} into $c
    
    

    … puis de les regrouper par session :

    for $period in /level/level/level[@type="Bills and Acts"]/c
    
    let $sessions := distinct-values($period/c/did/unitdate/@normal)
    
    for $session in $sessions
    
    let $c := $period/c[did/unitdate/@normal=$session]
    
    return
    
    insert node
    
    <c level="recordgrp"><did><unitid>{concat('Session ',$session)}</unitid></did>{$c}</c>
    
    into $period
    

     

    Les bons outils font les bons ouvriers

    On pourra s’étonner du fait que ce processus nécessite une succession de dizaines d’opérations manuelles, et non l’exécution d’un programme qui enchaînerait lui-même des opérations. Qu’est-ce qui justifie cet artisanat ? L’explication tient au fait qu’il s’agit d’un chantier unique, ad hoc. Du « sur mesure ». Il n’y a donc guère de sens à automatiser une tâche qui ne sera exécutée entièrement qu’une fois. De plus, le fait de découper le chantier en petites tâches successives procure l’agilité nécessaire. Devant un chantier inédit, rempli d’inconnues, les tâtonnements sont inévitables.

    Par ailleurs, ce découpage facilitera le transfert de compétences : si l’ensemble du processus ne sera jamais rejoué pour un autre corpus, les requêtes individuelles utilisées resserviront sans aucun doute. L’équipe Calames pourra puiser dans cette bibliothèque de requêtes pour de prochains chantiers, et l’enrichir.

    Ce grand chantier a également permis d’approfondir la maîtrise du logiciel BaseX, qui promet de rendre de grands services à l’équipe Calames – ainsi qu’à d’autres, à l’Abes et sans doute ailleurs. Il n’est pas exagéré de dire qu’il s’agit d’un logiciel exceptionnel, par sa robustesse, sa très grande usabilité, son respect des standards et la richesse de ses commandes propriétaires qui étendent ces standards pour faciliter la vie de l’utilisateur et réaliser des opérations lourdes sur des données volumineuses. Sa documentation est par ailleurs excellente et sa communauté vivante et réactive. Avec un tel outil, installé sur son poste ou sur un serveur, l’expert données bénéficie d’une très grande autonomie, dans un cadre rassurant (par exemple, il est facile de faire une sauvegarde de la base puis de la restaurer), ce qui l’encourage à engager des chantiers ambitieux.

    Il faut reconnaître que le traitement de ce type de corpus atypiques mobilise beaucoup de jours/hommes, autant voire plus que certains corpus plus classiques et moins spécialisés, comme la plupart des corpus acquis dans le cadre du GIS CollEx-Persée. Ce constat est assez caractéristique de certains achats de niche qui font la spécificité du GIS. Mais, outre l’intérêt scientifique de tels corpus et l’importance qu’ils revêtent pour certaines communautés de chercheurs, les méthodes et outils employés à cette occasion sont des acquis qui aideront les équipes de l’Abes à améliorer les données et enrichir les services du réseau Calames.

    Yann Nicolas, responsable du Labo de l’Abes

Continuer la lectureSignalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Pas à pas vers l’EAD (2/2)

Signalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Conception et sources pour la description du corpus (1/2)

Dans le cadre du programme d’acquisitions de ressources numériques sous licence nationale porté par le GIS CollEx-Persée, l’Abes a acquis le corpus des archives du Parlement britannique au XIXe siècle numérisées par ProQuest et choisi d’en assurer le signalement dans Calames

Des choix nécessaires pour une première

Le signalement dans Calames d’un corpus d’archives numérisées a posé des questions inédites, aussi bien d’un point de vue intellectuel que technique.

Il était en effet nécessaire de réfléchir au signalement en EAD d’archives numérisées, pour ce corpus mais également pour les suivants qui ne manqueront pas de se profiler, qu’il s’agisse de corpus acquis dans le même cadre ou de besoins spécifiques de la part d’établissements du réseau Calames, notamment dans le cadre de la collecte d’archives de projets de recherche, désormais objets de signalement.

Il a été décidé de décrire les archives dans leur version numérique, le fonds physique originel n’étant décrit qu’à un niveau élevé et général. Les données descriptives des archives originales se trouvent ainsi dans le fichier maître, plus haut niveau d’une arborescence EAD dans Calames, à titre d’informations générales pour contextualiser le corpus. Pour leur part, les niveaux inférieurs décrivent les archives numérisées.

La construction de l’arborescence a, quant à elle, été pensée selon les règles incontournables de l’archivistique, par série et sous-série d’archives, puis chronologiquement à l’intérieur de chaque sous-série :

Au niveau des composants, deux principes ont été mis en œuvre. D’une part, par commodité, et afin d’appliquer un classement aussi logique et simple que possible au sein de l’arborescence,  un composant EAD correspond à chacun des documents. Ainsi, pas de découpage d’un document en plusieurs composants, ni de regroupement de plusieurs documents dans un même composant.

D’autre part, afin d’appliquer au classement des documents un ordre chronologique à la fois strict et clair, les composants décrivant les documents sont regroupés par « session parlementaire » sous des composants de premier niveau, correspondant chacun à une session parlementaire.

On peut voir ci-dessous le résultat obtenu par l’application de ces deux principes :

Des métadonnées fournies dans trois formats

Parallèlement à la définition des besoins pour la description en EAD, l’équipe a mené une analyse des données descriptives du corpus livrées par ProQuest, éditeur de la base d’archives numérisées. Cette livraison a été effectuée en trois formats :

  • de l’XML
  • du MARC
  • un tableau Excel, servant de preuve juridique de l’exactitude de la livraison et contenant également certaines informations précieuses, non présentes dans les autres formats ou plus facilement réutilisables que dans les autres formats.

Relativement plus pauvre que le MARC, l’XML a été essentiellement utilisé pour prélever les données d’indexation originelles du corpus : une première indexation, qu’il était logique de conserver pour la convertir en EAD, avait en effet été réalisée dans les années 1980 par des chercheurs britanniques. Le format MARC a fourni l’essentiel des données utilisées pour la conversion en EAD, complété par le tableau Excel. Dans ces données tabulées se trouvaient notamment le nombre de pages de chaque document qui ne figurait pas dans les données en MARC.

Dernière source utilisée – non livrée par ProQuest mais produite par l’Abes – pour extraire les données à convertir en EAD,  un tableau Excel contenant les 5 500 formes d’indexation anglaise les plus courantes du corpus, traduites en RAMEAU. Pour le résultat final, puisque l’usage de termes RAMEAU est fortement recommandé pour tout signalement dans Calames, il est en effet apparu naturel de conserver l’indexation originelle anglaise tout en proposant également une version traduite.

Étienne Naddeo, responsable Calames

Voir aussi  :

https://fil.abes.fr/2022/10/24/les-archives-du-parlement-britannique-dans-calames-une-premiere-et-des-perspectives

https://publications-prairial.fr/arabesques/index.php?id=2790

 

 

 

 

 

Continuer la lectureSignalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Conception et sources pour la description du corpus (1/2)

QualiMarc : un outil en ligne pour évaluer la qualité des notices bibliographiques du Sudoc

  • Auteur/autrice de la publication :
  • Post category:QualiMarc

La production de notices bibliographiques de qualité est une préoccupation constante de tous les contributeurs du catalogue collectif Sudoc ainsi que de l’Abes (Agence Bibliographique de l’Enseignement Supérieur), qui en administre les données.

Qu’entend-on par « qualité » ? Pourquoi la rechercher ?
Comme il s’agit d’une valeur subjective, il est difficile de définir la « bonne qualité » d’une notice bibliographique. Disons qu’il s’agit de l’addition de critères de cohérence (dans l’utilisation des zones du format Unimarc), de pertinence (dans le choix des éléments retenus pour déc rire une ressource) et d’exactitude (dans leur transcription).
Si cette qualité est souhaitée, c’est pour :
– satisfaire les besoins de recherche des utilisateurs des catalogues ;
– valoriser les ressources acquises par les bibliothèques ;
– améliorer le travail des catalogueurs  : suppression des doublons, désambiguïsation des données, meilleure identification des ressources ;
– mettre les notices en conformité avec le nouveau code de catalogage RDA-FR et préparer la Transition bibliographique ;
– faciliter l’exposition et la réutilisation des données dans d’autres environnements.

L’Agence, comme tête de réseau, s’efforce de placer chaque catalogueur en capacité de produire de telles notices, en édictant des consignes et en délivrant assistance et formations.
Chaque établissement, grâce à l’investissement de ses Correspondants Catalogage et Autorités, ainsi que de son Coordinateur Sudoc, accompagne et prolonge cet effort par de riches et multiples initiatives (“café catalogage”, formations spécifiques, chantiers-qualité, etc.).
Chaque catalogueur, avec sérieux et rigueur, essaie de respecter cet objectif de qualité qui fait la renommée du catalogue collectif des bibliothèques françaises de l’enseignement supérieur et de la recherche.

Pourtant, avec un code de catalogage en pleine transition et un format qui évolue, il devient impossible de connaître toutes les règles, même pour le plus passionné des catalogueurs. Et le manque de moyens alloué à l’activité de catalogage dans beaucoup d’établissements ne permet pas toujours de maintenir l’échelon d’expertise requis et le niveau de qualité souhaité. 

Pour continuer à se sentir reconnus, utiles, et donner du sens à leur travail, les catalogueurs rêvent alors d’un outil qui vérifierait, en un clic, la notice bibliographique créée et leur expliquerait ce qui peut être amélioré et pourquoi. Chacun continuerait ainsi à travailler à la qualité globale du catalogue, pour le bien commun et gagnerait en compétences professionnelles, pour son intérêt personnel.

Image Bienveillance

Un nouvel outil comme un tuteur bienveillant, un ami (catalogueur) qui nous veut du bien.

 

 

Trois initiatives, pour dessiner les contours

En 2014, à la suite de l’apparition de l’outil “Eppnator”, un membre du réseau crée l’outil “CheckSudoc” (voir ce billet), outils en ligne et en libre-accès qui, en échange d’un PPN, détectent les améliorations à apporter à une notice.
En 2018, au sein de la structure documentaire devenue aujourd’hui la Direction Générale Déléguée aux Bibliothèques et Musées de l’Université Paris Cité, naît l’outil en ligne VerifSudoc, qui permet de vérifier, selon des règles définies, la qualité des notices bibliographiques reçues via les transferts réguliers ou soumises individuellement via leurs numéros PPN.
En 2021, c’est Kalidos (voir ces billets), développé par le SCD de l’université Claude Bernard en partenariat avec des étudiants dans le cadre d’un Master 2 en informatique, qui ajoute aux fonctionnalités de contrôle bibliographique celles d’un générateur de règles, pour répondre aux besoins de vérifications précises.  

Ecrans des 3 outils de diagnostic
Un écran de diagnostic, dans VérifSudoc (en haut à gauche), dans CheckSudoc (en haut à droite) et dans Kalidos (au centre)

 

Au fur et à mesure, en fonction des besoins et des compétences de leurs créateurs, s’est dessiné ainsi l’outil idéal  : 

Un outil qui diagnostique la qualité des notices bibliographiques, à la volée ou par lot, explique les enrichissements à apporter, permet de consulter les règles élaborées pour ce diagnostic et d’en créer de nouvelles, propres à ses besoins ou à un chantier de vérification précis.

L’Abes a suivi ces initiatives avec intérêt, jusqu’à proposer son aide pour créer et maintenir un outil unique, national, facile à prendre en main et héritier de ces belles réalisations, en l’enrichissant de nouvelles fonctionnalités : dans une première version, l’utilisateur aura le choix entre plusieurs types de diagnostic (rapide, expert ou ciblé) ; dans une version ultérieure, il pourra créer son espace personnalisé pour y créer, stocker ses propres règles de diagnostic, gérer ses statistiques.

Cet outil, ce sera QualiMarc  ! Un petit nom facile à mémoriser, juste et qui tient sa promesse : garantir la production de notices de qualité en format Marc.

Portrait de allimaque de Cyrène
Callimaque de Cyrène, bibliothécaire d’Alexandrie à partir de 260 avant J.-C. et auteur du premier catalogue raisonné de la littérature grecque.

 

La naissance du projet

Au début de l’année 2021, les services “Monographies et Archives” et “Accompagnement des Réseaux” de l’Abes contactent les auteurs des 3 outils existants pour recueillir leurs avis  : “développer un quatrième outil, réunissant le meilleur des trois, serait-il pertinent ?”.
Les réponses convergent rapidement vers un consensus positif, puisque cet outil, doté d’un caractère national et officiel, serait facilement accepté par la communauté des catalogueurs et que l’Abes offrirait une garantie de moyens (tant humains qu’informatiques) dédiés à sa maintenance et son évolution.

Le printemps venu, une équipe projet se constitue, composée donc des responsables fonctionnels de CheckSudoc, VerifSudoc et Kalidos, auxquels s’ajoutent deux Coordinatrices Sudoc d’établissements réputés pour leur investissement dans des chantiers qualité. Pour la première fois, des établissements membres du Sudoc font pleinement partie de l’équipe projet (jusqu’à présent, l’Abes sollicitait des volontaires pour des tests fonctionnels sur une version beta). La notion de co-construction, prônée dans le projet d’établissement 2018-2021, uniquement illustrée jusqu’alors par des brainstorming communs et des partages de webservices, prend une nouvelle forme. Huit agents de l’Abes (3 pour la partie fonctionnelle, 5 pour la partie informatique) complètent l’équipe.
La première réunion a lieu aux premiers jours de l’été 2021 : il est naturellement décidé de travailler prioritairement sur les règles de diagnostic.
L’automne, l’hiver et un nouveau printemps seront nécessaires pour compiler, dédoublonner, catégoriser, corriger, créer puis modéliser les presque 500 règles (tous types de document confondus) que QualiMarc saura appliquer.
À l’issue de ce colossal travail, pour lequel l’expérience, l’expertise, la rigueur et l’investissement de l’équipe fonctionnelle furent d’inestimables atouts, les développements informatiques ont pu commencer, un an après, au début de l’été 2022. 

Parallèlement, l’équipe UX Design de l’Abes accompagne l’équipe fonctionnelle pour élaborer les interfaces.
Une fois les tests-utilisateurs réalisés, la documentation rédigée et le dispositif d’accompagnement (formation, assistance) prêt, QualiMarc devrait être proposé au réseau des catalogueurs avant la fin de l’année universitaire 2022-2023.

Un avant-goût de QualiMarc

logo QualiMarcAvec QualiMarc, un catalogueur pourra :

  • soumettre au diagnostic qualité un ou plusieurs PPN de notices bibliographiques créées avec WinIBW , soit par saisie des PPN au clavier soit par import d’un fichier txt, csv, xls ou ods (les numéros invalides seront détectés)
  • choisir le type de diagnostic souhaité : 
    • “rapide”, pour vérifier si les règles de base ont été respectées ; 
    • “expert”, pour peaufiner et étendre l’analyse à toutes les zones Unimarc de la notice ; 
    • “ciblé”, pour choisir des vérifications répondant à un besoin précis (par exemple par types de documents) ou par axe de travail (par exemple, les données codées ou les nouveautés Unimarc de telle année). 
  • visualiser immédiatement ou exporter un rapport d’analyse : les PPN avec ou sans erreur
  • détailler la liste des erreurs, prendre connaissance de ce qui ne va pas, suivre la consigne donnée pour enrichir la notice
    Si l’utilisateur soumet au diagnostic une notice d’ebook, QualiMarc pourra indiquer, par exemple : « Avez-vous pensé à saisir le DOI en zone 017 ?”. Et s’il soumet une notice incomplète de thèse – reproduction : « Vous avez oublié de faire le lien vers la notice de thèse – version de soutenance ». 
  • récupérer la requête à copier/coller dans WinIBW pour obtenir la notice afin de la corriger
  • relancer le diagnostic après corrections, pour constater la progression du chantier
  • consulter le tableau des règles appliquées pour en prendre connaissance ou interpréter le diagnostic : en rechercher une en particulier, les filtrer, les trier
  • consulter, pour éventuellement rejouer, les analyses déjà effectuées lors d’une même session
  • créer ses propres règles, en langage naturel, selon ses propres besoins de vérification (par exemple “les notices de tel RCR uniquement”) pour lancer un diagnostic personnalisé  – ceci est prévu dans une version ultérieure de l’outil.

Objectif  qualité

Ces dernières années, de nombreuses voix se sont élevées dans le réseau pour défendre la qualité des données et du catalogue : lors des Jabes 2019, un forum “Au fait, la qualité, c’est quoi ?” avait remporté un franc succès ; les outils “CheckSudoc” puis “VerifSudoc” ont été adoptés par les catalogueurs ; des organisations spécifiques (pôle / cellule / équipe “Qualité”) ont été mises en place dans certains établissements ; l’Abes a été interpellée pour rappeler leurs engagements à certaines bibliothèques ne jouant pas le jeu collectif de la qualité. Enfin, pendant les confinements successifs de 2020 et 2021, de très nombreuses initiatives (bilan à lire ici) ont démontré l’intérêt croissant du réseau pour améliorer sans cesse le catalogue collectif. 

Image symbolisant la transmission

 

Avec QualiMarc, le réseau Sudoc se dote d’un outil supplémentaire pour atteindre cet objectif : que chacun, quel que soit son niveau de catalogage, puisse produire des données de qualité pour l’ESR français, en étant guidé sans être surveillé et en apprenant de ses erreurs.

 

L’équipe projet QualiMarc

  • Les chefs de projet : Aurélie Faivre, Pierre Maraval (Abes)
  • Les experts métier : Stéphanie Arneau (DGDBM Université Paris Cité), Joséphine Masson (SCD de l’Université de Caen Normandie), Laurent Piquemal (Abes), Pascale Puget (DGD BAPSO, Université de Grenoble-Alpes), Nuria Pastor Martinez (SCD Université Claude Bernard Lyon 1), Yves Tomic (SCD Université Paris Dauphine)
  • Les développeurs : Eryne Kachetel-Langue, Samuel Quetin, Jérôme Villiseck (Abes)
  • Le responsable UX Design : Christophe Arnaud (Abes)
  • Le responsable Infrastructure : Nathanaël Blanchet (Abes)

 

Logos des établissements membres du projet

 

 

 

Continuer la lectureQualiMarc : un outil en ligne pour évaluer la qualité des notices bibliographiques du Sudoc

Les API de l’Abes disponibles au format OpenAPI sur api.gouv.fr

Depuis sa création, l’Abes développe une gamme d’applications destinées à la production, au traitement et à l’administration des données par les réseaux documentaires de l’ESR. Dès 2010, dans le cadre d’une politique volontariste en faveur de l’ouverture et de l’interopérabilité des données, une nouvelle catégorie de services s’est déployée pour une plus large réutilisation des données par les systèmes d’information :  une gamme de web services a ainsi  été mise progressivement à la libre disposition des professionnels de la documentation et des développeurs afin de faciliter l’extraction et la réutilisation des données en provenance des différentes bases gérées par l’Abes : Sudoc, Calames, IdRef, BACON, Theses.fr, STAR, STEP…

Jusqu’à présent, les web services de l’Abes étaient accompagnés de documentation sous forme de pages HTML, comme par exemple : http://documentation.abes.fr/sudoc/manuels/administration/aidewebservices/index.html.

Cependant, avec une quarantaine de web services disponibles aujourd’hui,  il devenait important d’harmoniser leur présentation, d’optimiser leur exposition et d’affiner leur documentation. Pour ce faire, en conformité avec sa politique de développement,  l’Abes a décidé de décrire ses API avec le standard OpenAPI : https://github.com/abes-esr/abes-politique-developpement/blob/main/08-Documentation.md

A noter : Le vocabulaire et les socles informatiques ayant considérablement évolué depuis 2010, on regroupe désormais ces ensembles de web services sous l’appellation générique d’API – Interface de Programmation Applicative, solution informatique permettant à des applications de communiquer entre elles et de s’échanger mutuellement des données.

Les API de l’Abes en OpenAPI

En 2010, la startup Swagger initiait un projet, devenu populaire au fil des années, qui permettait aux développeurs de définir et documenter des API en y incluant le code source. En 2016, des géants du secteur (Google, Microsoft, etc.) rejoignent l’initiative pour la faire évoluer. La spécification Swagger, alors renommée Spécification  OpenAPI définit, pour les API les plus courantes (de type REST / HTTP), un standard utilisé par les humains comme par les machines.

Lors du développement d’une nouvelle application, il est assez simple de produire la documentation de son API en OpenAPI, à l’aide de librairies logicielles, telles que SpringDoc. En effet, il suffit d’inclure ce type de librairie dans les dépendances de la nouvelle application, et d’utiliser les annotations adéquates, pour que la documentation soit automatiquement générée. Ainsi, les nouveaux web services développés par l’Abes – et bientôt utilisés par l’outil de curation paprika.idref.fr, intègrent une documentation OpenAPI :

En revanche,  cette transformation s’avère plus compliquée pour les API plus anciennes : celles-ci n’utilisant pas forcément de framework  (de type Spring), il n’y a pas de moyen automatique et simple pour produire la documentation OpenAPI. L’effort de rédaction étant plus conséquent, il a été décidé de documenter en priorité les web services les plus utilisés.  Cette démarche s’appuie sur l’éditeur d’OpenAPI, Stoplight, outil gratuit pour la conception de documentation OpenAPI « à la main », via des formulaires qui aident et contrôlent la saisie. Ces documentations sont ensuite versionnées sur un espace Github dédié : https://github.com/abes-esr/openapi

Publication des OpenAPI de l’Abes sur api.gouv.fr

Pour publier les OpenAPI, le choix du site api.gouv.fr  s’est naturellement imposé, le site référençant les API du service public (collectivités, ministères, entreprises…) pour construire des services informatiques pour tous. De plus, les fonctionnalités disponibles facilitent largement l’usage et l’accès aux web services concernés.

Lors du chargement des OpenAPI sur api.gouv.fr,  un formulaire interactif est généré. Celui-ci liste les web services composant l’API et fournit, lorsque c’est pertinent, les liens vers la documentation HTML. Il est facile de saisir rapidement la structure et le fonctionnement de chacune des API, chaque paramètre possédant également sa description et une valeur exemple. Lorsque c’est nécessaire, une expression régulière donne le format attendu. A l’aide de ce formulaire, il est même possible de tester directement un appel au web service.

Retrouver les API mises à disposition sur api.gouv.fr :

 

Continuer la lectureLes API de l’Abes disponibles au format OpenAPI sur api.gouv.fr

Apache Kafka : une nouvelle brique logicielle pour le Système d’Information de l’Abes

Afin de faire face au volume croissant d’informations qu’engendre l’évolution constante des métiers et des technologies, l’Abes relève de nombreux défis. L’un d’entre eux consiste dans le besoin de gérer les flux de grandes quantités de données entre diverses applications, de manière fiable et en temps réel.

Pour y répondre, le Service Urbanisation et Pilotage Informatique (SUPI) a mis en place un démonstrateur basé sur la solution Apache Kafka, solution informatique également utilisée par des collègues de la communauté de la documentation et en particulier par Swissbib et par l’INA avec qui l’Abes a échangé à plusieurs reprises.

Kafka : définition

Bien connu dans le monde de l’informatique, Kafka fait partie de la famille des bus de messages. A noter que dans cette famille, nous retrouvons les outils suivants, chacun ayant quelques nuances : RabbitMQ, ApacheMQ, ZeroMQ, Redis.

Continuer la lectureApache Kafka : une nouvelle brique logicielle pour le Système d’Information de l’Abes

IdRef : chantier qualité autour des notices d’autorité Personnes physiques de statut 1

Logo Chantier Qualité IdRefL’Abes sollicite la participation des Correspondants Autorités pour enrichir des notices d’autorités beaucoup trop succintes,

Le problème et la finalité du chantier

Le chantier concerne des notices de personnes physiques Tp1, issues de chargements de notices élémentaires d’origine BnF faits il y a quelques années. Le plus souvent, elles sont réduites à un point d’accès, sans données codées, sans mention de source, liées à peu de notices bibliographiques (voire mal liées).

Notice exemple
Notice PPN 057140057 en format professionnel, sans données codées, ni 340, ni 810.

 

L’existence de ces notices d’autorité pauvres est un problème pour la qualité globale du catalogue :
– elles génèrent du bruit pour le catalogueur qui souvent, faute d’élément discriminant, ne les traite pas ;
– elles perturbent le fonctionnement des programmes automatisés, notamment d’alignement, que l’Abes a développé depuis quelques années.
L’Abes souhaite aboutir à la disparition de ces notices au profit de notices enrichies et fiabilisées, basculées en statut 5 pour acter ces améliorations.
La finalité du chantier est de faire disparaitre le statut 1 dans les notices d’autorité Personnes physiques.

Continuer la lectureIdRef : chantier qualité autour des notices d’autorité Personnes physiques de statut 1

« Épatant : ça nous bouge ! » : les ressources continues, en direct de la BnF et d’ISSN France

Épatant : ça nous bouge !

Tel est le titre de la première notice en provenance d’ISSN France importée directement dans le Sudoc (PPN 260627062 ; ISSN 2804-715X). En l’occurrence, il s’agit d’un site web, occasion de rappeler que les ressources continues ne se limitent pas aux publications en série et aux collections, mais incluent aussi les « ressources intégratrices », c’est-à-dire des ressources dont le contenu peut être augmenté ou modifié par des mises à jour.

Cette intégration directe constitue une évolution fondamentale, la première de cette importance depuis la mise en place du Catalogue collectif national des publications en série (CCN-PS), ancêtre du Sudoc en matière de signalement et de localisation des ressources continues dans les bibliothèques françaises.

copie de la notice dans winibwi
Copie de la notice dans WinIBW : on remarque le lien vers le site, mais aussi vers sa version archivée via Internet Archive. A noter : la notice ne sera disponible dans le Sudoc public qu’une fois « localisée ».

Continuer la lecture« Épatant : ça nous bouge ! » : les ressources continues, en direct de la BnF et d’ISSN France

L’association KohaLa et l’Abes : une coopération sous le signe de la qualité des données

KohaLa est une association professionnelle francophone qui a pour objet le développement, la documentation, la protection, la promotion, et la diffusion du logiciel libre de gestion de bibliothèque Koha. Elle regroupe des utilisateurs et des développeurs et organise plusieurs événements afin de favoriser les partages d’expérience et de participer à l’évolution de Koha.

Lors de l’assemblée générale 2020 de l’association, nos adhérents membres du réseau Sudoc ont émis le souhait de voir KohaLa collaborer avec l’Abes pour réfléchir aux évolutions possibles dans les échanges entre Koha et les outils de l’Abes. Nous avons donc contacté l’Abes pour faire part de notre souhait de travailler ensemble selon des modalités à définir.

Les webservices de l’Abes à la rescousse

Au printemps 2021, KohaLa s’est lancé dans l’organisation d’un hackaton dont l’une des thématiques était l’amélioration des échanges entre Koha et l’Abes. Des bibliothécaires (dont des correspondants Sudoc) et prestataires Koha ont participé ainsi que des collègues de l’Abes. Les discussions se sont orientées vers l’exploitation possible des webservices mis à disposition par l’Abes et sur la question de l’usage qui pourrait en être fait dans Koha. Un besoin partagé est apparu : avoir un contrôle qualité de son catalogue et par là même du catalogue Sudoc.

Continuer la lectureL’association KohaLa et l’Abes : une coopération sous le signe de la qualité des données

IdRef : chantier qualité autour des notices d’autorité Collectivités pour les besoins de Mir@bel

Logo Chantier Qualité IdRef

 

L’Abes et le réseau Mir@bel s’associent pour améliorer, avec l’aide des professionnels des réseaux Sudoc et Sudoc-PS, le signalement et les métadonnées descriptives des ressources continues publiées par l’édition scientifique française.

Le contexte du chantier

L’Abes est partenaire du réseau Mir@bel dans le projet MIRABEL2022 : « Favoriser la circulation ouverte des données d’identification et de référencement des revues et éditeurs scientifiques français et leur donner une visibilité internationale (DOAJ, Sherpa/Romeo) grâce à la coopération des acteurs impliqués dans l’écosystème de l’édition », financé par le Fonds national pour la science ouverte (FNSO) pour la publication et l’édition scientifiques ouvertes.

Pour l’Abes, l’objectif du projet est d’améliorer le taux de liage entre IdRef et les données éditeurs de Mir@bel, taux qui s’élève actuellement à environ 70% pour les éditeurs français, de façon à obtenir une couverture complète pour le corpus considéré.

Continuer la lectureIdRef : chantier qualité autour des notices d’autorité Collectivités pour les besoins de Mir@bel

Un bilan enthousiasmant du premier chantier CERCLES consacré aux autorités

Ce billet fait suite à un 1er billet, paru en 2018, consacré à ce chantier lors de son lancement.

La Bibliothèque Henri-Piéron, référence pour la psychologie universitaire

Bibliothèque Henri-Piéron
BU Henri-Piéron (Bibliothèques Université de Paris)

Aujourd’hui rattachée à la Direction Générale des Bibliothèques et Musées d’Université de Paris (qui résulte de la fusion des Universités Paris Descartes et Paris Diderot), la Bibliothèque Henri-Piéron a été fondée en 1889, en Sorbonne, au sein du premier laboratoire français de psychologie. Elle est ensuite devenue celle de l’Institut de psychologie de Paris lorsqu’il fut créé par Henri Piéron en 1921.

Ainsi la bibliothèque a mis ses collections au service de la psychologie scientifique depuis la naissance même de cette discipline universitaire. En 2017,  elle est nommée “délégataire” CollEx- Persée pour les domaines de la psychologie, de la psychanalyse, des sciences cognitives et des neurosciences, sur un programme qui comprend, entre autres, la création d’un plan national de conservation partagée des périodiques (“PCPsy”) et son prolongement numérique dans Persée, ainsi qu’une campagne d’enrichissement systématique des notices d’autorité des psychologues et de leurs institutions.Savante alliance de deux dispositifs

Soucieuse de “faciliter l’accès et de favoriser l’usage des collections de bibliothèques par les chercheurs”, ce qui est l’objectif premier de CollEx-Persée, la bibliothèque Henri-Piéron souhaite avant tout travailler sur les notices d’autorité afin de renforcer la visibilité dans l’écosystème IdRef de la production scientifique en psychologie et dans les disciplines connexes. Il s’agit de corriger, d’enrichir ou de créer, le cas échéant, les notices décrivant des personnes (les chercheurs en psychologie) et des collectivités (les universités, les congrès, les laboratoires), de relier à ces autorités les notices décrivant les ressources documentaires et enfin d’enrichir d’une indexation matière de qualité les titres de périodiques en psychologie.
Pour mener ce travail dans les meilleures conditions, la bibliothèque bénéficie, dès 2018, de deux dispositifs qui vont se compléter :

Continuer la lectureUn bilan enthousiasmant du premier chantier CERCLES consacré aux autorités
Aller au contenu principal