Chantier BACON – partie 1 : liage du Sudoc et de BACON par les PPN

Logo BaconS’appuyant sur les résultats du 1er volet de l’enquête BACON-Usages de la Base de connaissance publiés en décembre 2019, l’Abes s’engage dans un plan de développement de services ambitieux pour BACON

Vers un nouveau paradigme

Dans la logique du projet BACON initial, l’Abes s’est jusqu’à présent concentrée sur la sensibilisation, tant des professionnels des bibliothèques que des éditeurs scientifiques, autour de la qualité des métadonnées associées aux ressources électroniques, nécessaire pour en garantir le signalement et l’accès. Dans une démarche volontariste, l’Abes a veillé au renforcement des échanges entre éditeurs scientifiques et établissements documentaires, coordonnant certains chantiers Qualité. S’il n’était initialement pas prévu de lancer de chantier de correction (lire le billet Punktokomo à ce sujet), avec plus de 800 bouquets – et autant de fichiers KBart à disposition, cette démarche ne s’avère plus vraiment adaptée pour garantir la pertinence (qualité et fraîcheur) des métadonnées disponibles. Aussi, après avoir éprouvé cette méthode pendant près de cinq ans, ainsi que la labellisation de bouquets fournis par les éditeurs, les limites de ce dispositif semblent désormais atteintes.

Afin de garantir la qualité et la fiabilité des métadonnées, il est nécessaire de se doter de méthodes communes, de moyens automatisées, de workflow adaptés, autant d’opportunités pour harmoniser les pratiques collaboratives et contributives indispensables pour alimenter le « vaste entrepôt des métadonnées de l’ESR. » que constituent les différentes bases de données gérées par l’Abes. Grâce aux évolutions apportées, BACON devrait être en mesure de mieux aider au quotidien les professionnels dans la gestion courante des métadonnées de ressources électroniques, de la façon la plus adaptée et la moins chronophage possible. 

Injection des identifiants PPN-Sudoc dans tous les exports de données BACON

Depuis début 2018, les identifiants (n°PPN) des notices Sudoc sont disponibles dans les exports de données BACON aux formats .xml et .json. Jusqu’à présent, cette information était absente des exports au format .txt, un manque en termes fonctionnels identifié dans les résultats de l’enquête.

C’est désormais chose faite : l’identifiant n°PPN  Sudoc est disponible dans les exports au format .txt des données BACON. Ceci se traduit, dans les fichiers KBart, par une colonne supplémentaire intitulée « bestppn » qui s’ajoute aux 25 autres champs prévus par la Recommandation NISO RP-9-2014, KBART – Knowledge Bases and Related Tools Recommended Practice.

Uniquement des PPN de notices de ressources électroniques

La sélection du n° PPN le plus pertinent reposait jusqu’alors sur les critères suivants : « Ce PPN est le PPN de la notice « électronique » la plus récente (basé sur le numéro d’ordre de la notice) ou, en l’absence de celle-ci, le PPN de la notice « imprimé » la plus récente. Par défaut, en cas de plusieurs PPN associés à un identifiant, le PPN de la notice la plus récente est indiqué dans BACON. »

De ce fait, les n° PPN pouvaient correspondre à une notice Sudoc de ressource électronique mais aussi à celle de sa version imprimée, sans que cela ne soit explicité clairement, ce qui engendrait un certain nombre d’incohérences et de dysfonctionnements potentiels.

Pour sortir de cette ambiguïté, désormais seuls les n°PPN renvoyant à des notices de ressources électroniques sont sélectionnés puis exportés. Cette première étape est effective dès ce jour. 

Précisions : Les n°PPN sont récupérés à partir des valeurs du champ KBart « online_identifier ». Ce qui signifie, en l’état actuel, que si le champ « online_identifier » est erroné et contient, par exemple, un identifiant de ressource imprimée, le n°PPN exposé correspondra à une notice de ressource imprimée. Dans le cas de réponses renvoyant plusieurs n°PPN, ceux-ci sont triés par « date de création » afin d’afficher le plus récent.

Des critères encore à affiner, des règles à harmoniser

Profitant de l’opportunité de ce chantier, il a été décidé d’améliorer la pertinence des informations disponibles selon les principes de fiabilisation et réciprocité des données.

Au sein du Département Métadonnées et Services aux Réseaux, le Service Monographie, Archives et autres Ressources et le Service des Ressources Continues vont réfléchir à l’amélioration de ces règles de sélection ainsi qu’aux méthodes les plus adaptées pour traiter -rétrospectivement et au fil de l’eau- les anomalies repérées.

Un programme de travail fonctionnel et méthodologique

Le plan de développement de BACON prévoit d’optimiser les flux et interactions entre les données du Sudoc et celles de BACON. D’ordre méthodologique et fonctionnel, les étapes de ce programme de travail constituent autant de « User Cases ».

Le programme de travail s’appuie sur les objectifs et principes suivants : 

  • Une ressource dans BACON correspond à une notice dans le Sudoc 
  • Automatisation et réciprocité des process entre le Sudoc et BACON :
    • correction et enrichissements des données KBart dans BACON à partir des données Sudoc 
    • enrichissement des données Sudoc par le signalement systématique des ressources disponibles via BACON

Points d’étapes envisagés

L’analyse des données et le développement de règles et de processus appropriés pour les différents cas de figure envisagés sont autant de chantiers qui seront menés, dans la mesure du possible, en méthode agile.

1 – S’assurer que la valeur du champ KBart « online_identifier » renvoie bien à une notice de ressource électronique. Dans le cas contraire, deux cas de figure :

  • la valeur initiale est erronée dans le fichier KBart source
  • le type de support associé à la notice Sudoc est mal renseigné

2 – Identifier les PPN des notices de ressources électroniques présentes dans BACON, pour lesquelles la valeur du champ KBart « online_identifier » est erronée ou vide mais dont l’identifiant de la version imprimée (colonne « print_identifier ») est correctement rempli. Dans ce cas, soit :

  • la notice Sudoc « version imprimée » comporte une zone 452 ou 456: le n° PPN de la notice liée sera automatiquement récupéré pour alimenter BACON et l’identifiant de la ressource électronique sera corrigé ou implémenté dans les données BACON.
  • la notice Sudoc « version imprimée » ne comporte pas de liens dans les zones 452 ou 456 : une notice Sudoc de la ressource « version électronique » sera produite automatiquement à partir de la notice de la « version imprimée » et des informations contenues dans le fichier KBart.

Pour réaliser cette dernière action, l’équipe BACON s’appuiera notamment sur la méthodologie mise en œuvre dans le cadre  du traitement automatisé des notices (livres -imprimés et ebooks-) de l’éditeur Oxford University Press (lire le billet Punktokomo à ce sujet).

3Quid des ressources présentes dans BACON mais reliées à aucun n° PPN Sudoc ?

  • les identifiants ne sont pas – ou mal – renseignés dans le fichier KBart source (métadonnées fournies par les éditeurs, diffuseurs, bases de connaissance libres). Ce cas relève d’un signalement non-optimal et sera traité automatiquement et systématiquement par le développement et l’amélioration des workflows de BACON.
  • les ressources ne possèdent aucun identifiant conforme à la recommandation KBart (ISSN et ISBN). Plus complexe, ce cas pourrait néanmoins être solutionné en s’appuyant sur une recherche dans le Sudoc combinant plusieurs éléments (titre, auteur, dates). Cette méthode sera étudiée plus avant.

De prochains billets Punktokomo reviendront plus en détail sur les différents chantiers en cours.  

Continuer la lecture Chantier BACON – partie 1 : liage du Sudoc et de BACON par les PPN

Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press

[English abstract at the bottom of this blog’s post]D’un point de vue technique, charger des corpus de livres dans le Sudoc n’est pas très difficile. Depuis plusieurs années, les équipes de l’Abes importent régulièrement des ensembles de notices MARC en provenance de différents éditeurs (Springer, CAIRN …) et, globalement, ces notices sont bien utilisées par les bibliothèques du réseau.

Pourquoi un nouveau workflow d’imports de données dans le Sudoc ?

Pour autant, on a pu constater que ce système comporte des limites : en amont, il n’est pas toujours évident de récupérer auprès des éditeurs des notices MARC – si possible de bonne qualité, cette démarche exigeant généralement de nombreux aller-retours. En aval, ce type d’opérations de chargement dans le Sudoc requiert des interventions et compétences spécifiques, relativement rares à l’Abes. Autant d’éléments qui rendent les processus actuels difficilement scalables et difficile aussi l’atteinte de l’objectif de signalement total. Aussi, il s’est avéré indispensable de réfléchir  à la conception de nouveaux  workflows,  afin de réaliser automatiquement les opérations d’ingestion,  transformation, enrichissements et chargement dans le Sudoc.

Continuer la lecture Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press

OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [1] – Introduction

Cette série de billets exposera la méthode d’évaluation appliquée aux fichiers KBART, transmis à l’Abes par les éditeurs francophones ayant accepté de collaborer avec nous. Ce sera aussi l’occasion d’exposer une nouvelle déclinaison du dispositif CERCLES, appliquée à BACON.

  1. Introduction (ce billet)
  2. Un outil : OpenRefine
  3. Cas pratique
  4. Dispositif CERCLES dans le cadre de BACON

Logo BaconLa BAse de COnnaissance Nationale (BACON) est un entrepôt de métadonnées libres pour le signalement de la documentation électronique. Son contenu, exposé via bacon.abes.fr, peut être soit interrogé puis téléchargé par webservices soit interrogé via l’interface graphique du site.

Continuer la lecture OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [1] – Introduction

Récit d’une immersion. Traiter les ebooks Dalloz avec les données Sudoc, les données de l’éditeur et les outils du hub

Ce billet relate à la première personne l’immersion effectuée par Catherine Storne (Université de Strasbourg) au sein de l’équipe hub de l’ABES, entre le 1er et le 5 février 2016. Catherine a eu l’occasion de partager cette expérience aux dernières journées ABES. Merci pour tout, Catherine !

Placée en face de la nouvelle « Metadaten Weltanschauung » au travers de la réflexion locale sur l’abonnement à un outil de découverte (discovery tool) ou sur les réalisations de la plateforme ISTEX sur les licences nationales, je ressentais le besoin de monter en compétences sur la manipulation des métadonnées. J’ai donc souhaité faire une immersion à l’ABES pour mieux comprendre les projets de l’établissement tournant autour des métadonnées dont les noms parvenaient aux confins de nos bibliothèques : BACON, hub de métadonnées, CERCLES, ainsi que les liens entre eux. Mon objectif étant de travailler au rapprochement, au sein du SCD de Strasbourg, des équipes de la documentation électronique et du catalogage, la participation à un projet concret, au travers d’un chantier CERCLES me semblait de nature à y contribuer.

Continuer la lecture Récit d’une immersion. Traiter les ebooks Dalloz avec les données Sudoc, les données de l’éditeur et les outils du hub

Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Pour les besoins de la démonstration, nous avons agrégé des données diverses et variées, mais finalement cette auberge espagnole n’est pas si anarchique : tout mène à tout, et on peut regrouper les jeux de données de différentes manières :

  • Données descriptives vs Référentiels
  • Données produites par les réseaux ABES vs Données de tiers
  • Données du monde des bibliothèques vs Données d’autres mondes (science, administration, etc.)
  • Données récupérées en RDF vs Données produites en RDF

Mais dans ABES, il y a B : notre réseau de données se déploie autour des données bibliographiques, qui décrivent des livres, des revues, mais également des chapitres et des articles.

Continuer la lecture Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

Une zone 309 pour coordonner le travail collectif sur la qualité des données Sudoc

Au moment du chargement de nouvelles notices ou à l’occasion d’un chantier de contrôle qualité, l’ABES peut être amenée à effectuer des modifications de masse pour améliorer ou corriger des notices. Hélas, tout n’est pas automatisable – surtout si on tient à conserver un certain niveau de qualité bibliographique. Une fois que les algorithmes ont parlé et atteint leurs limites, l’ABES passe le relais au réseau, qui possède la force de frappe et l’expertise humaine pour continuer le travail, ne serait-ce qu’en se concentrant sur l’essentiel ou le prioritaire.

Mais, précisément, qu’est-ce qui est essentiel ? Qu’est-ce qui est prioritaire ? Sur quelles notices faut-il que le réseau se mobilise ? Et sur quels points précis dans les notices ? Étant donné la taille de la base, le volume des entrées et la richesse des règles, chaque catalogueur, chaque service de catalogage peut se sentir perdu devant l’ampleur de la tâche. C’est pourquoi l’ABES souhaite structurer d’avantage l’organisation de cet immense travail collectif. Cette volonté se traduit aujourd’hui sous une forme très concrète : la zone 309…

Continuer la lecture Une zone 309 pour coordonner le travail collectif sur la qualité des données Sudoc

Politique de signalement des licences nationales ISTEX

logo-LN-ombre

[Ce billet reprend le message envoyé aux listes de discussion  Sudoc et Sudoc PS (Périodiques), le 24/2/2014. Il a été suivi d’une série de messages faisant le point sur le signalement de chaque corpus. Si vous n’appartenez pas aux réseaux ABES, le site licencesnationales.fr est le bon endroit pour se tenir informé. Il sera bientôt mis à jour pour intégrer les services évoqués dans le billet qui suit.]

En Janvier, l’ABES a annoncé l’acquisition de plusieurs corpus de ressources numériques en licence nationale, dans le cadre du projet ISTEX :

Continuer la lecture Politique de signalement des licences nationales ISTEX
Aller au contenu principal