Chantier BACON – partie 1 : liage du Sudoc et de BACON par les PPN

Logo BaconS’appuyant sur les résultats du 1er volet de l’enquête BACON-Usages de la Base de connaissance publiés en décembre 2019, l’Abes s’engage dans un plan de développement de services ambitieux pour BACON

Vers un nouveau paradigme

Dans la logique du projet BACON initial, l’Abes s’est jusqu’à présent concentrée sur la sensibilisation, tant des professionnels des bibliothèques que des éditeurs scientifiques, autour de la qualité des métadonnées associées aux ressources électroniques, nécessaire pour en garantir le signalement et l’accès. Dans une démarche volontariste, l’Abes a veillé au renforcement des échanges entre éditeurs scientifiques et établissements documentaires, coordonnant certains chantiers Qualité. S’il n’était initialement pas prévu de lancer de chantier de correction (lire le billet Punktokomo à ce sujet), avec plus de 800 bouquets – et autant de fichiers KBart à disposition, cette démarche ne s’avère plus vraiment adaptée pour garantir la pertinence (qualité et fraîcheur) des métadonnées disponibles. Aussi, après avoir éprouvé cette méthode pendant près de cinq ans, ainsi que la labellisation de bouquets fournis par les éditeurs, les limites de ce dispositif semblent désormais atteintes.

Afin de garantir la qualité et la fiabilité des métadonnées, il est nécessaire de se doter de méthodes communes, de moyens automatisées, de workflow adaptés, autant d’opportunités pour harmoniser les pratiques collaboratives et contributives indispensables pour alimenter le « vaste entrepôt des métadonnées de l’ESR. » que constituent les différentes bases de données gérées par l’Abes. Grâce aux évolutions apportées, BACON devrait être en mesure de mieux aider au quotidien les professionnels dans la gestion courante des métadonnées de ressources électroniques, de la façon la plus adaptée et la moins chronophage possible. 

Injection des identifiants PPN-Sudoc dans tous les exports de données BACON

Depuis début 2018, les identifiants (n°PPN) des notices Sudoc sont disponibles dans les exports de données BACON aux formats .xml et .json. Jusqu’à présent, cette information était absente des exports au format .txt, un manque en termes fonctionnels identifié dans les résultats de l’enquête.

C’est désormais chose faite : l’identifiant n°PPN  Sudoc est disponible dans les exports au format .txt des données BACON. Ceci se traduit, dans les fichiers KBart, par une colonne supplémentaire intitulée « bestppn » qui s’ajoute aux 25 autres champs prévus par la Recommandation NISO RP-9-2014, KBART – Knowledge Bases and Related Tools Recommended Practice.

Uniquement des PPN de notices de ressources électroniques

La sélection du n° PPN le plus pertinent reposait jusqu’alors sur les critères suivants : « Ce PPN est le PPN de la notice « électronique » la plus récente (basé sur le numéro d’ordre de la notice) ou, en l’absence de celle-ci, le PPN de la notice « imprimé » la plus récente. Par défaut, en cas de plusieurs PPN associés à un identifiant, le PPN de la notice la plus récente est indiqué dans BACON. »

De ce fait, les n° PPN pouvaient correspondre à une notice Sudoc de ressource électronique mais aussi à celle de sa version imprimée, sans que cela ne soit explicité clairement, ce qui engendrait un certain nombre d’incohérences et de dysfonctionnements potentiels.

Pour sortir de cette ambiguïté, désormais seuls les n°PPN renvoyant à des notices de ressources électroniques sont sélectionnés puis exportés. Cette première étape est effective dès ce jour. 

Précisions : Les n°PPN sont récupérés à partir des valeurs du champ KBart « online_identifier ». Ce qui signifie, en l’état actuel, que si le champ « online_identifier » est erroné et contient, par exemple, un identifiant de ressource imprimée, le n°PPN exposé correspondra à une notice de ressource imprimée. Dans le cas de réponses renvoyant plusieurs n°PPN, ceux-ci sont triés par « date de création » afin d’afficher le plus récent.

Des critères encore à affiner, des règles à harmoniser

Profitant de l’opportunité de ce chantier, il a été décidé d’améliorer la pertinence des informations disponibles selon les principes de fiabilisation et réciprocité des données.

Au sein du Département Métadonnées et Services aux Réseaux, le Service Monographie, Archives et autres Ressources et le Service des Ressources Continues vont réfléchir à l’amélioration de ces règles de sélection ainsi qu’aux méthodes les plus adaptées pour traiter -rétrospectivement et au fil de l’eau- les anomalies repérées.

Un programme de travail fonctionnel et méthodologique

Le plan de développement de BACON prévoit d’optimiser les flux et interactions entre les données du Sudoc et celles de BACON. D’ordre méthodologique et fonctionnel, les étapes de ce programme de travail constituent autant de « User Cases ».

Le programme de travail s’appuie sur les objectifs et principes suivants : 

  • Une ressource dans BACON correspond à une notice dans le Sudoc 
  • Automatisation et réciprocité des process entre le Sudoc et BACON :
    • correction et enrichissements des données KBart dans BACON à partir des données Sudoc 
    • enrichissement des données Sudoc par le signalement systématique des ressources disponibles via BACON

Points d’étapes envisagés

L’analyse des données et le développement de règles et de processus appropriés pour les différents cas de figure envisagés sont autant de chantiers qui seront menés, dans la mesure du possible, en méthode agile.

1 – S’assurer que la valeur du champ KBart « online_identifier » renvoie bien à une notice de ressource électronique. Dans le cas contraire, deux cas de figure :

  • la valeur initiale est erronée dans le fichier KBart source
  • le type de support associé à la notice Sudoc est mal renseigné

2 – Identifier les PPN des notices de ressources électroniques présentes dans BACON, pour lesquelles la valeur du champ KBart « online_identifier » est erronée ou vide mais dont l’identifiant de la version imprimée (colonne « print_identifier ») est correctement rempli. Dans ce cas, soit :

  • la notice Sudoc « version imprimée » comporte une zone 452 ou 456: le n° PPN de la notice liée sera automatiquement récupéré pour alimenter BACON et l’identifiant de la ressource électronique sera corrigé ou implémenté dans les données BACON.
  • la notice Sudoc « version imprimée » ne comporte pas de liens dans les zones 452 ou 456 : une notice Sudoc de la ressource « version électronique » sera produite automatiquement à partir de la notice de la « version imprimée » et des informations contenues dans le fichier KBart.

Pour réaliser cette dernière action, l’équipe BACON s’appuiera notamment sur la méthodologie mise en œuvre dans le cadre  du traitement automatisé des notices (livres -imprimés et ebooks-) de l’éditeur Oxford University Press (lire le billet Punktokomo à ce sujet).

3Quid des ressources présentes dans BACON mais reliées à aucun n° PPN Sudoc ?

  • les identifiants ne sont pas – ou mal – renseignés dans le fichier KBart source (métadonnées fournies par les éditeurs, diffuseurs, bases de connaissance libres). Ce cas relève d’un signalement non-optimal et sera traité automatiquement et systématiquement par le développement et l’amélioration des workflows de BACON.
  • les ressources ne possèdent aucun identifiant conforme à la recommandation KBart (ISSN et ISBN). Plus complexe, ce cas pourrait néanmoins être solutionné en s’appuyant sur une recherche dans le Sudoc combinant plusieurs éléments (titre, auteur, dates). Cette méthode sera étudiée plus avant.

De prochains billets Punktokomo reviendront plus en détail sur les différents chantiers en cours.  

Continuer la lecture Chantier BACON – partie 1 : liage du Sudoc et de BACON par les PPN

CERCLES : bilan du chantier AMS

Le chantier CERCLE « AMS – American Mathematical Society »

Description du corpus

Crédit image : David Stewart

Plusieurs bibliothèques membres du RNBM acquérant des collections d’ebooks publiées par l’American Mathematical Society (AMS), trois d’entre elles ont choisi de participer à un chantier commun CERCLES AMS. Ce travail de correction et d’enrichissement de notices concernait un total de 2760 notices d’ebooks, et presque autant de monographies imprimées.

Le chantier a été circonscrit aux 13 collections disponibles en ebooks au moment de l’ouverture du chantier (l’éditeur a publié depuis de nouvelles collections)

  1. Mathematical Surveys and Monographs (1943 – 2015) : ​SURV​ 215 notices
  2. Graduate Studies in Mathematics (1993-2013) : ​GSM​ 127 notices
  3. Student Mathematical Library (1999-2015) : ​STML​ 73 notices
  4. University Lecture Series (1989-2015) : ​ULECT​ 63 notices
  5. Memoirs of the AMS (1950-2015) : ​MEMO​ 1141 notices
  6. Proceedings of Symposia in pure Mathematics (1959-2015) : ​PSPUM ​117 notices
  7. Proceedings of Symposia in Applied Mathematics (1949-2014) : ​PSAPM​ 73 notices
  8. Contemporary Mathematics (1980-2015) : ​CONM​ 665 notices
  9. CBMS Regional Conference Series in Mathematics (1970-2015) : ​CBMS​ 129 notices
  10. Colloquium Publications (vol.1(1905)-vol.62(2016)) : COLL 63 notices
  11. AMS non-series monographs (2007-2015) :​ MBK​ 53 notices
  12. CBMS Issues in Mathematics Education (1990-2012) : ​CBMATH ​18 notices
  13. Mathematical World (1991-2013) : ​MAWRLD​ 23 notices

Il a également été nécessaire de définir un état de collection précis, notamment pour les collections vivantes ayant un accroissement annuel. L’année 2015 a dans la plupart des cas été choisie comme année de clôture : il s’agissait en effet de la dernière année complète au moment du démarrage du chantier et de l’import des notices de l’éditeur.

Description du chantier

Les 3 établissements ayant participé au projet

Continuer la lecture CERCLES : bilan du chantier AMS

Nouveau workflow d’import automatisé dans le Sudoc : première évaluation


Licence : Paternité. Pas de modification. Certains droits réservés par mbtphoto (away a lot). Source Flickr

Ce billet s’inscrit dans la continuité de l’article Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press.

Suite aux retours des d’établissements ayant répondu à l’appel lancé le 4 février dernier via la liste Corcat  “Votre avis sur la qualité des notices Oxford University Press – import courant”, l’Abes a pu dresser un premier bilan et adapter ce workflow.

Continuer la lecture Nouveau workflow d’import automatisé dans le Sudoc : première évaluation

Un nouveau web service pour les Plans de Conservation Partagée des périodiques

Un nouveau webservice PCP2RCR développé par les équipes de l’Abes est à la disposition des utilisateurs pour obtenir la liste – et la géolocalisation – des bibliothèques (RCR) participant à un Plan de Conservation Partagée (PCP) de Périodiques.

Pour fonctionner, ce webservice utilise la présence, dans les données d’exemplaires, de la sous-zone 930$z [code PCP], ce qui permet de faire remonter les bibliothèques concernées par un PCP ainsi que les informations les concernant : n° ILN, n° RCR, identifiant IdRef de la notice RCR, Nom de l’établissement, Intitulé court de l’établissement, Adresse, Téléphone, Email, Site web, Type de bibliothèque, Latitude, Longitude.

De plus, ce webservice facilite la détection d’erreurs manifestes, comme par exemple les données de latitude/longitude ou la présence d’un code PCP erroné dans un exemplaire.

Continuer la lecture Un nouveau web service pour les Plans de Conservation Partagée des périodiques

CERCLES : le premier chantier dédié aux autorités

En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner, aider et valoriser un établissement souhaitant s’investir sur l’enrichissement des données d’un corpus de documents spécifique. Initiée avec 4 établissements, l’expérimentation fut concluante : très vite, d’autres établissements ont rejoint le dispositif puisque 3 ans après, on dénombre 17 chantiers CERCLES d’enrichissements de données bibliographiques.

Dès sa mise en place, l’Abes annonçait son intention d’étendre le dispositif d’accompagnement à d’autres types de données afin de créer un cercle vertueux. Le dispositif a en effet été pensé afin de s’adapter à tous les corpus, puisqu’il s’agit :

    • pour l’établissement : d’enrichir des données
  • pour l’Abes : de conseiller, de faciliter par des traitements automatiques et de rendre compte
Continuer la lecture CERCLES : le premier chantier dédié aux autorités

Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press

[English abstract at the bottom of this blog’s post]D’un point de vue technique, charger des corpus de livres dans le Sudoc n’est pas très difficile. Depuis plusieurs années, les équipes de l’Abes importent régulièrement des ensembles de notices MARC en provenance de différents éditeurs (Springer, CAIRN …) et, globalement, ces notices sont bien utilisées par les bibliothèques du réseau.

Pourquoi un nouveau workflow d’imports de données dans le Sudoc ?

Pour autant, on a pu constater que ce système comporte des limites : en amont, il n’est pas toujours évident de récupérer auprès des éditeurs des notices MARC – si possible de bonne qualité, cette démarche exigeant généralement de nombreux aller-retours. En aval, ce type d’opérations de chargement dans le Sudoc requiert des interventions et compétences spécifiques, relativement rares à l’Abes. Autant d’éléments qui rendent les processus actuels difficilement scalables et difficile aussi l’atteinte de l’objectif de signalement total. Aussi, il s’est avéré indispensable de réfléchir  à la conception de nouveaux  workflows,  afin de réaliser automatiquement les opérations d’ingestion,  transformation, enrichissements et chargement dans le Sudoc.

Continuer la lecture Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press

Signaler les thèses déposées sur TEL dans le Sudoc et theses.fr

35 000 thèses TEL proviennent de Star : et les autres ?

logo_telActuellement, 75 000 documents  estampillés « thèses » sont déposés sur TEL. Or, si 35 000 documents  – qui proviennent de l’application Star – sont bien estampillés « version validée par le Jury », 40 000  d’entre eux ne sont signalés ni dans le Sudoc ni sur theses.fr, alors même que le lien vers le texte intégral de la thèse peut avoir un intérêt pour les lecteurs. Suite à ce constat, plusieurs établissements, soucieux d’offrir une visibilité plus importante à ces travaux de recherche, ont sollicité l’Abes en vue de leur signalement automatique. Deux options s’offraient :

  • importer les notices de TEL en s’appuyant sur leurs métadonnées (XML TEI) pour les transformer en Unimarc.
  • décrire ces documents via les notices des thèses originelles déjà présentes dans le Sudoc.
Continuer la lecture Signaler les thèses déposées sur TEL dans le Sudoc et theses.fr

La géolocalisation des autorités géographiques dans le Sudoc – partie 1

Cette série de billets écrite par Elena Avellino présente le travail de géolocalisation de notices d’autorité géographiques dans le Sudoc, réalisé par l’Ecole française de Rome.

  1. Finalités, modalités et applications (ce billet)
  2. Mode d’emploi de la géolocalisation
Continuer la lecture La géolocalisation des autorités géographiques dans le Sudoc – partie 1

La géolocalisation des autorités géographiques dans le Sudoc – partie 2

Cette série de billets écrite par Elena Avellino présente le travail de géolocalisation de notices d’autorité géographiques dans le Sudoc, réalisé par l’École française de Rome.

  1. Finalités, modalités et applications
  2. Mode d’emploi de la géolocalisation (ce billet)

Ce billet expose les modalités de géolocalisation et la transcription de ces données dans l’outil de production du Sudoc, WinIBW.

Continuer la lecture La géolocalisation des autorités géographiques dans le Sudoc – partie 2

Synthèse de l’enquête « Évaluation du dispositif CERCLES »

Cercles pencils by art sourse

Le dispositif CERCLES (Corrections et Enrichissements par le Réseau de Corpus de l’Enseignement Supérieur) a été lancé en 2015.
Depuis, 17 chantiers ont été lancés, dont 9 encore en cours.

Avec le double objectif d’évaluer les modalités de fonctionnement actuelles et de réfléchir à l’évolution du dispositif, une enquête a été menée, en février 2018, auprès des 18 responsables de chantiers CERCLES.

Voici un résumé de leurs opinions sur le dispositif.

Continuer la lecture Synthèse de l’enquête « Évaluation du dispositif CERCLES »
Aller au contenu principal