Chantier BACON – partie 1 : liage du Sudoc et de BACON par les PPN

Print Friendly, PDF & Email

Logo BaconS’appuyant sur les résultats du 1er volet de l’enquête BACON-Usages de la Base de connaissance publiés en décembre 2019, l’Abes s’engage dans un plan de développement de services ambitieux pour BACON

Vers un nouveau paradigme

Dans la logique du projet BACON initial, l’Abes s’est jusqu’à présent concentrée sur la sensibilisation, tant des professionnels des bibliothèques que des éditeurs scientifiques, autour de la qualité des métadonnées associées aux ressources électroniques, nécessaire pour en garantir le signalement et l’accès. Dans une démarche volontariste, l’Abes a veillé au renforcement des échanges entre éditeurs scientifiques et établissements documentaires, coordonnant certains chantiers Qualité. S’il n’était initialement pas prévu de lancer de chantier de correction (lire le billet Punktokomo à ce sujet), avec plus de 800 bouquets – et autant de fichiers KBart à disposition, cette démarche ne s’avère plus vraiment adaptée pour garantir la pertinence (qualité et fraîcheur) des métadonnées disponibles. Aussi, après avoir éprouvé cette méthode pendant près de cinq ans, ainsi que la labellisation de bouquets fournis par les éditeurs, les limites de ce dispositif semblent désormais atteintes.

Afin de garantir la qualité et la fiabilité des métadonnées, il est nécessaire de se doter de méthodes communes, de moyens automatisées, de workflow adaptés, autant d’opportunités pour harmoniser les pratiques collaboratives et contributives indispensables pour alimenter le « vaste entrepôt des métadonnées de l’ESR. » que constituent les différentes bases de données gérées par l’Abes. Grâce aux évolutions apportées, BACON devrait être en mesure de mieux aider au quotidien les professionnels dans la gestion courante des métadonnées de ressources électroniques, de la façon la plus adaptée et la moins chronophage possible. 

Injection des identifiants PPN-Sudoc dans tous les exports de données BACON

Depuis début 2018, les identifiants (n°PPN) des notices Sudoc sont disponibles dans les exports de données BACON aux formats .xml et .json. Jusqu’à présent, cette information était absente des exports au format .txt, un manque en termes fonctionnels identifié dans les résultats de l’enquête.

C’est désormais chose faite : l’identifiant n°PPN  Sudoc est disponible dans les exports au format .txt des données BACON. Ceci se traduit, dans les fichiers KBart, par une colonne supplémentaire intitulée « bestppn » qui s’ajoute aux 25 autres champs prévus par la Recommandation NISO RP-9-2014, KBART – Knowledge Bases and Related Tools Recommended Practice.

Uniquement des PPN de notices de ressources électroniques

La sélection du n° PPN le plus pertinent reposait jusqu’alors sur les critères suivants : « Ce PPN est le PPN de la notice « électronique » la plus récente (basé sur le numéro d’ordre de la notice) ou, en l’absence de celle-ci, le PPN de la notice « imprimé » la plus récente. Par défaut, en cas de plusieurs PPN associés à un identifiant, le PPN de la notice la plus récente est indiqué dans BACON. »

De ce fait, les n° PPN pouvaient correspondre à une notice Sudoc de ressource électronique mais aussi à celle de sa version imprimée, sans que cela ne soit explicité clairement, ce qui engendrait un certain nombre d’incohérences et de dysfonctionnements potentiels.

Pour sortir de cette ambiguïté, désormais seuls les n°PPN renvoyant à des notices de ressources électroniques sont sélectionnés puis exportés. Cette première étape est effective dès ce jour. 

Précisions : Les n°PPN sont récupérés à partir des valeurs du champ KBart « online_identifier ». Ce qui signifie, en l’état actuel, que si le champ « online_identifier » est erroné et contient, par exemple, un identifiant de ressource imprimée, le n°PPN exposé correspondra à une notice de ressource imprimée. Dans le cas de réponses renvoyant plusieurs n°PPN, ceux-ci sont triés par « date de création » afin d’afficher le plus récent.

Des critères encore à affiner, des règles à harmoniser

Profitant de l’opportunité de ce chantier, il a été décidé d’améliorer la pertinence des informations disponibles selon les principes de fiabilisation et réciprocité des données.

Au sein du Département Métadonnées et Services aux Réseaux, le Service Monographie, Archives et autres Ressources et le Service des Ressources Continues vont réfléchir à l’amélioration de ces règles de sélection ainsi qu’aux méthodes les plus adaptées pour traiter -rétrospectivement et au fil de l’eau- les anomalies repérées.

Un programme de travail fonctionnel et méthodologique

Le plan de développement de BACON prévoit d’optimiser les flux et interactions entre les données du Sudoc et celles de BACON. D’ordre méthodologique et fonctionnel, les étapes de ce programme de travail constituent autant de « User Cases ».

Le programme de travail s’appuie sur les objectifs et principes suivants : 

  • Une ressource dans BACON correspond à une notice dans le Sudoc 
  • Automatisation et réciprocité des process entre le Sudoc et BACON :
    • correction et enrichissements des données KBart dans BACON à partir des données Sudoc 
    • enrichissement des données Sudoc par le signalement systématique des ressources disponibles via BACON

Points d’étapes envisagés

L’analyse des données et le développement de règles et de processus appropriés pour les différents cas de figure envisagés sont autant de chantiers qui seront menés, dans la mesure du possible, en méthode agile.

1 – S’assurer que la valeur du champ KBart « online_identifier » renvoie bien à une notice de ressource électronique. Dans le cas contraire, deux cas de figure :

  • la valeur initiale est erronée dans le fichier KBart source
  • le type de support associé à la notice Sudoc est mal renseigné

2 – Identifier les PPN des notices de ressources électroniques présentes dans BACON, pour lesquelles la valeur du champ KBart « online_identifier » est erronée ou vide mais dont l’identifiant de la version imprimée (colonne « print_identifier ») est correctement rempli. Dans ce cas, soit :

  • la notice Sudoc « version imprimée » comporte une zone 452 ou 456: le n° PPN de la notice liée sera automatiquement récupéré pour alimenter BACON et l’identifiant de la ressource électronique sera corrigé ou implémenté dans les données BACON.
  • la notice Sudoc « version imprimée » ne comporte pas de liens dans les zones 452 ou 456 : une notice Sudoc de la ressource « version électronique » sera produite automatiquement à partir de la notice de la « version imprimée » et des informations contenues dans le fichier KBart.

Pour réaliser cette dernière action, l’équipe BACON s’appuiera notamment sur la méthodologie mise en œuvre dans le cadre  du traitement automatisé des notices (livres -imprimés et ebooks-) de l’éditeur Oxford University Press (lire le billet Punktokomo à ce sujet).

3Quid des ressources présentes dans BACON mais reliées à aucun n° PPN Sudoc ?

  • les identifiants ne sont pas – ou mal – renseignés dans le fichier KBart source (métadonnées fournies par les éditeurs, diffuseurs, bases de connaissance libres). Ce cas relève d’un signalement non-optimal et sera traité automatiquement et systématiquement par le développement et l’amélioration des workflows de BACON.
  • les ressources ne possèdent aucun identifiant conforme à la recommandation KBart (ISSN et ISBN). Plus complexe, ce cas pourrait néanmoins être solutionné en s’appuyant sur une recherche dans le Sudoc combinant plusieurs éléments (titre, auteur, dates). Cette méthode sera étudiée plus avant.

De prochains billets Punktokomo reviendront plus en détail sur les différents chantiers en cours.  

Laisser un commentaire

Tweetez
Partagez
Partagez
Aller au contenu principal