Synchronisation entre les SGB et le Sudoc pour les exemplaires de ressources électroniques

Rappel du contexte

Dans le cadre du projet SGBm, un nouveau mode de coopération entre les établissements pilotes et l’Abes a été initié, basé sur un travail collaboratif dans l’intérêt des établissements, une coopération qui s’est prolongée jusqu’en 2020. Pour accompagner ces opérations, certains services de l’Abes ont évolué ou sont en cours d’évolution :  la  synchronisation des flux entre le Sudoc et les SGB en est un exemple.

Dans un premier temps, un circuit de synchronisation entre le Sudoc et la solution Alma proposé par la société Clarivate (ex ExLibris) a été conçu, testé puis mis en production en relation étroite avec les équipes des SCD des Universités de Bordeaux et de Toulouse, premiers établissements à intégrer ce circuit, en mai 2022 pour Bordeaux, en septembre 2022 pour Toulouse.

En 2022, la société DM Cultura et l’Université Polytechnique Hauts-de-France (UPHF) sollicitaient l’Abes afin d’adapter le circuit de synchronisation à l’environnement SGB Sebina (utilisant le résolveur de liens SFX). Fort de l’expérience de l’Abes en ce domaine et grâce à une collaboration fructueuse entre les trois parties, l’UPHF déployait son circuit de synchronisation fin 2023. 

Dès le début du projet de synchronisation, l’Abes a veillé à utiliser des outils standardisés et réutilisables par les établissements ayant d’autres fournisseurs. Cette solution, basée sur les échanges OAI-PMH et les transferts réguliers, a donc pu être appliquée avec succès au SGB Sebina. Précisons que la particularité du fournisseur Alma, qui utilise le format MARC21, a été traitée comme une spécificité, sans exclure l’usage de l’UNIMARC.

Comment fonctionne le circuit de synchronisation ?

Rappelons au préalable que le signalement optimisé des exemplaires de ressources électroniques ainsi que l’enrichissement et la qualité des données exposées constituent les principaux enjeux de la mise en œuvre d’un circuit de synchronisation.

Enrichir les bases de données des partenaires

Précisons tout d’abord que la présence de PPN (identifiants des notices Sudoc) dans les notices présentes dans les bases de connaissance constitue un préalable, indispensable à la synchronisation des exemplaires de ressources électroniques. Les flux de données, qui permettent d’enrichir respectivement la Zone communautaire Alma et la base de données Sebina, impliquent donc dans les deux cas l’injection des PPN dans les notices d’ebooks pourvues d’un ISBN.  

Pour ce faire, des exports réguliers ont été mis en place par l’Abes, selon un rythme hebdomadaire pour Sebina et mensuel pour Alma. Ces flux concernent plus de 400 000 références ISBN/PPN, soit la totalité des références à chaque extraction. Un fichier ISBN/PPN est utilisé afin d’enrichir les notices d’ebooks pourvues d’un ISBN mais dépourvues d’un PPN. 

Par ailleurs, un second flux de données a été activé afin de faciliter le chargement mensuel des bouquets disponibles dans BACON vers la base de connaissance de la Zone Communautaire Alma. Ce flux inclut les bouquets ajoutés dans BACON pendant le mois précédent, ainsi que les renommages et suppressions effectués.

Schéma de synchronisation pour le SGB Sebina (DM Cultura) 

Le schéma ci-dessus présente les différentes étapes du workflow de synchronisation entre le système Sebina et le catalogue Sudoc : 

  1. Activation ou modification du portfolio dans la base de connaissance SFX de l’institution Sebina. Lorsqu’un portfolio est activé/modifié/désactivé/supprimé, il apparaît comme tel dans le rapport MARC-XML de mise à jour généré depuis l’interface d’administration de SFX. Ce rapport est déposé sur les serveurs de DM Cultura et une procédure automatique répercute ces modifications sur la base de Sebina. 
  2. L’exemplaire ainsi créé/modifié/supprimé entre dans le circuit de synchronisation. Export des collections de SFX vers l’institution Sebina 
  3. Pour les notices pourvues de PPN, les exemplaires sont exposés dans l’entrepôt OAI-PMH Sebina avec leur PPN
  4. Le chargeur Sudoc moissonne l’entrepôt OAI-PMH puis convertit les exemplaires moissonnés au format d’exemplaire Sudoc, en respectant le mapping des données pour les fournir à l’API Catcher Sudoc
  5. L’API Catcher se charge de la création de l’exemplaire dans le Sudoc. Un rapport de traitement quotidien est envoyé à l’établissement. 
  6. Les notices bibliographiques exemplarisées sont renvoyées vers le système local dans le cadre des transferts réguliers. Le chargeur Sebina récupère les notices présentes sur le SFTP de l’Abes.

Schéma de synchronisation pour la Zone communautaire Alma

Le schéma ci-dessus présente les différentes étapes du workflow de synchronisation entre le système ALMA et le catalogue Sudoc : 

1- Activation ou modification du portfolio dans l’institution Alma :  l’activation du portfolio permet à l’inventaire de redescendre dans l’institution. Il n’entre dans le circuit de synchronisation que s’il valide trois conditions : 

  • le portfolio doit appartenir à une sélection de ressources électroniques prédéfinie par l’établissement
  • le portfolio doit être lié à une notice disposant d’un PPN
  • le portfolio doit être lié à une notice au format MARC21, une contrainte imposée par la Zone communautaire dont les notices sont en MARC21. 

Ces portfolios sont exposés dans l’entrepôt OAI-PMH d’Alma. 

2- Le chargeur Sudoc moissonne l’entrepôt OAI-PMH puis convertit les portfolios moissonnés au format d’exemplaire Sudoc, en respectant le mapping des données pour les fournir à l’API Catcher Sudoc. 

3- L’API Catcher permet la création de l’exemplaire dans le Sudoc. Un rapport de traitement quotidien est envoyé à l’établissement. 

4- Un transfert régulier spécifique (TRE) en MARC21*  retourne la notice bibliographique de l’exemplaire créé. Le chargeur Alma récupère les notices mises à disposition sur le SFTP de l’Abes. 

*Les notices de documentation électronique de la zone communautaire étant au format MARC21, il est donc nécessaire de fournir en retour du Sudoc les notices au format MARC21 pour permettre la mise à jour des données en local. 

Un environnement technique dédié à la synchronisation

Des RCR dédiés 

Pour  signaler les ressources électroniques via le processus de synchronisation, chaque ILN doit au préalable créer un (ou plusieurs) RCR dédié(s), ce qui facilite le suivi des créations d’exemplaires dans le Sudoc. Il s’agit de RCR de type électronique (99) 

Le moissonnage des entrepôts OAI  

Les données de chaque entrepôt sont moissonnées quotidiennement par un programme JAVA, à une heure fixée en accord avec chaque établissement. Chaque exemplaire doit contenir au minimum :

  • le statut de la donnée
  • le PPN de la notice
  • le RCR de localisation
  • l’identifiant de l’exemplaire dans le système local :  Cet identifiant, stocké dans la zone 919 du format Sudoc, est la clé unique pour les mises à jour de l’exemplaire lors de la synchronisation

Les données sont alors transformées en format PICA+ –  format de stockage des données propre au CBS – grâce à un XSLT (mapping) . Elles sont ensuite stockées dans des tables Oracle puis récupérées par le catcher CBS pour permettre la création dans le Sudoc. 

En parallèle, une seconde table Oracle conserve l’historique de chaque donnée :

  • identifiant
  • PPN
  • date de l’action
  • date de l’exemplaire
  • statut (create, delete, update)
  • état (done, error, undo)
  • type d’erreur. 

En résumé :

1 – Un job Oracle par ILN

2- Le job s’exécute tous les jours à l’heure précisée dans les paramètres

3- Le job enchaine moissonnage puis insertion CBS

Des données pour faciliter la synchronisation

Mapping des données 

Un premier mapping, élaboré en collaboration avec les universités de Bordeaux et Toulouse pour les données exposées dans les entrepôts des établissements Alma, n’étant pas exploitable pour les données d’un autre système, il a été décidé d’en concevoir un second, plus standard, basé sur les Recommandations de description des données d’exemplaire pour l’échange d’information bibliographique en format UNIMARC (Version 3 – Mai 2022. Éditées par le Comité français UNIMARC).

Ce mapping, utilisé pour la synchronisation avec le SGB Sebina, pourrait l’être également avec tout autre SGB. 

Création/mise à jour/suppression des exemplaires dans le Sudoc 

Statut ‘create’ et ‘update’ 

  • L’identifiant local (ID) de l’exemplaire doit être fourni ainsi que son PPN, le RCR et la date de mise à jour. Cette dernière information évite que l’exemplaire ne boucle indéfiniment entre le CBS et le système local.  
  • L’interrogation du CBS (comparaison de la date de l’exemplaire dans l’entrepôt OAI et dans le CBS) permet de sélectionner l’action adéquate : création ou mise à jour. 
  • Un second test – calcul d’un ‘hash’ CBS comparé au ‘hash’ local – permet de vérifier que l’exemplaire est effectivement modifié et peut donc être rechargé dans le CBS.
  • Les données d’exemplaires enregistrées au format ‘PICA+’ dans les tables Oracle sont soumises au programme CBS ‘catcher’, programme qui assure la création des exemplaires dans le CBS conformément aux paramètres enregistrés pour chacun des RCR. 

Précisons que les données sont soumises aux mêmes règles que le catalogage courant : table CBS de catalogage, table CBS de validation. Ainsi, toute erreur est enregistrée dans la table Oracle, récupérée via un webservice puis mise à disposition des établissements, les erreurs pouvant se situer  au niveau de l’exemplaire (absence d’une zone obligatoire) ou au niveau bibliographique (PPN non valide, problème de validation) 

Statut ‘deleted’ 

  • L’entrepôt OAI ne fournissant pas les PPN des notices ayant le statut ‘deleted’, le moissonneur recherche dans la table Oracle un PPN pour l’ID et le RCR concernés puis envoie l’information au service CBS qui supprime l’exemplaire. 

En conclusion

Les circuits de synchronisation décrits dans ce billet constituent une proposition efficace et rationnelle à destination des gestionnaires de la documentation électronique. De la création des exemplaires dans le SGB au signalement dans le Sudoc,  la synchronisation automatique des exemplaires contribue à une réelle valorisation des données.

Plus d’informations

 

 

 

Laisser un commentaire

Aller au contenu principal