Nouvel import Sudoc : les notices du catalogue Général de la BnF par son service SRU

  • Auteur/autrice de la publication :
  • Post category:Sudoc
  • Commentaires de la publication :2 commentaires
Print Friendly, PDF & Email

en résumé : les nouvelles notices du Catalogue Général de la Bibliothèque nationale de France (BnF) sont dorénavant importées de façon hebdomadaire. Le workflow mis en place par l’Abes permet leur récupération en interrogeant le service SRU (Search Retrieval via URL) de la BnF, leur traitement et leur enrichissement. Le périmètre de l’import de notices BnF s’élargit puisque les notices descriptives des documents cartographiques, les pré-notices et les notices multimédias multisupports sont également chargées en base de production. 

Jusqu’à présent, l’import des notices issues de la BnF était effectuée lors de chargements bimensuels par la récupération des fichiers déposés sur leur serveur. Depuis janvier 2021, ce chargement est remplacé par un import automatique hebdomadaire programmé chaque  mardi qui s’appuie sur  le service SRU de la BnF.

Périodicité et périmètre de l’import

Périodicité

Grâce aux workflows mis en place, les notices issues de la BnF sont versées, enrichies et mises à jour chaque semaine dans la base de production du Sudoc.

Périmètre de l’import

Ce flux conserve le périmètre de l’import bimensuel initial (monographies imprimées, ebooks, enregistrements sonores musicaux et non musicaux, documents audiovisuels). En outre, ce chargement concerne de nouvelles données : les notices des documents cartographiques et des documents multimédias multisupports ; les pré-notices.

à noter : cet import ne concerne pas les notices de périodiques, récupérées grâce à l’import ISSN ni  les autorités qui ne sont pas chargées par ce flux. 

Les pré-notices

Les pré-notices émanent du service du dépôt légal. Bien qu’elles possèdent un identifiant ARK en zone B033, elles sont produites par les éditeurs et n’ont donc pas été contrôlées « document en main » par un bibliothécaire.  Relativement sommaires, elles sont reçues par la BnF au format ONIX puis transformées et diffusées au format MARC. 

Les pré-notices sont signalées dans WinIBW par un statut particulier – en position 3 de la zone B008 (valeur “c”) – pour alerter le catalogueur sur la qualité des données enregistrées : celles-ci doivent en effet impérativement être vérifiées et complétées (indexation, liage aux autorités, etc.) ;  le statut en B008 doit être modifié de “c” en “x” afin que la notice puisse être exemplarisée et rendue visible dans le Sudoc public. 

Par ailleurs, la zone B309 avertit qu’il s’agit d’une pré-notice :

  • 309 ##$aPré-notice ne contenant que des informations minimales, à compléter impérativement avant localisation. Supprimer la présente note 309 une fois la (les) correction (s) effectuée (s)

En outre, certaines notices bibliographiques, considérées comme trop pauvres selon les critères de sélection établis pour effectuer ce premier tri, sont récupérées via le SRU mais exclues de l’import. Ces zones ont été choisies du fait de leur importance pour qualifier et identifier une ressource :

  • notice sans ISBN (zone B010)
  • notice sans date de publication (zone B100)
  • notice sans aucune mention de publication, production, diffusion, fabrication (zone B214)
  • notice sans aucune mention de responsabilité (zones B7XX)

Précisons enfin que les notices en base de production Sudoc qui n’auront été ni corrigées ni localisées seront remplacées  au fur et à mesure de la mise à disposition des notices corrigées via le service SRU de la BnF.

à noter :  tous les éditeurs n’envoyant pas leurs données à la BnF, les pré-notices ne sont pas représentatives de l’ensemble de la production éditoriale française.

Les cartes (hors manuscrits)

Le périmètre des imports s’élargit également aux notices des documents cartographiques qui sont dorénavant versées en base de production avec les statuts « x » et « c » en B008 (position 3).

Toutefois, des écarts de signalement existent entre les deux agences, notamment dans le traitement des séries cartographiques (à ne pas confondre avec les séries éditoriales, dont les notices sont importées d’ISSN). Ainsi, dans le Sudoc, afin d’éviter le catalogage à niveau selon les consignes élaborés dans le cadre des GT dédiés aux cartes (réunis en 2003 puis 2010), le titre de la série et le titre de la carte sont tous deux enregistrés dans la zone de transcription du titre : B200 $a[titre de la série] $h[n° de la carte en feuille dans la série] $i[titre de la feuille]).

Pour sa part, la BnF distribue ces données dans plusieurs zones distinctes : le titre propre de la feuille est enregistré en B200 $a et le titre de la série est enregistré en B225 $a et B461 $t, à l’instar d’une suite fermée. 

L’exemple ci-dessous illustre cette différence de catalogage. Dans la première colonne, une notice de carte produite par la BnF, dans la seconde, la même notice cataloguée dans le Sudoc : le contenu de la zone B225$a est retranscrit en B200$a et $h, créant une différence dans le titre propre.

Tableau comparatif notice NBnF et Sudoc

Bien que l’Abes ait conscience des problèmes que peut engendrer ce changement de pratiques et d’habitudes en matière de catalogage, force est de constater que cet import de cartes comporte de nombreux avantages pour le réseau : les zones de données codées sont déjà remplies dont les zones les plus fastidieuses (zones B12X avec toutes les données géographiques, latitude, longitude, etc.), les formats dans la zone B215 sont traités avec plus de précision, l’indexation géographique est en partie réalisée, etc. 

Afin de les rendre conformes au catalogage des documents cartographiques dans le Sudoc, les catalogueurs sont invités à modifier les zones B200 / B225 et B461 issues de la BnF. 

à noter : ce nouvel import permet de récupérer de la BnF toutes les cartes de l’IGN – Institut national de l’information géographique et forestière, évitant ainsi au réseau de les dériver une à une.

Les documents multimédias multisupports

En dehors de quelques différences de catalogage (ex : cas de notices signalant l’usage de matériel désormais obsolète/désuet, par exemple des transparents pour rétroprojecteur) qui ne concernent qu’un nombre trés restreint de notices, les pratiques de catalogage de ce type de documents se sont harmonisées entre les deux agences. L’ import de ces notices dans le Sudoc ne pose donc pas de problème particulier. 

Le workflow de traitement

Le service SRU proposé par la BnF permet d’interroger son Catalogue Général soit via des requêtes http soit à l’aide du formulaire disponible à cette adresse.

La requête mise en place par l’Abes a été construite afin de récupérer  :

  • les monographies imprimées
  • les monographies électroniques
  • la musique notée hors manuscrits
  • l’audiovisuel
  • les documents cartographiques (hors manuscrits)
  • les documents multimédias multisupports

La requête est la suivante :

http://catalogue.bnf.fr/api/SRU?version=1.2&operation=searchRetrieve&query=bib.doctype%20any%20%22a%20c%20g%20h%20r%20s%20e%22%20and%20bib.lastmodificationdate%20all%20%2220191001%22&recordSchema=unimarcxchange&maximumRecords=500&startRecord=1

Toutes les notices récupérées sont stockées dans une table au sein d’une base Oracle puis sont triées à l’aide d’un statut particulier. Seules les notices ayant un statut “in” sont traitées au cours de la prochaine étape : il s’agit soit de nouvelles notices à créer soit des mises à jour de pré-notices :

Import SRU BnF : répartition des notices par imports
Notices non traitées : périodiques et/ou notices avec des zones manquantes (B010 et/ou B100 et/ou B214 et/ou B7XX)

 

 

 

 

 

 

 

En sortie, les fichiers sont au format XML puis convertis au format ISO 2709. Les notices sont ensuite stockées dans une base interne de travail à partir de laquelle est lancé un programme de transformation configuré spécialement pour cet import. 

En effet, rappelons que les notices de la BnF ne sont pas au format ‘UNIMARC Sudoc’. Il convient donc de les ajuster afin de les rendre conformes au catalogue Sudoc. Sans rentrer dans les détails dans ce billet, voici quelques-unes des transformations effectuées : 

  • ajout de la zone B183 (type de support)
  • modifications des zones de points d’accès auteur dans la perspective des futures entités LRM : par exemple, le directeur de publication et l’éditeur scientifique sont désormais enregistrés dans le Sudoc comme agents associés au niveau œuvre/expression (donc en B700/B701 et non plus B702) …

Même si, bien entendu, les programmes ne remplaceront jamais la vigilance des catalogueurs, certaines corrections sont également effectuées sur les pré-notices afin de faciliter leur travail  : correction de(s) zone(s) B214, contrôle sur la zone de titre en B200, ajout d’une note en B309 lorsqu’il n’y aucun code de fonction en B7XX, etc. 

Lors d’une dernière étape, le programme vérifie si les notices candidates ne sont pas déjà présentes dans la base de production en scannant différentes zones clés (numéro source, ISBN, etc). Pour chaque type de notice, le programme effectue deux passages : 

  • premier traitement : en base de production, le programme interroge sur l’index « numéro source » les notices ayant un statut « c » en zone B008. Si dans le lot chargé, la BnF fournit la notice complète et corrigée avec un statut « x », celle-ci écrase la notice Sudoc en appliquant toutes les mises à jour nécessaires, notamment le changement de statut dans la zone B008. On considère en effet qu’une pré-notice importée de la BnF une première fois avec un statut “c”, dans la mesure où elle aura été corrigée par le catalogueur, aura été dotée du nouveau statut « x ». Ainsi, les corrections et enrichissements apportés par le réseau sont conservés.  
  • second traitement : en base de production, le programme analyse  toutes les autres notices ayant un autre statut que « c » en zone B008 : statut « v » (notice verrouillée), « x » (notice complète), « r » (ancienne notice de rétroconversion), « a » (notice d’acquisition) et « y » (notice provisoire). Pour cette étape de fusion, le programme interroge les index « numéro source » (zone B033), « ISBN » (B010) et « titre clé » (B200). 

Si la notice n’existe pas dans le Sudoc ou qu’il y a moins de 58% de ressemblance avec des notices déjà présentes, des nouvelles notices sont créées. Précisons que les notices n’ayant pu être importées en base de production, sont intégrées en base d’appui (base de données servant de réservoir à la base de production Sudoc à la disposition des catalogueurs pour un rapatriement rapide des notices). Ce reliquat est constitué de notices ayant un taux de ressemblance supérieur à 59% et, jusqu’à présent, de notices multimédias multisupports (Za). De même qu’en base de production, le programme interroge l’index « numéro source » (B033) et opère une fusion en cas de similitude. Les notices déjà présentes en base d’appui sont donc remplacées par les notices entrantes. Dans le cas contraire, de nouvelles notices sont également créées.

La suite ?

À la fin d’une période d’essai de 6 mois, l’Abes reviendra vers les catalogueurs du réseau Sudoc afin de recueillir leur avis sur ce nouveau flux, et notamment ce qui concerne leur utilisation des pré-notices et des notices de documents cartographiques. Il conviendra alors de décider de la pertinence de maintenir ces données dans l’import automatisé. 

En savoir plus 

 

Cet article a 2 commentaires

Laisser un commentaire

Tweetez
Partagez
Partagez
Aller au contenu principal