Relire les billets :
- Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press
- Nouveau workflow d’import automatisé dans le Sudoc : première évaluation
Forte de cette expérience, l’Abes a souhaité poursuivre dans cette voie avec la mise en production d’un nouveau workflow automatisé pour les ouvrages publiés par Cambridge University Press (CUP).
Critères de sélection
Le choix de ce corpus répond à des critères de sélection simples, similaires à ceux retenus pour les notices de l’offre éditoriale d’Oxford University Press (OUP) :
- Ce corpus répond à un besoin du réseau : CUP est le quatrième éditeur le plus représenté dans l’activité de catalogage de monographies imprimées avec 1 522 titres localisés dans le Sudoc en 2018, sur un total d’environ 2 500 nouvelles publications annuelles de Cambridge University Press.
- Un catalogue de monographies imprimées et électroniques est à disposition à cette adresse http://datashop.cambridge.org. Les métadonnées sont accessibles via un serveur SFPT ce qui permet leur récupération automatique.
- Le format disponible est l’ONIX 2.1 standard.
- Les métadonnées sont de qualité suffisante pour être importées dans la base de production du Sudoc.
Récupération des métadonnées
Cambridge University Press propose un export des métadonnées de son catalogue dans son intégralité ou par sous-ensembles éditoriaux. L’équipe en charge de l’import a fait le choix d’un traitement hebdomadaire : le mardi pour les monographies imprimées et le jeudi pour l’électronique. Grâce à ce processus, toutes les nouvelles publications sont signalées de manière exhaustive dès leur parution.
Traitement automatisé des notices : les étapes du workflow
Création automatique de la zone B452
Contrairement au traitement des notices réalisé pour l’import OUP, il n’est pas nécessaire d’utiliser de fichier Kbart pour créer les notices des ebooks. En effet, pour l’import automatisé CUP, les zones 452 qui permettent de lier les notices de monographies imprimées à leurs versions électroniques, sont générées automatiquement à partir des métadonnées nativements fournies par l’éditeur.
Ainsi dans l’exemple ci-dessous, la balise <RelationCode> a pour valeur “27”, code propre au format ONIX qui renvoie vers une liste. Ici, ce code spécifie qu’une version électronique est disponible. Les informations complémentaires se trouvent dans les autres éléments : <ProductIDType>, le code ” 15” correspond à l’ISBN 13, la chaîne de caractères mentionnée entre les balises <IDValue> correspondant à cet ISBN.
Dans le Sudoc, la zone 452 est exprimée ainsi :
452 ##$tPartial Differential Equations Arising from Physics and Geometry$oA Volume in Memory of Abbas Bahri$y9781108367639
Pour les notices d’ebooks, c’est cette même propriété <RelatedProduct> qui permet de construire la réciproque, de la notice électronique vers l’imprimé : le code 13 de la balise <RelationCode> indique qu’une version imprimée existe pour ce titre.
Comme pour sa version imprimée, la notice d’ebook dispose également d’une zone 452 construite sur le même modèle :
452 ##$tPartial Differential Equations Arising from Physics and Geometry$oA Volume in Memory of Abbas Bahri$y9781108431637
Pour cet ouvrage Partial Differential Equations Arising from Physics and Geometry : A Volume in Memory of Abbas Bahri, deux notices sont donc générées : une pour la version imprimée, l’autre pour la version électronique.
Comme les zones 452 sont renseignées par les titres et les ISBN-13, un programme de liage automatique permet ensuite, à chaque chargement, de créer les liens et remplacer les sous-zones $t, $o et $y par un $0 qui renvoie vers le PPN de la notice imprimée vers l’électronique et inversement.
Enfin, un autre script – qui permet de faire les liens dans la zone 452 – est lancé une fois par mois sur la totalité des notices de l’éditeur CUP afin d’assurer leur mise à jour régulière.
Transformations
De même que pour les imports OUP, cette étape implique l’enchaînement de plusieurs processus, s’exécutant dans différents environnements informatiques :
- Transformations XSL
- Requêtes SQL et procédures dans le système de gestion de base de données ORACLE qui joue, dans cette architecture, le rôle d’orchestrateur
- Requêtes SPARQL dans une base RDF Virtuoso
- Programmes externes d’alignements…
Le tout est piloté par une interface d’administration graphique de gestion de workflow qui, grâce à l’agencement des différentes briques entre elles, offre une bonne visibilité sur le déroulé des opérations (ex : suivi et rapports d’erreurs…).
Dans un premier temps, les données fournies par l’éditeur sont converties en RDF. Pour cela, il convient au préalable d’analyser finement les données afin de comprendre comment l’éditeur utilise l’ONIX 2.1, en partant du principe que celui-ci reste cohérent dans le temps afin que le mapping – entre le format ONIX et les propriétés sélectionnées dans différents vocabulaires – n’évolue que marginalement, voire pas du tout. Une fois ce mapping validé, le chargement en base RDF est prêt à être réalisé.
Enrichissements
Les opérations d’enrichissements peuvent alors commencer :
- Récupération des triplets RDF Auteurs exposés via le catalogue WorldCat
- Récupération de l’indice Dewey d’OCLC via WorldCat
- Récupération de l’indexation de la Bibliothèque du Congrès ($2lc) issue de WorldCat
- Alignement des auteurs WorldCat/IdRef en s’appuyant sur les données de VIAF
- Alignement des auteurs en s’appuyant sur Qualinka.
Chargement dans la base de production du Sudoc
Pour finaliser l’import automatique des notices dans la base de production du Sudoc, un script de conversion en MARC a été paramétré spécifiquement. Après un dernier traitement de comparaison avec des notices ressemblantes déjà présentes dans le Sudoc, les notices sont soit fusionnées, soit placées en statut “candidat doublon”, soit créées.
A ce stade, le système de fusion automatique atteint ses limites : une intervention des catalogueurs du réseau est nécessaire pour décider s’il faut fusionner ou créer.
Précisons que les notices chargées en base de production respectent bien entendu les nouvelles consignes relatives à l’enregistrement des points d’accès.
La suite …
L’équipe en charge du projet reviendra vers les professionnels réseau afin de recueillir leurs avis concernant ces nouvelles notices.
Pour le moment, il n’est pas envisagé de poursuivre ces opérations d’imports automatisés. En effet, l’équipe va se consacrer à de nouveaux projets, notamment autour de la convergence des données BACON vers celles du Sudoc. D’autre part, les premières ressources achetées dans le cadre du projet CollEx-Persée commencent à être livrées à l’Abes et sont en cours d’évaluation, d’exemplarisation et seront bientôt mises à disposition des établissements.