CERCLES : bilan du chantier AMS

Le chantier CERCLES American Mathematical Society

Description du corpus

Crédit image : David Stewart

Plusieurs bibliothèques du RNBM acquièrent des collections d’ebooks publiées par l’American Mathematical Society (AMS). Trois d’entre elles ont choisi de participer à un chantier commun CERCLES AMS. Ce travail de correction et d’enrichissement concernait un total de 2760 notices d’ebooks, et presque autant de monographies imprimées.

Le chantier a été circonscrit aux 13 collections suivantes, seules disponibles en ebooks au moment de l’ouverture du chantier (l’éditeur a publié depuis de nouvelles collections d’ebooks).

  1. Mathematical Surveys and Monographs (1943 – 2015) : ​SURV​ 215 notices
  2. Graduate Studies in Mathematics (1993-2013) : ​GSM​ 127 notices
  3. Student Mathematical Library (1999-2015) : ​STML​ 73 notices
  4. University Lecture Series (1989-2015) : ​ULECT​ 63 notices
  5. Memoirs of the AMS (1950-2015) : ​MEMO​ 1141 notices
  6. Proceedings of Symposia in pure Mathematics (1959-2015) : ​PSPUM ​117 notices
  7. Proceedings of Symposia in Applied Mathematics (1949-2014) : ​PSAPM​ 73 notices
  8. Contemporary Mathematics (1980-2015) : ​CONM​ 665 notices
  9. CBMS Regional Conference Series in Mathematics (1970-2015) : ​CBMS​ 129 notices
  10. Colloquium Publications (vol.1(1905)-vol.62(2016)) : COLL 63 notices
  11. AMS non-series monographs (2007-2015) :​ MBK​ 53 notices
  12. CBMS Issues in Mathematics Education (1990-2012) : ​CBMATH ​18 notices
  13. Mathematical World (1991-2013) : ​MAWRLD​ 23 notices

Il a également fallu définir un état de collection précis, surtout pour les collections vivantes avec un accroissement annuel. L’année 2015 a ainsi été souvent choisie comme année de clôture car il s’agissait de la dernière année complète au moment du démarrage du chantier et de l’import des notices de l’éditeur.

Description du chantier

Les 3 établissements ayant participé au projet

  • Bibliothèque de Mathématiques Informatique Recherche (MIR), qui dépend de Sorbonne Université et de l’université Paris Diderot ; 
  • Bibliothèque de Mathématiques et Informatique de l’École normale supérieure (Paris) ;
  • Bibliothèque de  Mathématiques  et  Mécanique,  Institut de Mathématiques de Toulouse, Université Paul Sabatier de Toulouse.

L’équipe CERCLES transversale était composée de 7 personnes

  • 1 personne à la Bibliothèque de Mathématiques et de Mécanique de Toulouse : travail sur les notices de la collection 7
  • 1 personne à la Bibliothèque de Mathématiques et Informatique de l’ENS : travail sur les notices de la collection 9
  • 3 personnes en simultané à la Bibliothèque MIR (soit 5 participants au total, au fil des départs et arrivées) : travail sur les notices de 11 collections
  • 2 coordinateurs, dont un parti en mutation en 2017

Durée du chantier

Le chantier, commencé fin mai 2016, a duré un peu plus de 2 ans et demi. Dans l’acte d’engagement signé en février 2017, la fin du chantier avait été évaluée à décembre 2017. Il s’est finalement terminé en février 2019, la durée du chantier ayant dû être prolongée pour différentes raisons : mutations  au sein de l’équipe, délai de formation des nouveaux collègues, priorité donnée provisoirement à d’autres tâches. 

Il est donc difficile d’évaluer avec exactitude le temps de travail réel consacré à ce chantier. Nous annonçons, avec réserve, le chiffre de 20 à 25% d’ ETP pour 3 catalogueurs, soit 60 à 75% d’un ETP au total.

Déroulement du chantier 

Création des notices d’ebooks 

Très peu de notices de ce corpus existaient dans le Sudoc au commencement du projet. Les notices des 9 premières collections ont été importées dans le Sudoc suite à la transformation en Unimarc des notices Marc 21 fournies par l’éditeur. Il a fallu établir un tableau de correspondance pour transformer des notices Marc 21 en notices Unimarc et enrichir les notices Unimarc avec certaines données codées. Cette phase d’import a été principalement effectuée par le correspondant Sudoc de Sorbonne Université avec le soutien de l’Abes et des catalogueurs de la MIR. Cette étape a également permis de recenser les zones à reprendre dans les notices des imprimés (autorités personnes physiques ou collectivités, codes de fonction, disparité des indexations, notamment dans le cas des mélanges).

Concernant les notices des 4 collections restantes, moins importantes en nombre, il a été choisi de créer de nouvelles notices ou de dériver des notices de la version imprimée.

Utilisation d’un document de travail collaboratif 

Un document de travail collaboratif a été créé et partagé entre les membres du chantier. Il s’agit d’un tableur “Google Document” comportant un onglet par collection. Chaque onglet liste des titres de la collection (en ordonnées), et les champs à corriger/vérifier (en abscisses). Dans chaque cellule, si un ajout/modification est réalisé, on saisit ”1”, sinon “0”. Cette trame de départ a progressivement évolué en fonction des pratiques de chacun, des spécificités des collections et de l’évolution des normes de catalogage. 

Chaque collection a été attribuée à une seule personne, à l’exception des 2 plus importantes collections qui ont été partagées : Memoirs of the AMS (5 catalogueurs successifs) et Contemporary Mathematics​ ​ (3 catalogueurs).

Dès le début du chantier, 13 demandes ISSN ont été effectuées dans CIDEMIS pour créer les notices de collections électroniques. Cela a permis d’incrémenter directement le PPN de la collection dans les notices Sudoc importées via le site de l’éditeur. Chacune des collections AMS est identifiable par son code de collection (en gras dans le tableau) et repérable dans WinIBW avec la commande CHE SOU AMS-code de collection​ ​?

Extrait du fichier collaboratif de suivi

Travail sur les notices des monographies imprimés 

Des étapes de vérification, correction, ajout et mise à niveau suivant les consignes RDA-FR ont été réalisées sur la majorité des notices d’imprimé, lorsqu’elles existaient (voir la liste ci-dessous). La mise à niveau RDA-FR de différents champs, demandée par l’Abes, a impliqué davantage de corrections des notices d’imprimés qu’initialement prévu.

Listes des champs ajoutés/corrigés

La liste ci-dessous donne le détail des principales opérations effectuées. Il s’agit d’une liste indicative, toutes les collections n’ayant pas nécessité la correction de tous ces champs. En outre, chacun des catalogueurs impliqués dans ce chantier a pu adapter cette trame.

Enrichissements préconisés sur les notices des documents imprimés existantes : 

  • 181, 182, 183 : insertion des zones si absentes
  • 200 : correction des indicateurs, suppression du $b, correction du titre si nécessaire
  • 210 / 219 : remplacement de 210 par 219, correction des noms d’éditeur erronés, mise au norme de la zone (abréviations)
  • 225 : correction des indicateurs, traitement spécial de publications valant parution dans un périodique (Israël Mathematical Proceedings), traitement de « Centre de recherche mathématiques Proceedings » en sous-collection
  • 410 : lien à la collection
  • 606 : complétude de l’indexation si nécessaire
  • 686 : ajout MSC si absent
  • 7XX : création des autorités Auteurs (personnes physiques, congrès), insertion des codes de fonction absents (signalés par une zone de note 309), suppression du code de fonction 420 (« personnes honorées ») et remplacement par une zone 503 et une indexation Rameau « Hommage ».

Enrichissements préconisés sur les notices des documents électroniques, après import des notices : 

  • 008 : remplacement « Oay » par « Oax3« 
  • 010 : vérification des ISBN, correction si nécessaire
  • 035 : vérification de la présence du n° d’import
  • 105 : insertion des données codées
  • 181, 182, 183 : insertion 
  • 200 : remplacement « 200 0# » par « 200 1#« , vérification du titre par rapport à la version imprimée
  • 205 : vérification de la mention d’édition, création de la zone 305 ##$aEdition électronique correspondant à l’édition de : Providence (R.I) : American Mathematical Society, cop.2012 (2nd edition)
  • 219 :  correction des noms d’éditeur erronés, mise au norme de la zone (abréviations)
  • 225 : remplacement de « 225 0# » par « 225 2#« , suppression des collections reprises de la version imprimée, autres que la collection de l’AMS, seule identifiée comme « électronique » sur la plateforme de l’éditeur. 
  • 307 : vérification et correction (la notice fournie par l’éditeur est souvent parcellaire, avec des incohérences sur les mentions d’illustrations)
  • 320 : insertion des mentions de bibliographie, à partir de la notice de la version imprimée
  • 359 : résumés : vérification de la syntaxe générale après la transformation liée à l’import, correction des mentions en anglais
  • 410 : lien à la collection électronique
  • 452 : lien vers la notice du document imprimé
  • 540 : ajout d’autres formes du titre (transcription alphabétique des signes mathématiques)
  • 6XX : reprise des éléments d’indexation à partir de la notice de la version imprimée
  • 7XX : reprise des accès auteurs à partir de la notice de la version imprimée
  • 859 : vérification du lien éditeur, vérification du DOI
  • E856 : vérification de l’URL d’accès vers le bon fichier (et bonne édition)

Bilan 

Un contrôle qualité mensuel, effectué par le coordinateur Sudoc sur l’ensemble des notices travaillées à Sorbonne Université, permet de faire ressortir des erreurs et absences de liens en 410, 452, 606, 700, etc.  Ainsi, une cinquantaine de lien 410 sur des notices papier AMS ont pu être corrigées par la coordinatrice du catalogage de la bibliothèque MIR.

Remarques et difficultés rencontrées

La succession des personnes impliquées dans le projet, le départ de personnes compétentes et investies, le nombre et l’éloignement géographique sont des difficultés évidentes pour mener un projet, quel qu’il soit. En outre, le caractère “non urgent” de ce chantier l’a rendu non prioritaire vis à vis d’autres projets d’établissements, ce qui a valu un retard non négligeable sur les prévisions de départ.

Un des participants au chantier propose une légère modification de la forme du tableau de bord partagé du chantier CERCLES (Google Sheet), s’il s’agit d’un modèle destiné à être repris. Il s’agirait d’indiquer simplement le nombre de notices modifiées, champ par champ, sans détailler pour chaque notice à traiter. Supprimer le détail des modifications notice par notice simplifierait la structure et la constitution du tableau (pas de téléchargement d’extraits des notices à traiter de WinIBW vers l’onglet, hormis éventuellement les PPN et le titre), ce qui rendrait aussi immédiatement lisibles les statistiques champ par champ.

L’évolution en cours de route du format de catalogage a légèrement augmenté la to-do-list. 
Mais au final, ce chantier a grandement permis d’améliorer la qualité du signalement des collections imprimées et électroniques. 

À noter : la MIR a fait l’acquisition de tous les ebooks publiés plus récemment dans les collections 1, 2, 3, 4, 6, 7, 8, 10 et se charge du catalogage courant de ces ebooks en suivant les mêmes règles de catalogage que celles du chantier. L’ENS se charge quant à elle du catalogage de la collection 5. Un catalogage courant de qualité est donc assuré, dans la continuité de CERCLES.

Rédigé par Bérengère Warneck
avec la collaboration d’Amar Makhlouf, Gilles Aroul, Thibault Ka,
Lise Eschenbrenner, Chantal Sauvageot, Brigitte Laude, Nayara Gil Condé, Julie Janody et Dominique Barrère.

Rappel : Relire tous les billets concernant le dispositif CERCLES

Continuer la lecture

Nouveau workflow d’import automatisé dans le Sudoc : première évaluation


Licence : Paternité. Pas de modification. Certains droits réservés par mbtphoto (away a lot). Source Flickr

Ce billet s’inscrit dans la continuité de l’article Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press.

Suite aux retours des d’établissements ayant répondu à l’appel lancé le 4 février dernier via la liste Corcat  “Votre avis sur la qualité des notices Oxford University Press – import courant”, l’Abes a pu dresser un premier bilan et adapter ce workflow.

Continuer la lecture

Un nouveau web service pour les Plans de Conservation Partagée des périodiques


Un nouveau webservice PCP2RCR développé par les équipes de l’Abes est à la disposition des utilisateurs pour obtenir la liste – et la géolocalisation – des bibliothèques (RCR) participant à un Plan de Conservation Partagée (PCP) de Périodiques.

Pour fonctionner, ce webservice utilise la présence, dans les données d’exemplaires, de la sous-zone 930$z [code PCP], ce qui permet de faire remonter les bibliothèques concernées par un PCP ainsi que les informations les concernant : n° ILN, n° RCR, identifiant IdRef de la notice RCR, Nom de l’établissement, Intitulé court de l’établissement, Adresse, Téléphone, Email, Site web, Type de bibliothèque, Latitude, Longitude.

De plus, ce webservice facilite la détection d’erreurs manifestes, comme par exemple les données de latitude/longitude ou la présence d’un code PCP erroné dans un exemplaire.

Continuer la lecture

CERCLES : le premier chantier dédié aux autorités


En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner, aider et valoriser un établissement souhaitant s’investir sur l’enrichissement des données d’un corpus de documents spécifique. Initiée avec 4 établissements, l’expérimentation fut concluante : très vite, d’autres établissements ont rejoint le dispositif puisque 3 ans après, on dénombre 17 chantiers CERCLES d’enrichissements de données bibliographiques.

Dès sa mise en place, l’Abes annonçait son intention d’étendre le dispositif d’accompagnement à d’autres types de données afin de créer un cercle vertueux. Le dispositif a en effet été pensé afin de s’adapter à tous les corpus, puisqu’il s’agit :

    • pour l’établissement : d’enrichir des données
  • pour l’Abes : de conseiller, de faciliter par des traitements automatiques et de rendre compte

Continuer la lecture

Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press


[English abstract at the bottom of this blog’s post]D’un point de vue technique, charger des corpus de livres dans le Sudoc n’est pas très difficile. Depuis plusieurs années, les équipes de l’Abes importent régulièrement des ensembles de notices MARC en provenance de différents éditeurs (Springer, CAIRN …) et, globalement, ces notices sont bien utilisées par les bibliothèques du réseau.

Pourquoi un nouveau workflow d’imports de données dans le Sudoc ?

Pour autant, on a pu constater que ce système comporte des limites : en amont, il n’est pas toujours évident de récupérer auprès des éditeurs des notices MARC – si possible de bonne qualité, cette démarche exigeant généralement de nombreux aller-retours. En aval, ce type d’opérations de chargement dans le Sudoc requiert des interventions et compétences spécifiques, relativement rares à l’Abes. Autant d’éléments qui rendent les processus actuels difficilement scalables et difficile aussi l’atteinte de l’objectif de signalement total. Aussi, il s’est avéré indispensable de réfléchir  à la conception de nouveaux  workflows,  afin de réaliser automatiquement les opérations d’ingestion,  transformation, enrichissements et chargement dans le Sudoc.

Continuer la lecture

Utiliser un webservice de l’Abes sans être développeur : vers l’infini et au-delà


punktokomo_these_5logo_-abes1.pngSuite aux Journées Abes 2018 et  au tutoriel de Sylvain Machefert (Bibliothèques de l’Université Bordeaux Montaigne) sur l’utilisation des WebServices de l’Abes (NNT2PPN, PPN.xml, etc.) via OpenRefine, le service des Thèses de l’Abes s’est dit que, oui, vraiment, mettre en regard le nombre de thèses de doctorat publiées en version commerciale et le périmètre de diffusion en ligne choisi par les docteurs était une bonne idée !

Nous avons donc reproduit le projet de Sylvain Machefert en l’élargissant à l’ensemble des thèses de doctorat soutenues, déposées au format électronique et traitées dans STAR.

Continuer la lecture

Paprika, une interface pour des liens aux autorités de qualité


Lors des Journées Abes 2018, certains participants ont pu assister à une démonstration de Paprika, interface dédiée à la visualisation, la création et la correction de liens d’autorité. Cette interface reprend les principes du démonstrateur présenté lors des Journées 2017.

.Pour que chacun puisse prendre connaissance de ce nouvel outil, l’équipe a produit deux petites vidéos qui donnent un aperçu rapide des fonctionnalités de Paprika. Précisons qu’elles ont été présentées lors du dernier congrès ELAG.

Continuer la lecture

Signaler les thèses déposées sur TEL dans le Sudoc et theses.fr


35 000 thèses TEL proviennent de Star : et les autres ?

logo_telActuellement, 75 000 documents  estampillés « thèses » sont déposés sur TEL. Or, si 35 000 documents  – qui proviennent de l’application Star – sont bien estampillés « version validée par le Jury », 40 000  d’entre eux ne sont signalés ni dans le Sudoc ni sur theses.fr, alors même que le lien vers le texte intégral de la thèse peut avoir un intérêt pour les lecteurs. Suite à ce constat, plusieurs établissements, soucieux d’offrir une visibilité plus importante à ces travaux de recherche, ont sollicité l’Abes en vue de leur signalement automatique. Deux options s’offraient :

  • importer les notices de TEL en s’appuyant sur leurs métadonnées (XML TEI) pour les transformer en Unimarc.
  • décrire ces documents via les notices des thèses originelles déjà présentes dans le Sudoc.

Continuer la lecture

La géolocalisation des autorités géographiques dans le Sudoc – partie 2


Cette série de billets écrite par Elena Avellino présente le travail de géolocalisation de notices d’autorité géographiques dans le Sudoc, réalisé par l’École française de Rome.

  1. Finalités, modalités et applications
  2. Mode d’emploi de la géolocalisation (ce billet)

Ce billet expose les modalités de géolocalisation et la transcription de ces données dans l’outil de production du Sudoc, WinIBW.

Continuer la lecture