Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press

Pourquoi un nouveau workflow d’imports de données dans le Sudoc ?

D’un point de vue technique, charger des corpus de livres dans le Sudoc n’est pas très difficile. Depuis plusieurs années, les équipes de l’Abes importent régulièrement des ensembles de notices MARC en provenance de différents éditeurs (Springer, CAIRN …) et, globalement, ces notices sont bien utilisées par les bibliothèques du réseau. Pour autant, on a pu constater que ce système comporte des limites : en amont, il n’est pas toujours évident de récupérer auprès des éditeurs des notices MARC – qui plus est de bonne qualité – et cela exige souvent de nombreux aller-retours. En aval, ces opérations de chargement dans le Sudoc requièrent des interventions humaines et des compétences spécifiques, relativement rares à l’Abes

Ceci rendant les processus actuels difficilement scalables et difficile aussi l’atteinte de l’objectif de signalement total, il s’est avéré indispensable de réfléchir  à la conception de nouveaux  workflows, processus en mesure de réaliser automatiquement les opérations d’ingestion, de transformation, d’enrichissements et de chargement dans le Sudoc

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Pour les besoins de la démonstration, nous avons agrégé des données diverses et variées, mais finalement cette auberge espagnole n’est pas si anarchique : tout mène à tout, et on peut regrouper les jeux de données de différentes manières :

  • Données descriptives vs Référentiels
  • Données produites par les réseaux ABES vs Données de tiers
  • Données du monde des bibliothèques vs Données d’autres mondes (science, administration, etc.)
  • Données récupérées en RDF vs Données produites en RDF

Mais dans ABES, il y a B : notre réseau de données se déploie autour des données bibliographiques, qui décrivent des livres, des revues, mais également des chapitres et des articles.

Continuer la lecture

Une zone 309 pour coordonner le travail collectif sur la qualité des données Sudoc

Au moment du chargement de nouvelles notices ou à l’occasion d’un chantier de contrôle qualité, l’ABES peut être amenée à effectuer des modifications de masse pour améliorer ou corriger des notices. Hélas, tout n’est pas automatisable – surtout si on tient à conserver un certain niveau de qualité bibliographique. Une fois que les algorithmes ont parlé et atteint leurs limites, l’ABES passe le relais au réseau, qui possède la force de frappe et l’expertise humaine pour continuer le travail, ne serait-ce qu’en se concentrant sur l’essentiel ou le prioritaire.

Mais, précisément, qu’est-ce qui est essentiel ? Qu’est-ce qui est prioritaire ? Sur quelles notices faut-il que le réseau se mobilise ? Et sur quels points précis dans les notices ? Étant donné la taille de la base, le volume des entrées et la richesse des règles, chaque catalogueur, chaque service de catalogage peut se sentir perdu devant l’ampleur de la tâche. C’est pourquoi l’ABES souhaite structurer d’avantage l’organisation de cet immense travail collectif. Cette volonté se traduit aujourd’hui sous une forme très concrète : la zone 309…

Continuer la lecture

DoMyBiblio

Fonctionnalités

DoMyBiblio est un outil en ligne d’édition de bibliographie reposant sur les données du SUDOC. Développée en PHP, cette application permet, à partir d’une liste de numéros ISBN, d’obtenir l’affichage d’une bibliographie, contenant, pour chaque document :

  • 4 éléments de description (Titre / Auteur / Édition / Description)
  • une vignette représentant la couverture (lorsqu’elle est disponible) provenant du service Amazon.

Cette bibliographie peut être imprimée ou enregistrée au format PDF.

Continuer la lecture

Un serveur SPARQL pour le Sudoc

Depuis juillet 2011, l’ensemble des données Sudoc est accessible en RDF. Si on connaît son identifiant, chacune des dix millions de notices du Sudoc peut être affichée en RDF/XML. Mais encore faut-il connaître cet identifiant… Ce dispositif est utile pour permettre à un programme de naviguer de notice en notice, y compris en rebondissant sur les données RDF d’IdRef par exemple, mais cela ne permet pas d’explorer systématiquement le Sudoc ni d’effectuer une recherche.

Continuer la lecture

IdRef dans VIAF et après … #2 Faciliter et améliorer le catalogage par dérivation

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la deuxième.

Grâce à MARC et Z39.50, le catalogage est d’ores et déjà une pratique professionnelle locale qui fonctionne dans un cadre global. L’idéal visé est le suivant : pour chaque livre, sa notice bibliographique est créée une fois, par quelqu’un, quelque part, puis échangée, reprise, exemplarisée autant de fois que nécessaire, partout, par tous.

Dans le cadre du Sudoc, plutôt que de créer ex nihilo une notice qui manque, le catalogueur interroge d’autres catalogues à la recherche de cette notice. S’il la trouve, il la récupère dans l’outil de catalogage du Sudoc et l’intègre telle quelle, … à beaucoup de détails près… C’est ce qu’on appelle du catalogage par dérivation. En voici un tutoriel, propre au contexte du Sudoc :

Continuer la lecture

IdRef dans VIAF et après … #1 Passer d’un identifiant à l’autre (VIAF, IdRef, LC, BnF, Wikipedia, …)

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la première.

Tout l’intérêt de VIAF repose dans son travail d’interconnexion entre des notices d’autorité d’origines différentes. En effet, les algorithmes de VIAF cherchent à identifier toutes les notices d’autorité qui « parlent’ de la même chose, qu’il s’agisse d’une personne, d’une collectivité ou d’une oeuvre. Ils génèrent alors des grappes (clusters) d’autorités. Ces grappes VIAF possèdent elles-même un identifiant unique, en bijection avec chacun des identifiants des autorités membres de la grappe.

Continuer la lecture

Sudoc, IdRef : de nouveaux Micro Web Services

De nouveaux Micro Web Services Sudoc et IdRef ont été développés :

  • merged : à partir d’un PPN de notice Sudoc ou IdRef fusionnée, trouver le PPN actif (notice valide)
  • multiwhere : localiser (RCR de localisation) un ou plusieurs document(s) à partir de leur identifiant Sudoc (PPN)

A noter : un service where a été précédemment développé pour permettre la localisation d’un seul document à partir de son identifiant (PPN). Il est dorénavant conseillé d’utiliser le multiwhere qui est plus riche que le where : non seulement il permet de traiter plusieurs notices à la fois, mais il contient également les coordonnées géographiques de chaque bibliothèque.

  • frbn2ppn, ocn2ppn, etc. : connaitre l’identifiant Sudoc à partir d’un identifiant externe (BnF, WorldCat, etc.)
  • iln2rcr : connaître la liste des RCR rattachés à un ILN

Pour  retrouver l’ensemble de la documentation technique :

Continuer la lecture