Annuaire des Web Services Sudoc

Un annuaire des Web Services Sudoc est disponible à cette adresse : http://www.sudoc.fr/services/annuaire/.

Il permet  de prendre connaissance de l’ensemble des Web Services Sudoc existants et d’accéder à leur documentation.

L’annuaire et les Web Services Sudoc ont été présentés pendant les Journées ABES 2014 lors de la session « Des API, pour quoi faire ? » :
« Afin de rendre plus concrètes les possibilités offertes par ces API, Yves Tomic et Julien Sicot présenteront les réalisations de leurs établissements respectifs : enrichissement de l’OPAC, nouveaux outils pour les usagers (DoMyBiblio), mise en valeur des thèses…  »

L’ annuaire des Web Services Sudoc  est également disponible à partir de la page « Pour les développeurs » du site de l’ABES.

 

 

Une zone 309 pour coordonner le travail collectif sur la qualité des données Sudoc

Au moment du chargement de nouvelles notices ou à l’occasion d’un chantier de contrôle qualité, l’ABES peut être amenée à effectuer des modifications de masse pour améliorer ou corriger des notices. Hélas, tout n’est pas automatisable – surtout si on tient à conserver un certain niveau de qualité bibliographique. Une fois que les algorithmes ont parlé et atteint leurs limites, l’ABES passe le relais au réseau, qui possède la force de frappe et l’expertise humaine pour continuer le travail, ne serait-ce qu’en se concentrant sur l’essentiel ou le prioritaire.

Mais, précisément, qu’est-ce qui est essentiel ? Qu’est-ce qui est prioritaire ? Sur quelles notices faut-il que le réseau se mobilise ? Et sur quels points précis dans les notices ? Étant donné la taille de la base, le volume des entrées et la richesse des règles, chaque catalogueur, chaque service de catalogage peut se sentir perdu devant l’ampleur de la tâche. C’est pourquoi l’ABES souhaite structurer d’avantage l’organisation de cet immense travail collectif. Cette volonté se traduit aujourd’hui sous une forme très concrète : la zone 309…

309_en_chantier
Cette « note d’information interne au Sudoc » existait déjà, mais elle ne possédait qu’une sous-zone ($a) :

309 ##$aCORRIGER LE(S) CODE(S) DE FONCTION = 000 EN 7XX, L7XX et/ou E7XX. SUPPRIMER LA PRESENTE NOTE 309 UNE FOIS LA (LES) CORRECTION(S) EFFECTUEE(S)

Elle est désormais structurée, ce qui permet une meilleure exploitation.

309 et ToDoList

Ainsi, dans le cadre des travaux du hub de métadonnées sur les ebooks de droit international achetés dans le cadre d’ISTEX, certains traitements automatiques ont permis d’enrichir les données, notamment en ajoutant des liens aux autorités auteur. Quand le programme n’a pas su identifier la bonne autorité, une zone 309 a été injectée dans la notice bibliographique concernée, pour inciter les catalogueurs à poursuivre le travail et les guider.

309 ##$aLE(S) LIEN(S) AUTORITE AUTEUR RESTE(NT) A CREER. SUPPRIMER LA PRESENTE NOTE 309 UNE FOIS LA (LES) CORRECTION(S) EFFECTUEE(S)$bBRILL-RADI-LN$d2014-04-09 11:15:01.894

Dans la sous-zone $b, on trouvera l’identifiant du chantier ou du corpus auquel correspond cette zone de note. Grâce à cet identifiant précis, il est aisé d’effectuer des statistiques plus fines sur les chantiers qualité en cours, mais surtout de fournir aux catalogueurs la liste toujours à jour des notices à traiter. Pour accéder à cette liste, il suffit de se rendre à une adresse web ainsi construite :

http://www.sudoc.fr/services/chantier/ + {contenu de la $b}.

Ce qui donne, pour l’exemple précédent :

http://www.sudoc.fr/services/chantier/BRILL-RADI-LN.

A cette adresse, on récupère un fichier à ouvrir dans Excel : il s’agit d’un tableau qui liste toutes les notices à corriger, en précisant la correction à effectuer. En entête du tableau, quelques chiffres et pourcentages permettent de mesurer la progression du chantier, pour voir si on tient le bon bout… Pour des raisons de fond ou des raisons techniques, ces tableaux ne seront pas disponibles quand les 309 concerneront des chantiers qui touchent à des notices importées ou à un trop grand nombre de notices.

L’ABES propose. Le réseau dispose.

Enfin, dans certains cas, le programme a travaillé mais n’ose pas trancher. Pour reprendre l’exemple précédent, son cœur peut balancer entre deux autorités. Voire considérer que, même si une seule autorité est en lice, il serait imprudent de conclure aveuglément qu’il s’agit de la bonne. On trouvera alors en $c le(s) PPN que le programme suggère sans oser le(s) retenir. Cette liste de PPN se présente sous la forme d’une requête WinIBW :

309 ##$aLE(S) LIEN(S) AUTORITE AUTEUR RESTE(NT) A CREER. A TITRE INDICATIF, LE SYSTEME DE DETECTION AUTOMATIQUE SUGGERE PLUSIEURS PPN A DEPARTAGER. SUPPRIMER LA PRESENTE NOTE 309 UNE FOIS LA (LES) CORRECTION(S) EFFECTUEE(S)$bBRILL-RADI-LN$cche PPN1 ou PPN2$d2014-04-09 11:15:01.894

Il s’agit d’une aide à la décision pour le catalogueur, qui, s’il le souhaite, peut se contenter d’examiner les PPN proposés, sans s’attarder sur les autres PPN qu’une recherche sur le nom pourrait renvoyer.
Qu’il suive les suggestions du programme ou non, le catalogueur crée le lien manquant puis n’oublie pas de supprimer la 309 correspondante. La notice disparaît alors du tableau des notices à traiter pour tel chantier (sauf si cette notice contient une autre 309 pour ce même chantier).

Aller plus loin

Ce nouveau dispositif se veut très pragmatique. Il s’agit d’améliorer l’efficacité collective du réseau sans compliquer la vie des catalogueurs. On pourrait imaginer d’autres dispositifs et l’ABES n’exclut pas de proposer au réseau d’autres manières d’intervenir sur les données. D’avance, merci pour vos retours, vos suggestions et … votre chasse aux 309.

NB : les chantiers en cours sont listés dans la page du guide méthodologique qui documente la zone 309 : http://documentation.abes.fr/sudoc/formats/unmb/zones/309.htm.

Y. Nicolas

Colodus : quel impact sur l’organisation du travail ?

COLODUS-04Interface web, Colodus ne nécessite aucune installation sur les postes de travail. Son utilisation n’est conditionnée qu’à l’attribution de login créés préalablement dans le cadre du réseau Sudoc par le coordinateur Sudoc, dans le cadre du réseau Sudoc-PS par le responsable du centre régional.

Le développement de masques de saisie prédéfinis ou personnalisés permet de travailler dans Colodus rapidement et efficacement sans pour autant exiger de l’utilisateur une forte expertise du format de catalogage.

Chaque établissement devra décider de l’opportunité de former son personnel à Colodus et déléguer à une partie des professionnels des tâches de corrections, de suppression ou de mises à jours des données d’exemplaire.

Colodus est une porte d’entrée pour s’initier puis approfondir sa connaissance du format et des règles de description des exemplaires puisque toutes les subtilités du format peuvent être restituées.

L’ABES souhaite que ce nouvel outil permette la sensibilisation des acteurs des réseaux  Sudoc et Sudoc-PS à la qualité des données d’exemplaires du catalogue Sudoc.

Mais Colodus ne concerne que les données d’exemplaires de son RCR et ne permet aucune intervention sur la notice bibliographique.

CPD

Colodus et WinIBW ? Colodus ou WinIBW ?

COLODUS-02Avant l’ouverture de Colodus, il n’existait qu’un seul outil pour décrire les exemplaires : le logiciel client WinIBW interconnecté avec le système central du Sudoc, CBS. Ces deux outils ont été développés par la société PICA (rachetée depuis par OCLC).

WinIBW est un outil robuste et complet mais son ergonomie est datée et il nécessite une installation parfois jugée fastidieuse.

S’inspirant de principe de production de données via des interfaces web (IdRef), l’ABES a souhaité développer une interface web pour la production de données d’exemplaires dans le Sudoc (cf. billet « Exemplariser sans WinIBW » https://punktokomo.abes.fr/2012/01/13/exemplariser-sans-winibw/.)

Par rapport à WinIBW, Colodus a les avantages suivants :

  • Colodus est gratuit. L’activité bibliographique réalisée via Colodus par le réseau Sudoc rentre dans le modèle de facturation général.
  • Colodus peut être utilisé sur n’importe quel poste disposant d’un accès internet. Colodus est optimisé pour Firefox.
  • Colodus propose un habillage du format de catalogage  avec des libellés en clair pour faciliter la saisie.

Mais Colodus n’anticipe pas une disparition programmée de WinIBW.

Tout d’abord Colodus ne concerne que les données d’exemplaires soit une infime proportion de l’ensemble des fonctionnalités de WinIBW. Ensuite, le système CBS demeure le cœur central de l’application. En effet, l’accès et l’utilisation de Colodus sont conditionnés par l’existence d’identifiants de connexion au système central du Sudoc (CBS) et le seul outil de création de ces identifiants est WinIBW.

Par conséquent, pour l’environnement Sudoc, Colodus ne peut être utilisé que par les établissements identifiés dans le réseau Sudoc et propriétaire d’au moins une licence WinIBW.

Alors pourquoi choisir d’utiliser Colodus ?

Dans WinIBW, pour décrire des exemplaires, le catalogueur part d’une page blanche : il doit connaître sur le bout de doigt toutes les possibilités du format.

Dans Colodus, le catalogueur se voit proposer des masques de saisie. Ces formulaires peuvent être personnalisés.

Colodus propose des zones par défaut : les zones obligatoires pour la validation d’une notice d’exemplaire, les zones facultatives pour favoriser la complétude de l’information disponible, les zones attendues pour la description d’exemplaires des documents spécifiques (documents électroniques, ressources continues…). En connexion directe avec le CBS, toute  intervention sur les données  – création, modification, suppression des exemplaires – met à jour instantanément la base du Sudoc.

Colodus a pour ambition via une ergonomie simplifiée de faciliter le travail de gestion de vos exemplaires mais aussi de permettre aisément un enrichissement qualitatif de toute l’information disponible sur vos données.

CPD

Colodus : un outil, deux profils

COLODUS-01Exemplariser sans WinIBW a déjà été évoqué sur ce blog (ici https://punktokomo.abes.fr/2012/01/13/exemplariser-sans-winibw/ et ici https://punktokomo.abes.fr/2013/01/14/colodus-exemplariser-sans-winibw/).

L’ouverture de Colodus est effective pour le réseau Sudoc-PS depuis le 2 avril 2013. Elle le sera pour le réseau Sudoc le 16 septembre 2013.

Colodus s’adresse par conséquent à tous les acteurs du réseau Sudoc (Sudoc et Sudoc-PS) habilités à intervenir sur les données d’exemplaires de leur établissement.
Selon son identifiant l’utilisateur accède à un environnement de travail Sudoc ou Sudoc-PS.

L’environnement Sudoc PS

Il fait intervenir deux types d’acteurs chacun doté d’une habilitation particulière.

  • LE RESPONSABLE CR : il est habilité à intervenir sur tous les exemplaires des RCR dont il a la charge au sein de son CR. Il a la charge de créer et de distribuer les logins « exemplarisateur » pour les RCR de son CR (cette opération ne se fait pas dans Colodus (cf. billet Colodus et WinIBW ? Colodus ou WinIBW ? ).
  • L’EXEMPLARISATEUR : il est habilité à intervenir sur les seules données d’exemplaire de son RCR de rattachement.

L’environnement Sudoc

Dans cet environnement, il n’existe qu’un seul type d’acteur, l’EXEMPLARISATEUR. Il est habilité à intervenir sur les seules données d’exemplaire de son RCR de rattachement.
Quel que soit l’environnement concerné, Colodus poursuit un même but : faciliter le travail d’exemplarisation des notices bibliographiques du Sudoc (cf billet Coup de projecteur sur les données des exemplaires ). Il s’agit de permettre une saisie simplifiée des informations de localisation en proposant au professionnel toutes les possibilités du format pour enrichir ses données.

Articulé sur 3 onglets, Colodus propose une suite d’événements logiques depuis la recherche d’une notice bibliographique jusqu’à l’affichage des exemplaires.
Colodus concerne donc le dernier maillon dans la chaîne de traitement du document : la création/modification de l’exemplaire qui a pour conséquence de rendre l’information visible par le grand public. Colodus ne permet aucune intervention sur le niveau bibliographique d’une notice.

Colodus : exemplariser sans WinIBW

Colodus, la nouvelle application pour exemplariser dans le Sudoc, est en cours de recettage.

Il est prévu une ouverture en deux temps, Colodus sera disponible pour le réseau Sudoc-PS à compter du 1er avril 2013 et pour l’ensemble du réseau Sudoc le 1er septembre 2013.

Un serveur SPARQL pour le Sudoc

Depuis juillet 2011, l’ensemble des données Sudoc est accessible en RDF. Si on connaît son identifiant, chacune des dix millions de notices du Sudoc peut être affichée en RDF/XML. Mais encore faut-il connaître cet identifiant… Ce dispositif est utile pour permettre à un programme de naviguer de notice en notice, y compris en rebondissant sur les données RDF d’IdRef par exemple, mais cela ne permet pas d’explorer systématiquement le Sudoc ni d’effectuer une recherche.

SPARQLer le Sudoc ?

Pour ce faire, il faudrait que toutes ces pages RDF soient agrégées en une seule base qui supporte la possibilité d’interroger des données RDF en tant que RDF. Cette possibilité s’appelle SPARQL : il s’agit d’un langage de requête standardisé conçu pour interroger les données RDF. Pour l’ABES, offrir un accès au Sudoc en SPARQL reste un objectif, mais ce n’est pas une priorité de premier niveau. Par contre, faire en sorte que d’autres acteurs puissent récupérer l’ensemble du Sudoc en RDF et ce, s’ils le souhaitent, dans une base RDF compatible avec SPARQL, c’est incontournable.

Moissonner le Sudoc

C’est pourquoi, dès juillet 2011, nous avons indiqué à des agrégateurs potentiels comment moissonner le Sudoc en RDF. De la même manière que les robots des moteurs de recherche peuvent crawler un site web dynamique à partir d’un fichier XML qui liste toutes les URLs du site, les robots des agrégateurs de données RDF ont été invités à crawler le Sudoc de la même manière, mais en demandant explicitement le format RDF/XML. Au passage, ce fichier XML qui liste les URLs est un fichier sitemap et le fait de pouvoir servir une page en HTML ou en RDF (ou autre chose encore) en fonction de la demande du client s’appelle la négociation de contenu.

S’il est en théorie séduisant et rassurant d’imaginer qu’on puisse crawler la version RDF d’une base de données selon la méthode de crawl standard qui fait le web d’aujourd’hui, en pratique, aujourd’hui, ce n’est pas la solution la plus efficace. En un an, Sindice, un des principaux agrégateurs de contenu RDF, n’a moissonné que 10% de la base.

Vous avez prévu quoi pour juillet … 2021 ?

Dumper le Sudoc

Il nous faut donc recourir aux bonnes vieilles méthodes. Nous allons donc générer des exports réguliers du Sudoc en RDF et nous les publierons, en libre accès. Contrairement à la solution du crawl, cette solution du dump implique nécessairement un décalage temporel entre les données du Sudoc et celles de son dump. Nous espérons limiter à un mois ce décalage inévitable.

Afin de roder ce nouveau dispositif, nous avons mis le dump à la disposition de Sindice. Dès que le conseil d’administration aura décidé de la licence juridique associée aux données des réseaux ABES, donc du Sudoc, ce dump sera ouvert à tous.

SPARQLer le Sudoc  avec Sindice !

En attendant, c’est avec enthousiasme que nous avons constaté l’intégration réussie des 300 000 000 de triplets RDF du Sudoc dans le moteur de recherche Sindice et dans son serveur SPARQL. Certes, Sindice est une initiative universitaire, qui ne peut prétendre garantir la continuité de service d’un serveur commercial (ceci dit, Sindice a désormais sa structure commerciale). Certes, les bases de données RDF de cette taille n’ont pas les performances des bases de données relationnelles et encore moins des moteurs de recherche comme Solr. Mais la souplesse et la puissance de SPARQL sont addictifs.

Disposer d’un accès au Sudoc en SPARQL, c’est très précieux pour développer des prototypes, se former au web sémantique sur des données familières, faire des requêtes impossibles avec les interfaces actuelles du Sudoc (Web, Z39.50), identifier avec précision les aspects sur lesquels la conversion actuelle  du MARC en RDF peut être améliorée…. Mais nous ne conseillons pas de faire dépendre un service en production du serveur SPARQL de Sindice. Ce n’est pas le but.

Afin de vous encourager à confesser votre propre addiction dans les commentaires, voici une première requête, très simple, qui liste tous les auteurs que Jacques Roubaud a pu traduire :

SELECT distinct  ?auteur ?auteurnom

FROM <http://www.sudoc.fr/>

WHERE {
  ?doc <http://www.loc.gov/loc.terms/relators/trl> <http://www.idref.fr/027110583/id>.
  ?doc dc:title ?titre.
  ?doc >http://www.loc.gov/loc.terms/relators/aut> ?auteur.
  ?auteur foaf:name ?auteurnom.
      }

Y. Nicolas