Colodus, la nouvelle application pour exemplariser dans le Sudoc, est en cours de recettage.

Il est prévu une ouverture en deux temps, Colodus sera disponible pour le réseau Sudoc-PS à compter du 1er avril 2013 et pour l’ensemble du réseau Sudoc le 1er septembre 2013.

Depuis juillet 2011, l’ensemble des données Sudoc est accessible en RDF. Si on connaît son identifiant, chacune des dix millions de notices du Sudoc peut être affichée en RDF/XML. Mais encore faut-il connaître cet identifiant… Ce dispositif est utile pour permettre à un programme de naviguer de notice en notice, y compris en rebondissant sur les données RDF d’IdRef par exemple, mais cela ne permet pas d’explorer systématiquement le Sudoc ni d’effectuer une recherche.

SPARQLer le Sudoc ?

Pour ce faire, il faudrait que toutes ces pages RDF soient agrégées en une seule base qui supporte la possibilité d’interroger des données RDF en tant que RDF. Cette possibilité s’appelle SPARQL : il s’agit d’un langage de requête standardisé conçu pour interroger les données RDF. Pour l’ABES, offrir un accès au Sudoc en SPARQL reste un objectif, mais ce n’est pas une priorité de premier niveau. Par contre, faire en sorte que d’autres acteurs puissent récupérer l’ensemble du Sudoc en RDF et ce, s’ils le souhaitent, dans une base RDF compatible avec SPARQL, c’est incontournable.

Moissonner le Sudoc

C’est pourquoi, dès juillet 2011, nous avons indiqué à des agrégateurs potentiels comment moissonner le Sudoc en RDF. De la même manière que les robots des moteurs de recherche peuvent crawler un site web dynamique à partir d’un fichier XML qui liste toutes les URLs du site, les robots des agrégateurs de données RDF ont été invités à crawler le Sudoc de la même manière, mais en demandant explicitement le format RDF/XML. Au passage, ce fichier XML qui liste les URLs est un fichier sitemap et le fait de pouvoir servir une page en HTML ou en RDF (ou autre chose encore) en fonction de la demande du client s’appelle la négociation de contenu.

S’il est en théorie séduisant et rassurant d’imaginer qu’on puisse crawler la version RDF d’une base de données selon la méthode de crawl standard qui fait le web d’aujourd’hui, en pratique, aujourd’hui, ce n’est pas la solution la plus efficace. En un an, Sindice, un des principaux agrégateurs de contenu RDF, n’a moissonné que 10% de la base.

Vous avez prévu quoi pour juillet … 2021 ?

Dumper le Sudoc

Il nous faut donc recourir aux bonnes vieilles méthodes. Nous allons donc générer des exports réguliers du Sudoc en RDF et nous les publierons, en libre accès. Contrairement à la solution du crawl, cette solution du dump implique nécessairement un décalage temporel entre les données du Sudoc et celles de son dump. Nous espérons limiter à un mois ce décalage inévitable.

Afin de roder ce nouveau dispositif, nous avons mis le dump à la disposition de Sindice. Dès que le conseil d’administration aura décidé de la licence juridique associée aux données des réseaux ABES, donc du Sudoc, ce dump sera ouvert à tous.

SPARQLer le Sudoc  avec Sindice !

En attendant, c’est avec enthousiasme que nous avons constaté l’intégration réussie des 300 000 000 de triplets RDF du Sudoc dans le moteur de recherche Sindice et dans son serveur SPARQL. Certes, Sindice est une initiative universitaire, qui ne peut prétendre garantir la continuité de service d’un serveur commercial (ceci dit, Sindice a désormais sa structure commerciale). Certes, les bases de données RDF de cette taille n’ont pas les performances des bases de données relationnelles et encore moins des moteurs de recherche comme Solr. Mais la souplesse et la puissance de SPARQL sont addictifs.

Disposer d’un accès au Sudoc en SPARQL, c’est très précieux pour développer des prototypes, se former au web sémantique sur des données familières, faire des requêtes impossibles avec les interfaces actuelles du Sudoc (Web, Z39.50), identifier avec précision les aspects sur lesquels la conversion actuelle  du MARC en RDF peut être améliorée…. Mais nous ne conseillons pas de faire dépendre un service en production du serveur SPARQL de Sindice. Ce n’est pas le but.

Afin de vous encourager à confesser votre propre addiction dans les commentaires, voici une première requête, très simple, qui liste tous les auteurs que Jacques Roubaud a pu traduire :

SELECT distinct  ?auteur ?auteurnom

FROM <http://www.sudoc.fr/>

WHERE {
  ?doc <http://www.loc.gov/loc.terms/relators/trl> <http://www.idref.fr/027110583/id>.
  ?doc dc:title ?titre.
  ?doc >http://www.loc.gov/loc.terms/relators/aut> ?auteur.
  ?auteur foaf:name ?auteurnom.
      }

Y. Nicolas

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la troisième.


Comme en témoigne cette courte biographie, VIAF est né comme un projet de recherche porté par OCLC et les bibliothèques nationales allemande, américaine et française. En 2012, VIAF est devenu un service OCLC. C’est un changement important, notamment du point de vue de la gouvernance.

Fort heureusement, VIAF va demeurer une base de données ouverte, en un sens tout à fait strict et explicite puisque ses données sont désormais placées sous la licence ODC-ByOpen Data Commons Attribution License. Cette licence autorise toute réutilisation des données VIAF, à la seule condition de mentionner la source, à savoir VIAF lui-même – et ce sous cette forme précise :

"This [title of report or article or dataset] contains information from VIAF (Virtual International Authority File) which is made available under the ODC Attribution License."

Cette seule contrainte est déjà de trop pour certains, ceux qui placent leurs données sous une licence encore plus libérale (par exemple sous la licence CC-0). A cette objection, OCLC répond que la seule présence d’un lien vers une URL de VIAF vaudra reconnaissance de la source. VIAF peut donc être interconnecté avec des données sous licence CC-0.

Si vous voulez en savoir plus sur les données VIAF, sa licence de réutilisation ou encore les solutions techniques pour y accéder, consultez la fiche d’identité de ce paquet de données. Tout y est.

Notons pour finir qu’ODC-By est très proche de la licence ouverte d’Etalab, que la BnF, par exemple, a choisie pour encadrer l’ouverture des données RDF de data.bnf.fr.

Y. Nicolas

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la deuxième.

Grâce à MARC et Z39.50, le catalogage est d’ores et déjà une pratique professionnelle locale qui fonctionne dans un cadre global. L’idéal visé est le suivant : pour chaque livre, sa notice bibliographique est créée une fois, par quelqu’un, quelque part, puis échangée, reprise, exemplarisée autant de fois que nécessaire, partout, par tous.

Dans le cadre du Sudoc, plutôt que de créer ex nihilo une notice qui manque, le catalogueur interroge d’autres catalogues à la recherche de cette notice. S’il la trouve, il la récupère dans l’outil de catalogage du Sudoc et l’intègre telle quelle, … à beaucoup de détails près… C’est ce qu’on appelle du catalogage par dérivation. En voici un tutoriel, propre au contexte du Sudoc :

Parmi les adaptions à faire pour acclimater une notice externe à son nouvel environnement Sudoc, une des plus lourdes est de lier les points d’accès de la nouvelle notice aux autorités Sudoc (ie IdRef) : indexation matière, auteurs et autres mentions de responsabilité. Dans le cas des auteurs par exemple, il s’agit en général d’identifier dans les autorités Sudoc (ie IdRef) la bonne notice à partir d’un nom et d’un prénom (éventuellement complétés par une date). C’est une tâche très importante, mais parfois difficile, consommatrice de temps et sujette à erreur.

Or, il faut savoir que certains des catalogues qui servent de source à la dérivation dans le Sudoc sont eux-mêmes des catalogues sous contrôle d’autorité : en interne, leurs propres notices bibliographiques sont liées à des notices d’autorité, grâce à un identifiant. C’est le cas, par exemple, du catalogue de la bibliothèque nationale d’Allemagne et même de Worldcat. Par exemple, après vérification, il s’avère que la notice de Worldcat 212038123 est liée à une notice d’autorité interne et que cette autorité interne n’est qu’un clone de la notice nb98088322 du fichier d’autorité de la Bibliothèque du Congrès (LC). Hélas, quand cette notice Worldcat est exposée en ligne, soit par le Z39.50 auquel l’outil de catalogage du Sudoc est connecté, soit par web service, la mention de l’autorité a disparu : à la place de son identifiant, il ne reste qu’une chaîne de caractères (nom/prénom)… à partir de laquelle le catalogueur doit chercher une autorité Sudoc (en l’occurrence, 076940322).

Or, grâce à VIAF, si Worldcat exposait ses autorités internes – ou encore mieux l’identifiant LC -, il deviendrait possible d’automatiser cette tâche manuelle. En effet, cette grappe de VIAF met en relation l’autorité LC et l’autorité Sudoc (IdRef) que nous venons de prendre pour exemples. Dès lors, grâce aux solutions techniques proposées par VIAF, l’outil de catalogage du Sudoc pourrait automatiser cette tâche-ci du catalogage par dérivation qui consiste à lier un nom à une autorité Sudoc. Ce serait un gain de temps et sans doute en qualité. Certes, personne ne croit aux miracles ! VIAF ne réussit pas toujours à lier des autorités préexistantes. Et quand l’auteur n’a pas encore sa notice dans le Sudoc, il faut bien la créer. Mais ce serait néanmoins un progrès non négligeable.

Hélas, avant de mettre en place cette solution, il faudra attendre que Worldcat et les autres bases aient inclus dans les notices bibliographiques qu’elles exposent le lien à des autorités intégrées à VIAF. Côté Worldcat, l’ABES a explicitement transmis à OCLC une demande d’évolution allant dans ce sens. Pour d’autres bases, ce n’est pas encore le cas. Pour d’autres bases encore, c’est encore plus hypothétique : dans un catalogue comme celui de la Bibliothèque du Congrès, même en interne, il n’existe pas de lien matériel entre les notices bibliographiques et les notices d’autorité : seule la forme retenue de l’autorité est présente dans la notice bibliographique, mais pas son identifiant. La migration vers RDA et au-delà devrait permettre de dépasser ce manque.

Y. Nicolas

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la première.

Tout l’intérêt de VIAF repose dans son travail d’interconnexion entre des notices d’autorité d’origines différentes. En effet, les algorithmes de VIAF cherchent à identifier toutes les notices d’autorité qui "parlent’ de la même chose, qu’il s’agisse d’une personne, d’une collectivité ou d’une oeuvre. Ils génèrent alors des grappes (clusters) d’autorités. Ces grappes VIAF possèdent elles-même un identifiant unique, en bijection avec chacun des identifiants des autorités membres de la grappe.

Par exemple, l’historien Alain Boureau correspond à la grappe 52358786, qui regroupe l’identifiant IdRef, l’identifiant BnF, l’identifiant de la BN allemande, l’identifiant de la Bibliothèque du Congrès ou encore celui de la Bibliothèque Vaticane. VIAF publie les informations de cette grappe pour qu’elles puissent être lues par un humain (HTML) ou exploitées par un programme (RDF, JSON, MARCXML). Chacune de ces pages  intègre les liens vers les notices d’autorité d’origine, ce qui permet de facilement naviguer de VIAF vers IdRef et les autres bases : connaissant l’identifiant VIAF, un humain ou un programme pourra découvrir l’identifiant IdRef et, en déroulant la bobine de notre web service Biblio, la liste des documents Sudoc liés à cette autorité.

Mais le chemin inverse est tout aussi utile à parcourir : connaissant l’identifiant IdRef, découvrir la grappe VIAF. A terme, cette opération sera possible grâce à l’injection de l’identifiant VIAF à l’intérieur même de chaque autorité IdRef (chantier en cours). En attendant, ce parcours est possible au moyen de l’astuce suivante : connaissant l’identifiant IdRef (ex : PPN = 028270282), on peut accéder à cette page de VIAF http://viaf.org/viaf/sourceID/SUDOC|028270282 qui redirige automatiquement vers l’URL de la grappe : http://viaf.org/viaf/52358786/. Cette redirection peut être exploitée à la fois par un humain et par un programme.

Il est donc possible de faire le chemin aller et le le chemin retour entre VIAF et n’importe quelle autorité d’origine, telle celle d’IdRef. Mais, par transitivité, VIAF peut aussi servir à passer d’une autorité d’origine à une autre, d’une notice de la BN allemande à une notice de la BN espagnole ou d’IdRef à la BnF (et vice versa). Certes, les liens entre les autorités IdRef et les autorités BnF existent déjà, puisque beaucoup de notices IdRef sont créées à partir des notices BnF et en conservent le numéro source. Mais chacun de ces fichiers d’autorité ayant sa propre autonomie, il est probable que VIAF permette de découvrir de nouveaux liens IdRef/BnF, ce qui est une excellente chose pour tout le monde.

Enfin, VIAF contient parfois un lien vers DBpedia, version RDF de Wikipedia versée sur le web de données. Par exemple, en RDF, la grappe Paul Veyne pointe vers cette entrée de DBpedia, et donc de Wikipedia. Là, encore, par transivité, on peut aller de l’autorité IdRef à la page de Wikipedia.

Toutes ces interconnexions contribuent à densifier le maillage de l’information au sein du web de données, et donc à en multiplier les possibilités d’exploitation. Mais en-deçà de cet enjeu global et de long terme, VIAF peut ici et maintenant aider le catalogueur au quotidien.

Y. Nicolas

Le contexte

L’ABES a mené depuis le début de l’année 2011 une réflexion sur un projet de SIGB  mutualisé. Aux premières réflexions conduites en interne a succédé, le 16 mai dernier, un atelier ouvert aux établissements de nos réseaux qui a permis de préciser les scénarios envisageables (degrés d’implication de l’ABES dans la mutualisation, système hébergé dans les nuages…).

Le groupe technique

Parallèlement à la réflexion menée par l’ABES, plusieurs établissements préparant une réinformatisation à moyen terme ont mis en place un groupe technique avec pour objectif premier de rédiger un cahier des charges de système de gestion de nouvelle génération dont l’acquisition serait mutualisée.

Ce groupe a été piloté par Nicolas Morin du PRES de Toulouse. L’ABES y était représentée.

Rapport final de Nicolas Morin au nom du PRES de Toulouse

Relevé de conclusions du groupe technique

Le groupe projet a travaillé d’août 2011 a janvier 2012.

Le Projet :

Quelle articulation entre le projet de SGB (système de gestion de bibliothèque) nouvelle génération et la mission de signalement des ressources documentaires portée par l’ABES ?

Origine du projet

Plusieurs bibliothèques universitaires envisagent de changer à court ou moyen terme leurs systèmes locaux, et s’organisent pour préparer la commande de façon mutualisée (rédaction commune du cahier des charges, choix d’un même système). Des solutions de nouvelle génération arrivent sur le marché, et le concept de solution « dans les nuages » (cloud computing) ouvre de nouvelles perspectives.

Ce projet est lancé dans le contexte du projet d’établissement 2012-2015 de l’ABES. Il est considéré comme une priorité par le conseil scientifique et le conseil d’administration de l’ABES, à mettre en œuvre rapidement car plusieurs établissements ont fait part de leur intention de changer rapidement de système.

Lire le rapport final du groupe projet

Depuis début avril, le bouton "signaler un problème" de theses.fr présent sur les pages de thèses en préparation et de thèses soutenues permet à un utilisateur lambda d’entrer en contact avec l’établissement de soutenance responsable des données. Le Fil ABES expose le contexte de la mise en place du feedback dans theses.fr.

L. Par J.G. Park. CC BY-NC 2.0. Source : Flickr

Comment ça marche ?

Toutes les thèses en préparation et soutenues présentes dans theses.fr proviennent de deux applications alimentées par les personnels des établissements de soutenance, STEP et STAR.
La description des thèses en préparation et des thèses soutenues respecte, partiellement pour les premières, strictement pour les secondes, la recommandation TEF.
TEF exige la présence d’un élément établissement de soutenance et prévoit la possibilité d’identifier cet établissement de soutenance en recourant à un référentiel. STEP et STAR exige le recours au référentiel des autorités Sudoc IdRef. Ainsi tous les établissements de soutenance dans theses.fr sont identifiés par leur numéro PPN. Cela permet notamment de générer les pages des établissements de soutenance (comme celle-ci ou celle-là).

Indépendamment de theses.fr, l’ABES gère pour ses besoins internes une base de données recensant tous ces interlocuteurs. Cette base de données est modélisée de telle façon qu’une personne est toujours rattachée à un organisme et qu’un organisme peut être qualifié par son numéro PPN.

Une fois par semaine, une extraction de cette base interne est chargée dans theses.fr. theses.fr peut ainsi savoir pour un PPN d’établissement de soutenance donné qui est correspondant STEP ou correspondant STAR.
Par exemple, prenons une thèse en préparation à l’université de Poitiers. L’établissement de soutenance est identifié par son PPN. Quelqu’un constate une erreur sur cette page et clique sur le bouton "signaler une erreur". Il aboutit à un formulaire où il peut décrire l’erreur et laisser ces coordonnées. L’URL de ce formulaire pour cette thèse est :
http://www.theses.fr/feedbacktheses.jsp?origine=s11831&ppn_origine=026403765&appli_origine=Step
origine=s11831 indique la page de theses.fr faisant l’objet d’une réclamation
&ppn_origine=026403765 précise le PPN de l’établissement de soutenance
&appli_origine=Step est la source des données de theses.fr

theses.fr balaye alors l’extraction de la base de données d’adresses et repère en fonction de la source et du PPN le mail du correspondant à qui doit être envoyé la réclamation. Dans cet exemple la validation du formulaire génère l’envoi d’un mail au correspondant STEP de l’université de Poitiers, avec en copie le demandeur (et en copie cachée l’ABES). Les échanges éventuels se poursuivent hors theses.fr.

Est-ce transposable ?

Ce circuit de feedback est possible dans la mesure où les projets de thèses et les thèses déposées lors de la soutenance sont toujours des objets originaux donc la description est assurée par un et un seul établissement : l’établissement de soutenance est l’unique responsable de la qualité des données.

Dans le contexte d’un outil de catalogage partagé de ressources possédées et donc décrites par plusieurs organismes, ce cercle vertueux est beaucoup plus délicat à mettre en place. Qui se sent responsable de la qualité de la notice : l’établissement qui a créé la notice ? celui qui a procédé à la dernière modification ? tous les établissements localisés sous cette notice ? A suivre…

De nouveaux Micro Web Services Sudoc et IdRef ont été développés :

  • merged : à partir d’un PPN de notice Sudoc ou IdRef fusionnée, trouver le PPN actif (notice valide)
  • multiwhere : localiser (RCR de localisation) un ou plusieurs document(s) à partir de leur identifiant Sudoc (PPN)

A noter : un service where a été précédemment développé pour permettre la localisation d’un seul document à partir de son identifiant (PPN). Il est dorénavant conseillé d’utiliser le multiwhere qui est plus riche que le where : non seulement il permet de traiter plusieurs notices à la fois, mais il contient également les coordonnées géographiques de chaque bibliothèque.

  • frbn2ppn, ocn2ppn, etc. : connaitre l’identifiant Sudoc à partir d’un identifiant externe (BnF, WorldCat, etc.)
  • iln2rcr : connaître la liste des RCR rattachés à un ILN

Pour  retrouver l’ensemble de la documentation technique :

"Utilisation innovante des données, outils ou services proposés par l’ABES" : tel est le thème du concours lancé par l’ABES en vue des prochaines Journées ABES, qui auront lieu les 19 et 20 juin 2012 à Montpellier. Ce concours est  destiné à valoriser les initiatives des établissements utilisant de façon spécifique les produits ou services proposés par l’ABES. A titre d’exemple, il pourra s’agir tout autant:

  • de solutions informatiques (utilisation de web services, applications ou modules..)
  • de solutions concernant la qualité des données,
  • de coordination des équipes concernées par les service de l’ABES,
  • de module de formation proposé aux utilisateurs (objets pédagogiques, vidéos, objets de communication…),

A l’issue de la sélection par le jury, quatre projets seront retenus. Ils feront l’objet d’une présentation (à deux voix maximum) lors des Journées ABES 2012 qui se dérouleront les 19 et 20 juin prochain à Montpellier.
Nous attendons vos propositions jusqu’au 1er mars

Pour vous motiver davantage : les gagnants seront invités dans un restaurant gastronomique le 18 au soir. Une autre surprise est prévue.
Règlement du concours :

Tous les établissements membres de l’un des réseaux coordonnés par l’ABES (Sudoc, Sudoc PS,  Thèses, Calames) ont vocation à participer au concours.

Les propositions seront envoyées à l’ABES avant le 1er mars dernier délai à l’adresse : jabes@abes.fr.

A titre d’exemple, il pourra s’agir de présenter une utilisation spécifique de services ou de web services, une application ou un module développé à partir des données des catalogues gérés par l’ABES, un outil de gestion ou de formation  (à destination de son équipe ou des utilisateurs finaux  …)

Les propositions comporteront :

  •  un descriptif du service innovant (une page maximum)
    • précision : s’il s’agit d’un outil informatique, il pourra être soit en production, soit  sous forme de prototype. Dans ce cas, joindre une procédure ou un tutoriel de démonstration.
  •  des éléments concrets d’utilisation  (contexte d’utilisation, retours d’expériences, évaluations, contraintes techniques, coût…)
  • toutes précisions utiles à la bonne compréhension du projet présenté  ·

Quatre propositions seront pré-sélectionnées et feront l’objet d’une présentation par ces initiateurs pendant les Journées ABES, le 20 juin lors de l’une des sessions parallèles.

Des prix seront décernés à l’issue de cette présentation.
Informations complémentaires :
Pour la mise en œuvre de Web services, vous pouvez consulter utilement Punktokomo, le blog technique de l’ABES

Pour toutes informations complémentaires :  jabes@abes.fr

Suivre

Recevez les nouvelles publications par mail.