Un chantier « qualité » sur les données d’autorités

C’est un chantier modeste par le volume des notices concernées, mais important par ses impacts, que nous mettons ici en lumière.

Dans les notices d’autorités de la base Sudoc, les zones Unimarc 5XX permettent de faire des liens vers d’autres notices (lien de type « Voir aussi »). Sur un affichage public, cela se matérialise ainsi :

Notice d'autorité avec zones 5XX

Le bloc 5XX du format Unimarc Autorités prévoit 8 étiquettes différentes, chacune devant contenir un lien vers une notice d’autorité spécifique : l’étiquette 500 doit pointer  vers une notice d’autorité « Personne physique » (Tp), l’étiquette 510 vers une notice d’autorité « Collectivité » (Td), l’étiquette 515 vers une notice d’autorité « Nom géographique » (Tg), etc.

Le chantier a donc consisté dans un premier temps à vérifier ces liens, dans un second temps à rectifier l’étiquette lorsqu’elle avait été utilisée à mauvais escient.

Par exemple, dans toutes les notices où un lien en 550 pointait vers une notice autre qu’une « Autorité nom commun » (Td), il a fallu intervenir pour rétablir un catalogage conforme aux préconisations de l’Unimarc A (dans la notice liante et parfois dans la notice liée).

De tels liens erronés peuvent avoir de multiples sources : erreur de catalogage, mais aussi non répercussion de mises à jour effectuées par la BnF dans son catalogue sous la forme d’un changement de typage dans l’autorité liée.

Un exemple concret :

L’autorité Td Symbolisme dans la Bible est devenue Tu Bible — Symbolisme.

Pour des raisons techniques, la notice liée Td Lumières et ténèbres dans la Bible, mise à jour côté BnF, n’a pas été refournie au Sudoc qui a conservé une étiquette de lien 550 vers Bible — Symbolisme, alors qu’une étiquette 530 s’imposait désormais.

Il en a résulté un défaut d’affichage dans le Sudoc d’une part ; des anomalies dans les exports, bloquantes pour certains SIGB, d’autre part.

Ce chantier a concerné quelques centaines de notices d’autorité.

À l’échelle du catalogue Sudoc, c’est heureusement peu.

Il fallait pourtant le faire, pour la raison évoquée ci-dessus et au moins pour 3 autres, au-delà de l’intérêt pour le travail bien fait :

  1. les notices d’autorités jouissent désormais d’une grande visibilité, via l’application web IdRef  : elles doivent être impeccables ;
  2. elles sont alignées avec d’autres référentiels nationaux ou internationaux : nous nous devons d’exposer des données fiables ;
  3. elles sont exportables vers d’autres applications, dans d’autres formats, dont l’ABES ne pourrait contrôler l’affichage, s’il s’avérait erroné.

 

Publicités

IdRef dans VIAF et après … #2 Faciliter et améliorer le catalogage par dérivation

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la deuxième.

Grâce à MARC et Z39.50, le catalogage est d’ores et déjà une pratique professionnelle locale qui fonctionne dans un cadre global. L’idéal visé est le suivant : pour chaque livre, sa notice bibliographique est créée une fois, par quelqu’un, quelque part, puis échangée, reprise, exemplarisée autant de fois que nécessaire, partout, par tous.

Dans le cadre du Sudoc, plutôt que de créer ex nihilo une notice qui manque, le catalogueur interroge d’autres catalogues à la recherche de cette notice. S’il la trouve, il la récupère dans l’outil de catalogage du Sudoc et l’intègre telle quelle, … à beaucoup de détails près… C’est ce qu’on appelle du catalogage par dérivation. En voici un tutoriel, propre au contexte du Sudoc :

Parmi les adaptions à faire pour acclimater une notice externe à son nouvel environnement Sudoc, une des plus lourdes est de lier les points d’accès de la nouvelle notice aux autorités Sudoc (ie IdRef) : indexation matière, auteurs et autres mentions de responsabilité. Dans le cas des auteurs par exemple, il s’agit en général d’identifier dans les autorités Sudoc (ie IdRef) la bonne notice à partir d’un nom et d’un prénom (éventuellement complétés par une date). C’est une tâche très importante, mais parfois difficile, consommatrice de temps et sujette à erreur.

Or, il faut savoir que certains des catalogues qui servent de source à la dérivation dans le Sudoc sont eux-mêmes des catalogues sous contrôle d’autorité : en interne, leurs propres notices bibliographiques sont liées à des notices d’autorité, grâce à un identifiant. C’est le cas, par exemple, du catalogue de la bibliothèque nationale d’Allemagne et même de Worldcat. Par exemple, après vérification, il s’avère que la notice de Worldcat 212038123 est liée à une notice d’autorité interne et que cette autorité interne n’est qu’un clone de la notice nb98088322 du fichier d’autorité de la Bibliothèque du Congrès (LC). Hélas, quand cette notice Worldcat est exposée en ligne, soit par le Z39.50 auquel l’outil de catalogage du Sudoc est connecté, soit par web service, la mention de l’autorité a disparu : à la place de son identifiant, il ne reste qu’une chaîne de caractères (nom/prénom)… à partir de laquelle le catalogueur doit chercher une autorité Sudoc (en l’occurrence, 076940322).

Or, grâce à VIAF, si Worldcat exposait ses autorités internes – ou encore mieux l’identifiant LC -, il deviendrait possible d’automatiser cette tâche manuelle. En effet, cette grappe de VIAF met en relation l’autorité LC et l’autorité Sudoc (IdRef) que nous venons de prendre pour exemples. Dès lors, grâce aux solutions techniques proposées par VIAF, l’outil de catalogage du Sudoc pourrait automatiser cette tâche-ci du catalogage par dérivation qui consiste à lier un nom à une autorité Sudoc. Ce serait un gain de temps et sans doute en qualité. Certes, personne ne croit aux miracles ! VIAF ne réussit pas toujours à lier des autorités préexistantes. Et quand l’auteur n’a pas encore sa notice dans le Sudoc, il faut bien la créer. Mais ce serait néanmoins un progrès non négligeable.

Hélas, avant de mettre en place cette solution, il faudra attendre que Worldcat et les autres bases aient inclus dans les notices bibliographiques qu’elles exposent le lien à des autorités intégrées à VIAF. Côté Worldcat, l’ABES a explicitement transmis à OCLC une demande d’évolution allant dans ce sens. Pour d’autres bases, ce n’est pas encore le cas. Pour d’autres bases encore, c’est encore plus hypothétique : dans un catalogue comme celui de la Bibliothèque du Congrès, même en interne, il n’existe pas de lien matériel entre les notices bibliographiques et les notices d’autorité : seule la forme retenue de l’autorité est présente dans la notice bibliographique, mais pas son identifiant. La migration vers RDA et au-delà devrait permettre de dépasser ce manque.

Y. Nicolas

Le cercle vertueux de theses.fr : mise en relation de l’utilisateur et du producteur de données

Depuis début avril, le bouton « signaler un problème » de theses.fr présent sur les pages de thèses en préparation et de thèses soutenues permet à un utilisateur lambda d’entrer en contact avec l’établissement de soutenance responsable des données. Le Fil ABES expose le contexte de la mise en place du feedback dans theses.fr.

L. Par J.G. Park. CC BY-NC 2.0. Source : Flickr

Comment ça marche ?

Toutes les thèses en préparation et soutenues présentes dans theses.fr proviennent de deux applications alimentées par les personnels des établissements de soutenance, STEP et STAR.
La description des thèses en préparation et des thèses soutenues respecte, partiellement pour les premières, strictement pour les secondes, la recommandation TEF.
TEF exige la présence d’un élément établissement de soutenance et prévoit la possibilité d’identifier cet établissement de soutenance en recourant à un référentiel. STEP et STAR exige le recours au référentiel des autorités Sudoc IdRef. Ainsi tous les établissements de soutenance dans theses.fr sont identifiés par leur numéro PPN. Cela permet notamment de générer les pages des établissements de soutenance (comme celle-ci ou celle-là).

Indépendamment de theses.fr, l’ABES gère pour ses besoins internes une base de données recensant tous ces interlocuteurs. Cette base de données est modélisée de telle façon qu’une personne est toujours rattachée à un organisme et qu’un organisme peut être qualifié par son numéro PPN.

Une fois par semaine, une extraction de cette base interne est chargée dans theses.fr. theses.fr peut ainsi savoir pour un PPN d’établissement de soutenance donné qui est correspondant STEP ou correspondant STAR.
Par exemple, prenons une thèse en préparation à l’université de Poitiers. L’établissement de soutenance est identifié par son PPN. Quelqu’un constate une erreur sur cette page et clique sur le bouton « signaler une erreur ». Il aboutit à un formulaire où il peut décrire l’erreur et laisser ces coordonnées. L’URL de ce formulaire pour cette thèse est :
http://www.theses.fr/feedbacktheses.jsp?origine=s11831&ppn_origine=026403765&appli_origine=Step
origine=s11831 indique la page de theses.fr faisant l’objet d’une réclamation
&ppn_origine=026403765 précise le PPN de l’établissement de soutenance
&appli_origine=Step est la source des données de theses.fr

theses.fr balaye alors l’extraction de la base de données d’adresses et repère en fonction de la source et du PPN le mail du correspondant à qui doit être envoyé la réclamation. Dans cet exemple la validation du formulaire génère l’envoi d’un mail au correspondant STEP de l’université de Poitiers, avec en copie le demandeur (et en copie cachée l’ABES). Les échanges éventuels se poursuivent hors theses.fr.

Est-ce transposable ?

Ce circuit de feedback est possible dans la mesure où les projets de thèses et les thèses déposées lors de la soutenance sont toujours des objets originaux donc la description est assurée par un et un seul établissement : l’établissement de soutenance est l’unique responsable de la qualité des données.

Dans le contexte d’un outil de catalogage partagé de ressources possédées et donc décrites par plusieurs organismes, ce cercle vertueux est beaucoup plus délicat à mettre en place. Qui se sent responsable de la qualité de la notice : l’établissement qui a créé la notice ? celui qui a procédé à la dernière modification ? tous les établissements localisés sous cette notice ? A suivre…

Sudoc, IdRef : de nouveaux Micro Web Services

De nouveaux Micro Web Services Sudoc et IdRef ont été développés :

  • merged : à partir d’un PPN de notice Sudoc ou IdRef fusionnée, trouver le PPN actif (notice valide)
  • multiwhere : localiser (RCR de localisation) un ou plusieurs document(s) à partir de leur identifiant Sudoc (PPN)

A noter : un service where a été précédemment développé pour permettre la localisation d’un seul document à partir de son identifiant (PPN). Il est dorénavant conseillé d’utiliser le multiwhere qui est plus riche que le where : non seulement il permet de traiter plusieurs notices à la fois, mais il contient également les coordonnées géographiques de chaque bibliothèque.

  • frbn2ppn, ocn2ppn, etc. : connaitre l’identifiant Sudoc à partir d’un identifiant externe (BnF, WorldCat, etc.)
  • iln2rcr : connaître la liste des RCR rattachés à un ILN

Pour  retrouver l’ensemble de la documentation technique :

L’actu du web de données en patates

Depuis 2007, le Linking Open Data cloud diagram aide à visualiser les différents corpus de métadonnées en RDF qui constituent le web de données liées (linked data). Ce nuage  a commencé modestement :

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/ - mai 2007

Le nuage du LOD (linked open data) en 2007

De mises à jour en mises à jour, sous l’avalanche des nouveaux corpus publiés en RDF et la multiplication des liens entre eux, ce nuage est devenu illisible. Et c’est un bon signe.

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/ - septembre 2011

Le nuage du LOD en 2011

Quand on zoome sur cette dernière version du nuage, on reconnaît un visage familier (et ce n’est pas une illusion) :

Sudoc, IdRef, theses.fr et Calames dans le nuage du LOD

Sudoc, IdRef, theses.fr et Calames dans le nuage du LOD

Grâce à la publication en RDF des données produites par les réseaux ABES et à leur interconnexion interne (autour des autorités Sudoc d’IdRef) ou externe (vers Rameau, Dewey, et bientôt d’autres cibles comme VIAF), le Sudoc, IdRef, theses.fr et Calames sont désormais des citoyens de cette luxuriante communauté de données ouvertes. Ce n’est pas une fin en soi, mais c’était une exigence.

Désormais, plus besoin de dessiner des patates dans un diaporama prospectif, il suffira de faire une copie d’écran du nuage officiel :

Le nuage ABES comme rêverie en 2008

Le nuage ABES comme rêverie en 2008

 

Y. Nicolas

IdRef : des pages HTML et RDF plus riches

En Octobre 2010, l’ABES a inauguré IdRef, avec l’ambition de promouvoir l’utilisation des autorités Sudoc au-delà du Sudoc, et même au-delà des seules applications ABES comme Calames ou STAR.

Parmi les moyens techniques mis au service de cette stratégie, figurait l’exposition sur le Web des données d’autorité au moyen de pages HTML et RDF dédiées et d’une batterie d’URL pérennes associées. Depuis ce matin, ces pages sont considérablement enrichies.

IdRef, lié à Sudoc. Et inversement.

Jusqu’à maintenant, ces pages HTML et RDF reflétaient seulement le contenu des notices d’autorité UNIMARC. Désormais, elles contiennent les références bibliographiques de tous les documents signalés dans le Sudoc qui possèdent un lien vers ces notices d’autorité.

Ainsi, à la page suivante :

http://www.idref.fr/027182800

vous trouverez quelques informations sur Paul Veyne, tirées de sa notice d’autorité (version UNIMARC en XML), mais aussi la liste raisonnée de tous les documents qui lui sont liés. Cette liste est raisonnée au sens où ces documents sont regroupés en fonction du rôle qu’y joue Paul Veyne (auteur, directeur de thèse, préfacier, etc.)

Pour obtenir la version RDF/XML de ces données, il suffit d’ajouter  l’extension .rdf à l’URL précédente :

http://www.idref.fr/027182800.rdf

On voit à cette adresse que les données RDF d’IdRef pointent désormais vers les données RDF du Sudoc, publiées aujourd’hui. Et l’inverse est également vrai, comme le montre cet exemple :

http://www.sudoc.fr/001028235.rdf

Les données RDF d’IdRef pointent également vers le référentiel géographique Geonames ou le référentiel de langues Lexvo. Par la suite, nous avons bon espoir de pouvoir établir des liens vers d’autres référentiels, comme VIAF pour les personnes ou Rameau pour les concepts.

Merci

Merci aux quelques milliers de catalogueurs qui, depuis des années, ont établi ces millions de liens ! Et merci aussi à eux pour leur vigilance dans la saisie des données codées !

Le Web de données, reconnaissant.

Documentation technique : http://documentation.abes.fr/aideidref/developpeur/ch03.html

Contact : passez par l’interface d’assistance d’IdRef > Domaine Web Services