Webservice AlgoLiens : remédier à l’absence de liens dans les données du Sudoc

imagealogoliens

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

L’Abes vient de mettre en production un nouveau web service, baptisé AlgoLiens. Ce dernier détecte les notices du Sudoc dans lesquelles une zone de liens aux autorités n’est pas liée. En mettant à la disposition de leurs créateurs les notices présentant une telle anomalie afin de les amener à la corriger, l’objectif est d’atteindre à un signalement documentaire total.

A l’origine d’AlgoLiens, nouvel outil à la disposition des catalogueurs du réseau Sudoc, se trouve une question que, plus d’une fois, nous nous sommes collectivement posée : comment améliorer les données du Sudoc ? Cette question à peine énoncée, le doute s’instille. Finalement, est-ce tout simplement possible ? Écrasante, la recherche de la réponse est repoussée à un horizon de pieuse espérance habité par de dociles machines… Pourtant, insistons car le jeu en vaut la chandelle et répond à quatre enjeux majeurs :

  • l’exhaustivité du signalement catalographique
  • la valorisation scientifique de l’IST
  • la valorisation patrimoniale des BU
  • la contribution des données Sudoc au Web de données liées.

Commençons par rendre la question moins effrayante : comment approcher la notion de qualité du catalogue Sudoc et prendre à bras le corps les anomalies qu’immanquablement les données contiennent ? Avec le webservice Algoliens, la porte d’entrée retenue concerne les zones de liens aux notices d’autorité. En effet, les notices d’autorité ont pour fonction de normaliser les points d’accès autorisés des notices – bibliographiques et d’autorités. De plus, elles recensent les variantes de formes. Enfin, elles ont vocation, dans les notices bibliographiques comme dans les notices d’autorité, à être liées à tous les points d’accès.

Conçu sous forme d’un web service, AlgoLiens détecte les notices dans lesquelles une zone de lien n’est pas liée. Ce service permet de générer à la demande un « rapport d’absence de liens dans les zones de lien du Sudoc » qui se présente sous forme d’un fichier .csv contenant les résultats des tests de l’algorithme.

L’algorithme porte, en premier lieu, sur la présence d’un lien situé dans les zones de lien des notices. Mais il fait bien plus en permettant de croiser de nombreux critères. Il est ainsi possible de filtrer les résultats souhaités par établissement, depuis une date fixée, pour un type de document précis, pour les unicas uniquement.

Voici par exemple la requête qui permet de remonter les notices des documents imprimés créées et modifiées par l’ILN 100 depuis le 10 mars 2015 dans lesquels des zones d’indexation ne sont pas liées :

http://www.idref.fr/AlgoLiens?typdoc=Aa&iln=100&code=B60X&date=20150310

Pour chaque PPN en anomalie, le catalogueur est invité à corriger la notice dans WinIBW ou IdRef. Le rapport dynamique lui suggère d’intervenir à tel ou tel endroit de la notice :

Algoliens_rapport

Aujourd’hui, des dizaines de milliers d’anomalies sont détectées. Face à l’ampleur de la tâche, il est nécessaire d’organiser le travail de correction. En utilisant des paramètres dans l’url de génération du rapport dynamique, il est possible de définir des lots personnalisés.

La documentation de ce webservice est disponible à cette adresse. Le J-e.cours de présentation de ce service qui a eu lieu le 1er décembre 2016 est accessible sur notre plateforme de formation.

Nous espérons que ce webservice sera l’occasion pour les établissements de mettre en place des chantiers de corrections ciblés, à l’instar de la démarche CERCLES. Et si vous ne savez pas par où commencer, songez à vos corpus préférés, vos petits trésors documentaires ou vos unicas… et testez des requêtes !!!

De son côté, l’Abes utilisera AlgoLiens pour suivre l’avancement des corrections de manière globale. De même, elle s’en servira pour déterminer des corpus pertinents sur lesquels l’apport d’algorithmes correctifs s’avérerait pertinent.

Enfin, un jour – que nous espérons le plus proche possible, ce webservice deviendra inutile car l’algorithme ne détectera plus aucune anomalie. Ce jour, nous pourrons être encore plus fiers du travail collectif accompli.

François Mistral, responsable du référentiel IdRef

Publicités