Webservice AlgoLiens : remédier à l’absence de liens dans les données du Sudoc

imagealogoliens

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

L’ABES vient de mettre en production un nouveau web service, baptisé AlgoLiens. Ce dernier détecte les notices du Sudoc dans lesquelles une zone de liens aux autorités n’est pas liée. En mettant à la disposition de leurs créateurs les notices présentant une telle anomalie afin de les amener à la corriger, l’objectif est d’atteindre à un signalement documentaire total.

A l’origine d’AlgoLiens, nouvel outil à la disposition des catalogueurs du réseau Sudoc, se trouve une question que plus d’une fois nous nous sommes collectivement posée : comment améliorer les données du Sudoc ? Cette question à peine énoncée, le doute s’instille. Finalement, est-ce tout simplement possible ? Ecrasante, la recherche de la réponse est repoussée à un horizon de pieuse espérance habité par de dociles machines… Pourtant, insistons car le jeu, en vaut la chandelle et répond à quatre enjeux MAJEURS :

  • l’exhaustivité du signalement catalographique,
  • la valorisation scientifique de l’IST,
  • la valorisation patrimoniale des BU,
  • la contribution des données Sudoc au Web de données liées.

Commençons par rendre la question moins effrayante : comment approcher la notion de qualité du catalogue Sudoc et prendre à bras le corps les anomalies qu’immanquablement les données contiennent ? Avec le webservice Algoliens, la porte d’entrée retenue concerne les zones de liens aux notices d’autorité. En effet, les notices d’autorité ont pour fonction de normaliser les points d’accès autorisés des notices – bibliographiques et d’autorités. De plus, elles recensent les variantes de formes. Enfin, elles ont vocation, dans les notices bibliographiques comme dans les notices d’autorité, à être liées à tous les points d’accès.

Conçu sous forme d’un web service, AlgoLiens détecte les notices dans lesquelles une zone de lien n’est pas liée. Ce servicepermet de générer à la demande un « rapport d’absence de liens dans les zones de lien du Sudoc » qui se présente sous forme d’un fichier .csv contenant les résultats des tests de l’algorithme.

L’algorithme porte, en premier lieu, sur la présence d’un lien situé dans les zones de lien des notices. Mais il fait bien plus en permettant de croiser de nombreux critères. Il est ainsi possible de filtrer les résultats souhaités par établissement, depuis une date fixée, pour un type de document précis, pour les unicas uniquement.

Voici par exemple la requête qui permet de remonter les notices des documents imprimés créées et modifiées par l’ILN 100 depuis le 10 mars 2015 dans lesquels des zones d’indexation ne sont pas liées :

http://www.idref.fr/AlgoLiens?typdoc=Aa&iln=100&code=B60X&date=20150310

Pour chaque PPN en anomalie, le catalogueur est invité à corriger la notice dans WinIBW ou IdRef. Le rapport dynamique lui suggère d’intervenir à tel ou tel endroit de la notice :

Aujourd’hui, des dizaines de milliers d’anomalies sont détectées. Face à l’ampleur de la tâche, il est nécessaire d’organiser le travail de correction. En utilisant des paramètres dans l’url de génération du rapport dynamique, il est possible de définir des lots personnalisés.

La documentation de ce webservice est disponible à cette adresse. Le J-e.cours de présentation de ce service qui a eu lieu le 1er décembre 2016 est accessible sur notre plateforme de formation.

Nous espérons que ce webservice sera l’occasion pour les établissements de mettre en place des chantiers de corrections ciblés, à l’instar de la démarche CERCLES. Et si vous ne savez pas par où commencer, songez à vos corpus préférés, vos petits trésors documentaires ou vos unicas… et testez des requêtes !!!

De son côté, l’ABES utilisera AlgoLiens pour suivre l’avancement des corrections de manière globale. De même, elle s’en servira pour déterminer des corpus pertinents sur lesquels l’apport d’algorithmes correctifs s’avérerait pertinent.

Enfin, un jour – que nous espérons le plus proche possible, ce webservice deviendra inutile car l’algorithme ne détectera plus aucune anomalie. Ce jour, nous pourrons être encore plus fiers du travail collectif accompli.

François Mistral, responsable du référentiel IdRef

Advertisements

Les personnes disposent d’un droit d’accès aux informations contenues dans cette zone de texte. Les informations que vous y inscrivez doivent être pertinentes au regard du contexte. Elles ne doivent pas comporter d’appréciation subjective, ni faire apparaître, directement ou indirectement les origines raciales, les opinions politiques, philosophiques ou religieuses, les appartenances syndicales ou les mœurs de la personne concernée.

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s