PUNKTOKOMO

CERCLES OpenEdition : un algorithme pour automatiser les liens 7XX

Le chantier CERCLES OpenEdition

Sarah Klocars Clauser (via OpenPhoto)

Lancé en 2015 par le SCD de l’Université François Rabelais de Tours – l’un des établissements ayant activement milité pour la création du dispositif –   le chantier CERCLES OpenEdition consiste principalement à l’enrichissement des notices bibliographiques du corpus OpenEdition (3959 notices au 01/07/2017), un travail réalisé par une équipe de catalogueurs du SCD, sous la responsabilité de Véronique Lacan, coordinatrice Sudoc.

Étapes à la loupe

Pour le traitement des notices d’e-books, il convient de  procéder dans un premier temps à la visualisation de 2 notices : celle de l’e-book à enrichir et celle de la manifestation imprimée, quand celle-ci existe. Pour cela, l’option « multifenêtrage » de WinIBW est activée.

Image1
Menu Fenêtre > Mosaïque verticale

En plus de la relecture complète, l’attention est ensuite portée sur les zones à vérifier et/ou enrichir particulièrement :

  • 035 : vérification du code source à partir du site Open Edition Books (OEB)
  • 010 : vérification de l’ISBN à partir du site OEB
  • 1XX : vérification des données codées, dont les dates
  • 200 : vérification du titre et des mentions de responsabilité (nombreux contributeurs reportés en 314)
  • 307 : ajout de la pagination de l’édition imprimée (si elle existe)
  • 310 : vérification des modalités d’accès et mise en cohérence de cette information dans les zones 856 ou 859
  • 452 : lien vers la notice de l’édition imprimée et lien réciproque
  • 6XX : complétude de l’indexation matière
  • 70X : lien à la notice d’autorité du contributeur (le plus souvent :  zones 701)

C’est principalement  l’enrichissement de cette zone 70X qui peut s’avérer complexe : soit la notice d’autorité n’existe pas encore, soit un choix doit être effectué entre plusieurs notices d’autorité, en cas d’homonymie par exemple :

 

De plus, ce traitement peut s’avérer long et fastidieux, les notices d’e-books proposant de nombreux contributeurs, comme par exemple  :

Une vingtaine de contributeurs pour cette notice : autant de liens à créer

L’intérêt du traitement automatique

Un algorithme au service du CERCLE…

Menée au SCD de l’université Picardie Jules Verne dans le cadre d’un autre chantier CERCLES comportant également de nombreux accès Auteurs à créer (voir le billet à ce sujet), une première expérimentation a démontré la capacité du programme de traitement automatique mis au point par les équipes de l’Abes.  A l’aide de cet algorithme conçu pour rechercher puis lier automatiquement les points d’accès 70X aux notices d’autorité correspondantes, un lien 7XX a été ajouté automatiquement à 749 notices sur 987, soit un taux d’erreur d’à peine 0,5 %. Une expérimentation globalement positive dont l’Abes a fait la promotion, notamment lors de l’atelier  « Aligner, le signalement augmenté » présenté par Yann Nicolas lors des Journées Abes 2017.

Saisissant cette opportunité, le SCD de Tours a sollicité les équipes de l’Abes pour bénéficier d’un traitement similaire sur le corpus OpenEdition, expérimentation lancée lors de la rencontre de travail avec un membre de l’équipe OpenEdition. Ainsi, en juin dernier, l’algorithme a  tourné sur le dernier fichier d’import de notices OpenEdition chargé dans le Sudoc. Les résultats  sont tout aussi satisfaisants : le programme est parvenu à lier automatiquement 733 sur 977 points d’accès, soit 75 % de réussite. Ce sont donc des notices avec des zones 7XX liées et validées qui ont été importées dans le Sudoc, facilitant considérablement le travail du SCD de Tours et bénéficiant à tous les établissements du réseau.

L’aide à la décision

Autre avantage de ce traitement :  pour les notices n’ayant pu bénéficié du traitement automatiquement, un rapport d’aide à la décision – résultat d’une analyse et d’un décryptage – est fourni au responsable du chantier CERCLES,  coupe de pouce bien utile pour organiser le travail de correction et témoignage que l’Abes respecte son engagement dans le dispositif CERCLES : « contribuer aux enrichissements, par un travail d’expertise préalable, par la fourniture d’outils automatisés et enfin par l’analyse et le conseil pour organiser le travail d’enrichissement« .

Ainsi, la responsable du chantier OpenEdition a disposé d’une grille de corrections à effectuer sur une partie des 244 points d’accès non traités,  pour lesquels des suggestions de liens ont été exprimées :

  • sur la base de rapprochement avec des titres similaires (73 cas)
  • sur la base de rapprochement avec des éditeurs similaires (33 cas)
  • sur la base de rapprochement avec des co-contributeurs similaires (2 cas)

Dans 10 cas seulement, aucune proposition n’a pu être opérée par le programme, les notices d’autorités potentiellement liables comportant des erreurs de catalogage, à corriger au préalable.

Extrait de l’analyse du traitement et sa grille de lecture

A partir de ce traitement automatisé, les catalogueurs du chantier CERCLES OpenEdition disposent donc d’un guide de corrections, de listes de PPN toutes prêtes sur lesquels ils peuvent intervenir. Ainsi, l’essentiel de leur travail peut se concentrer sur l’analyse et le choix de liens « problématiques », plutôt que sur la tâche purement technique et répétitive, de liages « indiscutables » aux autorités.

C’est en effet dans ce travail d’analyse et de choix complexes que s’exercent véritablement les compétences des catalogueurs, et non dans l’acte technique de simple liage qui peut être, sans remords, délaissé aux machines.

 

Quitter la version mobile