Webservice AlgoSudoc : prendre connaissance et remédier aux anomalies de chargement des données Sudoc dans theses.fr

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

« Nous sommes en 2015 après Jésus-Christ. Toutes les thèses de doctorat soutenues en France depuis 1985 sont recensées dans theses.fr… Toutes ? Non ! Un lot d’irréductibles notices Sudoc résiste encore et toujours à l’algorithme de chargement. Et la vie n’est pas facile pour les garnisons de catalogueurs des bibliothèques retranchés dans les établissements de soutenance.« 

En mai 2013, les données du Sudoc ont été chargées dans le moteur de recherche theses.fr. Un précédent billet liste (de manière non exhaustive) les raisons pour lesquelles certaines notices n’ont pas pu être chargées.
Au-delà de l’énoncé de ces quelques principes, le programme de versement des données Sudoc restait une boite noire pour les catalogueurs. Vous avez été nombreux à nous réclamer via le guichet d’assistance des explications sur le non-chargement de telle ou telle notice, souvent à la demande d’un directeur de thèse qui constatait que theses.fr ne recensait pas la totalité des thèses qu’il a dirigées. Nous vous avons répondu au cas par cas, en vous promettant une liste de toutes les notices en erreur.

Ce service est désormais (enfin !) disponible. L’ABES a développé un webservice baptisé AlgoSudoc permettant de générer à la demande un « rapport dynamique de chargement des données Sudoc dans theses.fr ». Ce rapport est un fichier .csv contenant les résultats des tests de l’algorithme. Ces tests portent principalement sur la qualité de la notice décrivant la thèse originelle (codée 105$bm) et sont divers et variés (présence, structure et unicité du numéro national de thèse, structure de la note de thèses…). Pour chaque PPN en anomalie, le catalogueur est invité à corriger la notice dans WinIBW ; le rapport dynamique lui suggère d’intervenir à tel ou tel endroit de la notice.
Aujourd’hui, des dizaines de milliers d’anomalies sont détectées, y compris pour les thèses soutenues après 1985. Face à l’ampleur de la tâche, il est nécessaire d’organiser le travail de correction. En utilisant des paramètres dans l’url de génération du rapport dynamique, il est possible de définir un lot précis (par exemple, toutes les notices de thèses localisées avec un RCR donné).

La documentation sur ce webservice est ici. Un J-e.cours de présentation de ce service aura lieu le 12 mars.

Nous espérons que ce webservice sera l’occasion pour les établissements de mettre en place des chantiers de corrections ciblés, un peu comme le traitement des ebooks de droit international achetés dans le cadre d’ISTEX  ou plus récemment comme dans la démarche des CERCLES (Correction et Enrichissement par le Réseau de Corpus de L‘Enseignement Supérieur) .
Il est évident que dans un corpus centré sur les thèses, composé de notices qui bien souvent sont des unicas, les bibliothèques des établissements habilités à délivrer le doctorat ont une responsabilité particulière.
L’ABES vérifiera régulièrement l’avancement des corrections de manière globale. Par ailleurs, l’ABES prend à sa charge un certain nombre de traitements (qui n’apparaissent pas dans les rapports dynamiques) et ne s’interdit pas de mettre en place de nouveaux contrôles, notamment sur l’absence de liens entre notices bibliographiques et notices d’autorité (tests qui eux apparaitront dans les rapports dynamiques).

Un jour, à terme, ce webservice devrait être inutile : plus aucune anomalie ne devrait être détectée par l’algorithme.

Les irréductibles notices Sudoc n’ayant pas de potion magique, elles seront vaincues par les armées de catalogueurs !

IMR

Le chargement des données Sudoc dans theses.fr : détails techniques

Here / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Here / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Le chargement des données du Sudoc dans theses.fr se fait en deux étapes.

1. Côté Sudoc

Un algorithme scanne l’ensemble des notices bibliographiques du Sudoc pour repérer quelles notices ont vocation à rejoindre theses.fr. Cet algorithme tourne sur la base miroir du Sudoc (cette base contient les notices du Sudoc en MarcXML et est synchronisée à la base CBS dans laquelle les catalogueurs du réseau Sudoc travaillent en Unimarc).

Le résultat de l’algorithme est une table SQL qui rapproche les identifiants des notices Sudoc (les PPN). Dans notre jargon interne, nous parlons d’une « famille thèse » constituée d’une « maman » (cette notice décrivant la thèse originelle) et de ses « enfants »  (les notices décrivant des documents en relation avec la thèse originelle : celle-ci, celle-ci et celle-ci). L’algorithme a pour but de rapprocher les notices mais aussi de contrôler leur qualité (cf. billet précédent).

2. Côté theses.fr

Un programme récupère les PPN de chaque famille et charge les données sous la forme d’un paquet MarcXML par famille : la notice maman en MarcXML suivie de ses enfants, collés à la suite dans le même fichier XML.

Un XSL de transformation traite chaque famille MarcXML pour les transformer en un fichier XML largement inspiré de TEF. Ce fichier TEF est stocké, indexé, affiché dans theses.fr.

Le résultat est une seule page dans theses.fr reprenant le contenant de n notices. Par exemple http://www.theses.fr/2007LIL30023

IMR

Quels contrôles qualité sur les notices de thèses en provenance du Sudoc ?

Deux types d’outils de production pour le signalement des thèses en France existent :

  • STAR pour les thèses déposées au format électronique (et son jumeau STEP pour les thèses avant soutenance),
  • WinIBW pour les thèses déposées au format papier.

Ces outils n’ont pas grand-chose en commun.

Les interfaces web de STAR et STEP partent du principe que le producteur de métadonnées (qui n’est pas forcément catalogueur) est novice : il fait du TEF sans le savoir en remplissant une grille de saisie. Un cheminement logique est proposé pour cataloguer la thèse, des listes fermées allègent la saisie, certaines métadonnées sont calculées ou déduites. Un contrôle final valide les métadonnées en vérifiant leur structure par rapport à la recommandation TEF. Les données sont produites établissement par établissement sans savoir ce qui se passe chez le voisin.
WinIBW fonctionne sur la logique inverse : le catalogueur du Sudoc maîtrise les pré-requis des normes et des formats. Il fait de l’unimarc à partir d’une feuille blanche. Hormis pour les données codées et le lien aux autorités, aucune aide à la saisie ne lui est proposée. Un contrôle final existe mais il est sommaire car il doit pouvoir s’appliquer à tous les types de documents. Ce sont les pairs qui exercent le contrôle le plus efficace puisque le Sudoc est un réseau de catalogage partagé.

Taking a bath / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Taking a bath / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Quelles sont les conséquences pour theses.fr, réceptacle des données produites dans ces environnements si différents ?
Lancé en juillet 2011 avec STAR comme seule source de données, theses.fr a été conçu sans que la question de la qualité des données soit posée : puisque tout provenait de STAR, tout était contrôlé en amont. Une thèse en provenance de STAR a toujours un et un seul auteur avec une notice d’autorité, au moins un directeur de thèse avec sa notice d’autorité, deux titres dont un en anglais, deux résumés dont un en anglais, des mots clés, un numéro national de thèse etc.

Puisque les données en entrée de theses.fr sont « parfaites », theses.fr ne fait que les recevoir pour les rendre visibles sans les modifier.

Mais quid des notices cataloguées dans le Sudoc ? Il y a une extrême variété de la qualité des thèses cataloguées dans le Sudoc, due à :

  • l’absence de table de validation spécifique (techniquement impossible à mettre en œuvre puisque les thèses ne sont pas un type de document particulier cf. billet précédent )
  • des opérations de rétroconversions massives, parfois document en main, parfois non
  • une moindre efficacité du contrôle par les pairs puisque les thèses sont souvent des unicas.

Nous avons donc mis en place des contrôles en amont du chargement dans theses.fr. Le chargement des données du Sudoc dans theses.fr se fait grâce à un algorithme qui scanne l’ensemble des notices bibliographiques du Sudoc pour repérer quelles notices ont vocation à rejoindre theses.fr. theses.fr vient alors piocher les données qui l’intéressent.
Une notice qui ne remplit par certaines conditions ne peut pas être versée dans theses.fr

Liste (non exhaustive) des contrôles

Une notice ne peut pas être chargée dans theses.fr :

  • si elle n’a pas les deux zones spécifiques à la description des thèses : la donnée codée spécifiant la nature de contenu (105$b) et la note de thèse structurée (328$b, 328$c, 328$d, 328$e)
  • si elle n’est pas localisée
  • si le diplôme en 328$b n’appartient pas au référentiel des diplômes concernés par theses.fr (cf billet précédent)
  • si le code de pays n’appartient pas au référentiel des pays concernés par theses.fr(cf billet précédent)
  • si elle n’a pas de code de domaine dans le zone 686 (cf. billet précédent)

Certains contrôles ne s’appliquent qu’aux notices décrivant une thèse de doctorat dans sa version de soutenance (zone 105$bm). Une notice ne peut pas être chargée si :

  • si elle n’a pas de numéro national de thèse (zone 029$b)
  • si elle a un numéro national de thèse erroné ie ne respectant la structure définie dans le Guide méthodologique
  • si elle n’a pas de numéro national de thèse unique à l’échelle du Sudoc

Pour conclure, l’algorithme vérifie des points essentiels, notamment la structure du numéro national, identifiant indispensable puisque constitutif de l’url de la page dans theses.fr. Les contrôles sont cependant plus lâches pour les données du Sudoc que pour les données en provenance de STAR. Une notice Sudoc peut être chargée dans theses.fr si elle n’a ni titre traduit, ni mots clés, ni résumés, ni liens aux autorités.

Pour conclure, si une notice est « moche » dans theses.fr, c’est qu’elle est « moche » dans le Sudoc. L’ABES espère que la visibilité supplémentaire de cette notice grâce à theses.fr sera une incitation suffisante pour corriger les données dans le Sudoc.

IMR