« Nous sommes en 2015 après Jésus-Christ. Toutes les thèses de doctorat soutenues en France depuis 1985 sont recensées dans theses.fr… Toutes ? Non ! Un lot d’irréductibles notices Sudoc résiste encore et toujours à l’algorithme de chargement. Et la vie n’est pas facile pour les garnisons de catalogueurs des bibliothèques retranchés dans les établissements de soutenance.«
En mai 2013, les données du Sudoc ont été chargées dans le moteur de recherche theses.fr. Un précédent billet liste (de manière non exhaustive) les raisons pour lesquelles certaines notices n’ont pas pu être chargées.
Au-delà de l’énoncé de ces quelques principes, le programme de versement des données Sudoc restait une boite noire pour les catalogueurs. Vous avez été nombreux à nous réclamer via le guichet d’assistance des explications sur le non-chargement de telle ou telle notice, souvent à la demande d’un directeur de thèse qui constatait que theses.fr ne recensait pas la totalité des thèses qu’il a dirigées. Nous vous avons répondu au cas par cas, en vous promettant une liste de toutes les notices en erreur.
Ce service est désormais (enfin !) disponible. L’ABES a développé un webservice baptisé AlgoSudoc permettant de générer à la demande un « rapport dynamique de chargement des données Sudoc dans theses.fr ». Ce rapport est un fichier .csv contenant les résultats des tests de l’algorithme. Ces tests portent principalement sur la qualité de la notice décrivant la thèse originelle (codée 105$bm) et sont divers et variés (présence, structure et unicité du numéro national de thèse, structure de la note de thèses…). Pour chaque PPN en anomalie, le catalogueur est invité à corriger la notice dans WinIBW ; le rapport dynamique lui suggère d’intervenir à tel ou tel endroit de la notice.
Aujourd’hui, des dizaines de milliers d’anomalies sont détectées, y compris pour les thèses soutenues après 1985. Face à l’ampleur de la tâche, il est nécessaire d’organiser le travail de correction. En utilisant des paramètres dans l’url de génération du rapport dynamique, il est possible de définir un lot précis (par exemple, toutes les notices de thèses localisées avec un RCR donné).
La documentation sur ce webservice est ici. Un J-e.cours de présentation de ce service aura lieu le 12 mars.
Nous espérons que ce webservice sera l’occasion pour les établissements de mettre en place des chantiers de corrections ciblés, un peu comme le traitement des ebooks de droit international achetés dans le cadre d’ISTEX ou plus récemment comme dans la démarche des CERCLES (Correction et Enrichissement par le Réseau de Corpus de L‘Enseignement Supérieur) .
Il est évident que dans un corpus centré sur les thèses, composé de notices qui bien souvent sont des unicas, les bibliothèques des établissements habilités à délivrer le doctorat ont une responsabilité particulière.
L’ABES vérifiera régulièrement l’avancement des corrections de manière globale. Par ailleurs, l’ABES prend à sa charge un certain nombre de traitements (qui n’apparaissent pas dans les rapports dynamiques) et ne s’interdit pas de mettre en place de nouveaux contrôles, notamment sur l’absence de liens entre notices bibliographiques et notices d’autorité (tests qui eux apparaitront dans les rapports dynamiques).
Un jour, à terme, ce webservice devrait être inutile : plus aucune anomalie ne devrait être détectée par l’algorithme.
Les irréductibles notices Sudoc n’ayant pas de potion magique, elles seront vaincues par les armées de catalogueurs !
IMR
Ping : Comment « CERCLES se met en place | «Punktokomo ;
Documentaliste est mon métier principal. J’adore cette pratique. Merci pour ce site très riche en informations.
Ping : Chantier Qualité des données de thèses : bilan 2017 | Punktokomo ;
Ping : Sudoc-PS » Mission : enrichir et faire parler les données du CR (1/5)