Webservice AlgoSudoc : prendre connaissance et remédier aux anomalies de chargement des données Sudoc dans theses.fr

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr
Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

« Nous sommes en 2015 après Jésus-Christ. Toutes les thèses de doctorat soutenues en France depuis 1985 sont recensées dans theses.fr… Toutes ? Non ! Un lot d’irréductibles notices Sudoc résiste encore et toujours à l’algorithme de chargement. Et la vie n’est pas facile pour les garnisons de catalogueurs des bibliothèques retranchés dans les établissements de soutenance.« 

En mai 2013, les données du Sudoc ont été chargées dans le moteur de recherche theses.fr. Un précédent billet liste (de manière non exhaustive) les raisons pour lesquelles certaines notices n’ont pas pu être chargées.
Au-delà de l’énoncé de ces quelques principes, le programme de versement des données Sudoc restait une boite noire pour les catalogueurs. Vous avez été nombreux à nous réclamer via le guichet d’assistance des explications sur le non-chargement de telle ou telle notice, souvent à la demande d’un directeur de thèse qui constatait que theses.fr ne recensait pas la totalité des thèses qu’il a dirigées. Nous vous avons répondu au cas par cas, en vous promettant une liste de toutes les notices en erreur.

Continuer la lecture

Le chargement des données Sudoc dans theses.fr : détails techniques

Here / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr
Here / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Le chargement des données du Sudoc dans theses.fr se fait en deux étapes.

1. Côté Sudoc

Un algorithme scanne l’ensemble des notices bibliographiques du Sudoc pour repérer quelles notices ont vocation à rejoindre theses.fr. Cet algorithme tourne sur la base miroir du Sudoc (cette base contient les notices du Sudoc en MarcXML et est synchronisée à la base CBS dans laquelle les catalogueurs du réseau Sudoc travaillent en Unimarc).

Continuer la lecture