Le chargement des données Sudoc dans theses.fr : détails techniques

Auteur/autrice de la publication :Punktauteur
Publication publiée :6 juin 2013
Post category:Sudoc / theses.fr
Commentaires de la publication :2 commentaires

Here / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Le chargement des données du Sudoc dans theses.fr se fait en deux étapes.

1. Côté Sudoc

Un algorithme scanne l’ensemble des notices bibliographiques du Sudoc pour repérer quelles notices ont vocation à rejoindre theses.fr. Cet algorithme tourne sur la base miroir du Sudoc (cette base contient les notices du Sudoc en MarcXML et est synchronisée à la base CBS dans laquelle les catalogueurs du réseau Sudoc travaillent en Unimarc).

Le résultat de l’algorithme est une table SQL qui rapproche les identifiants des notices Sudoc (les PPN). Dans notre jargon interne, nous parlons d’une « famille thèse » constituée d’une « maman » (cette notice décrivant la thèse originelle) et de ses « enfants » (les notices décrivant des documents en relation avec la thèse originelle : celle-ci, celle-ci et celle-ci). L’algorithme a pour but de rapprocher les notices mais aussi de contrôler leur qualité (cf. billet précédent).

2. Côté theses.fr

Un programme récupère les PPN de chaque famille et charge les données sous la forme d’un paquet MarcXML par famille : la notice maman en MarcXML suivie de ses enfants, collés à la suite dans le même fichier XML.

Un XSL de transformation traite chaque famille MarcXML pour les transformer en un fichier XML largement inspiré de TEF. Ce fichier TEF est stocké, indexé, affiché dans theses.fr.

Le résultat est une seule page dans theses.fr reprenant le contenant de n notices. Par exemple http://www.theses.fr/2007LIL30023

IMR

Tweetez

Partagez

Étiquettes : algorithme

Cet article a 2 commentaires

Romain__V 6 juin 2013 Répondre

Une idée de quand se fera un éventuel chargement de TEL vers theses.fr (pas encore regardé le parcours theses des jabes2013 !). Et comment ?
Ping : Chantier Qualité des données de thèses : bilan 2017 | Punktokomo ;

Le chargement des données Sudoc dans theses.fr : détails techniques

1. Côté Sudoc

2. Côté theses.fr

Cet article a 2 commentaires

Laisser un commentaire Annuler la réponse

L'Abes sur X (ex-Twitter)