Le chargement des données Sudoc dans theses.fr : détails techniques

Here / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Here / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Le chargement des données du Sudoc dans theses.fr se fait en deux étapes.

1. Côté Sudoc

Un algorithme scanne l’ensemble des notices bibliographiques du Sudoc pour repérer quelles notices ont vocation à rejoindre theses.fr. Cet algorithme tourne sur la base miroir du Sudoc (cette base contient les notices du Sudoc en MarcXML et est synchronisée à la base CBS dans laquelle les catalogueurs du réseau Sudoc travaillent en Unimarc).

Le résultat de l’algorithme est une table SQL qui rapproche les identifiants des notices Sudoc (les PPN). Dans notre jargon interne, nous parlons d’une « famille thèse » constituée d’une « maman » (cette notice décrivant la thèse originelle) et de ses « enfants »  (les notices décrivant des documents en relation avec la thèse originelle : celle-ci, celle-ci et celle-ci). L’algorithme a pour but de rapprocher les notices mais aussi de contrôler leur qualité (cf. billet précédent).

2. Côté theses.fr

Un programme récupère les PPN de chaque famille et charge les données sous la forme d’un paquet MarcXML par famille : la notice maman en MarcXML suivie de ses enfants, collés à la suite dans le même fichier XML.

Un XSL de transformation traite chaque famille MarcXML pour les transformer en un fichier XML largement inspiré de TEF. Ce fichier TEF est stocké, indexé, affiché dans theses.fr.

Le résultat est une seule page dans theses.fr reprenant le contenant de n notices. Par exemple http://www.theses.fr/2007LIL30023

IMR

Advertisements

Une réflexion sur “Le chargement des données Sudoc dans theses.fr : détails techniques

Les personnes disposent d’un droit d’accès aux informations contenues dans cette zone de texte. Les informations que vous y inscrivez doivent être pertinentes au regard du contexte. Elles ne doivent pas comporter d’appréciation subjective, ni faire apparaître, directement ou indirectement les origines raciales, les opinions politiques, philosophiques ou religieuses, les appartenances syndicales ou les mœurs de la personne concernée.

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s