theses.fr et les FRBR

Looking for a book / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Looking for a book / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Le Sudoc a le document comme niveau de granularité. Ce principe peut se résumer par l’équation suivante : une notice = un document = un support. Appliqué aux thèses dans les cas les plus complexes, ce principe explique la coexistence de plusieurs notices :

  • une notice A : description du document dactylographié remis par le docteur juste après sa soutenance,
  • une notice B : description de la microfiche fabriquée par l’Atelier national de reproduction des thèses de Lille,
  • une notice C : description du document électronique que la bibliothèque a fabriqué par numérisation du document papier et a mis en ligne sur internet après autorisation de l’auteur.

Ces notices décrivent des documents au support matériel distinct mais au contenu identique.
Il peut également exister des notices D, E, etc. décrivant les monographies publiées par un éditeur suite à une révision par le docteur du texte initial de sa thèse. Dans ce cas, non seulement le support matériel est distinct de la version de soutenance, mais en plus le contenu a été remanié.
Dans le Sudoc, il y a donc n notices pour 1 thèse donnée.

A contrario, theses.fr propose une page par thèse. Chaque thèse a pour identifiant le numéro national de thèses, qui permet aussi la construction de l’url de la page. Cette page est construite par regroupement des n notices du Sudoc :

  • la quasi totalité du contenu de la notice A (titre, auteur, directeur, note de thèse, résumé, mots clés..) permet l’identification de la ressource
  • des éléments des notices A, B, C, D et E permettent l’accès à la ressource.

Peut-on considérer que theses.fr est la traduction FRBR d’une partie des données du catalogue Sudoc ?

Cette question appelle une réponse de Normand.

->Non.

Dans l’exemple pré cité, au sens des FRBR, il y a deux entités. La première a pour manifestation A, B et C ; la seconde a pour manifestation D et E. Ces deux entités sont liées (l’une est le remaniement de l’autre) mais elles sont distinctes. Si le degré de remaniement du texte initial de la thèse est très important, on a affaire à deux œuvres distinctes. S’il est moindre, on a affaire à une œuvre dont découlent deux expressions. La limite est ténue et les indications figurant dans les notices D et E permettent difficilement de déterminer s’il s’agit d’expressions de la même œuvre ou deux œuvres différentes.

Nous avons fait le choix de considérer qu’il s’agit de la même œuvre. Une même page de theses.fr regroupe la thèse dans sa version de soutenance et la thèse remaniée en attribuant à l’ensemble un identifiant commun, le numéro national de thèse (qui n’est pourtant pas une métadonnée de la version remaniée). Il ne nous a pas semblé utile de suivre le modèle FRBR à la lettre car theses.fr vise avant tout la simplification. Cependant, l’utilisateur est alerté des différences de contenu entre les deux entités :

  • grâce à l’affichage du titre et de la mention d’édition de la thèse ayant fait l’objet d’une publication
  • et surtout, grâce à un tampon « validé par le jury » qui estampille la version de soutenance.

-> Oui.

Le processus de chargement des données du Sudoc a pour finalité un regroupement des n notices du Sudoc. La granularité de theses.fr est bien l’œuvre, et non le document. Nous avons fait le pari que la forme était anecdotique (collation, ISBN… sont affichés mais peu mis en avant). Par contre l’accès au contenu est une information capitale.
En ce sens, le chargement des données du Sudoc dans theses.fr est conforme aux FRBR (1).

« […] on définit les spécifications fonctionnelles des notices bibliographiques en
articulation avec la liste suivante de tâches qu’accomplissent les utilisateurs au cours de la consultation et de l’exploitation des bibliographies nationales et des catalogues de bibliothèques :
— utilisation des données afin de trouver les documents qui correspondent aux critères de recherche exprimés par l’utilisateur […] ;

L’utilisateur de theses.fr peut effectivement retrouver tous les documents relatifs à une thèse donnée.

— utilisation des données afin d’identifier une entité […] ; — utilisation des données pour choisir une entité qui soit en adéquation avec les besoins de l’utilisateur […] ;

Les données de la version de soutenance ainsi que les données divergentes de la version remaniée sont clairement affichées pour permettre l’utilisateur d’identifier la ressource adéquate.

— utilisation des données pour avoir accès (à titre gratuit ou onéreux) à l’entité décrite […]

L’interface de theses.fr met en avant les différentes actions possibles : consultation du document en bibliothèque, accès en ligne (internet ou intranet), achat du document.

Pour conclure, avec theses.fr, l’ABES a souhaité se frotter concrètement à la problématique de FRBRisation d’un catalogue, non pour réaliser une modélisation parfaite mais pour répondre à une logique d’usage.

Exemple 1

4 notices dans le Sudoc : la version originelle , la microfiche , la thèse remaniée publiée en deux tomes avec deux titres distincts (ici et ) = http://www.theses.fr/2010PA010514

Exemple 2

4 notices dans le Sudoc : la version originelle , la microfiche , la version électronique déposée sur l’archive institutionnelle de l’établissement de soutenance , la version remaniée  = http://www.theses.fr/2006PA082686
NB : notez dans cet exemple que diffusion sur internet et publication par un éditeur ne font pas incompatibles !

IMR

 1. Extrait du Groupe de travail IFLA, « Fonctionnalités requises des notices bibliographiques, rapport final », 2e édition française établie par la Bibliothèque nationale de France, 2012, p. 12. [en ligne] < http://www.bnf.fr/documents/frbr_rapport_final.pdf > Consulté le 7 juin 2013

Publicités

Le chargement des données Sudoc dans theses.fr : détails techniques

Here / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Here / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Le chargement des données du Sudoc dans theses.fr se fait en deux étapes.

1. Côté Sudoc

Un algorithme scanne l’ensemble des notices bibliographiques du Sudoc pour repérer quelles notices ont vocation à rejoindre theses.fr. Cet algorithme tourne sur la base miroir du Sudoc (cette base contient les notices du Sudoc en MarcXML et est synchronisée à la base CBS dans laquelle les catalogueurs du réseau Sudoc travaillent en Unimarc).

Le résultat de l’algorithme est une table SQL qui rapproche les identifiants des notices Sudoc (les PPN). Dans notre jargon interne, nous parlons d’une « famille thèse » constituée d’une « maman » (cette notice décrivant la thèse originelle) et de ses « enfants »  (les notices décrivant des documents en relation avec la thèse originelle : celle-ci, celle-ci et celle-ci). L’algorithme a pour but de rapprocher les notices mais aussi de contrôler leur qualité (cf. billet précédent).

2. Côté theses.fr

Un programme récupère les PPN de chaque famille et charge les données sous la forme d’un paquet MarcXML par famille : la notice maman en MarcXML suivie de ses enfants, collés à la suite dans le même fichier XML.

Un XSL de transformation traite chaque famille MarcXML pour les transformer en un fichier XML largement inspiré de TEF. Ce fichier TEF est stocké, indexé, affiché dans theses.fr.

Le résultat est une seule page dans theses.fr reprenant le contenant de n notices. Par exemple http://www.theses.fr/2007LIL30023

IMR