Comment isoler les thèses de doctorat soutenues en France au sein des données Sudoc ?

Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Ce billet entame une série sur le chargement des données du Sudoc dans theses.fr

theses.fr a ouvert en juillet 2011 avec les données en provenance de STAR (les thèses déposées au format électronique au sens de l’arrêté du 26 août 2006), soit une infime partie des thèses de doctorat soutenues en France. Pour que theses.fr puisse prétendre à l’exhaustivité du signalement des thèses de doctorat soutenues en France, il fallait charger dans theses.fr les données du Sudoc concernant les thèses de doctorat.

Mais comment isoler les thèses dans le Sudoc ?

Les données codées (« nature du contenu » zone 105$b en unimarc) permettent d’isoler les thèses dans leur version de soutenance. Mais quid des autres versions dérivées de la thèses ? Cet index est donc trop restrictif.

Peut-on s’appuyer sur les types de notices ? Malheureusement, les thèses ne sont pas un type de particulier comme le sont les cartes ou les partitions. Cette notice décrit une monographie sous forme papier (notice Aa avec une 200$bTexte imprimé). Celle-ci une microfiche (notice Aa avec une 200$bMicroforme). Celle-ci une ressource électronique (notice Oa avec une 200$bRessource électronique). Les trois ont vocation à être dans theses.fr.

Une zone unimarc spécifique existe-t-elle pour décrire les thèses ? Heureusement, oui : la note de thèse (zone 328).

C’est sur cette zone que nous nous sommes appuyés pour isoler les thèses dans le Sudoc. Un premier biais est introduit : les notices de thèses ne comportant pas de note de thèse ne sont pas chargées dans theses.fr

Comment au sein des thèses isoler les thèses de doctorat soutenues en France ?

Le comité de pilotage du projet de portail des thèses a décidé que theses.fr devait se concentrer sur les thèses de doctorat. Cette notice  a une note de thèse mais c’est une thèse d’exercice. Celle-ci  est un mémoire d’ingénieur. Elles ont une note de thèse mais n’entrent pas dans le périmètre de theses.fr

Nous avons extrait le diplôme présent dans la note de thèse (« Mention du travail universitaire et nature du diplôme » 328$b). Cela introduit un second biais : les notices de thèses ne comportant pas de note de thèse structurées ne sont pas chargées dans theses.fr

Grâce à une facette sur la zone 328$b, nous avons repéré les  5 549 chaînes de caractères distinctes présentes dans les notices. Pourquoi autant de formes distinctes ? Parce que l’outil de production des données du Sudoc (WinIBW) laisse le catalogueur face à une page blanche : la plupart des zones sont en saisie libre et il n’existe aucun garde-fou contre les erreurs de frappe.

L’analyse (manuelle) de ces chaînes de caractères a permis la construction d’un référentiel des diplômes intéressant theses.fr (2  606 formes distinctes). Par exemple, les notices comprenant « Thèse Doctorat » , « Th. doct », « Th. 3è cycle », « Th. Etat », « Thèse univ. » font partie du périmètre de theses.fr ; les notices comprenant « Mémoire », « exercice », « magistère » sont exclues.

[ A terme, l’ABES envisage des modifications de masse pour corriger les formes exotiques : « Thèse dedoctorat », « Thèse docotorat », « Thèset », etc. ]

Le lot de notices appelés à rejoindre theses.fr est ainsi constitué.

Enfin, pour repérer au sein de ce lot les thèses soutenues en France, il suffit d’exploiter la sous-zone de données codées 102$a « Pays de publication ou de production ».

Comme l’alimentation du référentiel a été manuelle, les erreurs et les omissions sont tout à fait possibles. Si vous en constatez, merci de les signaler au guichet d’assistance de theses.fr, rubrique Erreur dans les données ou Absence d’une thèse.

 IMR