Comment isoler les thèses de doctorat soutenues en France au sein des données Sudoc ?

Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Ce billet entame une série sur le chargement des données du Sudoc dans theses.fr

theses.fr a ouvert en juillet 2011 avec les données en provenance de STAR (les thèses déposées au format électronique au sens de l’arrêté du 26 août 2006), soit une infime partie des thèses de doctorat soutenues en France. Pour que theses.fr puisse prétendre à l’exhaustivité du signalement des thèses de doctorat soutenues en France, il fallait charger dans theses.fr les données du Sudoc concernant les thèses de doctorat.

Mais comment isoler les thèses dans le Sudoc ?

Les données codées (« nature du contenu » zone 105$b en unimarc) permettent d’isoler les thèses dans leur version de soutenance. Mais quid des autres versions dérivées de la thèses ? Cet index est donc trop restrictif.

Peut-on s’appuyer sur les types de notices ? Malheureusement, les thèses ne sont pas un type de particulier comme le sont les cartes ou les partitions. Cette notice décrit une monographie sous forme papier (notice Aa avec une 200$bTexte imprimé). Celle-ci une microfiche (notice Aa avec une 200$bMicroforme). Celle-ci une ressource électronique (notice Oa avec une 200$bRessource électronique). Les trois ont vocation à être dans theses.fr.

Une zone unimarc spécifique existe-t-elle pour décrire les thèses ? Heureusement, oui : la note de thèse (zone 328).

C’est sur cette zone que nous nous sommes appuyés pour isoler les thèses dans le Sudoc. Un premier biais est introduit : les notices de thèses ne comportant pas de note de thèse ne sont pas chargées dans theses.fr

Comment au sein des thèses isoler les thèses de doctorat soutenues en France ?

Le comité de pilotage du projet de portail des thèses a décidé que theses.fr devait se concentrer sur les thèses de doctorat. Cette notice  a une note de thèse mais c’est une thèse d’exercice. Celle-ci  est un mémoire d’ingénieur. Elles ont une note de thèse mais n’entrent pas dans le périmètre de theses.fr

Nous avons extrait le diplôme présent dans la note de thèse (« Mention du travail universitaire et nature du diplôme » 328$b). Cela introduit un second biais : les notices de thèses ne comportant pas de note de thèse structurées ne sont pas chargées dans theses.fr

Grâce à une facette sur la zone 328$b, nous avons repéré les  5 549 chaînes de caractères distinctes présentes dans les notices. Pourquoi autant de formes distinctes ? Parce que l’outil de production des données du Sudoc (WinIBW) laisse le catalogueur face à une page blanche : la plupart des zones sont en saisie libre et il n’existe aucun garde-fou contre les erreurs de frappe.

L’analyse (manuelle) de ces chaînes de caractères a permis la construction d’un référentiel des diplômes intéressant theses.fr (2  606 formes distinctes). Par exemple, les notices comprenant « Thèse Doctorat » , « Th. doct », « Th. 3è cycle », « Th. Etat », « Thèse univ. » font partie du périmètre de theses.fr ; les notices comprenant « Mémoire », « exercice », « magistère » sont exclues.

[ A terme, l’ABES envisage des modifications de masse pour corriger les formes exotiques : « Thèse dedoctorat », « Thèse docotorat », « Thèset », etc. ]

Le lot de notices appelés à rejoindre theses.fr est ainsi constitué.

Enfin, pour repérer au sein de ce lot les thèses soutenues en France, il suffit d’exploiter la sous-zone de données codées 102$a « Pays de publication ou de production ».

Comme l’alimentation du référentiel a été manuelle, les erreurs et les omissions sont tout à fait possibles. Si vous en constatez, merci de les signaler au guichet d’assistance de theses.fr, rubrique Erreur dans les données ou Absence d’une thèse.

 IMR

Advertisements

3 réflexions sur “Comment isoler les thèses de doctorat soutenues en France au sein des données Sudoc ?

  1. Pingback: L’attribution d’un code de domaine aux notices en provenance du Sudoc | Punktokomo ;
  2. La phrase sur la zone 105$b en unimarc précise que les versions éditées, remaniées, commerciales des thèses doivent également se trouver dans thèses.fr et qu’on ne veut pas se priver des autres versions que la version de soutenance.
    le $z du 328 qui peut contenir ce type d’information n’a donc pas servi de filtre pour écarter les versions dérivées et du coup on profite, sur les « vieilles » thèses , de la mention d’autres éditions.
    En revanche, pour les thèses récentes, pour lesquelles les données de theses.fr sont venues de star ou de TEL, on n’a pas accès à cette information, n’est-ce pas?

  3. Pingback: Quels contrôles qualité sur les notices de thèses en provenance du Sudoc ? | Punktokomo ;

Les personnes disposent d’un droit d’accès aux informations contenues dans cette zone de texte. Les informations que vous y inscrivez doivent être pertinentes au regard du contexte. Elles ne doivent pas comporter d’appréciation subjective, ni faire apparaître, directement ou indirectement les origines raciales, les opinions politiques, philosophiques ou religieuses, les appartenances syndicales ou les mœurs de la personne concernée.

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s