Quels contrôles qualité sur les notices de thèses en provenance du Sudoc ?

Deux types d’outils de production pour le signalement des thèses en France existent :

  • STAR pour les thèses déposées au format électronique (et son jumeau STEP pour les thèses avant soutenance),
  • WinIBW pour les thèses déposées au format papier.

Ces outils n’ont pas grand-chose en commun.

Les interfaces web de STAR et STEP partent du principe que le producteur de métadonnées (qui n’est pas forcément catalogueur) est novice : il fait du TEF sans le savoir en remplissant une grille de saisie. Un cheminement logique est proposé pour cataloguer la thèse, des listes fermées allègent la saisie, certaines métadonnées sont calculées ou déduites. Un contrôle final valide les métadonnées en vérifiant leur structure par rapport à la recommandation TEF. Les données sont produites établissement par établissement sans savoir ce qui se passe chez le voisin.
WinIBW fonctionne sur la logique inverse : le catalogueur du Sudoc maîtrise les pré-requis des normes et des formats. Il fait de l’unimarc à partir d’une feuille blanche. Hormis pour les données codées et le lien aux autorités, aucune aide à la saisie ne lui est proposée. Un contrôle final existe mais il est sommaire car il doit pouvoir s’appliquer à tous les types de documents. Ce sont les pairs qui exercent le contrôle le plus efficace puisque le Sudoc est un réseau de catalogage partagé.

Taking a bath / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Taking a bath / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Quelles sont les conséquences pour theses.fr, réceptacle des données produites dans ces environnements si différents ?
Lancé en juillet 2011 avec STAR comme seule source de données, theses.fr a été conçu sans que la question de la qualité des données soit posée : puisque tout provenait de STAR, tout était contrôlé en amont. Une thèse en provenance de STAR a toujours un et un seul auteur avec une notice d’autorité, au moins un directeur de thèse avec sa notice d’autorité, deux titres dont un en anglais, deux résumés dont un en anglais, des mots clés, un numéro national de thèse etc.

Puisque les données en entrée de theses.fr sont « parfaites », theses.fr ne fait que les recevoir pour les rendre visibles sans les modifier.

Mais quid des notices cataloguées dans le Sudoc ? Il y a une extrême variété de la qualité des thèses cataloguées dans le Sudoc, due à :

  • l’absence de table de validation spécifique (techniquement impossible à mettre en œuvre puisque les thèses ne sont pas un type de document particulier cf. billet précédent )
  • des opérations de rétroconversions massives, parfois document en main, parfois non
  • une moindre efficacité du contrôle par les pairs puisque les thèses sont souvent des unicas.

Nous avons donc mis en place des contrôles en amont du chargement dans theses.fr. Le chargement des données du Sudoc dans theses.fr se fait grâce à un algorithme qui scanne l’ensemble des notices bibliographiques du Sudoc pour repérer quelles notices ont vocation à rejoindre theses.fr. theses.fr vient alors piocher les données qui l’intéressent.
Une notice qui ne remplit par certaines conditions ne peut pas être versée dans theses.fr

Liste (non exhaustive) des contrôles

Une notice ne peut pas être chargée dans theses.fr :

  • si elle n’a pas les deux zones spécifiques à la description des thèses : la donnée codée spécifiant la nature de contenu (105$b) et la note de thèse structurée (328$b, 328$c, 328$d, 328$e)
  • si elle n’est pas localisée
  • si le diplôme en 328$b n’appartient pas au référentiel des diplômes concernés par theses.fr (cf billet précédent)
  • si le code de pays n’appartient pas au référentiel des pays concernés par theses.fr(cf billet précédent)
  • si elle n’a pas de code de domaine dans le zone 686 (cf. billet précédent)

Certains contrôles ne s’appliquent qu’aux notices décrivant une thèse de doctorat dans sa version de soutenance (zone 105$bm). Une notice ne peut pas être chargée si :

  • si elle n’a pas de numéro national de thèse (zone 029$b)
  • si elle a un numéro national de thèse erroné ie ne respectant la structure définie dans le Guide méthodologique
  • si elle n’a pas de numéro national de thèse unique à l’échelle du Sudoc

Pour conclure, l’algorithme vérifie des points essentiels, notamment la structure du numéro national, identifiant indispensable puisque constitutif de l’url de la page dans theses.fr. Les contrôles sont cependant plus lâches pour les données du Sudoc que pour les données en provenance de STAR. Une notice Sudoc peut être chargée dans theses.fr si elle n’a ni titre traduit, ni mots clés, ni résumés, ni liens aux autorités.

Pour conclure, si une notice est « moche » dans theses.fr, c’est qu’elle est « moche » dans le Sudoc. L’ABES espère que la visibilité supplémentaire de cette notice grâce à theses.fr sera une incitation suffisante pour corriger les données dans le Sudoc.

IMR

L’attribution d’un code de domaine aux notices en provenance du Sudoc

L’interface de theses.fr propose une recherche par facettes. L’une d’entre elles est le domaine. Il s’agit d’une liste fermée de 98 codes et libellés élaborée dans le cadre de la recommandation TEF pour faciliter le moissonnage des données exposées sur un serveur OAI-PMH.

La recommandation TEF propose une liste de sets qui classe les thèses par sujets. Une telle classification pourra contribuer à harmoniser le mode d’organisation des serveurs OAI, ce qui doit faciliter le moissonnage sélectif et la construction de réservoirs spécialisés sur tel ou tel sujet. Cet enjeu n’étant pas borné à la France, la classification des sets proposée par TEF s’inspire au plus près de la classification analogue proposée par la DINI allemande, qui elle-même s’appuie sur la Classification Décimale Dewey. Cette classification TEF reprend systématiquement les indices Dewey correspondant à une dizaine, sauf exceptions.

Traiter le courant

Toutes les thèses en provenance de STAR, et donc visibles dans theses.fr, disposent d’au moins un code domaine issu de cette classification.

Concernant le Sudoc, depuis le 29 avril 2011 (message envoyé sur  les listes de diffusion Sucat et Corcat), les catalogueurs sont invités à saisir pour toutes les notices de thèses, quel que soit le support, un indice de classification des thèses – Code domaine TEF dans la zone « autre classification »686$aXXX$2TEF , XXX étant un des codes proposés dans la recommandation TEF. Les notices de thèses ne comportant pas cette zone ne sont pas chargées dans theses.fr

Lost in puzzle / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Lost in puzzle / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Traiter le passif

Avant avril 2011, les notices du Sudoc étaient dépourvues de cette classification. Il fallait donc modifier toutes ces notices pour injecter une nouvelle zone 686$aXXX$2TEF. Évidemment il était impossible pour l’ABES d’intervenir sur les notices une à une.

 Comment savoir à quel domaine appartient une thèse ?

Plusieurs zones unimarc donnent des indices sur le domaine scientifique traité dans la thèse. On pense évidemment à l’indexation matière. Malheureusement, toutes les notices n’ont pas d’accès matière.

Étant donné que nous avions déjà posé comme pré requis au chargement dans theses.fr la présence d’une note de thèse structurée (cf. billet précédent), nous avons décidé de nous appuyer sur la discipline mentionnée dans la note de thèse (328$c).

Extraction des disciplines des thèses de doctorat

Nous avons travaillé sur un lot de 564 633 notices correspondant à des thèses de doctorat, dans leur version de soutenance, soutenues en France.

Un tri par facette sur le contenu de la zone 328$c a dénombré 27 711 chaines de caractères distinctes ! Le quinté gagnant était :

1. « Médecine » : 117 033 notices
2. « Droit » : 27 800 notices
3. « Pharmacie » : 22 281 notices
4. « Sciences biologiques et fondamentales appliquées. Psychologie » : 16 357 notices
5. « Sciences appliquées » : 16 308 notices

La représentation graphique de ce tri par facette illustrait parfaitement un effet de longue traîne : le quinté gagnant des 5 occurrences les plus présentes concernait plus de 180 000 notices ; a contrario, 18 515 chaînes de caractères distinctes n’étaient attribuées qu’à une seule notice !

Bien évidemment, tout comme le problème s’était posé pour la mention de diplôme, il existait plusieurs chaines de caractères se rapportant à la même discipline : par exemple, « méd. », « medecine », « med » pour la discipline « Médecine ». Quand il y avait des abréviations ou des fautes de frappe, nous avons décidé de corriger la discipline pour choisir une sorte de forme préférée, « Médecine » dans cet exemple.

Chargement dans Open Refine

Le fichier de 27 711 items a été chargé dans Google refine (devenue depuis Open refine). Plusieurs milliers de clusters (regroupement des chaines de caractère proches) ont été détectés. Par exemple :

Clipboard01

Manuellement, la « forme préférée » a été indiquée et les données ont été modifiées dans Open refine. Une fois ce (fastidieux) travail terminé, il a fallu attribuer pour chaque discipline corrigée un ou plusieurs codes de domaines.

Mapping des codes domaines et des disciplines

Ce mapping a été réalisé manuellement dans Open refine. Pour chaque forme corrigée de la discipline, de un à trois codes domaine TEF ont été mis en relation. Dans certains cas, le mapping était évident. Par exemple, le code de domaine 610 (Médecine et santé) pour les thèses ayant « Médecine » comme discipline.

Le mapping est plus insatisfaisant pour les sciences dures, qu’elles soit fondamentales ou appliquées, du fait de l’imprécision des domaines TEF (les dix grandes classes de la Dewey ont été définies il y a 140 ans !). Ainsi, les thèses ayant comme discipline « Biologie et pathologie des épithéliums » sont dans le domaine 570 (Sciences de la vie, biologie, biochimie).

Dans d’autres cas, c’est l’imprécision de la discipline dans la note de thèse qui fausse la correspondance. Par exemple, cette notice  a comme discipline « Histoire et archéologie des mondes anciens. Langue et littérature anciennes » ; les codes de domaine 930 (Histoire ancienne et préhistoire) , 800 (Histoire et critique littéraires, rhétorique) et 400 (Langues et linguistique) lui ont été attribuées ; mais cette thèse traite en fait de peinture romaine et un code de domaine 750 (Peinture) aurait également été le bienvenu…

Aussi imparfaite qu’elle soit, cette méthode avait cependant l’avantage de permettre un traitement de masse.

Modification des données du Sudoc

Une fois le traitement terminé dans Open refine, le fichier résultat a été scindé en 27 711 fichiers texte. Chaque fichier comprenait le contenu de la discipline ; le nouveau contenu de la discipline à injecter ; les codes à insérer en 686, suivi de la liste des PPN concernés.

Par exemple :

Instr. et mes.;Instrumentation et mesures;686 ##$a530$2TEF
006486894
006863728
007240112

Du fait de l’effet de longue traîne des données, 67% des fichiers ne concernait qu’un seul PPN à modifier.

En novembre 2012, 563 572 notices ont été modifiées dans le Sudoc grâce à une API développée pour l’occasion.

Conclusion

Toutes les notices du Sudoc destinées à être versées dans theses.fr ont désormais dans la sous-zone 328$c un libellé explicite et une ou plusieurs zones 686$a$2TEF. Le fonctionnement des facettes discipline et domaine de l’interface theses.fr est grandement amélioré.

La cohérence intellectuelle n’est cependant pas garantie puisque l’attribution du code domaine a été faite sans se baser ni sur le titre, ni sur l’indexation matière de la thèse.

Que tous les catalogueurs du Sudoc se sentent le droit de modifier le code domaine TEF si le cœur leur en dit !

IMR

Comment isoler les thèses de doctorat soutenues en France au sein des données Sudoc ?

Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Ce billet entame une série sur le chargement des données du Sudoc dans theses.fr

theses.fr a ouvert en juillet 2011 avec les données en provenance de STAR (les thèses déposées au format électronique au sens de l’arrêté du 26 août 2006), soit une infime partie des thèses de doctorat soutenues en France. Pour que theses.fr puisse prétendre à l’exhaustivité du signalement des thèses de doctorat soutenues en France, il fallait charger dans theses.fr les données du Sudoc concernant les thèses de doctorat.

Mais comment isoler les thèses dans le Sudoc ?

Les données codées (« nature du contenu » zone 105$b en unimarc) permettent d’isoler les thèses dans leur version de soutenance. Mais quid des autres versions dérivées de la thèses ? Cet index est donc trop restrictif.

Peut-on s’appuyer sur les types de notices ? Malheureusement, les thèses ne sont pas un type de particulier comme le sont les cartes ou les partitions. Cette notice décrit une monographie sous forme papier (notice Aa avec une 200$bTexte imprimé). Celle-ci une microfiche (notice Aa avec une 200$bMicroforme). Celle-ci une ressource électronique (notice Oa avec une 200$bRessource électronique). Les trois ont vocation à être dans theses.fr.

Une zone unimarc spécifique existe-t-elle pour décrire les thèses ? Heureusement, oui : la note de thèse (zone 328).

C’est sur cette zone que nous nous sommes appuyés pour isoler les thèses dans le Sudoc. Un premier biais est introduit : les notices de thèses ne comportant pas de note de thèse ne sont pas chargées dans theses.fr

Comment au sein des thèses isoler les thèses de doctorat soutenues en France ?

Le comité de pilotage du projet de portail des thèses a décidé que theses.fr devait se concentrer sur les thèses de doctorat. Cette notice  a une note de thèse mais c’est une thèse d’exercice. Celle-ci  est un mémoire d’ingénieur. Elles ont une note de thèse mais n’entrent pas dans le périmètre de theses.fr

Nous avons extrait le diplôme présent dans la note de thèse (« Mention du travail universitaire et nature du diplôme » 328$b). Cela introduit un second biais : les notices de thèses ne comportant pas de note de thèse structurées ne sont pas chargées dans theses.fr

Grâce à une facette sur la zone 328$b, nous avons repéré les  5 549 chaînes de caractères distinctes présentes dans les notices. Pourquoi autant de formes distinctes ? Parce que l’outil de production des données du Sudoc (WinIBW) laisse le catalogueur face à une page blanche : la plupart des zones sont en saisie libre et il n’existe aucun garde-fou contre les erreurs de frappe.

L’analyse (manuelle) de ces chaînes de caractères a permis la construction d’un référentiel des diplômes intéressant theses.fr (2  606 formes distinctes). Par exemple, les notices comprenant « Thèse Doctorat » , « Th. doct », « Th. 3è cycle », « Th. Etat », « Thèse univ. » font partie du périmètre de theses.fr ; les notices comprenant « Mémoire », « exercice », « magistère » sont exclues.

[ A terme, l’ABES envisage des modifications de masse pour corriger les formes exotiques : « Thèse dedoctorat », « Thèse docotorat », « Thèset », etc. ]

Le lot de notices appelés à rejoindre theses.fr est ainsi constitué.

Enfin, pour repérer au sein de ce lot les thèses soutenues en France, il suffit d’exploiter la sous-zone de données codées 102$a « Pays de publication ou de production ».

Comme l’alimentation du référentiel a été manuelle, les erreurs et les omissions sont tout à fait possibles. Si vous en constatez, merci de les signaler au guichet d’assistance de theses.fr, rubrique Erreur dans les données ou Absence d’une thèse.

 IMR