L’attribution d’un code de domaine aux notices en provenance du Sudoc

L’interface de theses.fr propose une recherche par facettes. L’une d’entre elles est le domaine. Il s’agit d’une liste fermée de 98 codes et libellés élaborée dans le cadre de la recommandation TEF pour faciliter le moissonnage des données exposées sur un serveur OAI-PMH.

La recommandation TEF propose une liste de sets qui classe les thèses par sujets. Une telle classification pourra contribuer à harmoniser le mode d’organisation des serveurs OAI, ce qui doit faciliter le moissonnage sélectif et la construction de réservoirs spécialisés sur tel ou tel sujet. Cet enjeu n’étant pas borné à la France, la classification des sets proposée par TEF s’inspire au plus près de la classification analogue proposée par la DINI allemande, qui elle-même s’appuie sur la Classification Décimale Dewey. Cette classification TEF reprend systématiquement les indices Dewey correspondant à une dizaine, sauf exceptions.

Traiter le courant

Toutes les thèses en provenance de STAR, et donc visibles dans theses.fr, disposent d’au moins un code domaine issu de cette classification.

Concernant le Sudoc, depuis le 29 avril 2011 (message envoyé sur  les listes de diffusion Sucat et Corcat), les catalogueurs sont invités à saisir pour toutes les notices de thèses, quel que soit le support, un indice de classification des thèses – Code domaine TEF dans la zone « autre classification »686$aXXX$2TEF , XXX étant un des codes proposés dans la recommandation TEF. Les notices de thèses ne comportant pas cette zone ne sont pas chargées dans theses.fr

Lost in puzzle / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Lost in puzzle / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Traiter le passif

Avant avril 2011, les notices du Sudoc étaient dépourvues de cette classification. Il fallait donc modifier toutes ces notices pour injecter une nouvelle zone 686$aXXX$2TEF. Évidemment il était impossible pour l’ABES d’intervenir sur les notices une à une.

 Comment savoir à quel domaine appartient une thèse ?

Plusieurs zones unimarc donnent des indices sur le domaine scientifique traité dans la thèse. On pense évidemment à l’indexation matière. Malheureusement, toutes les notices n’ont pas d’accès matière.

Étant donné que nous avions déjà posé comme pré requis au chargement dans theses.fr la présence d’une note de thèse structurée (cf. billet précédent), nous avons décidé de nous appuyer sur la discipline mentionnée dans la note de thèse (328$c).

Extraction des disciplines des thèses de doctorat

Nous avons travaillé sur un lot de 564 633 notices correspondant à des thèses de doctorat, dans leur version de soutenance, soutenues en France.

Un tri par facette sur le contenu de la zone 328$c a dénombré 27 711 chaines de caractères distinctes ! Le quinté gagnant était :

1. « Médecine » : 117 033 notices
2. « Droit » : 27 800 notices
3. « Pharmacie » : 22 281 notices
4. « Sciences biologiques et fondamentales appliquées. Psychologie » : 16 357 notices
5. « Sciences appliquées » : 16 308 notices

La représentation graphique de ce tri par facette illustrait parfaitement un effet de longue traîne : le quinté gagnant des 5 occurrences les plus présentes concernait plus de 180 000 notices ; a contrario, 18 515 chaînes de caractères distinctes n’étaient attribuées qu’à une seule notice !

Bien évidemment, tout comme le problème s’était posé pour la mention de diplôme, il existait plusieurs chaines de caractères se rapportant à la même discipline : par exemple, « méd. », « medecine », « med » pour la discipline « Médecine ». Quand il y avait des abréviations ou des fautes de frappe, nous avons décidé de corriger la discipline pour choisir une sorte de forme préférée, « Médecine » dans cet exemple.

Chargement dans Open Refine

Le fichier de 27 711 items a été chargé dans Google refine (devenue depuis Open refine). Plusieurs milliers de clusters (regroupement des chaines de caractère proches) ont été détectés. Par exemple :

Clipboard01

Manuellement, la « forme préférée » a été indiquée et les données ont été modifiées dans Open refine. Une fois ce (fastidieux) travail terminé, il a fallu attribuer pour chaque discipline corrigée un ou plusieurs codes de domaines.

Mapping des codes domaines et des disciplines

Ce mapping a été réalisé manuellement dans Open refine. Pour chaque forme corrigée de la discipline, de un à trois codes domaine TEF ont été mis en relation. Dans certains cas, le mapping était évident. Par exemple, le code de domaine 610 (Médecine et santé) pour les thèses ayant « Médecine » comme discipline.

Le mapping est plus insatisfaisant pour les sciences dures, qu’elles soit fondamentales ou appliquées, du fait de l’imprécision des domaines TEF (les dix grandes classes de la Dewey ont été définies il y a 140 ans !). Ainsi, les thèses ayant comme discipline « Biologie et pathologie des épithéliums » sont dans le domaine 570 (Sciences de la vie, biologie, biochimie).

Dans d’autres cas, c’est l’imprécision de la discipline dans la note de thèse qui fausse la correspondance. Par exemple, cette notice  a comme discipline « Histoire et archéologie des mondes anciens. Langue et littérature anciennes » ; les codes de domaine 930 (Histoire ancienne et préhistoire) , 800 (Histoire et critique littéraires, rhétorique) et 400 (Langues et linguistique) lui ont été attribuées ; mais cette thèse traite en fait de peinture romaine et un code de domaine 750 (Peinture) aurait également été le bienvenu…

Aussi imparfaite qu’elle soit, cette méthode avait cependant l’avantage de permettre un traitement de masse.

Modification des données du Sudoc

Une fois le traitement terminé dans Open refine, le fichier résultat a été scindé en 27 711 fichiers texte. Chaque fichier comprenait le contenu de la discipline ; le nouveau contenu de la discipline à injecter ; les codes à insérer en 686, suivi de la liste des PPN concernés.

Par exemple :

Instr. et mes.;Instrumentation et mesures;686 ##$a530$2TEF
006486894
006863728
007240112

Du fait de l’effet de longue traîne des données, 67% des fichiers ne concernait qu’un seul PPN à modifier.

En novembre 2012, 563 572 notices ont été modifiées dans le Sudoc grâce à une API développée pour l’occasion.

Conclusion

Toutes les notices du Sudoc destinées à être versées dans theses.fr ont désormais dans la sous-zone 328$c un libellé explicite et une ou plusieurs zones 686$a$2TEF. Le fonctionnement des facettes discipline et domaine de l’interface theses.fr est grandement amélioré.

La cohérence intellectuelle n’est cependant pas garantie puisque l’attribution du code domaine a été faite sans se baser ni sur le titre, ni sur l’indexation matière de la thèse.

Que tous les catalogueurs du Sudoc se sentent le droit de modifier le code domaine TEF si le cœur leur en dit !

IMR

Publicités