Une zone 309 pour coordonner le travail collectif sur la qualité des données Sudoc

Au moment du chargement de nouvelles notices ou à l’occasion d’un chantier de contrôle qualité, l’ABES peut être amenée à effectuer des modifications de masse pour améliorer ou corriger des notices. Hélas, tout n’est pas automatisable – surtout si on tient à conserver un certain niveau de qualité bibliographique. Une fois que les algorithmes ont parlé et atteint leurs limites, l’ABES passe le relais au réseau, qui possède la force de frappe et l’expertise humaine pour continuer le travail, ne serait-ce qu’en se concentrant sur l’essentiel ou le prioritaire.

Mais, précisément, qu’est-ce qui est essentiel ? Qu’est-ce qui est prioritaire ? Sur quelles notices faut-il que le réseau se mobilise ? Et sur quels points précis dans les notices ? Étant donné la taille de la base, le volume des entrées et la richesse des règles, chaque catalogueur, chaque service de catalogage peut se sentir perdu devant l’ampleur de la tâche. C’est pourquoi l’ABES souhaite structurer d’avantage l’organisation de cet immense travail collectif. Cette volonté se traduit aujourd’hui sous une forme très concrète : la zone 309…

309_en_chantier
Cette « note d’information interne au Sudoc » existait déjà, mais elle ne possédait qu’une sous-zone ($a) :

309 ##$aCORRIGER LE(S) CODE(S) DE FONCTION = 000 EN 7XX, L7XX et/ou E7XX. SUPPRIMER LA PRESENTE NOTE 309 UNE FOIS LA (LES) CORRECTION(S) EFFECTUEE(S)

Elle est désormais structurée, ce qui permet une meilleure exploitation.

309 et ToDoList

Ainsi, dans le cadre des travaux du hub de métadonnées sur les ebooks de droit international achetés dans le cadre d’ISTEX, certains traitements automatiques ont permis d’enrichir les données, notamment en ajoutant des liens aux autorités auteur. Quand le programme n’a pas su identifier la bonne autorité, une zone 309 a été injectée dans la notice bibliographique concernée, pour inciter les catalogueurs à poursuivre le travail et les guider.

309 ##$aLE(S) LIEN(S) AUTORITE AUTEUR RESTE(NT) A CREER. SUPPRIMER LA PRESENTE NOTE 309 UNE FOIS LA (LES) CORRECTION(S) EFFECTUEE(S)$bBRILL-RADI-LN$d2014-04-09 11:15:01.894

Dans la sous-zone $b, on trouvera l’identifiant du chantier ou du corpus auquel correspond cette zone de note. Grâce à cet identifiant précis, il est aisé d’effectuer des statistiques plus fines sur les chantiers qualité en cours, mais surtout de fournir aux catalogueurs la liste toujours à jour des notices à traiter. Pour accéder à cette liste, il suffit de se rendre à une adresse web ainsi construite :

http://www.sudoc.fr/services/chantier/ + {contenu de la $b}.

Ce qui donne, pour l’exemple précédent :

http://www.sudoc.fr/services/chantier/BRILL-RADI-LN.

A cette adresse, on récupère un fichier à ouvrir dans Excel : il s’agit d’un tableau qui liste toutes les notices à corriger, en précisant la correction à effectuer. En entête du tableau, quelques chiffres et pourcentages permettent de mesurer la progression du chantier, pour voir si on tient le bon bout… Pour des raisons de fond ou des raisons techniques, ces tableaux ne seront pas disponibles quand les 309 concerneront des chantiers qui touchent à des notices importées ou à un trop grand nombre de notices.

L’ABES propose. Le réseau dispose.

Enfin, dans certains cas, le programme a travaillé mais n’ose pas trancher. Pour reprendre l’exemple précédent, son cœur peut balancer entre deux autorités. Voire considérer que, même si une seule autorité est en lice, il serait imprudent de conclure aveuglément qu’il s’agit de la bonne. On trouvera alors en $c le(s) PPN que le programme suggère sans oser le(s) retenir. Cette liste de PPN se présente sous la forme d’une requête WinIBW :

309 ##$aLE(S) LIEN(S) AUTORITE AUTEUR RESTE(NT) A CREER. A TITRE INDICATIF, LE SYSTEME DE DETECTION AUTOMATIQUE SUGGERE PLUSIEURS PPN A DEPARTAGER. SUPPRIMER LA PRESENTE NOTE 309 UNE FOIS LA (LES) CORRECTION(S) EFFECTUEE(S)$bBRILL-RADI-LN$cche PPN1 ou PPN2$d2014-04-09 11:15:01.894

Il s’agit d’une aide à la décision pour le catalogueur, qui, s’il le souhaite, peut se contenter d’examiner les PPN proposés, sans s’attarder sur les autres PPN qu’une recherche sur le nom pourrait renvoyer.
Qu’il suive les suggestions du programme ou non, le catalogueur crée le lien manquant puis n’oublie pas de supprimer la 309 correspondante. La notice disparaît alors du tableau des notices à traiter pour tel chantier (sauf si cette notice contient une autre 309 pour ce même chantier).

Aller plus loin

Ce nouveau dispositif se veut très pragmatique. Il s’agit d’améliorer l’efficacité collective du réseau sans compliquer la vie des catalogueurs. On pourrait imaginer d’autres dispositifs et l’ABES n’exclut pas de proposer au réseau d’autres manières d’intervenir sur les données. D’avance, merci pour vos retours, vos suggestions et … votre chasse aux 309.

NB : les chantiers en cours sont listés dans la page du guide méthodologique qui documente la zone 309 : http://documentation.abes.fr/sudoc/formats/unmb/zones/309.htm.

Y. Nicolas

L’attribution d’un code de domaine aux notices en provenance du Sudoc

L’interface de theses.fr propose une recherche par facettes. L’une d’entre elles est le domaine. Il s’agit d’une liste fermée de 98 codes et libellés élaborée dans le cadre de la recommandation TEF pour faciliter le moissonnage des données exposées sur un serveur OAI-PMH.

La recommandation TEF propose une liste de sets qui classe les thèses par sujets. Une telle classification pourra contribuer à harmoniser le mode d’organisation des serveurs OAI, ce qui doit faciliter le moissonnage sélectif et la construction de réservoirs spécialisés sur tel ou tel sujet. Cet enjeu n’étant pas borné à la France, la classification des sets proposée par TEF s’inspire au plus près de la classification analogue proposée par la DINI allemande, qui elle-même s’appuie sur la Classification Décimale Dewey. Cette classification TEF reprend systématiquement les indices Dewey correspondant à une dizaine, sauf exceptions.

Traiter le courant

Toutes les thèses en provenance de STAR, et donc visibles dans theses.fr, disposent d’au moins un code domaine issu de cette classification.

Concernant le Sudoc, depuis le 29 avril 2011 (message envoyé sur  les listes de diffusion Sucat et Corcat), les catalogueurs sont invités à saisir pour toutes les notices de thèses, quel que soit le support, un indice de classification des thèses – Code domaine TEF dans la zone « autre classification »686$aXXX$2TEF , XXX étant un des codes proposés dans la recommandation TEF. Les notices de thèses ne comportant pas cette zone ne sont pas chargées dans theses.fr

Lost in puzzle / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Lost in puzzle / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Traiter le passif

Avant avril 2011, les notices du Sudoc étaient dépourvues de cette classification. Il fallait donc modifier toutes ces notices pour injecter une nouvelle zone 686$aXXX$2TEF. Évidemment il était impossible pour l’ABES d’intervenir sur les notices une à une.

 Comment savoir à quel domaine appartient une thèse ?

Plusieurs zones unimarc donnent des indices sur le domaine scientifique traité dans la thèse. On pense évidemment à l’indexation matière. Malheureusement, toutes les notices n’ont pas d’accès matière.

Étant donné que nous avions déjà posé comme pré requis au chargement dans theses.fr la présence d’une note de thèse structurée (cf. billet précédent), nous avons décidé de nous appuyer sur la discipline mentionnée dans la note de thèse (328$c).

Extraction des disciplines des thèses de doctorat

Nous avons travaillé sur un lot de 564 633 notices correspondant à des thèses de doctorat, dans leur version de soutenance, soutenues en France.

Un tri par facette sur le contenu de la zone 328$c a dénombré 27 711 chaines de caractères distinctes ! Le quinté gagnant était :

1. « Médecine » : 117 033 notices
2. « Droit » : 27 800 notices
3. « Pharmacie » : 22 281 notices
4. « Sciences biologiques et fondamentales appliquées. Psychologie » : 16 357 notices
5. « Sciences appliquées » : 16 308 notices

La représentation graphique de ce tri par facette illustrait parfaitement un effet de longue traîne : le quinté gagnant des 5 occurrences les plus présentes concernait plus de 180 000 notices ; a contrario, 18 515 chaînes de caractères distinctes n’étaient attribuées qu’à une seule notice !

Bien évidemment, tout comme le problème s’était posé pour la mention de diplôme, il existait plusieurs chaines de caractères se rapportant à la même discipline : par exemple, « méd. », « medecine », « med » pour la discipline « Médecine ». Quand il y avait des abréviations ou des fautes de frappe, nous avons décidé de corriger la discipline pour choisir une sorte de forme préférée, « Médecine » dans cet exemple.

Chargement dans Open Refine

Le fichier de 27 711 items a été chargé dans Google refine (devenue depuis Open refine). Plusieurs milliers de clusters (regroupement des chaines de caractère proches) ont été détectés. Par exemple :

Clipboard01

Manuellement, la « forme préférée » a été indiquée et les données ont été modifiées dans Open refine. Une fois ce (fastidieux) travail terminé, il a fallu attribuer pour chaque discipline corrigée un ou plusieurs codes de domaines.

Mapping des codes domaines et des disciplines

Ce mapping a été réalisé manuellement dans Open refine. Pour chaque forme corrigée de la discipline, de un à trois codes domaine TEF ont été mis en relation. Dans certains cas, le mapping était évident. Par exemple, le code de domaine 610 (Médecine et santé) pour les thèses ayant « Médecine » comme discipline.

Le mapping est plus insatisfaisant pour les sciences dures, qu’elles soit fondamentales ou appliquées, du fait de l’imprécision des domaines TEF (les dix grandes classes de la Dewey ont été définies il y a 140 ans !). Ainsi, les thèses ayant comme discipline « Biologie et pathologie des épithéliums » sont dans le domaine 570 (Sciences de la vie, biologie, biochimie).

Dans d’autres cas, c’est l’imprécision de la discipline dans la note de thèse qui fausse la correspondance. Par exemple, cette notice  a comme discipline « Histoire et archéologie des mondes anciens. Langue et littérature anciennes » ; les codes de domaine 930 (Histoire ancienne et préhistoire) , 800 (Histoire et critique littéraires, rhétorique) et 400 (Langues et linguistique) lui ont été attribuées ; mais cette thèse traite en fait de peinture romaine et un code de domaine 750 (Peinture) aurait également été le bienvenu…

Aussi imparfaite qu’elle soit, cette méthode avait cependant l’avantage de permettre un traitement de masse.

Modification des données du Sudoc

Une fois le traitement terminé dans Open refine, le fichier résultat a été scindé en 27 711 fichiers texte. Chaque fichier comprenait le contenu de la discipline ; le nouveau contenu de la discipline à injecter ; les codes à insérer en 686, suivi de la liste des PPN concernés.

Par exemple :

Instr. et mes.;Instrumentation et mesures;686 ##$a530$2TEF
006486894
006863728
007240112

Du fait de l’effet de longue traîne des données, 67% des fichiers ne concernait qu’un seul PPN à modifier.

En novembre 2012, 563 572 notices ont été modifiées dans le Sudoc grâce à une API développée pour l’occasion.

Conclusion

Toutes les notices du Sudoc destinées à être versées dans theses.fr ont désormais dans la sous-zone 328$c un libellé explicite et une ou plusieurs zones 686$a$2TEF. Le fonctionnement des facettes discipline et domaine de l’interface theses.fr est grandement amélioré.

La cohérence intellectuelle n’est cependant pas garantie puisque l’attribution du code domaine a été faite sans se baser ni sur le titre, ni sur l’indexation matière de la thèse.

Que tous les catalogueurs du Sudoc se sentent le droit de modifier le code domaine TEF si le cœur leur en dit !

IMR

Comment isoler les thèses de doctorat soutenues en France au sein des données Sudoc ?

Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Ce billet entame une série sur le chargement des données du Sudoc dans theses.fr

theses.fr a ouvert en juillet 2011 avec les données en provenance de STAR (les thèses déposées au format électronique au sens de l’arrêté du 26 août 2006), soit une infime partie des thèses de doctorat soutenues en France. Pour que theses.fr puisse prétendre à l’exhaustivité du signalement des thèses de doctorat soutenues en France, il fallait charger dans theses.fr les données du Sudoc concernant les thèses de doctorat.

Mais comment isoler les thèses dans le Sudoc ?

Les données codées (« nature du contenu » zone 105$b en unimarc) permettent d’isoler les thèses dans leur version de soutenance. Mais quid des autres versions dérivées de la thèses ? Cet index est donc trop restrictif.

Peut-on s’appuyer sur les types de notices ? Malheureusement, les thèses ne sont pas un type de particulier comme le sont les cartes ou les partitions. Cette notice décrit une monographie sous forme papier (notice Aa avec une 200$bTexte imprimé). Celle-ci une microfiche (notice Aa avec une 200$bMicroforme). Celle-ci une ressource électronique (notice Oa avec une 200$bRessource électronique). Les trois ont vocation à être dans theses.fr.

Une zone unimarc spécifique existe-t-elle pour décrire les thèses ? Heureusement, oui : la note de thèse (zone 328).

C’est sur cette zone que nous nous sommes appuyés pour isoler les thèses dans le Sudoc. Un premier biais est introduit : les notices de thèses ne comportant pas de note de thèse ne sont pas chargées dans theses.fr

Comment au sein des thèses isoler les thèses de doctorat soutenues en France ?

Le comité de pilotage du projet de portail des thèses a décidé que theses.fr devait se concentrer sur les thèses de doctorat. Cette notice  a une note de thèse mais c’est une thèse d’exercice. Celle-ci  est un mémoire d’ingénieur. Elles ont une note de thèse mais n’entrent pas dans le périmètre de theses.fr

Nous avons extrait le diplôme présent dans la note de thèse (« Mention du travail universitaire et nature du diplôme » 328$b). Cela introduit un second biais : les notices de thèses ne comportant pas de note de thèse structurées ne sont pas chargées dans theses.fr

Grâce à une facette sur la zone 328$b, nous avons repéré les  5 549 chaînes de caractères distinctes présentes dans les notices. Pourquoi autant de formes distinctes ? Parce que l’outil de production des données du Sudoc (WinIBW) laisse le catalogueur face à une page blanche : la plupart des zones sont en saisie libre et il n’existe aucun garde-fou contre les erreurs de frappe.

L’analyse (manuelle) de ces chaînes de caractères a permis la construction d’un référentiel des diplômes intéressant theses.fr (2  606 formes distinctes). Par exemple, les notices comprenant « Thèse Doctorat » , « Th. doct », « Th. 3è cycle », « Th. Etat », « Thèse univ. » font partie du périmètre de theses.fr ; les notices comprenant « Mémoire », « exercice », « magistère » sont exclues.

[ A terme, l’ABES envisage des modifications de masse pour corriger les formes exotiques : « Thèse dedoctorat », « Thèse docotorat », « Thèset », etc. ]

Le lot de notices appelés à rejoindre theses.fr est ainsi constitué.

Enfin, pour repérer au sein de ce lot les thèses soutenues en France, il suffit d’exploiter la sous-zone de données codées 102$a « Pays de publication ou de production ».

Comme l’alimentation du référentiel a été manuelle, les erreurs et les omissions sont tout à fait possibles. Si vous en constatez, merci de les signaler au guichet d’assistance de theses.fr, rubrique Erreur dans les données ou Absence d’une thèse.

 IMR

IdRef : des pages HTML et RDF plus riches

En Octobre 2010, l’ABES a inauguré IdRef, avec l’ambition de promouvoir l’utilisation des autorités Sudoc au-delà du Sudoc, et même au-delà des seules applications ABES comme Calames ou STAR.

Parmi les moyens techniques mis au service de cette stratégie, figurait l’exposition sur le Web des données d’autorité au moyen de pages HTML et RDF dédiées et d’une batterie d’URL pérennes associées. Depuis ce matin, ces pages sont considérablement enrichies.

IdRef, lié à Sudoc. Et inversement.

Jusqu’à maintenant, ces pages HTML et RDF reflétaient seulement le contenu des notices d’autorité UNIMARC. Désormais, elles contiennent les références bibliographiques de tous les documents signalés dans le Sudoc qui possèdent un lien vers ces notices d’autorité.

Ainsi, à la page suivante :

http://www.idref.fr/027182800

vous trouverez quelques informations sur Paul Veyne, tirées de sa notice d’autorité (version UNIMARC en XML), mais aussi la liste raisonnée de tous les documents qui lui sont liés. Cette liste est raisonnée au sens où ces documents sont regroupés en fonction du rôle qu’y joue Paul Veyne (auteur, directeur de thèse, préfacier, etc.)

Pour obtenir la version RDF/XML de ces données, il suffit d’ajouter  l’extension .rdf à l’URL précédente :

http://www.idref.fr/027182800.rdf

On voit à cette adresse que les données RDF d’IdRef pointent désormais vers les données RDF du Sudoc, publiées aujourd’hui. Et l’inverse est également vrai, comme le montre cet exemple :

http://www.sudoc.fr/001028235.rdf

Les données RDF d’IdRef pointent également vers le référentiel géographique Geonames ou le référentiel de langues Lexvo. Par la suite, nous avons bon espoir de pouvoir établir des liens vers d’autres référentiels, comme VIAF pour les personnes ou Rameau pour les concepts.

Merci

Merci aux quelques milliers de catalogueurs qui, depuis des années, ont établi ces millions de liens ! Et merci aussi à eux pour leur vigilance dans la saisie des données codées !

Le Web de données, reconnaissant.

Documentation technique : http://documentation.abes.fr/aideidref/developpeur/ch03.html

Contact : passez par l’interface d’assistance d’IdRef > Domaine Web Services