Deux types d’outils de production pour le signalement des thèses en France existent :
- STAR pour les thèses déposées au format électronique (et son jumeau STEP pour les thèses avant soutenance),
- WinIBW pour les thèses déposées au format papier.
Ces outils n’ont pas grand-chose en commun.
Les interfaces web de STAR et STEP partent du principe que le producteur de métadonnées (qui n’est pas forcément catalogueur) est novice : il fait du TEF sans le savoir en remplissant une grille de saisie. Un cheminement logique est proposé pour cataloguer la thèse, des listes fermées allègent la saisie, certaines métadonnées sont calculées ou déduites. Un contrôle final valide les métadonnées en vérifiant leur structure par rapport à la recommandation TEF. Les données sont produites établissement par établissement sans savoir ce qui se passe chez le voisin.
WinIBW fonctionne sur la logique inverse : le catalogueur du Sudoc maîtrise les pré-requis des normes et des formats. Il fait de l’unimarc à partir d’une feuille blanche. Hormis pour les données codées et le lien aux autorités, aucune aide à la saisie ne lui est proposée. Un contrôle final existe mais il est sommaire car il doit pouvoir s’appliquer à tous les types de documents. Ce sont les pairs qui exercent le contrôle le plus efficace puisque le Sudoc est un réseau de catalogage partagé.
Quelles sont les conséquences pour theses.fr, réceptacle des données produites dans ces environnements si différents ?
Lancé en juillet 2011 avec STAR comme seule source de données, theses.fr a été conçu sans que la question de la qualité des données soit posée : puisque tout provenait de STAR, tout était contrôlé en amont. Une thèse en provenance de STAR a toujours un et un seul auteur avec une notice d’autorité, au moins un directeur de thèse avec sa notice d’autorité, deux titres dont un en anglais, deux résumés dont un en anglais, des mots clés, un numéro national de thèse etc.
Puisque les données en entrée de theses.fr sont « parfaites », theses.fr ne fait que les recevoir pour les rendre visibles sans les modifier.
Mais quid des notices cataloguées dans le Sudoc ? Il y a une extrême variété de la qualité des thèses cataloguées dans le Sudoc, due à :
- l’absence de table de validation spécifique (techniquement impossible à mettre en œuvre puisque les thèses ne sont pas un type de document particulier cf. billet précédent )
- des opérations de rétroconversions massives, parfois document en main, parfois non
- une moindre efficacité du contrôle par les pairs puisque les thèses sont souvent des unicas.
Nous avons donc mis en place des contrôles en amont du chargement dans theses.fr. Le chargement des données du Sudoc dans theses.fr se fait grâce à un algorithme qui scanne l’ensemble des notices bibliographiques du Sudoc pour repérer quelles notices ont vocation à rejoindre theses.fr. theses.fr vient alors piocher les données qui l’intéressent.
Une notice qui ne remplit par certaines conditions ne peut pas être versée dans theses.fr
Liste (non exhaustive) des contrôles
Une notice ne peut pas être chargée dans theses.fr :
- si elle n’a pas les deux zones spécifiques à la description des thèses : la donnée codée spécifiant la nature de contenu (105$b) et la note de thèse structurée (328$b, 328$c, 328$d, 328$e)
- si elle n’est pas localisée
- si le diplôme en 328$b n’appartient pas au référentiel des diplômes concernés par theses.fr (cf billet précédent)
- si le code de pays n’appartient pas au référentiel des pays concernés par theses.fr(cf billet précédent)
- si elle n’a pas de code de domaine dans le zone 686 (cf. billet précédent)
Certains contrôles ne s’appliquent qu’aux notices décrivant une thèse de doctorat dans sa version de soutenance (zone 105$bm). Une notice ne peut pas être chargée si :
- si elle n’a pas de numéro national de thèse (zone 029$b)
- si elle a un numéro national de thèse erroné ie ne respectant la structure définie dans le Guide méthodologique
- si elle n’a pas de numéro national de thèse unique à l’échelle du Sudoc
Pour conclure, l’algorithme vérifie des points essentiels, notamment la structure du numéro national, identifiant indispensable puisque constitutif de l’url de la page dans theses.fr. Les contrôles sont cependant plus lâches pour les données du Sudoc que pour les données en provenance de STAR. Une notice Sudoc peut être chargée dans theses.fr si elle n’a ni titre traduit, ni mots clés, ni résumés, ni liens aux autorités.
Pour conclure, si une notice est « moche » dans theses.fr, c’est qu’elle est « moche » dans le Sudoc. L’ABES espère que la visibilité supplémentaire de cette notice grâce à theses.fr sera une incitation suffisante pour corriger les données dans le Sudoc.
IMR
Ping : Le chargement des données Sudoc dans theses.fr : détails techniques | Punktokomo ;
Ping : Webservice AlgoSudoc : prendre connaissance et remédier aux anomalies de chargement des données Sudoc dans theses.fr | Punktokomo ;
Ping : Chantier Qualité des données de thèses : bilan 2017 | Punktokomo ;