Signaler les thèses déposées sur TEL dans le Sudoc et theses.fr

35 000 thèses TEL proviennent de Star : et les autres ?

logo_telActuellement, 75 000 documents  estampillés « thèses » sont déposés sur TEL. Or, si 35 000 documents  – qui proviennent de l’application Star – sont bien estampillés « version validée par le Jury », 40 000  d’entre eux ne sont signalés ni dans le Sudoc ni sur theses.fr, alors même que le lien vers le texte intégral de la thèse peut avoir un intérêt pour les lecteurs. Suite à ce constat, plusieurs établissements, soucieux d’offrir une visibilité plus importante à ces travaux de recherche, ont sollicité l’Abes en vue de leur signalement automatique. Deux options s’offraient :

  • importer les notices de TEL en s’appuyant sur leurs métadonnées (XML TEI) pour les transformer en Unimarc.
  • décrire ces documents via les notices des thèses originelles déjà présentes dans le Sudoc.

Pour une plus grande simplicité de mise en œuvre et une bonne cohérence des données – notamment des liens aux autorités IdRef « Nom de personnes » et Rameau, il a été décidé de partir du socle constitué par la notice Sudoc décrivant la thèse originelle papier et d’en faire la matrice de la future notice du document TEL.

Recouper les données de TEL avec celles du Sudoc

L’étape dite « de recouvrement » des données de TEL avec celles du Sudoc a été complexe.

Dans un premier temps, les données de TEL ont été récupérées dans OpenRefine via une requête sur l’API-HAL – https://api.archives-ouvertes.fr/docs en demandant en sortie : URI, Date de soutenance, Auteur et Titre français du document.

Puis, via un test de recouvrement (sur Date, Auteur, Titre), les thèses TEL auxquelles correspondent une notice de thèse originelle papier (notice « mère ») dans le Sudoc, ont été identifiées. Dans un cas sur trois, le taux de recouvrement a échoué (soit 0 notices trouvées dans le Sudoc ou plus de 5)

Ensuite, à partir du NNT,  les différentes notices de reproduction (notices « filles ») rattachées à une notice « mère » ont été identifiées dans le Sudoc, ce qui a permis d’exclure les thèses possédant déjà une notice de reproduction et faisant mention, en zone 856, d’une URL (vers TEL ou Pastel) et pour lesquelles le  signalement avait déjà été effectué.

Après un passage par ces différents tamis, il restait environ 22 000 documents TEL disposant d’une notice de thèse originelle dans le Sudoc. Parmi ces 22 000 documents, n’ont pu être conservées que 15 500 thèses dont la notice de thèse originelle « passait l’AlgoSudoc » et apparaissait dans theses.fr [afin d’améliorer le référencement des thèses dans theses.fr, rappelons que les établissements sont invités à corriger les notices WinIBW qui ne « passent pas l’AlgoSudoc »].

Theses_TEL_image1

Theses_TEL_image2

Les thèses de TEL : reproductions exactes ou autres versions des thèses ?

Une fois identifiés les documents potentiellement à signaler dans le Sudoc,  la question de la méthode s’est posée : dans la mesure où les notices de reproduction décrivant les thèses TEL allaient être générées en masse à l’aide de scripts, il fallait en effet rester prudent.

L’Abes n’étant pas en mesure de vérifier la conformité du dépôt TEL avec la thèse originelle archivée par l’établissement de soutenance, il a été décidé de ne pas signaler les documents déposés sur TEL en tant que reproductions exactes, mais en tant qu’« autres versions » des thèses archivées en bibliothèques.

En lieu et place de l’habituelle zone 455/456 (reproduction de/reproduit comme), nous avons donc opté pour une paire de zones 452 (autre édition sur un autre support), ce qui permet de ne pas statuer sur l’identité de contenu entre la version originelle de la thèse et la version déposée sur TEL.

Ce choix a été renforcé par la suppression, dans la notice ainsi créée, du Directeur de thèse, de l’Université de soutenance, des membres du jury et du NNT, de sorte que le traitement de ces documents corresponde à celui réservé habituellement à une « version commerciale » de thèse. Ce traitement catalographique est applicable à toutes les « autres éditions » et « autres versions » d’une thèse, qui ne sont pas des reproductions exactes ou ne peuvent être considérées comme telles en l’absence de vérification.

La note de thèse (zone 328 : Texte remanié de …) a été conservée [on peut, dans WinIBW, interroger l’index nth pour retrouver les thèses par établissement de soutenance]. De son côté, le NNT est déplacé à la fois en zone de note (zone 305 : « Cette édition peut différer de la version de soutenance enregistrée sous le Numéro National de Thèse : 20XXZZZZ0001 ») et en tant qu’identifiant dans un autre système (zone 033) pour pointer sur la page correspondante sur theses.fr.

Theses_TEL_image4

Bilan

Après plusieurs mois de réflexion, le chantier de signalement des thèses de TEL dans le Sudoc lancé le 26 avril 2018 s’est achevé le 4 mai 2018. Il a donné lieu à la création de quelques 15 500 notices Oa liées à une notice de thèse originelle Aa [on peut les retrouver en interrogeant la zone 035 avec la requête « che sou tel? OU pastel? OU hal? »].

a_noter [voir en fin d’article le nombre de notices créées par établissement].

Le lien d’accès au fichier de la thèse s’affiche désormais sur theses.fr de la façon suivante :  Theses_TEL_image3

Par ailleurs, toutes les notices créées se sont vues attribuer un « exemplaire Abes » afin d’apparaître sur le catalogue Sudoc public.

Dans la mesure où il s’agissait d’une première, la prudence a été de mise, aussi bien en ce qui concerne le périmètre choisi que le traitement retenu pour la création de ces notices. Notre objectif a été, avant tout, de permettre l’intégration dans la notice Sudoc d’un lien vers le texte intégral là où on ne disposait que d’une notice de thèse originelle papier.

Si la procédure choisie – notamment le test de recouvrement – mérite encore d’être affinée, l’objectif est  de parvenir au signalement dans le Sudoc de l’ensemble des thèses de doctorat déposées sur TEL. Pour ce faire, le chantier sera relancé l’année prochaine, puis tous les deux ans.

Après l’Abes, c’est au tour des établissements de jouer

Les établissements sont libres de compléter ou corriger les notices créées, notamment afin de remplacer la zone 452 par une zone 456 – après vérification de la conformité du dépôt TEL avec la version de soutenance – et d’appliquer le traitement habituellement réservé aux reproductions de thèses de doctorat.

Ils peuvent également demander à l’Abes une exemplarisation automatique sur un lot de thèses TEL, afin d’enrichir leur catalogue local.

Enfin, ceux qui souhaitent améliorer le signalement de leurs thèses dans le Sudoc afin, d’une part, de permettre leur référencement dans theses.fr, et, d’autre part, d’obtenir une meilleure couverture Sudoc / TEL, sont invités à contacter le service des Thèses qui pourra leur fournir la liste des thèses ayant été écartées du chantier et dont la reprise est nécessaire.

N’hésitez donc pas à nous solliciter via ABESstp en cas de problèmes ou pour avoir plus de détails sur les outils utilisés et la méthode suivie.

Annexe : Nombre de notices créées par établissement (code court)

Etab. Nb de notices créées Etab. Nb de notices créées Etab. Nb de notices créées
AGPT 46 ENST 117 NAN2 8
AGUY 12 ENSU 8 NANT 285
AIX1 192 EPHE 16 NCAL 1
AIX2 80 EPXX 310 NICE 362
AIX3 94 ESAE 29 NSAM 1
AIXM 1 ESMA 56 NSAR 13
AMIE 31 ESTA 6 OBSP 30
ANGE 16 EVRY 19 ORLE 182
ARTO 5 GLOB 18 PA01 283
AVIG 10 GRE1 1616 PA02 3
BESA 169 GRE2 28 PA03 39
BOR1 284 GRE3 22 PA04 33
BOR2 24 GREN 163 PA05 72
BOR3 44 IEPP 17 PA06 1885
BOR4 45 INAL 7 PA07 625
BORD 1 INAP 75 PA08 45
BRES 115 INPG 890 PA09 49
CAEN 380 INPL 22 PA10 97
CERG 13 INPT 33 PA11 901
CHAM 130 ISAL 1 PA12 12
CLF1 6 ISAM 11 PA13 28
CLF2 270 ISAR 72 PAUU 66
CNAM 34 ISAT 48 PERP 30
COMP 54 LARE 2 POIT 110
CORT 16 LARO 49 POLF 1
DENS 20 LEHA 40 REIM 6
DIJO 107 LEMA 6 REN1 466
DUNK 18 LIL1 42 REN2 43
ECAP 70 LIL2 25 ROUE 123
ECDL 22 LIL3 15 STET 33
ECDM 1 LIMO 6 STR1 136
ECDN 52 LORI 46 STR2 8
ECLI 10 LYO1 79 STR3 2
EHEC 36 LYO2 4 STRA 33
EHES 196 LYO3 12 TELB 9
EIAA 11 LYON 1 TELE 3
EMSE 23 LYSE 1 TOU1 13
ENAM 296 MARN 58 TOU2 69
ENCR 1 METZ 30 TOU3 453
ENGR 40 MNHN 37 TOUL 9
ENMP 291 MON1 29 TOUR 62
ENPC 290 MON2 303 USPC 52
ENSA 11 MON3 27 VALE 58
ENSF 5 MULH 13 VERS 71
ENSL 63 NAN1 78
Publicités

Chantier Qualité des données de thèses : bilan 2017

En février 2017, l’Abes annonçait via les listes de diffusion des réseaux Sudoc et Thèses que les établissements intéressés pouvaient demander des  traitements automatiques sur les notices de thèses du Sudoc. Ce billet fait le point sur les modifications réalisées entre février et novembre,  ce à l’initiative soit des établissements, soit de l’Abes.

Rappel

thesestheses.fr, moteur de recherche des thèses de doctorat, a pour objet d’afficher les thèses soutenues en France depuis 1985 ainsi que les thèses en préparation ( depuis 10 ans au maximum). Il s’agit donc de données en provenance des applications nationales STEP et STAR et du Sudoc.
Pour les thèses soutenues, le parti pris de theses.fr consiste à regrouper en une seule page l’œuvre « thèse »,  quelle que soit la variété de ses supports matériels et en mettant en avant sa version de soutenance, estampillée d’un tampon «validée par le jury ». Il s’agit donc d’une FRBRisation des données de thèses de doctorat présentes dans le Sudoc.
Dans un monde parfait, les données du Sudoc  trouvent naturellement leur place  dans theses.fr. Hélas, les données du Sudoc ne sont pas parfaites. Grâce au programme de FRBRisation AlgoSudoc, les principales erreurs empêchant le versement dans theses.fr ont été détectées et, depuis le printemps 2015, les établissements ont accès à ces erreurs et peuvent y remédier.

Opérations menées

En 2017, l’Abes a eu l’opportunité de travailler à nouveau sur cette question.  Grâce au renfort d’un collègue contractuel recruté pour cette activité et à un nouvel outillage technique – développé à l’Abes  et à usage strictement interne, ces travaux sont venus en complément des outils traditionnels d’administration des données fournis par OCLC.

Ainsi, de février à novembre 2017, plus de 160 000 notices Sudoc ont été modifiées en utilisant ce nouvel outil d’administration de données. Pendant l’été 2017, une part importante des corrections a été traitée « à la main », principalement des fusions de notices et des corrections de liens erronés entre notices bibliographiques. L’objectif était double :

  • charger dans theses.fr des notices en provenance du Sudoc n’ayant pu être chargées du fait de leur médiocre qualité

Il s’agissait de corriger des erreurs manifestes et, à cette occasion, d’enrichir les notices originelles, notamment celles dépourvues de numéro national de thèses (zone 029), de note de thèse structurée (328$bDiplôme$cDiscipline $eEtablissement de soutenance$dDate de soutenance) ou de code domaine TEF (zone 686).
Des lots ont été constitués établissement par établissement, afin de permettre un versement des modifications dans les SIGB et de compléter les points d’accès 712 à l’établissement de soutenance.

  •  mettre de l’ordre dans les données déjà visibles dans theses.fr

En 2013, lors du versement des données Sudoc dans theses.fr, des choix devaient être faits  – tout verser ou ne verser que les notices de meilleurs qualité ? C’est une voie médiane qui a été retenue : les données Sudoc chargées dans theses.fr comportaient les zones essentielles, même si le contenu de ces zones était parfois peu exploitable ou non conforme aux recommandations du Guide Méthodologique.
Ainsi, par exemple, chaque occurrence distincte d’une zone 328$eEtablissement de soutenance dans une notice de thèse en provenance du Sudoc a créé une entrée au niveau de la facette « Établissements » dans theses.fr. Cette facette n’aurait dû contenir qu’environ 200 entrées puisqu’il existe une liste fermée des libellés des établissements de soutenance …. cependant, le recours à cette liste n’étant pas contrôlé dans WinIBW, n’importe quoi peut en réalité être saisi en 328$e, ce qui a parasité le fonctionnement de la facette « Etablissements » dans theses.fr.

Dans d’autres cas, le désordre dans theses.fr n’était pas dû à des consignes de catalogage non respectées mais à l’évolution des consignes de catalogage. Par exemple, longtemps il n’a pas été possible – dans le Sudoc (alors que STAR le permettait) – de qualifier finement les rôles de personnes en relation avec la thèse (membre du jury, président, rapporteur) ou les rôles des organismes (établissement de cotutelle, école doctorale, autre partenaire de recherche…). Fin 2014, l’Abes a créé  de nouveaux codes de fonction dans le Sudoc et a incité les catalogueurs à s’en servir (cf J.e-cours du 14/12/2014 « Description des thèses de doctorat » ). Évidemment, une grande partie des données rétrospectives du Sudoc étaient à corriger. Même si toutes les données n’ont pu être traitées en 2017, cela a constitué un axe majeur des modifications réalisées.

Résultats

Quantitativement, le nombre de page décrivant des thèses soutenues a fortement augmenté en 2017 [ie : nombre de thèses soutenues en 2016 et 2017  et signalées pour la première fois dans theses.fr au cours de l’année 2017]. Ainsi, alors qu’en 2016, le taux d’accroissement était de 4,04%, de février à décembre 2017, le nombre de pages de thèses soutenues dans theses.fr a connu un accroissement de 10,88%.

Qualitativement, les efforts ont principalement portés sur les organismes liées à la thèse, ce qui a permis de nettoyer les facettes ainsi que les pages dédiées aux organismes. Voici par exemple une copie d’écran de la facette «Établissements» réalisé le 10/02/2017. On y voit, surlignées en jaune, les entrées erronées (faculté),  autant d’éléments aujourd’hui corrigés.

 

 

 

 

 

 

 

 

 

 

Dans la mesure du possible, les zones de texte libre présentes dans la note de thèse – indiquant par exemple la discipline – ont été harmonisées.

Par ailleurs, suite à l’appel lancé via les listes de diffusion, quelques établissements ont sollicité l’Abes pour corriger des lots de données. Parmi les cas les plus fréquents : les notices de reproduction ou les versions électroniques de thèse versées dans une archive institutionnelle locale, pour lesquelles l’URL de diffusion dans la zone 856 devait être corrigée.

Conclusion

Malgré ces forces supplémentaires qui ont permis d’améliorer la qualité des données de thèses dans le Sudoc, ce dossier n’est hélas pas clos. En effet, le programme AlgoSudoc de FRBRisation des données du Sudoc en vue de leur chargement dans theses.fr détecte encore des milliers d’erreurs et les rend publiques.

Afin  que le slogan de theses.fr «Signaler l’ensemble des thèses de doctorat soutenues en France depuis 1985 » devienne réalité, l’Abes invite les établissements qui ne se sont pas encore emparés de ce dossier à prendre en main les données qui leur incombent.

IMR

Synthèse de l’enquête sur la fonction de coordinateur thèses

20160115_163200

L’enquête auprès des coordinateurs thèses : raison d’être et accueil

Le dispositif de valorisation des thèses de doctorat s’est consolidé en 2011 avec la mise en production du moteur de recherche theses.fr et de l’application Step, venues compléter les services déjà apportés par l’application Star et le Sudoc. La fonction de coordinateur thèses a été mise en place au même moment. L’objectif de cette fonction est qu’un établissement dispose d’une vue globale sur la gestion des thèses et d’un interlocuteur assurant la transmission de l’information entre les différents intervenants dans les applications liées aux thèses. L’ABES a donc ressenti le besoin, 4 ans après la mise en place de ce dispositif, de faire un bilan sur les retours d’expérience des établissements et de recenser les suggestions sur les moyens de faciliter l’action des coordinateurs thèses.
L’enquête à destination des coordinateurs thèses a été lancée par l’ABES du 15 septembre au 31 octobre 2015. L’enquête comportait 21 questions.
71 réponses exploitables ont été obtenues soit un taux de participation à l’enquête de 63%. 112 coordinateurs thèses sont en effet comptabilisés en janvier 2016. Les coordinateurs thèses ayant répondu à l’enquête ont majoritairement été nommés en 2011 (30%) et 2013 (22%). Voici une synthèse des réponses obtenues :

La fiche de fonction du coordinateur thèses : utilisation et amélioration

Cette fiche a été proposée par l’ABES au moment de la création de cette nouvelle fonction au sein des établissements habilités à délivrer le doctorat, en 2011. Comme les autres correspondants de l’ABES, le coordinateur thèse dispose d’une fiche de fonction accessible à partir de son site web : http://www.abes.fr/Media/Fichiers/Theses-Fichiers/Fichiers-Coordinateur-Theses/FIche-de-fonction-Coordinateur-Theses

Cette fiche a été créée à l’origine dans un triple objectif :

  • aider le président ou directeur de l’établissement à nommer la personne adéquate,
  • faire reconnaître cette fonction au sein de l’établissement en lui allouant une quotité de travail,
  • aider le coordinateur thèses à appréhender ses fonctions.

Cette fiche remplit relativement bien ses objectifs. En effet, la fiche de fonction, même si elle reste ignorée par une minorité, sert majoritairement à savoir en quoi consiste la fonction (74%) et à faire reconnaître la fonction dans l’établissement (30%). C’est également une aide pour définir le temps à allouer à cette fonction (7%). Comme le signale l’un des participants, la fiche est surtout utile au moment de la prise de fonction, elle est ensuite peu utilisée (13%). Une suggestion est de réaliser un kit de démarrage incluant la fiche de fonction et d’autres outils à destination du coordinateur thèses nouvellement nommé.
Des améliorations sur la fiche ont été suggérées :

  • en terme de diffusion : rappel systématique, une fois par an au moins, de l’existence de cette fiche,
  • en terme de contenus : mettre des liens sur des exemples concrets, préciser qu’un intérêt voire une connaissance du milieu de la recherche (laboratoires, écoles doctorales…) est un atout pour cette fonction. La fiche détaille en effet actuellement surtout les relations avec l’ABES tandis que l’essentiel du travail du coordinateur thèses concerne finalement les relations en interne. Les compétences requises semblent insuffisantes : la culture juridique sur la propriété intellectuelle est jugée indispensable ainsi que la connaissance des formats de document liés à l’archivage (PDF…). Il est suggéré de rendre plus visible le fait de devoir quantifier le temps de travail dévolu à cette fonction, car cela n’est pas toujours fait localement.

Une suggestion de fond concerne le non cumul de fonctions : des répondants insistent sur la difficulté à cumuler plusieurs casquettes et suggèrent que l’ABES préconise le non cumul des fonctions sur la tête d’une même personne au-delà d’un certain nombre de thèses soutenues par an ou dissocie systématiquement les fonctions du coordinateur thèses de celle du correspondant STAR.

La fonction de coordinateur thèses : choix, reconnaissance et exercice de la fonction

Cette fonction est heureusement plus majoritairement choisie (55%) qu’imposée (44%).

Reconnaissance_Fonction_Punktokomo_Corthese

Elle est reconnue majoritairement par le supérieur hiérarchique. Viennent ensuite le correspondant STAR, la bibliothèque, le correspondant STEP, le service de rattachement du coordinateur thèses, les écoles doctorales, puis la direction de l’établissement, le service de la recherche, les doctorants, les directeurs de thèses. 5% des répondants déplorent toutefois que la fonction ne soit pas reconnue au sein de l’établissement.
Les participants signalent que la fonction de coordination qui est attendue consiste essentiellement en la mise en relation de services internes de l’établissement ce qui, par nature, n’est pas d’une grande visibilité. Toutefois, il est précisé que c’est souvent au démarrage du projet sur les thèses que la fonction peut être assise même si cela nécessite du temps et demande souvent de s’imposer.
71% des coordinateurs thèses estiment avoir les moyens d’exercer leur fonction.
Les difficultés soulignées empêchant de mener à bien cette fonction sont majoritairement le manque de disponibilité du coordinateur thèses qui cumule souvent beaucoup de fonctions dans son établissement ainsi que la multiplicité des interlocuteurs à solliciter pour mener à bien cette fonction. Sont également évoqués le manque de politique de l’établissement, la difficulté à agir sur l’ensemble du circuit des thèses (par exemple pour les thèses en préparation), le manque d’intérêt ou de coordination avec le service recherche.

Taches_Punktokomo_Cortheses

Parmi les tâches assignées au coordinateur thèses, les plus importantes en terme de temps de travail sont, en ordre décroissant  :

  • d’assurer la coordination du travail des acteurs impliqués dans le dispositif de gestion des thèses de son établissement,
  • d’assurer la communication de l’information liée au dispositif de gestion des thèses au sein de son établissement et avec l’ABES ,
  • d’autres tâches n’étaient pas proposées dans le choix de réponse et émergent. Il s’agit par exemple de revoir le positionnement du SCD et de l’affermir dans le circuit des thèses, de s’investir dans des formations sur l’archivage, la propriété intellectuelle, la gestion des données, de se tenir informé des évolutions du circuit des thèses dans son établissement, de moderniser le circuit des thèses, d’interagir entre doctorants et écoles doctorales. D’autres tâches sont évoquées qui dépassent la fonction de coordinateur thèses, il s’agit sans doute de cas de cumul de fonction (correspondant STAR / STEP) : former les correspondants STAR, les nouveaux secrétaires d’écoles doctorales, vérifier que toutes les thèses soutenues ont bien été validées par les écoles doctorales afin de les traiter, vérifier que les services documentaires ont bien traité toutes les thèses soutenues et validées par les écoles doctorales,
  • de désigner les correspondants STAR / STEP,
  • d’assurer le suivi de la convention Thèses passée avec l’ABES. Ce suivi ne pose en général pas de difficultés (90%).

Les relations internes et externes des coordinateurs thèses

Partenariat avec d’autres coordinateurs thèses

La majorité des coordinateurs thèses (73%) travaille seule, sans interaction avec d’autres coordinateurs thèses.

Echanges avec les acteurs et/ou services liés au circuit des thèses de son propre établissement : fréquence des échanges et difficultés rencontrées

Les interlocuteurs sont variés et se cumulent, voici une estimation de la fréquence des échanges entretenus par les coordinateurs thèses :

Echanges_mensuels_Punktokomo_Cortheses

Echanges_frequents_Punktokomo_Cortheses

Pour 44% des coordinateurs thèses, aucun échange n’est entretenu avec les directeurs de thèse.

Beaucoup de points très positifs sont relayés dans les relations avec les différents services : bons rapports, implication des services, clarification des rôles. L’objectif de l’enquête était avant tout de mettre en avant les problèmes rencontrés et de faire des suggestions d’améliorations.

Le coordinateur thèses rencontre parfois des difficultés à travailler avec certains services :

Difficultes_Punktokomo_Cortheses

La tendance est la suivante concernant les difficultés exprimées :

– le collège doctoral ou les écoles doctorales :

le manque de disponibilité du correspondant STEP, les relations directes avec des écoles doctorales hétérogènes, l’incompréhension des enjeux, des problèmes de communication entre écoles doctorales et collège doctoral, le manque de suivi ou de rigueur, des validations tardives ou hâtives de thèses, la réputation des enseignants qui prime parfois sur une diffusion des thèses de qualité, le manque de contact direct avec la scolarité sont des difficultés exprimées.

– les doctorants :

la difficulté à obtenir les documents nécessaires à la mise en ligne de leurs thèses, des erreurs liées au non respect des consignes ou à la méconnaissance des enjeux et obligations, le manque de formation juridique (méconnaissance de la différence entre embargo et confidentialité par exemple), le non respect des délais sont mentionnés.

– les directeurs de thèses :

l’incompréhension des enjeux du dépôt électronique, le manque de contact avec eux en raison de leur manque de disponibilité, leur opposition au libre accès, la non réception du formulaire de validation scientifique sont des freins à des échanges fructueux.

– le service de la scolarité :

une méconnaissance des enjeux, du rôle du SCD vis-à-vis des thèses, des lourdeurs logistiques, une difficulté à mettre en place des circuits dématérialisés, la difficulté à prendre en compte les paramètres du module thèses d’Apogée, le renseignement des données dans STEP, le manque de reconnaissance de la fonction de coordinateur thèse, la fluctuation saisonnière de l’activité donnant un manque de disponibilité, un manque d’uniformité des pratiques, la non utilisation des outils mis à disposition, la non récupération des documents dans un délai raisonnable, le manque de personnel, les réorganisations de services sont mentionnés comme problématiques.

– le service de la recherche :

l’existence et les enjeux de STEP, STAR et theses.fr ne sont pas toujours bien compris. Ces applications n’apparaissent pas comme des applications nationales prioritaires, il est difficile pour l’établissement habilité de se les approprier et de les considérer comme des outils au service de l’établissement et non des seuls services documentaires. L’incompréhension des enjeux du dépôt légal est nuisible et la communication avec ce service est parfois lente et difficile.

– le service informatique :

problèmes d’imports Apogée Step ou de manque d’implication.

– la bibliothèque :

les enjeux et le temps nécessaire au dossier des thèses ne sont pas toujours bien perçus ni mesurés par la direction du SCD.

La nomination des correspondants STAR ou STEP

La nomination des correspondants STAR et STEP par le coordinateur thèses ne pose en général pas de difficultés (78%). Les problèmes quelquefois évoqués sont : le manque de disponibilité des personnels (13%), le mauvais fonctionnement du circuit des thèses dans l’établissement (9%), la difficulté à identifier une personne ressource (4%).

Les outils mis à disposition pour le coordinateur thèses : connaissance et perfectibilité

La diversité des réponses et des outils mis en place montre une utilisation très différente d’une personne à l’autre.

Outils_Utiles_Punktokomo

Viennent en tête des outils considérés comme les plus utiles pour le coordinateur thèses : le guichet d’assistance, la liste de diffusion des coordinateurs thèses, les J.e-cours puis le site web de l’ABES, le guide du doctorant, et enfin la documentation en ligne sur les missions du coordinateur thèses et la plate forme d’auto formation Moodle.

Les suggestions d’amélioration de ces outils sont nombreuses :

–          pour le guichet d’assistance : des réponses plus complètes, la possibilité de suivre un échange quand un collègue est absent, plus de réactivité,

–          pour la liste de diffusion : l’utiliser davantage, que l’ABES apporte un cadre règlementaire,

–          pour les J.e-cours : en proposer sur les droits d’auteur, en rendre un obligatoire sur ce qu’implique être coordinateur thèses,

–          pour le site web de l’ABES : une plus grande complémentarité avec les autres outils et une plus grande facilité d’accès aux guides,

–          pour le guide du doctorant : sa traduction en anglais, plus de précisions sur la rédaction et présentation de la thèse, des consignes par rapport au non verrouillage du fichier de thèse déposé, une éventuelle mise à jour,

–          pour le cours en ligne sur les coordinateurs thèses : utiliser la liste pour en rappeler l’existence deux fois par an. Une documentation datant de 2013 est en effet accessible à partir du site web de l’ABES : http ://documentation.abes.fr/aidecoortheses/index.html
Si la majorité des coordinateurs a bien connaissance de cette documentation (54%), un effort reste à faire pour la faire connaître (22% n’en n’a pas connaissance). Concernant l’utilisation de cette documentation, celle-ci reste faible (14%) tandis que 35% déclare ne pas l’utiliser,

–          pour la plate forme d’autoformation : utiliser la liste pour en rappeler l’existence deux fois par an.

Les suggestions d’outils à mettre en place étaient proposées librement aux répondants à l’enquête. Ces suggestions dépassent parfois le périmètre d’outils à mettre en œuvre, on y trouve certes des outils :

–          un outil sur les questions juridiques, avec des cas pratiques et des solutions applicables qui serait un recours si un doctorant ou directeur refuse d’appliquer le cadre légal (cette suggestion est faite par plusieurs répondants à l’enquête),

–          une vidéo courte et vivante, pour les doctorants, éventuellement leurs directeurs de thèses, sur les archives ouvertes, sur le droit d’auteur des docteurs, le dépôt légal des thèses et sur l’intérêt du signalement des thèses en préparation,

–          des données sur la consultation et le téléchargement des thèses via theses.fr,

–          de la promotion pour la mise en ligne d’articles de recherche sur les archives ouvertes en ligne (HAL par ex.),

–          mettre la documentation APOGEE de l’AMUE en libre accès,

–          faire une enquête sur l’organisation du circuit des thèses dans les établissements travaillant dans STAR.

Concernant les outils, une nuance est à apporter toutefois : la palette des outils proposés est jugée assez complète et le fait de rajouter un outil supplémentaire n’apparaît pas comme résolvant le manque de temps soulevé par certains coordinateurs thèses.

D’autres suggestions sont  :

–          développer et entretenir un « esprit de groupe », sans doute l’esprit réseau de l’ABES !

–          des décisions politiques, des textes réglementaires incontestables,

–          plus de lien entre le Cines et l’ABES.

Initiatives de l’ABES pour aider les coordinateurs thèses

Les coordinateurs thèses devaient proposer dans l’enquête des initiatives que l’ABES pourrait proposer afin de les aider dans leur travail. En voici une typologie :

  • actions de stratégie et de communication :

– vidéo mentionnée ci-dessus,

– une démarche de lobbying auprès des présidents d’universités, chercheurs pour les sensibiliser à l’importance du dépôt et de la diffusion des thèses,

– une affirmation renouvelée auprès de la gouvernance, du pôle recherche, de la scolarité, de l’importance des applications liées aux thèses et de l’intérêt de les considérer comme des applications nationales majeures, d’être soucieux de mieux les intégrer,

– une information à la direction du SCD soulignant que les missions des BU dans la conservation, le signalement et la diffusion des thèses et dans le circuit global au sein de l’Université sont importantes, que la fonction de coordinateur est une fonction pivot et transverse , et qu’il est important pour le coordinateur thèses de pouvoir participer aux Journées ABES régulièrement,

– faire comprendre que les travaux sur les thèses évoluent régulièrement, que la fonction n’est pas moins prenante aujourd’hui qu’au démarrage des applications, maintenir le niveau d’intérêt pour les thèses de la part des différents acteurs.

  • actions de mutualisation :

une connaissance fine et partagée des pratiques de dépôts et de diffusion des établissements (savoir quel établissement a tel profil de dépôt/telles questions pourrait permettre de mutualiser des réponses adaptées à des problèmes rencontrés autrement qu’au gré des débats sur les différentes listes, disposer d’un document récapitulatif sur les différents formats pdf adaptés aux droits de diffusion autorisés),

-connaître en pratique les décisions prises par d’autres établissements pour faire face à des difficultés récurrentes de ce travail (que faire des thèses non corrigées, délais acceptées pour les corrections….),

-organiser une demi journée d’échanges entre coordinateurs thèses pour avoir des retours d’expérience des autres établissements en direct mais si possible pas à Montpellier,

-des rencontres, des comptes-rendus de fonctionnement dans d’autres établissements (par ex. l’implication des doctorants dans STEP et STAR), des rendez-vous régionaux sur les pratiques professionnelles.

  •  expertise juridique :

– les difficultés se cristallisent souvent autour des questions juridiques, c’est dans ce domaine en particulier qu’une aide supplémentaire serait précieuse,

-le recrutement d’un juriste qui puisse conseiller les coordinateurs thèses sur les cas particuliers auxquels ils sont confrontés.

  • action législative et de régulation :

– sous forme de recommandation aux établissements, que l’ABES préconise le non cumul des fonctions sur la tête d’une même personne, par exemple au delà d’un certain nombre de thèses par an,

-une obligation légale de diffuser sa thèse en libre accès, une meilleure législation sur les thèses non corrigées et la non attribution du diplôme de doctorat.

  • pilotage :

– le pilotage, par l’ABES, d’une réflexion sur le PEB électronique en vue de proposer une solution nationale à la question.

Participation à des actions de valorisation de la part des coordinateurs thèses

Afin de mieux connaître les activités impulsées par les coordinateurs thèses concernant les actions de valorisation, des détails étaient demandés sur les actions déjà entreprises.

Actions_Valorisation

Viennent en tête:

  • la formation des doctorants :

formation à la rédaction du document thèse, information sur les règles de la propriétés intellections (contenu et utilisation de documents annexes,…), intervention lors des journées de rentrée, organisation de modules de formation avec acquisition d’ECTS sur différents thèmes autour de la thèse (utilisation de feuilles de style, thèse : du dépôt à la diffusion, formation à Zotero, identité et réputation numérique, bibliométrie, recherche bibliographique, open access), séminaires pour la thèse électronique plusieurs fois par an,  participation au guide du doctorant remis à la rentrée, plan de formation régional, café « 1h pour comprendre le dépôt de ma thèse » tout au long de l’année, présentation du circuit des thèses et des bases bibliographiques.

Quelques exemples cités :

http://www.jubil.upmc.fr/fr/guides_recherche/doctorat_sciences/sem_these_elec.html

http://scd.univ-orleans.fr/depot-theses-electroniques

http://www.formadoc.net/

http://thesesenligne.parisdescartes.fr/Formations/Rechercher-rediger-publier

http://bu.univ-avignon.fr/se-former/journees-urfist-2015/

  • la formation des acteurs du suivi des thèses :

formation interne du personnel du Bureau du 3ème cycle, information et formation à l’utilisation du worflow des thèses, démonstration et explication de STEP et de theses.fr, réunions, documents de présentation, formation/suivi des correspondants STAR et STEP, formation des scolarités et écoles doctorales, formation des bibliothécaires impliqués dans le traitement des thèses, développement d’une plateforme dématérialisée.

Un exemple cité :

le wiki Thèses de Strasbourg Unistra : https://wiki.scd.unistra.fr/theses/start

  • la création d’une plateforme de diffusion dédiée aux thèses :

mise en place de liens vers theses.fr depuis son propre site web de manière à ce qu’on y arrive directement pour voir les thèses en préparation, thèses numérisées de manière rétrospective, rédaction du cahier des charges, vue spéciale dans le portail documentaire, utilisation de l’intranet.

Quelques exemples cités :

theses.unistra.fr

ori.univ-lille1.fr

http://pepite.univ-lille2.fr/index.html

http://theoreme.univ-valenciennes.fr/index.html

https://hal-clermont-univ.archives-ouvertes.fr/CLEMU-THESES/

http://thesesenligne.parisdescartes.fr/

  • la réalisation de plaquettes, d’affiches :

distribution de signets theses.fr et de documentation lors des séminaires, distribution de plaquettes réalisées en lien avec le service communication et distribuées aux doctorants, Libguides en cours de rédaction, plaquettes pour doctorants, guide du dépôt de la thèse distribué aux doctorants de l’université, schéma type algorithme pour déterminer le processus de dépôt par rapport à la diffusion voulue (Ecole des Ponts COMUE Paris Est), création de poster pour les JABES (2015).

Quelques exemples cités :

http://scd.univ-orleans.fr/depot-theses-electroniques

http://bu.univ-lyon3.fr/guide-du-doctorant-depot-signalement-et-diffusion-des-theses-electroniques-de-lyon-3-887132.kjsp?RH=SCD-NUM-thes

http://www.u-bordeaux.fr/content/download/22424/169827/version/2/file/2014_06_05_plaquette_theses-web.pdf

  • la rédaction d’article sur un site web :

page web dédiée au dépôt légal et au signalement des thèses, réunions, rubrique liée au projet sur l’intranet régulièrement alimentée au fur et à mesure de l’avancée du projet.

Quelques exemples cités :

http://scd.univ-orleans.fr/depot-theses-electroniques

http://jlsc-pub.org/articles/abstract/10.7710/2162-3309.1230/

http://scd.univ-lille2.fr/depot-de-these-ou-de-memoire/these-de-doctorat.html

http://www.u-bordeaux.fr/Bibliotheque/Theses-et-memoires-numeriques/These-de-doctorat

http://descartesinfo.parisdescartes.fr/2014/12/10/uphd-le-portail-des-theses-au-service-des-doctorants/

http://www.univ-avignon.fr/fr/recherche/college-des-etudes-doctorales.html

http://bu.univ-avignon.fr/service-en-ligne/chercheurs-et-doctorants/

  • la formation des directeurs de thèses :

atelier LaTex d’une directeur dans lequel le coordinateur thèses intervient au début, formation proposée à tous les laboratoires, relais assuré par les scolarités.

  • la rédaction de billet de blog :

newsletter de la bibliothèque pour tenir au courant les collègues, rubrique Actu’BU sur le site web où sont postés des messages concernant les thèses, un billet prochainement pour la 8 000ème thèse de Paris 4 sur theses.fr.

  • les réseaux sociaux :

relais des initiatives de valorisation des thèses (ex : Ma thèse en 180 secondes…), alimentation des comptes Facebook et Twitter avec actualités de la recherche pour doctorants (formations, informations sur dépôt, aide à la recherche…).

  • le concours MT180 : ma thèse en 180 secondes

présence à la finale locale, promotion du concours MT180 sur le site de la BU.

  • la rédaction d’un article dans une revue professionnelle :

divers articles d’Arabesques, Arabesques 78

  • la liste de discussion :

informations vers les écoles doctorales, les doctorants, le pôle recherche, la vice présidence recherche, le comité de pilotage, les directeurs de thèse.

  • la participation à une journée d’études, à un congrès :

atelier JABES mai 2013, JABES 2015 (poster), JABES.

  • autre :

formation des directeurs de SCD au numérique, formation des nouveaux membres de STAR, siéger en membre invité à la commission recherche et pouvoir présenter des bilans sur les avancées concernant le circuit des thèses et faire valider des nouvelles procédures,
construire un dispositif d’accompagnement pour les doctorants et directeurs de thèse (site web, cellule d’assistance, formations, journée d’étude, réunions informelles de type « témoignage »…), participation à la réalisation d’un mailing auprès des doctorants, travail régulier et informel avec les collègues coordinateur thèses d’autres établissements, participation à un groupe de travail avec les écoles doctorales pour la remise à jour du guide du doctorant, révision de l’ensemble des procédures entre écoles doctorales et bibliothèque universitaire pour le passage dans STAR, adoption en commission recherche de la charte mise à jour, réunion annuelle avec les écoles doctorales pour se tenir mutuellement au courant de l’actualité liée aux thèses.

Pour mener toutes ces actions de valorisation, 28% des coordinateurs thèses ont travaillé avec d’autres établissements.

Merci encore à tous les coordinateurs thèses ayant répondu à cette enquête pour la richesse des informations collectées et les nombreuses suggestions émises.

 

 

 

Webservice AlgoSudoc : prendre connaissance et remédier aux anomalies de chargement des données Sudoc dans theses.fr

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

« Nous sommes en 2015 après Jésus-Christ. Toutes les thèses de doctorat soutenues en France depuis 1985 sont recensées dans theses.fr… Toutes ? Non ! Un lot d’irréductibles notices Sudoc résiste encore et toujours à l’algorithme de chargement. Et la vie n’est pas facile pour les garnisons de catalogueurs des bibliothèques retranchés dans les établissements de soutenance.« 

En mai 2013, les données du Sudoc ont été chargées dans le moteur de recherche theses.fr. Un précédent billet liste (de manière non exhaustive) les raisons pour lesquelles certaines notices n’ont pas pu être chargées.
Au-delà de l’énoncé de ces quelques principes, le programme de versement des données Sudoc restait une boite noire pour les catalogueurs. Vous avez été nombreux à nous réclamer via le guichet d’assistance des explications sur le non-chargement de telle ou telle notice, souvent à la demande d’un directeur de thèse qui constatait que theses.fr ne recensait pas la totalité des thèses qu’il a dirigées. Nous vous avons répondu au cas par cas, en vous promettant une liste de toutes les notices en erreur.

Ce service est désormais (enfin !) disponible. L’ABES a développé un webservice baptisé AlgoSudoc permettant de générer à la demande un « rapport dynamique de chargement des données Sudoc dans theses.fr ». Ce rapport est un fichier .csv contenant les résultats des tests de l’algorithme. Ces tests portent principalement sur la qualité de la notice décrivant la thèse originelle (codée 105$bm) et sont divers et variés (présence, structure et unicité du numéro national de thèse, structure de la note de thèses…). Pour chaque PPN en anomalie, le catalogueur est invité à corriger la notice dans WinIBW ; le rapport dynamique lui suggère d’intervenir à tel ou tel endroit de la notice.
Aujourd’hui, des dizaines de milliers d’anomalies sont détectées, y compris pour les thèses soutenues après 1985. Face à l’ampleur de la tâche, il est nécessaire d’organiser le travail de correction. En utilisant des paramètres dans l’url de génération du rapport dynamique, il est possible de définir un lot précis (par exemple, toutes les notices de thèses localisées avec un RCR donné).

La documentation sur ce webservice est ici. Un J-e.cours de présentation de ce service aura lieu le 12 mars.

Nous espérons que ce webservice sera l’occasion pour les établissements de mettre en place des chantiers de corrections ciblés, un peu comme le traitement des ebooks de droit international achetés dans le cadre d’ISTEX  ou plus récemment comme dans la démarche des CERCLES (Correction et Enrichissement par le Réseau de Corpus de L‘Enseignement Supérieur) .
Il est évident que dans un corpus centré sur les thèses, composé de notices qui bien souvent sont des unicas, les bibliothèques des établissements habilités à délivrer le doctorat ont une responsabilité particulière.
L’ABES vérifiera régulièrement l’avancement des corrections de manière globale. Par ailleurs, l’ABES prend à sa charge un certain nombre de traitements (qui n’apparaissent pas dans les rapports dynamiques) et ne s’interdit pas de mettre en place de nouveaux contrôles, notamment sur l’absence de liens entre notices bibliographiques et notices d’autorité (tests qui eux apparaitront dans les rapports dynamiques).

Un jour, à terme, ce webservice devrait être inutile : plus aucune anomalie ne devrait être détectée par l’algorithme.

Les irréductibles notices Sudoc n’ayant pas de potion magique, elles seront vaincues par les armées de catalogueurs !

IMR

theses.fr et les FRBR

Looking for a book / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Looking for a book / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Le Sudoc a le document comme niveau de granularité. Ce principe peut se résumer par l’équation suivante : une notice = un document = un support. Appliqué aux thèses dans les cas les plus complexes, ce principe explique la coexistence de plusieurs notices :

  • une notice A : description du document dactylographié remis par le docteur juste après sa soutenance,
  • une notice B : description de la microfiche fabriquée par l’Atelier national de reproduction des thèses de Lille,
  • une notice C : description du document électronique que la bibliothèque a fabriqué par numérisation du document papier et a mis en ligne sur internet après autorisation de l’auteur.

Ces notices décrivent des documents au support matériel distinct mais au contenu identique.
Il peut également exister des notices D, E, etc. décrivant les monographies publiées par un éditeur suite à une révision par le docteur du texte initial de sa thèse. Dans ce cas, non seulement le support matériel est distinct de la version de soutenance, mais en plus le contenu a été remanié.
Dans le Sudoc, il y a donc n notices pour 1 thèse donnée.

A contrario, theses.fr propose une page par thèse. Chaque thèse a pour identifiant le numéro national de thèses, qui permet aussi la construction de l’url de la page. Cette page est construite par regroupement des n notices du Sudoc :

  • la quasi totalité du contenu de la notice A (titre, auteur, directeur, note de thèse, résumé, mots clés..) permet l’identification de la ressource
  • des éléments des notices A, B, C, D et E permettent l’accès à la ressource.

Peut-on considérer que theses.fr est la traduction FRBR d’une partie des données du catalogue Sudoc ?

Cette question appelle une réponse de Normand.

->Non.

Dans l’exemple pré cité, au sens des FRBR, il y a deux entités. La première a pour manifestation A, B et C ; la seconde a pour manifestation D et E. Ces deux entités sont liées (l’une est le remaniement de l’autre) mais elles sont distinctes. Si le degré de remaniement du texte initial de la thèse est très important, on a affaire à deux œuvres distinctes. S’il est moindre, on a affaire à une œuvre dont découlent deux expressions. La limite est ténue et les indications figurant dans les notices D et E permettent difficilement de déterminer s’il s’agit d’expressions de la même œuvre ou deux œuvres différentes.

Nous avons fait le choix de considérer qu’il s’agit de la même œuvre. Une même page de theses.fr regroupe la thèse dans sa version de soutenance et la thèse remaniée en attribuant à l’ensemble un identifiant commun, le numéro national de thèse (qui n’est pourtant pas une métadonnée de la version remaniée). Il ne nous a pas semblé utile de suivre le modèle FRBR à la lettre car theses.fr vise avant tout la simplification. Cependant, l’utilisateur est alerté des différences de contenu entre les deux entités :

  • grâce à l’affichage du titre et de la mention d’édition de la thèse ayant fait l’objet d’une publication
  • et surtout, grâce à un tampon « validé par le jury » qui estampille la version de soutenance.

-> Oui.

Le processus de chargement des données du Sudoc a pour finalité un regroupement des n notices du Sudoc. La granularité de theses.fr est bien l’œuvre, et non le document. Nous avons fait le pari que la forme était anecdotique (collation, ISBN… sont affichés mais peu mis en avant). Par contre l’accès au contenu est une information capitale.
En ce sens, le chargement des données du Sudoc dans theses.fr est conforme aux FRBR (1).

« […] on définit les spécifications fonctionnelles des notices bibliographiques en
articulation avec la liste suivante de tâches qu’accomplissent les utilisateurs au cours de la consultation et de l’exploitation des bibliographies nationales et des catalogues de bibliothèques :
— utilisation des données afin de trouver les documents qui correspondent aux critères de recherche exprimés par l’utilisateur […] ;

L’utilisateur de theses.fr peut effectivement retrouver tous les documents relatifs à une thèse donnée.

— utilisation des données afin d’identifier une entité […] ; — utilisation des données pour choisir une entité qui soit en adéquation avec les besoins de l’utilisateur […] ;

Les données de la version de soutenance ainsi que les données divergentes de la version remaniée sont clairement affichées pour permettre l’utilisateur d’identifier la ressource adéquate.

— utilisation des données pour avoir accès (à titre gratuit ou onéreux) à l’entité décrite […]

L’interface de theses.fr met en avant les différentes actions possibles : consultation du document en bibliothèque, accès en ligne (internet ou intranet), achat du document.

Pour conclure, avec theses.fr, l’ABES a souhaité se frotter concrètement à la problématique de FRBRisation d’un catalogue, non pour réaliser une modélisation parfaite mais pour répondre à une logique d’usage.

Exemple 1

4 notices dans le Sudoc : la version originelle , la microfiche , la thèse remaniée publiée en deux tomes avec deux titres distincts (ici et ) = http://www.theses.fr/2010PA010514

Exemple 2

4 notices dans le Sudoc : la version originelle , la microfiche , la version électronique déposée sur l’archive institutionnelle de l’établissement de soutenance , la version remaniée  = http://www.theses.fr/2006PA082686
NB : notez dans cet exemple que diffusion sur internet et publication par un éditeur ne font pas incompatibles !

IMR

 1. Extrait du Groupe de travail IFLA, « Fonctionnalités requises des notices bibliographiques, rapport final », 2e édition française établie par la Bibliothèque nationale de France, 2012, p. 12. [en ligne] < http://www.bnf.fr/documents/frbr_rapport_final.pdf > Consulté le 7 juin 2013

Le chargement des données Sudoc dans theses.fr : détails techniques

Here / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Here / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Le chargement des données du Sudoc dans theses.fr se fait en deux étapes.

1. Côté Sudoc

Un algorithme scanne l’ensemble des notices bibliographiques du Sudoc pour repérer quelles notices ont vocation à rejoindre theses.fr. Cet algorithme tourne sur la base miroir du Sudoc (cette base contient les notices du Sudoc en MarcXML et est synchronisée à la base CBS dans laquelle les catalogueurs du réseau Sudoc travaillent en Unimarc).

Le résultat de l’algorithme est une table SQL qui rapproche les identifiants des notices Sudoc (les PPN). Dans notre jargon interne, nous parlons d’une « famille thèse » constituée d’une « maman » (cette notice décrivant la thèse originelle) et de ses « enfants »  (les notices décrivant des documents en relation avec la thèse originelle : celle-ci, celle-ci et celle-ci). L’algorithme a pour but de rapprocher les notices mais aussi de contrôler leur qualité (cf. billet précédent).

2. Côté theses.fr

Un programme récupère les PPN de chaque famille et charge les données sous la forme d’un paquet MarcXML par famille : la notice maman en MarcXML suivie de ses enfants, collés à la suite dans le même fichier XML.

Un XSL de transformation traite chaque famille MarcXML pour les transformer en un fichier XML largement inspiré de TEF. Ce fichier TEF est stocké, indexé, affiché dans theses.fr.

Le résultat est une seule page dans theses.fr reprenant le contenant de n notices. Par exemple http://www.theses.fr/2007LIL30023

IMR

Quels contrôles qualité sur les notices de thèses en provenance du Sudoc ?

Deux types d’outils de production pour le signalement des thèses en France existent :

  • STAR pour les thèses déposées au format électronique (et son jumeau STEP pour les thèses avant soutenance),
  • WinIBW pour les thèses déposées au format papier.

Ces outils n’ont pas grand-chose en commun.

Les interfaces web de STAR et STEP partent du principe que le producteur de métadonnées (qui n’est pas forcément catalogueur) est novice : il fait du TEF sans le savoir en remplissant une grille de saisie. Un cheminement logique est proposé pour cataloguer la thèse, des listes fermées allègent la saisie, certaines métadonnées sont calculées ou déduites. Un contrôle final valide les métadonnées en vérifiant leur structure par rapport à la recommandation TEF. Les données sont produites établissement par établissement sans savoir ce qui se passe chez le voisin.
WinIBW fonctionne sur la logique inverse : le catalogueur du Sudoc maîtrise les pré-requis des normes et des formats. Il fait de l’unimarc à partir d’une feuille blanche. Hormis pour les données codées et le lien aux autorités, aucune aide à la saisie ne lui est proposée. Un contrôle final existe mais il est sommaire car il doit pouvoir s’appliquer à tous les types de documents. Ce sont les pairs qui exercent le contrôle le plus efficace puisque le Sudoc est un réseau de catalogage partagé.

Taking a bath / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Taking a bath / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Quelles sont les conséquences pour theses.fr, réceptacle des données produites dans ces environnements si différents ?
Lancé en juillet 2011 avec STAR comme seule source de données, theses.fr a été conçu sans que la question de la qualité des données soit posée : puisque tout provenait de STAR, tout était contrôlé en amont. Une thèse en provenance de STAR a toujours un et un seul auteur avec une notice d’autorité, au moins un directeur de thèse avec sa notice d’autorité, deux titres dont un en anglais, deux résumés dont un en anglais, des mots clés, un numéro national de thèse etc.

Puisque les données en entrée de theses.fr sont « parfaites », theses.fr ne fait que les recevoir pour les rendre visibles sans les modifier.

Mais quid des notices cataloguées dans le Sudoc ? Il y a une extrême variété de la qualité des thèses cataloguées dans le Sudoc, due à :

  • l’absence de table de validation spécifique (techniquement impossible à mettre en œuvre puisque les thèses ne sont pas un type de document particulier cf. billet précédent )
  • des opérations de rétroconversions massives, parfois document en main, parfois non
  • une moindre efficacité du contrôle par les pairs puisque les thèses sont souvent des unicas.

Nous avons donc mis en place des contrôles en amont du chargement dans theses.fr. Le chargement des données du Sudoc dans theses.fr se fait grâce à un algorithme qui scanne l’ensemble des notices bibliographiques du Sudoc pour repérer quelles notices ont vocation à rejoindre theses.fr. theses.fr vient alors piocher les données qui l’intéressent.
Une notice qui ne remplit par certaines conditions ne peut pas être versée dans theses.fr

Liste (non exhaustive) des contrôles

Une notice ne peut pas être chargée dans theses.fr :

  • si elle n’a pas les deux zones spécifiques à la description des thèses : la donnée codée spécifiant la nature de contenu (105$b) et la note de thèse structurée (328$b, 328$c, 328$d, 328$e)
  • si elle n’est pas localisée
  • si le diplôme en 328$b n’appartient pas au référentiel des diplômes concernés par theses.fr (cf billet précédent)
  • si le code de pays n’appartient pas au référentiel des pays concernés par theses.fr(cf billet précédent)
  • si elle n’a pas de code de domaine dans le zone 686 (cf. billet précédent)

Certains contrôles ne s’appliquent qu’aux notices décrivant une thèse de doctorat dans sa version de soutenance (zone 105$bm). Une notice ne peut pas être chargée si :

  • si elle n’a pas de numéro national de thèse (zone 029$b)
  • si elle a un numéro national de thèse erroné ie ne respectant la structure définie dans le Guide méthodologique
  • si elle n’a pas de numéro national de thèse unique à l’échelle du Sudoc

Pour conclure, l’algorithme vérifie des points essentiels, notamment la structure du numéro national, identifiant indispensable puisque constitutif de l’url de la page dans theses.fr. Les contrôles sont cependant plus lâches pour les données du Sudoc que pour les données en provenance de STAR. Une notice Sudoc peut être chargée dans theses.fr si elle n’a ni titre traduit, ni mots clés, ni résumés, ni liens aux autorités.

Pour conclure, si une notice est « moche » dans theses.fr, c’est qu’elle est « moche » dans le Sudoc. L’ABES espère que la visibilité supplémentaire de cette notice grâce à theses.fr sera une incitation suffisante pour corriger les données dans le Sudoc.

IMR