35 000 thèses TEL proviennent de Star : et les autres ?
- importer les notices de TEL en s’appuyant sur leurs métadonnées (XML TEI) pour les transformer en Unimarc.
- décrire ces documents via les notices des thèses originelles déjà présentes dans le Sudoc.
Pour une plus grande simplicité de mise en œuvre et une bonne cohérence des données – notamment des liens aux autorités IdRef « Nom de personnes » et Rameau, il a été décidé de partir du socle constitué par la notice Sudoc décrivant la thèse originelle papier et d’en faire la matrice de la future notice du document TEL.
Recouper les données de TEL avec celles du Sudoc
L’étape dite « de recouvrement » des données de TEL avec celles du Sudoc a été complexe.
Dans un premier temps, les données de TEL ont été récupérées dans OpenRefine via une requête sur l’API-HAL – https://api.archives-ouvertes.fr/docs en demandant en sortie : URI, Date de soutenance, Auteur et Titre français du document.
Puis, via un test de recouvrement (sur Date, Auteur, Titre), les thèses TEL auxquelles correspondent une notice de thèse originelle papier (notice « mère ») dans le Sudoc, ont été identifiées. Dans un cas sur trois, le taux de recouvrement a échoué (soit 0 notices trouvées dans le Sudoc ou plus de 5)
Ensuite, à partir du NNT, les différentes notices de reproduction (notices « filles ») rattachées à une notice « mère » ont été identifiées dans le Sudoc, ce qui a permis d’exclure les thèses possédant déjà une notice de reproduction et faisant mention, en zone 856, d’une URL (vers TEL ou Pastel) et pour lesquelles le signalement avait déjà été effectué.
Après un passage par ces différents tamis, il restait environ 22 000 documents TEL disposant d’une notice de thèse originelle dans le Sudoc. Parmi ces 22 000 documents, n’ont pu être conservées que 15 500 thèses dont la notice de thèse originelle « passait l’AlgoSudoc » et apparaissait dans theses.fr [afin d’améliorer le référencement des thèses dans theses.fr, rappelons que les établissements sont invités à corriger les notices WinIBW qui ne « passent pas l’AlgoSudoc »].
Les thèses de TEL : reproductions exactes ou autres versions des thèses ?
Une fois identifiés les documents potentiellement à signaler dans le Sudoc, la question de la méthode s’est posée : dans la mesure où les notices de reproduction décrivant les thèses TEL allaient être générées en masse à l’aide de scripts, il fallait en effet rester prudent.
L’Abes n’étant pas en mesure de vérifier la conformité du dépôt TEL avec la thèse originelle archivée par l’établissement de soutenance, il a été décidé de ne pas signaler les documents déposés sur TEL en tant que reproductions exactes, mais en tant qu’« autres versions » des thèses archivées en bibliothèques.
En lieu et place de l’habituelle zone 455/456 (reproduction de/reproduit comme), nous avons donc opté pour une paire de zones 452 (autre édition sur un autre support), ce qui permet de ne pas statuer sur l’identité de contenu entre la version originelle de la thèse et la version déposée sur TEL.
Ce choix a été renforcé par la suppression, dans la notice ainsi créée, du Directeur de thèse, de l’Université de soutenance, des membres du jury et du NNT, de sorte que le traitement de ces documents corresponde à celui réservé habituellement à une « version commerciale » de thèse. Ce traitement catalographique est applicable à toutes les « autres éditions » et « autres versions » d’une thèse, qui ne sont pas des reproductions exactes ou ne peuvent être considérées comme telles en l’absence de vérification.
La note de thèse (zone 328 : Texte remanié de …) a été conservée [on peut, dans WinIBW, interroger l’index nth pour retrouver les thèses par établissement de soutenance]. De son côté, le NNT est déplacé à la fois en zone de note (zone 305 : « Cette édition peut différer de la version de soutenance enregistrée sous le Numéro National de Thèse : 20XXZZZZ0001 ») et en tant qu’identifiant dans un autre système (zone 033) pour pointer sur la page correspondante sur theses.fr.
Bilan
Après plusieurs mois de réflexion, le chantier de signalement des thèses de TEL dans le Sudoc lancé le 26 avril 2018 s’est achevé le 4 mai 2018. Il a donné lieu à la création de quelques 15 500 notices Oa liées à une notice de thèse originelle Aa [on peut les retrouver en interrogeant la zone 035 avec la requête « che sou tel? OU pastel? OU hal? »].
Le lien d’accès au fichier de la thèse s’affiche désormais sur theses.fr de la façon suivante :
Par ailleurs, toutes les notices créées se sont vues attribuer un « exemplaire Abes » afin d’apparaître sur le catalogue Sudoc public.
Dans la mesure où il s’agissait d’une première, la prudence a été de mise, aussi bien en ce qui concerne le périmètre choisi que le traitement retenu pour la création de ces notices. Notre objectif a été, avant tout, de permettre l’intégration dans la notice Sudoc d’un lien vers le texte intégral là où on ne disposait que d’une notice de thèse originelle papier.
Si la procédure choisie – notamment le test de recouvrement – mérite encore d’être affinée, l’objectif est de parvenir au signalement dans le Sudoc de l’ensemble des thèses de doctorat déposées sur TEL. Pour ce faire, le chantier sera relancé l’année prochaine, puis tous les deux ans.
Après l’Abes, c’est au tour des établissements de jouer
Les établissements sont libres de compléter ou corriger les notices créées, notamment afin de remplacer la zone 452 par une zone 456 – après vérification de la conformité du dépôt TEL avec la version de soutenance – et d’appliquer le traitement habituellement réservé aux reproductions de thèses de doctorat.
Ils peuvent également demander à l’Abes une exemplarisation automatique sur un lot de thèses TEL, afin d’enrichir leur catalogue local.
Enfin, ceux qui souhaitent améliorer le signalement de leurs thèses dans le Sudoc afin, d’une part, de permettre leur référencement dans theses.fr, et, d’autre part, d’obtenir une meilleure couverture Sudoc / TEL, sont invités à contacter le service des Thèses qui pourra leur fournir la liste des thèses ayant été écartées du chantier et dont la reprise est nécessaire.
N’hésitez donc pas à nous solliciter via ABESstp en cas de problèmes ou pour avoir plus de détails sur les outils utilisés et la méthode suivie.
Annexe : Nombre de notices créées par établissement (code court)
Etab. | Nb de notices créées | Etab. | Nb de notices créées | Etab. | Nb de notices créées |
AGPT | 46 | ENST | 117 | NAN2 | 8 |
AGUY | 12 | ENSU | 8 | NANT | 285 |
AIX1 | 192 | EPHE | 16 | NCAL | 1 |
AIX2 | 80 | EPXX | 310 | NICE | 362 |
AIX3 | 94 | ESAE | 29 | NSAM | 1 |
AIXM | 1 | ESMA | 56 | NSAR | 13 |
AMIE | 31 | ESTA | 6 | OBSP | 30 |
ANGE | 16 | EVRY | 19 | ORLE | 182 |
ARTO | 5 | GLOB | 18 | PA01 | 283 |
AVIG | 10 | GRE1 | 1616 | PA02 | 3 |
BESA | 169 | GRE2 | 28 | PA03 | 39 |
BOR1 | 284 | GRE3 | 22 | PA04 | 33 |
BOR2 | 24 | GREN | 163 | PA05 | 72 |
BOR3 | 44 | IEPP | 17 | PA06 | 1885 |
BOR4 | 45 | INAL | 7 | PA07 | 625 |
BORD | 1 | INAP | 75 | PA08 | 45 |
BRES | 115 | INPG | 890 | PA09 | 49 |
CAEN | 380 | INPL | 22 | PA10 | 97 |
CERG | 13 | INPT | 33 | PA11 | 901 |
CHAM | 130 | ISAL | 1 | PA12 | 12 |
CLF1 | 6 | ISAM | 11 | PA13 | 28 |
CLF2 | 270 | ISAR | 72 | PAUU | 66 |
CNAM | 34 | ISAT | 48 | PERP | 30 |
COMP | 54 | LARE | 2 | POIT | 110 |
CORT | 16 | LARO | 49 | POLF | 1 |
DENS | 20 | LEHA | 40 | REIM | 6 |
DIJO | 107 | LEMA | 6 | REN1 | 466 |
DUNK | 18 | LIL1 | 42 | REN2 | 43 |
ECAP | 70 | LIL2 | 25 | ROUE | 123 |
ECDL | 22 | LIL3 | 15 | STET | 33 |
ECDM | 1 | LIMO | 6 | STR1 | 136 |
ECDN | 52 | LORI | 46 | STR2 | 8 |
ECLI | 10 | LYO1 | 79 | STR3 | 2 |
EHEC | 36 | LYO2 | 4 | STRA | 33 |
EHES | 196 | LYO3 | 12 | TELB | 9 |
EIAA | 11 | LYON | 1 | TELE | 3 |
EMSE | 23 | LYSE | 1 | TOU1 | 13 |
ENAM | 296 | MARN | 58 | TOU2 | 69 |
ENCR | 1 | METZ | 30 | TOU3 | 453 |
ENGR | 40 | MNHN | 37 | TOUL | 9 |
ENMP | 291 | MON1 | 29 | TOUR | 62 |
ENPC | 290 | MON2 | 303 | USPC | 52 |
ENSA | 11 | MON3 | 27 | VALE | 58 |
ENSF | 5 | MULH | 13 | VERS | 71 |
ENSL | 63 | NAN1 | 78 |