Pendant près de quarante ans, l’Atelier National de Reproduction des Thèses (ANRT), intégré depuis 2018 à l’Université de Lille, a constitué le maillon central de la reproduction et de la diffusion des thèses de doctorat au niveau national. L’opération consistait à microficher l’exemplaire de thèse imprimée reçue à l’atelier, à dupliquer les microfiches obtenues puis à les expédier aux bibliothèques de l’ESR afin de permettre la consultation sur place. Aujourd’hui, la collection complète des « microfiches-mères » est conservée à l’Université de Lille.
Malheureusement, et bien que plusieurs établissements aient exprimé le besoin d’exhaustivité du signalement des microfiches dans le Sudoc, celui-ci est resté jusqu’ici très lacunaire : à peine une microfiche sur 3 était signalée. Lorsque la production de microfiches était en cours, cela aurait supposé pour y parvenir de construire des passerelles automatisées entre la base de données de l’ANRT et le Sudoc. Sur une collection circonscrite, le signalement exhaustif est bien entendu plus simple à mettre en oeuvre. Ainsi, lorsque la production de microfiche a cessé en 2017-2018, c’est donc assez naturellement que l’idée de ce chantier a émergé.
En amont : On fait place nette !
Pour débuter, deux chantiers de reprises de données ont été lancés par l’Abes sur les notices Sudoc :
- l’insertion, dans des notices de thèses originelles, de 34 000 liens à une d’autorité « Personne », au sein des notices de thèses originelles réalisée à l’aide d’un outil de liage automatique développé par l’Abes, selon la même méthodologie que dans le cadre d’autres chantiers qualités (CERCLES, AlgoLiens…)
- l’enrichissement de 80 000 notices de microfiches pré-existantes, par l’ajout, pour celles qui en étaient dépourvues, d’un lien vers la notice originelle (zones B455–B456 du format de catalogage Sudoc), d’un identifiant Numéro National de Thèses – NNT (zone B029), d’informations de collection (zones B225–B410) ou de type de support (zone B183)…
Ces deux chantiers ont permis, d’une part, d’élever le niveau de qualité de ces notices et, d’autre part, d’en faciliter le repérage et l’identification afin d’éviter la création de doublons dans la suite des opérations…
À la source : les données de l’ANRT
Les 3 bases de données, héritage de l’histoire de l’ANRT, ont été réceptionnées et dénommées respectivement «ANRT_GRENOBLE», «ANRT_SCIENCES» et «ANRT_SHS». Rappelons en effet que, jusqu’en 2011, cette mission nationale était répartie sur 2 sites selon les disciplines : Grenoble (sciences, techniques, médecine) et Lille (sciences humaines et sociales, droit, économie, gestion). Lors de la fermeture de l’atelier de Grenoble, les microfiches avaient ainsi été transférées à Lille.
Dès lors, l’analyse des données a montré que, si les informations clés relatives à la ressource étaient bien présentes, elles étaient insuffisantes pour un import « tel quel » dans le Sudoc.
Prenons un exemple (fictif !) de données disponibles à partir des bases de l’ANRT :
Numéro d’ordre |
Auteur |
Date d’insertion dans la base Anrt |
NNT |
Titre |
Nb de microfiches |
154 |
NASIER Alcofribas |
03/02/2020 |
2020MONT3233 |
Des pois au lard, cum commento |
9 |
On distingue facilement :
- l’absence de structuration fine titre/sous-titre
- l’absence d’une distinction nom/prénom
- l’absence de liens aux autorités
- l’absence de lien vers la thèse originelle
- des informations parfois datées : le NNT ANRT, par exemple, ne coïncide pas toujours avec le NNT spécifié sur la notice de thèse originelle, certains NNT ont été modifiés a posteriori par les établissements
Le recouvrement : une étape cruciale
Pour signaler les microfiches, la solution retenue a donc été de recourir à un recouvrement des bases ANRT à lide des notices de theses.fr et, lorsqu’elles existaient, d’utiliser les données consolidées des notices originelles pour créer, par duplication et transformation, les notices de microfiches correspondantes.
Le choix de theses.fr – et non du Sudoc – comme périmètre initial de recouvrement a été dicté par le souhait de bénéficier des procédures de contrôle qualité qui régissent l’alimentation du portail. Toute notice originelle de thèse s’affichant sur theses.fr dispose en effet d’une zone B328 structurée, d’un libellé de diplôme « acceptable », d’un directeur de thèse, d’une indexation en B686 $2TEF, etc.
Le périmètre de theses.fr assurait donc que les notices de microfiches générées par duplication répondraient à un niveau de qualité suffisant pour une réelle utilisation de ces notices : la présence, dans toutes les notices de theses.fr, d’un code discipline [TEF Oaiset, en zone B686 du format], par exemple, ouvre la possibilité d’exemplariser les notices par lots, en fonction de la discipline des thèses.
De cette façon, sur les 245 240 microfiches produites par l’ANRT, 221 818 (91%) ont pu être alignées avec les données de theses.fr.
Un second billet sera publié prochainement pour expliciter cette étape de recouvrement plus en détail, et présenter les outils développés et utilisés pour la mettre en œuvre.
La création et l’enrichissement des notices de microfiches
Une fois les notices originelles de thèses repérées grâce à cette étape de recouvrement, deux sous-ensembles ont été définis :
- les notices originelles pour lesquelles une notice de microfiche existait déjà dans le Sudoc, soit 28% (68 217) des microfiches présentes dans la base de l’ANRT
- les notices originelles pour lesquelles une création de notice de microfiche était nécessaire, soit 63 % (153 601) des microfiches présentes dans la base de l’ANRT
Dans le cas des créations de notices, une copie des notices originelles a été extraite du Sudoc à l’aide d’un export standard en ISO2709 puis transformée via un script MarcEdit : les zones spécifiques à l’édition originelle ont été supprimées et les zones propres aux microfiches (données codées) ont été ajoutées. Les notices de microfiches ainsi générées ont alors été importées dans le Sudoc.
Cet étape d’import a permis, d’une part, un contrôle supplémentaire sur la cohérence d’ensemble, l’uniformité des traitements ayant conduit à la création de ces notices de microfiches et, d’autre part, une vigilance accrue sur la présence d’éventuels doublons non détectés dans la phase précédente.
Les notices de microfiches ainsi créées comportent deux zones B035 :
- Une première préfixée « ANRT ABES2020» et s’appuyant sur le PPN de la notice de thèse originelle.
Exemple : 035 ##$aANRT-ABES2020-192444638 (PPN de la notice de thèse originelle).
L’ajout de ce PPN permet de garder une trace de la notice mère ayant servi à créer la notice de microfiche. Cette information est utile en cas de fusion de notices ou de changement de NNT - Une seconde préfixée « ANRT_[+ nom d’une des 3 bases de l’ANRT] et complétée par le numéro d’ordre dans cette base.
Exemple : 035 ##$aANRT_BASE_SCIENCES_33330.
Cette information permet de conserver une trace des alignements effectués (et de ceux qu’ils restent à faire pour les numéros ANRT qui n’ont pas encore été intégrés dans le Sudoc).
Les notices de microfiches qui existaient déjà dans le Sudoc avant le chantier ne comportent que la seconde de ces deux zones B035, celle permettant l’identification de la microfiche dans la base de l’ANRT correspondante.
Le traitement du reliquat
Sur l’ensemble des données présentes dans les bases de données de l’ANRT, seules 22 983 microfiches référencées (soit 9%) n’ont pu faire l’objet d’un alignement ou d’une création :
- soit la notice originelle ne figure pas dans theses.fr
- soit il reste un doute sur l’existence, d’une –et une seule– notice de microfiche dans le Sudoc
- soit aucune concordance n’a été trouvée avec des notices du Sudoc à partir des informations fournies par l’ANRT.
Sur ces 9% de microfiches encore orphelines, un chantier va être mené en relation avec les établissements de soutenance, afin que les notices originelles soient complétées/corrigées, ou qu’un repérage manuel des thèses dans le Sudoc soit effectué, le recouvrement automatique ayant atteint ses limites. À cette fin, des fichiers de vérifications vont être envoyés aux établissements, l’objectif étant qu’à terme l’ensemble des microfiches produites par l’ANRT retrouve sa notice originelle.
Et maintenant ?
Ces notices sont disponibles pour exemplarisation. Les microfiches-mères de l’Université de Lille ont d’ores et déjà été localisées sous les 150 000 notices créées par l’Abes : elles ne sont ni consultables, ni disponibles pour le PEB. Les établissements peuvent se localiser sous l’ensemble des notices, ou sous certains sous-ensembles, constitués autour d’un établissement de soutenance ou d’un code disciplinaire (zone B686 $2TEF) en particulier. L’Abes se tient à la disposition des établissements pour les accompagner, le cas échéant, dans cette démarche.
Précisons enfin que ces chantiers (procédure de recouvrement, signalement de l’ensemble des microfiches, reprise de données par les établissements), seront d’une grande utilité dans le cadre d’un éventuel projet de numérisation des thèses de doctorat.