Nous avons donc reproduit le projet de Sylvain Machefert en l’élargissant à l’ensemble des thèses de doctorat soutenues, déposées au format électronique et traitées dans STAR.
Rappelons au préalable quelques éléments :
- avec l’arrêté du 7 août 2006, le dépôt électronique des thèses de doctorat était laissé au choix des établissements. Depuis l’arrêté du 25 mai 2016, ce dépôt est désormais obligatoire ;
- sauf confidentialité prononcée par le jury, la diffusion des thèses est une obligation légale, a minima via l’intranet de l’établissement de soutenance. Les docteurs peuvent choisir de doubler cette diffusion restreinte d’une diffusion en ligne ;
- les raisons qui poussent un docteur à choisir une diffusion restreinte sont multiples. Parmi elles, figure le souhait de faire publier sa thèse chez un éditeur.
Thèses soutenues VS thèses publiées
L’opération a révélé que, parmi les 80 000 thèses archivées via STAR depuis 2007, 1403 thèses ont effectivement fait l’objet d’une publication « commerciale ». Comment les avons-nous repérées ?
Les notices originelles de ces thèses disposent, dans les données exposées en RDF (ex : https://www.sudoc.fr/15812989X.rdf ), d’un bloc <dcterms:hasVersion> dédié aux autres éditions de la thèse. Dans les notices en Unimarc, ce bloc se traduit par la présence d’un lien, dans les zones Unimarc 451 ou 452, faisant la jonction entre la notice « mère » originelle, qui décrit la version de soutenance de la thèse, et la notice « fille », qui décrit l’autre édition de la thèse (ici l’édition commerciale).
Ce sont ces informations que nous avons exploitées en suivant la procédure de Sylvain Machefert.
Par ailleurs, depuis la mise en production du webservice Unimarc/MarcXml, il est possible d’extraire via OpenRefine d’autres données intéressantes qui permettent d’affiner l’analyse.
Les disciplines les plus publiées
On peut par exemple déterminer à quelle discipline se rattachent les thèses publiées. [IMPORTANT : le périmètre d’analyse est toujours restreint aux thèses électroniques, les thèses ayant fait l’objet d’un dépôt sous forme imprimée sont exclues].
Partant de l’identifiant PPN de la notice récupéré via le webService NNT2PPN, on ajoute dans OpenRefine une colonne [« add column by fetching URLs »] contenant le résultat de la formule :
https://www.sudoc.fr/"+value+".xml
Les données implémentées dans la colonne sont en MarcXml, format que l’on parse (le programme analyse la structure des données) pour extraire le code « discipline » contenu dans la zone Unimarc 686 :
value.parseHtml().select("datafield[tag=686]")[0].select ("subfield").toString()
La zone 686 contient le code de classification Dewey des thèses (Dewey simplifiée).
Sur les 1403 thèses recensées comme ayant donné lieu à une publication, 461 (42%) sont des thèses de droit et 120 (11%) des thèses de littérature. On peut en faire de jolis camemberts Excel !
Thèses à diffusion en ligne restreinte VS thèses publiées
Il est également possible d’analyser les stratégies des docteurs en ce qui concerne le type de diffusion en ligne de leur thèse (accès ouvert ou restreint). Pour ce faire, on exploite la présence d’au moins une zone 856$u dans les notices de thèse provenant de STAR :
value.parseHtml().select("datafield[tag=856]")[0].select ("subfield").toString()
La zone 856$u du .xml contient l’URL de diffusion des thèses électroniques, internet ou intranet (et donc le lien renseigné en E856 en Unimarc). Ces deux types de données (niveau bibliographique pour la 856 ou niveau exemplaire pour la E856) sont distingués dans le .xml par la présence, à la suite du champ considéré, d’un
Les balises permettent d’identifier qu’on a ici affaire à un lien intranet :
<datafield tag="856" ind1="4" ind2=" "> <subfield code="5">690292101:443703647</subfield> <subfield code="q">html</subfield> <subfield code="u">http://theses.univ-lyon2.fr/documents/lyon2/2011/dargere_cj</subfield> </datafield>
Sur nos 1403 notices de thèses publiées, on trouve 483 liens URL dépourvus d’un
En revanche, la perspective d’une édition commerciale a clairement une incidence sur le choix de diffusion de la thèse originelle. Sur l’ensemble des thèses soutenues traitées dans STAR, on compte 2 thèses diffusées en libre-accès pour 1 thèse diffusée en intranet.
Sur le corpus des thèses publiées, c’est l’inverse.
Pour conclure
1403 thèses électroniques sur 80 000 ont donné lieu à une publication, dont 42% sont des thèses de droit.
Les docteurs qui souhaitent être publiés chez un éditeur ont davantage tendance à restreindre la diffusion en ligne de leur thèse, ce qui n’empêche pas un tiers d’entre eux de concilier publication commerciale d’une version remaniée de leur thèse et diffusion en libre accès de la version soutenue.
L’équipe Thèses de l’Abes, en collaboration avec Sylvain Machefert.