PUNKTOKOMO

Utiliser un webservice de l’Abes sans être développeur : vers l’infini et au-delà

Suite aux Journées Abes 2018 et  au tutoriel de Sylvain Machefert (Bibliothèques de l’Université Bordeaux Montaigne) sur l’utilisation des WebServices de l’Abes (NNT2PPN, PPN.xml, etc.) via OpenRefine, le service des Thèses de l’Abes s’est dit que, oui, vraiment, mettre en regard le nombre de thèses de doctorat publiées en version commerciale et le périmètre de diffusion en ligne choisi par les docteurs était une bonne idée !

Nous avons donc reproduit le projet de Sylvain Machefert en l’élargissant à l’ensemble des thèses de doctorat soutenues, déposées au format électronique et traitées dans STAR.

Rappelons au préalable quelques éléments :

  • avec l’arrêté du 7 août 2006, le dépôt électronique des thèses de doctorat était laissé au choix des établissements. Depuis l’arrêté du 25 mai 2016, ce dépôt est désormais obligatoire ;
  • sauf confidentialité prononcée par le jury, la diffusion des thèses  est une obligation légale, a minima via l’intranet de l’établissement de soutenance. Les docteurs peuvent choisir de doubler cette diffusion restreinte d’une diffusion en ligne ;
  • les raisons qui poussent un docteur à choisir une diffusion restreinte sont multiples. Parmi elles, figure le souhait de faire publier sa thèse chez un éditeur.

Thèses soutenues VS thèses publiées

L’opération a révélé que,  parmi les 80 000 thèses archivées via STAR depuis 2007, 1403 thèses ont effectivement fait l’objet d’une publication « commerciale ». Comment les avons-nous repérées ?
Les notices originelles de ces thèses disposent, dans les données exposées en RDF (ex : https://www.sudoc.fr/15812989X.rdf ), d’un bloc <dcterms:hasVersion> dédié aux autres éditions de la thèse. Dans les notices en Unimarc, ce bloc se traduit par la présence d’un lien, dans les zones Unimarc 451 ou 452, faisant la jonction entre la notice « mère » originelle, qui décrit la version de soutenance de la thèse, et la notice « fille », qui décrit l’autre édition de la thèse (ici l’édition commerciale).
Ce sont ces informations que nous avons exploitées en suivant la procédure de Sylvain Machefert.

Par ailleurs, depuis la mise en production du webservice Unimarc/MarcXml, il est possible d’extraire via OpenRefine d’autres données intéressantes qui permettent d’affiner l’analyse.

Les disciplines les plus publiées

On peut par exemple déterminer à quelle discipline se rattachent les thèses publiées. [IMPORTANT : le périmètre d’analyse est toujours restreint aux thèses électroniques, les thèses ayant fait l’objet d’un dépôt sous forme imprimée sont exclues].

Partant de l’identifiant PPN de la notice récupéré via le webService NNT2PPN, on ajoute dans OpenRefine une colonne [« add column by fetching URLs »] contenant le résultat de la formule :

 https://www.sudoc.fr/"+value+".xml

Les données implémentées dans la colonne sont en MarcXml, format que l’on parse (le programme analyse la structure des données) pour extraire le code « discipline » contenu dans la zone Unimarc 686 :

value.parseHtml().select("datafield[tag=686]")[0].select ("subfield").toString()

La zone 686 contient le code de classification Dewey des thèses (Dewey simplifiée).

Sur les 1403 thèses recensées comme ayant donné lieu à une publication, 461 (42%) sont des thèses de droit et 120 (11%) des thèses de littérature. On peut en faire de jolis camemberts Excel !

punktokomo_these_1

Thèses à diffusion en ligne restreinte VS thèses publiées

Il est également possible d’analyser les stratégies des docteurs en ce qui concerne le type de diffusion en ligne de leur thèse (accès ouvert ou restreint). Pour ce faire, on exploite la présence d’au moins une zone 856$u dans les notices de thèse provenant de STAR :

value.parseHtml().select("datafield[tag=856]")[0].select ("subfield").toString()

La zone 856$u du .xml contient l’URL de diffusion des thèses électroniques, internet ou intranet (et donc le lien renseigné en E856 en Unimarc). Ces deux types de données (niveau bibliographique pour la 856 ou niveau exemplaire pour la E856) sont distingués dans le .xml par la présence, à la suite du champ considéré, d’un , qui est le $5 du format Unimarc d’export dédié aux données locales.

Les balises permettent d’identifier qu’on a ici affaire à un lien intranet :

<datafield tag="856" ind1="4" ind2=" "> <subfield code="5">690292101:443703647</subfield> <subfield code="q">html</subfield> <subfield code="u">http://theses.univ-lyon2.fr/documents/lyon2/2011/dargere_cj</subfield> </datafield>

Sur nos 1403 notices de thèses publiées, on trouve 483 liens URL dépourvus d’un ce qui indique une diffusion sur internet : comme quoi Open Access et publication commerciale cohabitent dans 1 cas sur 3 …

En revanche, la perspective d’une édition commerciale a clairement une incidence sur le choix de diffusion de la thèse originelle. Sur l’ensemble des thèses soutenues traitées dans STAR, on compte 2 thèses diffusées en libre-accès pour 1 thèse diffusée en intranet.
Sur le corpus des thèses publiées, c’est l’inverse.

Pour conclure

1403 thèses électroniques sur 80 000 ont donné lieu à une publication, dont 42% sont des thèses de droit.
Les docteurs qui souhaitent être publiés chez un éditeur ont davantage tendance à restreindre la diffusion en ligne de leur thèse, ce qui n’empêche pas un tiers d’entre eux de concilier publication commerciale d’une version remaniée de leur thèse et diffusion en libre accès de la version soutenue.

Pour obtenir plus de détails sur la façon dont nous avons procédé, et pouvoir à votre tour déterminer le nombre de thèses soutenues au sein de votre établissement ayant fait l’objet d’une publication, nous vous conseillons de consulter les documents d’accompagnement très utiles que Sylvain Machefert a produit et mis en ligne.

L’équipe Thèses de l’Abes, en collaboration avec Sylvain Machefert.

 

Quitter la version mobile