STAR : les statistiques 2016

starDepuis l’ouverture en 2006 de l’application nationale STAR, développée suite à l’arrêté du 7 août 2006  relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses électroniques, outre la garantie d’un signalement et d’un archivage numérique fiable,  c’est bien également in fine la valorisation et la diffusion des thèses françaises que le dispositif mis en œuvre par l’Abes soutient. Un dispositif qui devrait se renforcer suite à la parution de l’arrêté du 25 mai 2016  rendant obligatoire le dépôt de la thèse dans sa version électronique  pour tous les établissements à partir du 1er septembre 2016. 

Outre un éclairage original sur la richesse de la production et sur la dynamique de diffusion des « documents Thèses », la publication des statistiques 2016 se veut un indicateur d’activité au service des établissements membres du réseau Star.

Volumétrie de la base de données STAR

Au 1er janvier 2017,  56 287 thèses déposées et archivées  sont recensées dans la base de données STAR/CINES. On constate que, depuis 3 ans, le volume de thèses traitées annuellement tend à se stabiliser autour de 10 000 thèses par an – 11 258 en 2016 pour être précis. Il est prévisible que cette moyenne augmente sensiblement en fonction du nouvel arrêté rendant le dépôt électronique des thèses obligatoire.

depot-annuel

Indicateurs d’activité dans STAR

Calculée en fonction du nombre de thèses traitées, l’activité dans l’application STAR se caractérise par un relatif lissage tout au long de l’année. Cependant, tout comme en 2015, on constate un léger pic d’activité lors du premier trimestre de l’année civile.

Le délai de traitement moyen d’une thèse dans STAR, donnée statistique présente dans l’application de pilotage Webstats, est calculé en fonction de l’écart entre  la date de soutenance et la date de validation finale.  Alors qu’en 2015 ce délai de traitement était en moyenne de 293 jours,  il est de 317  jours en 2016.

ration-mensuel

delai-traitement

Diffusion des thèses : l’accès libre largement privilégié

Illustration d’une belle dynamique d’ouverture et de libre accès,  le pourcentage de thèses déposées dans STAR diffusées sur Internet, stable depuis 2013, est évalué à 75%. On note qu’est privilégiée la diffusion des thèses sur plusieurs plateformes en simultané, cette diffusion s’appuyant sur la plateforme Thèses-en-Ligne (TEL) du CCSD, la plateforme des établissements de soutenance et la plateforme ABES.

Signe que les automatisations introduites entre les différents systèmes -et notamment entre STAR et TEL –  favorisent la politique de dépôt en open access ?  Quoiqu’il en soit, comme l’indiquent les statistiques publiées récemment par le CCSD, en 2016, on peut se réjouir que 72% des thèses déposées dans TEL – soit 5 731 thèses – l’aient été à partir de l’application STAR.  En 2014,  cela ne représentait que 39% des cas…

Type de diffusion

diffusion

plate-forme

Olivier CIAN, responsable fonctionnel de l’application STAR

 

Calames : les statistiques 2016

calamesTout en inaugurant la prise de relais entre le blog Calames, qui cesse ses publications en ce début d’année, et  Punktokomo, blog technique de l’ABES, ce billet vise prioritairement à fournir aux établissements membres du réseau Calames des éléments complémentaires aux statistiques générales accessibles via l’application Webstats.

Les statistiques présentées ici  fournissent des tendances et des indicateurs, mais ne prétendent pas donner d’information sur la qualité, la précision, la pertinence des encodages adoptés, ni sur la part de travail récurrent ou rétrospectif touchant des niveaux descriptifs pré-existants. En effet, le caractère hybride de l’instrument de recherche EAD – partagé entre la volonté de mettre en forme des documents et la tendance à l’usage de référentiels et autres données destinés aux traitements informatiques –  explique en partie cette difficulté à prendre tout le recul souhaitable sur ces ensembles de fichiers : bien souvent, seul un regard humain est à même de juger complètement de la qualité des encodages. Ces diagrammes sectoriels sont néanmoins des témoins sûrs de l’implication des établissements dans le signalement de leurs archives et manuscrits, de leur importance dans le paysage patrimonial de l’ESR en général et dans la vie du réseau Calames en particulier.

État de la base publique Calames au 31 décembre 2016

Répartition du 3/4 de million de composants publiés dans Calames par établissements

repartition-c-publies-fin-2016-par-rcr

Répartition des composants publiés dans Calames par origine (rétroconversions nationales originelles ou production/ attribution d’ID par l’outil)

originedonneescalames2016

Répartition  des composants publiés dans Calames par cercles de déploiement (1er cercle déployé en 2008, 7e et 8e cercles en 2014)

repartition-c-publies-fin-2016-par-cercles

Nouvelles données publiées dans Calames en 2016

La quantité de données nouvellement publiées est restée notablement élevée en 2016, bien que le surcroît soit moins spectaculaire qu’en 2015 et qu’il soit beaucoup plus également réparti entre une bonne dizaine de sources de signalement. origine-surcroit-c-publies-courant-2016

Neuf ans après son lancement, Calames dépasse ainsi les trois quarts de million de niveaux descriptifs publiés :

evolution-c-publies-2007-2016

Travaux de catalogage dans l’outil Calames Prod en 2016

La quantité de <c> nouvellement identifiés par l’outil Calames est très proche du niveau de l’année précédente : environ 126.000 composants ont été créés courant 2016 par le réseau Calames.

On constate que très peu d’établissements dérogent à la recommandation de cataloguer en-dehors de la base de production (env. 4000 <c> répondent à ce cas de figure après analyse), et le cas n’échoit que pour de bonnes raisons (emplois d’exports spécifiques ou volonté de faire des publications tests notamment).
Les 5 établissements ayant créé la plus grande quantité de niveaux descriptifs dans Calames depuis son origine sont ceux-là mêmes qui représentent à eux seuls plus de 60% des données actuellement publiées : Muséum National d’Histoire Naturelle (158067 <c> créés dans l’outil depuis 2008), BDIC (110203), Institut de France (86941), Bibliothèque Littéraire Jacques Doucet (65668) et Académie de Médecine (60648).

catalogage-dans-calames-2016

Depuis l’an dernier, nous disposons d’une statistique certes un peu complexe, mais complémentaire à la précédente, qui nous renseigne sur la fréquence du recours à l’outil de catalogage Calames Prod (au-delà du seul nombre de nouveaux <c> créés). Le graphique ci-dessous doit être ainsi lu : en 2016, la BLJD a effectué 839 interventions quotidiennes sur fichiers EAD unitaires (ou 839 « jours-fichiers »).

L’existence pour un même établissement d’un grand nombre de fichiers EAD favorise certes l’élévation des chiffres, quelques établissements ayant à gérer des dizaines d’instances distinctes. Le graphique témoigne aussi, en comparaison de 2015, d’un recours à la fois plus intense et fréquent à l’outil Calames Prod (plus de 1100 jours-fichiers supplémentaires pour une quantité de composants créés équivalente) ainsi que d’une part non négligeable de travaux rétrospectifs (retours sur des instances dont l’architecture au moins avait été créée les années précédentes).

temps-frequence-catalogage-calames-2016

Ventilation de 9  années de catalogage -aussi bien en production qu’en publication/indexation- dans Calames

production-c-2008-2016

Le décalage entre ces deux représentations des composants créés via l’outil Calames (<c> publiés / <c> créés) est une donnée structurelle depuis plusieurs années : de l’ordre de 100.000 composants présents mais n’ayant jamais connu de première publication. Les <c> créés en base de formation ont été « purgés » au maximum des rebuts, données de tests, et doublons de fait (ID différents mais données identiques à des niveaux descriptifs publiés en base de production). A noter aussi, une forte tendance à l’accélération des publications d’inventaires, puisque seuls 1/4 des <c> créés en 2016 n’ont pas connu de première indexation à la fin de leur année de naissance.

Statistiques de consultation 

Comme en 2015, la hausse continue de la quantité de données exposées, ainsi que plusieurs épisodes de popularité liés aux recherches ponctuelles de certains mots-clés sur les moteurs de recherche généralistes, se sont soldés par un nombre de visites sur le catalogue public en sensible accroissement.

Ainsi, la moyenne annuelle est de l’ordre de 16 000 visites/mois (soit 5.000 de plus qu’en 2013-2014) ; un phénomène corollaire est la recrudescence du « zapping » des internautes (durées moyennes de visites raccourcies), mais en restant bien loin des niveaux liés au sur-référencement que la nouvelle interface Calames avait connu dans ses premiers mois d’existence.

Jean-Marie Feurtet, responsable Calames

Webservice AlgoLiens : remédier à l’absence de liens dans les données du Sudoc

imagealogoliens

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

L’ABES vient de mettre en production un nouveau web service, baptisé AlgoLiens. Ce dernier détecte les notices du Sudoc dans lesquelles une zone de liens aux autorités n’est pas liée. En mettant à la disposition de leurs créateurs les notices présentant une telle anomalie afin de les amener à la corriger, l’objectif est d’atteindre à un signalement documentaire total.

A l’origine d’AlgoLiens, nouvel outil à la disposition des catalogueurs du réseau Sudoc, se trouve une question que plus d’une fois nous nous sommes collectivement posée : comment améliorer les données du Sudoc ? Cette question à peine énoncée, le doute s’instille. Finalement, est-ce tout simplement possible ? Ecrasante, la recherche de la réponse est repoussée à un horizon de pieuse espérance habité par de dociles machines… Pourtant, insistons car le jeu, en vaut la chandelle et répond à quatre enjeux MAJEURS :

  • l’exhaustivité du signalement catalographique,
  • la valorisation scientifique de l’IST,
  • la valorisation patrimoniale des BU,
  • la contribution des données Sudoc au Web de données liées.

Commençons par rendre la question moins effrayante : comment approcher la notion de qualité du catalogue Sudoc et prendre à bras le corps les anomalies qu’immanquablement les données contiennent ? Avec le webservice Algoliens, la porte d’entrée retenue concerne les zones de liens aux notices d’autorité. En effet, les notices d’autorité ont pour fonction de normaliser les points d’accès autorisés des notices – bibliographiques et d’autorités. De plus, elles recensent les variantes de formes. Enfin, elles ont vocation, dans les notices bibliographiques comme dans les notices d’autorité, à être liées à tous les points d’accès.

Conçu sous forme d’un web service, AlgoLiens détecte les notices dans lesquelles une zone de lien n’est pas liée. Ce servicepermet de générer à la demande un « rapport d’absence de liens dans les zones de lien du Sudoc » qui se présente sous forme d’un fichier .csv contenant les résultats des tests de l’algorithme.

L’algorithme porte, en premier lieu, sur la présence d’un lien situé dans les zones de lien des notices. Mais il fait bien plus en permettant de croiser de nombreux critères. Il est ainsi possible de filtrer les résultats souhaités par établissement, depuis une date fixée, pour un type de document précis, pour les unicas uniquement.

Voici par exemple la requête qui permet de remonter les notices des documents imprimés créées et modifiées par l’ILN 100 depuis le 10 mars 2015 dans lesquels des zones d’indexation ne sont pas liées :

http://www.idref.fr/AlgoLiens?typdoc=Aa&iln=100&code=B60X&date=20150310

Pour chaque PPN en anomalie, le catalogueur est invité à corriger la notice dans WinIBW ou IdRef. Le rapport dynamique lui suggère d’intervenir à tel ou tel endroit de la notice :

Aujourd’hui, des dizaines de milliers d’anomalies sont détectées. Face à l’ampleur de la tâche, il est nécessaire d’organiser le travail de correction. En utilisant des paramètres dans l’url de génération du rapport dynamique, il est possible de définir des lots personnalisés.

La documentation de ce webservice est disponible à cette adresse. Le J-e.cours de présentation de ce service qui a eu lieu le 1er décembre 2016 est accessible sur notre plateforme de formation.

Nous espérons que ce webservice sera l’occasion pour les établissements de mettre en place des chantiers de corrections ciblés, à l’instar de la démarche CERCLES. Et si vous ne savez pas par où commencer, songez à vos corpus préférés, vos petits trésors documentaires ou vos unicas… et testez des requêtes !!!

De son côté, l’ABES utilisera AlgoLiens pour suivre l’avancement des corrections de manière globale. De même, elle s’en servira pour déterminer des corpus pertinents sur lesquels l’apport d’algorithmes correctifs s’avérerait pertinent.

Enfin, un jour – que nous espérons le plus proche possible, ce webservice deviendra inutile car l’algorithme ne détectera plus aucune anomalie. Ce jour, nous pourrons être encore plus fiers du travail collectif accompli.

François Mistral, responsable du référentiel IdRef