Baisse des consultations sur le catalogue Sudoc : l’arbre des causes à la loupe

Depuis 2008, l’analyse des statistiques de consultation du catalogue Sudoc public a montré une baisse importante. Afin d’en déterminer les causes et de décider des éventuelles actions à mener pour y remédier,  une étude a été réalisée à l’ABES, étude que ce billet se propose de présenter.

Des hauts et des bas

Le graphique ci-dessous, publié également dans l’étude SGBM, a servi de point de départ à l’étude :

Image

Ce graphique indique bien une forte hausse entre 2004 et 2008 (de 6 millions à plus de 25 millions de connexions annuelles, soit une hausse de 400%), suivi d’une baisse tout aussi importante (de 25 millions à 15 millions en 2012). Ce constat est renforcé par le fait que les courbes « connexions et  recherches réussies sur le catalogue professionnel  (accessible via WinIBW) sont restées stables depuis 2008.

Pour expliquer ces importantes variations, il s’agissait de déterminer quels évènements de nature « exceptionnelle » avaient eu lieu durant cette période. Les conclusions, disponibles dans le document de l’étude, sont résumées dans ce billet.

Analyse des index et clés de recherche

En analysant  plus spécifiquement les recherches s’appuyant sur les index, un premier constat a fait émerger une très forte augmentation du nombre de recherches sur l’index ISBN entre 2008 et 2010.

Année

% du total

2013 (4 mois)

4,41

2012

5,33

2011

8,13

2010

18,69

2009

42,78

2008

31,83

2007

4,18

2006

3,50

2005

3,50

Or, après une analyse plus fine des recherches sur cet index, réalisée à partir des données de Webstats (système de pilotage des applications de l’ABES) et des archives de logs Apache, il s’est avéré que ces requêtes provenaient en majeure partie d’un seul établissement (soit en 2008 : 7,5 millions des 8,5 millions de recherches effectuées sur l’index ISBN). La mise en œuvre d’un portail ou d’un système de recherche fédérée peut expliquer cette hausse de consultation sur l’index ISBN.

Autre augmentation significative : les recherches sur l’index PPN (+ 50% entre 2010 et 2011, et + 100% entre 2011 et 2012). Une augmentation qui s’explique aisément par la mise en place en 2008-2009 de l’URL pérenne d’accès aux notices Sudoc (de type : http://www.sudoc.fr/ppn), la redirection vers la notice détaillée du Sudoc s’effectuant automatiquement par une recherche sur l’index PPN.

De plus, afin de permettre au moteur de recherche Google d’indexer les notices – améliorant ainsi la visibilité du catalogue sur le Web, un sitemap contenant l’ensemble des URL pérennes des notices du Sudoc a été envoyé à Google. L’augmentation du nombre de recherches sur l’index PPN est l’une des conséquences directes de cette initiative.

La chasse au robot

Début 2007, suite à une attaque par « déni de service » (tentative de faire effondrer un réseau par l’envoi d’un très grand nombre de requêtes) sur le serveur hébergeant le Sudoc public, les équipes techniques de l’ABES ont constaté un très fort trafic sur la machine du Sudoc en provenance de robots, et plus particulièrement des robots de Google. Afin d’endiguer ces requêtes « inutiles », un blocage des principales adresses IP de ces robots a été mis en place au niveau du routeur. En effet, l’application Sudoc étant développée dans un langage propriétaire, les requêtes envoyées par les robots ne retournaient jamais de résultats cohérents : ce trafic était donc inutile pour tout le monde, mais il était quand même comptabilisé dans nos statistiques. A titre indicatif, les connexions effectuées par les robots représentaient 37% du nombre total en 2007 et 20% en 2008. Le travail au fil de l’eau pour bloquer ce trafic a permis d’arriver à une valeur proche de 0 en 2009, une valeur survenue à peu près au moment de la fourniture du fichier sitemap à Google, qui a de ce fait désactivé les interrogations du catalogue par leurs robots.

Z3950 oui mais … sans les notices ISSN

Jusqu’en  2011, les accès Z3950 au catalogue Sudoc étaient effectués via des requêtes passées directement sur le catalogue public. Ainsi, toute interrogation du Sudoc via un client Z3950 était comptabilisée dans les statistiques de la base de production de l’interface publique. En mars 2011, suite à une demande formulée par l’ISSN international, les requêtes utilisant le protocole Z3950 ont cessé de cibler la base de production, ne ciblant désormais qu’un sous-ensemble de la base, qui exclut les notices en provenance de l’ISSN. Ainsi, au niveau statistique,  un certain nombre de connexions ciblant initialement la base de production publique ont  été déplacés vers ce sous-ensemble,  soit 676 578 recherches de ce type en 2011 et 979 989 en 2012. Une restriction qui a donc accentué significativement la baisse des consultations.

Vieillissant le Sudoc ?

Divers éléments – tels le vieillissement des machines du Sudoc, l’augmentation de la volumétrie des bases de données – ont entrainé une baisse des performances du Sudoc public, relayée par certains professionnels des réseaux. Même si, suite au changement de machines qui a eu lieu début 2012, une légère augmentation du nombre de connexions a pu être constatée, aucun lien de cause à effet ne peut être confirmé. Cette piste semble toutefois un paramètre méritant d’être mentionné.

Conclusions

A partir des différentes causes énoncées ci-dessus, il est possible d’agréger la quasi-totalité des chiffres. En les déduisant ou les ajoutant aux statistiques à notre disposition sur les périodes concernées, il est possible d’établir de nouveaux totaux, bien plus représentatifs de la réalité de l’activité du catalogue Sudoc public :

Année

Total recherches

Z3950

Robots

ISBN Moyen

ISBN

Nouveau total

2005

18 717 660

   

1 000 000

443 275

19 274 385

2006

23 254 683

   

1 000 000

580 083

23 674 600

2007

29 866 256

11 000 000

1 000 000

957 320

18 908 936

2008

34 044 971

6 900 000

1 000 000

8 575 800

19 569 171

2009

27 223 034

 

250 000

1 000 000

8 950 626

19 022 408

2010

24 685 719

 

0

1 000 000

3 282 718

22 403 001

2011

19 873 279

676 578

0

1 000 000

1 093 176

20 456 681

2012

18 934 373

979 989

0

1 000 000

736 755

20 177 607

 

Explications  :

  •  La donnée « total des recherches » est extraite du système de pilotage des applications de l’ABES
  •  La donnée « Z3950 » représente le nombre de recherches utilisant ce protocole qui ne sont plus comptabilisées dans les recherches sur la base de production du catalogue public
  •  La donnée « Robots » est une estimation du nombre de requêtes effectuées par des robots d’indexation
  •  La donnée « ISBN moyen » correspond à la moyenne du nombre de recherches sur l’index ISBN ces 2 dernières années
  •   La donnée « ISBN » représente le nombre de recherches effectuées par un seul établissement sur le catalogue Sudoc, ce qui a augmenté les statistiques de façon artificielle
  •  La donnée « nouveau total » est obtenue par le calcul : » total de recherches » + « Z3950 » – « Robots » – « ISBN » + « ISBN Moyen »

En agrégeant ce nouveau total dans un graphique, on obtient la courbe suivante :

Image

Cette nouvelle courbe montre que le pic survenu en 2008 – qui a d’ailleurs permis à l’ABES de prendre conscience d’un problème sur la consultation du catalogue – a été résorbé par ce mode de calcul plus représentatif de la réalité des consultations de cette année-là. Une fois les chiffres du pic recalculés, la courbe oscille entre 20 et 25 millions de recherches par an et garde une allure relativement plane.

Un peu de prospective

Du fait de la politique d’ouverture des données développée par l’ABES, cet indicateur quantitatif (= nombre de recherches effectuées sur l’interface publique du Sudoc) ne sera certainement plus pertinent dans quelques années. Il conviendra alors de dissocier les indicateurs d’accès à nos données  -via l’interface publique du Sudoc ou via toutes autres interfaces utilisant les données du Sudoc- de l’indicateur d’accès à l’interface publique elle même. Selon le degré de réutilisation de nos données, cette dernière interface pourrait même avoir vocation à disparaitre pour le grand public. A suivre….

 

Quelques clés pour géolocaliser les notices Sudoc

boussoleComme annoncé cet été dans un billet du Fil’Abes, un  nouveau service a été mis en production : la géolocalisation des exemplaires des documents décrits dans le catalogue Sudoc. Ce billet se propose d’expliciter comment il a été conçu techniquement. A vos boussoles !

Une condition : des notices RCR enrichies

Pour mettre en place ce service, il a tout d’abord fallu recueillir les coordonnées GPS des établissements documentaires afin de les injecter de façon automatisée dans les notices descriptives des bibliothèques (=notices RCR). Au préalable, deux nouvelles zones -longitude et latitude- avaient  été ajoutées dans le format des notices RCR afin  de pouvoir y indiquer les coordonnées GPS. Ne disposant que des adresses postales, un script SQL a été conçu afin d’extraire les adresses des bibliothèques de la base de données, ce en formulant des requêtes HTTP de ce type : http://maps.googleapis.com/maps/api/geocode/json?region=fr&sensor=false&address=ADRESSE_DE_LETABLISSEMENT

Pour cela, c’est  l’API Geocoding de Google Map qui a été utilisée, une API bien pratique dont le fonctionnement est explicité sur Google Developers. Cette API renvoie un fichier JSON dans lequel il est simple d’extraire les coordonnées GPS afin d’enrichir les notices RCR.

Après cette première mise-en-œuvre automatisée, il appartient aux coordinateurs et responsables CR de renseigner ces informations lors de la création de toute nouvelle notice RCR.

La Géolocalisation côté code

Sur le catalogue Sudoc public, à partir  de l’onglet « Où trouver ce document ? » situé au-dessus de chaque notice bibliographique, un lien utilisant l’identifiant de la notice (=numéro PPN)  est généré : http://www.sudoc.fr/geolocalisation/?ppn=017150590

Pour parvenir à ce résultat, plusieurs web services développés par l’ABES sont utilisés :

  • le lien profond (deep link) intitulé « Disponibilité », pointant vers l’exemplaire situé dans le catalogue de l’établissement : il peut être récupéré en consultant le web service « MultiLinkRcr ». Ce service, qui répond au format JSON, prend en paramètre la liste des numéros RCR des établissements que l’on veut consulter. Le lien profond se trouve dans la zone « racinedeeplinkpsi » : http://www.sudoc.fr/services/multilinkrcr/490072101,290192101,951272104

Comment réutiliser la géolocalisation Sudoc dans vos développements ?

Deux  possibilités s’offrent aux développeurs qui souhaitent intégrer ce web service de géolocalisation à leurs développements :

  • par le biais d’une iFrame
  • en créant directement un lien vers l’URL du service. Celui-ci  fonctionne grâce à l’identifiant des notices Sudoc (= le numéro PPN), passé en paramètre de l’URL : http://www.sudoc.fr/geolocalisation/?ppn=142864811

Rappel  : en fonction des informations dont on dispose, plusieurs services permettent de trouver l’identifiant Sudoc d’une notice (PPN). La liste de ces services ainsi que leur documentation est accessible sur la page « Pour les développeurs » du site de l’ABES.