logo-LN-ombre

[Ce billet reprend le message envoyé aux listes de discussion  Sudoc et Sudoc PS (Périodiques), le 24/2/2014. Il a été suivi d'une série de messages faisant le point sur le signalement de chaque corpus. Si vous n'appartenez pas aux réseaux ABES, le site licencesnationales.fr est le bon endroit pour se tenir informé. Il sera bientôt mis à jour pour intégrer les services évoqués dans le billet qui suit.]

En Janvier, l’ABES a annoncé l’acquisition de plusieurs corpus de ressources numériques en licence nationale, dans le cadre du projet ISTEX :

Au-delà de la négociation de ces ressources, l’ABES est responsable de leur signalement.
Pour chaque corpus, un message spécifique sera envoyé afin de détailler les opérations de signalement qui ont été réalisées ou qui le seront sous peu. A ce jour, malheureusement, il faut noter que le signalement des périodiques Elsevier (ISTEX) n’a pas été réalisé, et ce pour la raison suivante : la liste a été fournie telle quelle par l’éditeur et n’a pas pu être élaborée et vérifiée en amont et en partenariat ABES/éditeur.

La suite de ce message expose les principes généraux et les modalités concrètes du signalement des licences nationales ISTEX.

Signaler au sens large

Aujourd’hui, le signalement doit être entendu en un sens plus large qu’avant. En effet, si le signalement dans le Sudoc demeure un objectif prioritaire, il faut également travailler à signaler ces ressources dans d’autres environnements : aujourd’hui les bases de connaissance, sur lesquelles s’appuient les outils de découverte et les résolveurs de lien ; demain le web de données (LOD – Linked Open Data).
C’est pourquoi le signalement des licences nationales ISTEX est assuré par l’ABES dans le cadre du projet de hub de métadonnées, en collaboration avec les équipes responsables du circuit Sudoc habituel. Derrière le terme de « hub de métadonnées », il faut imaginer un espace de traitement des métadonnées indépendant des autres applications de l’ABES. L’équipe du hub récupère les métadonnées auprès des éditeurs, sans exiger de format particulier. En bout de chaîne, il s’agit de redistribuer des données de qualité, normalisées, exploitables dans différents environnements, dont le Sudoc.

Pour le Sudoc et vos SIGB

Comme c’est le cas depuis des années, afin d’assurer la visibilité de ces ressources dans le catalogue collectif, l’ABES crée systématiquement un exemplaire ABES – en l’occurrence un exemplaire « ABES Licence nationale ».
Les établissements qui souhaiteront ajouter leur propre exemplaire, notamment pour faire redescendre ces notices dans leur SIGB, pourront utiliser le service d’exemplarisation automatique. Pour ce faire, l’ABES fournira au réseau la liste complète des documents appartenant à un corpus ISTEX.

Pour les bases de connaissance

Fait nouveau, l’ABES fournira également des listes conformes à la recommandation KBART, prêtes à l’emploi dans les bases de connaissance qui alimentent les outils d’accès à la documentation électronique.
Les équipes de l’ABES s’efforceront de fournir des listes KBART qui soient bibliographiquement correctes. Souvent, sur la plateforme d’un éditeur, derrière une seule revue se cachent en fait plusieurs revues qui entretiennent entre elles des relations de succession, de scission, d’absorption, etc. Les fichiers KBART de l’ABES veilleront à respecter cette granularité bibliographique. Il faudra être attentif à l’impact de cette granularité sur les résolveurs de lien, par exemple.

Pour une gestion optimale des collections imprimées

Dans le cadre d’ISTEX, l’acquisition des ressources électroniques est adossée à un engagement de l’Etat et de ses opérateurs sur le long terme : le CINES assure la conservation à long terme et l’INIST garantira l’accès sur la plateforme qu’il développe. Dès lors, la politique nationale d’achat pérenne de documentation électronique peut déboucher sur des décisions locales relatives à la gestion des collections imprimées (désherbage, déménagement, etc.).
L’ABES souhaite faciliter ces décisions locales en fournissant, pour chaque corpus de ressources électroniques acquises, la liste des ressources imprimées correspondant. Pour les périodiques, en particulier, il s’agit de lister les documents imprimés en précisant les états de collection électroniques ISTEX.
Ce nouveau service de l’ABES s’inscrit dans une démarche d’ensemble qui vise à offrir aux établissements des outils d’aide à la décision en matière de conservation de l’imprimé, dans le cadre d’un plan de conservation partagée ou non. Une communication spécifique va suivre qui donnera un aperçu de cette nouvelle offre de services en construction.

Zoom : les périodiques ISTEX et le Sudoc

Même si l’ABES récupère auprès des éditeurs des métadonnées au niveau de l’article, c’est au niveau du périodique que se fait le signalement dans le Sudoc. Ces notices de périodique ne sont pas générées à partir des métadonnées d’éditeur, car, dans le Sudoc, ce sont les notices ISSN qui font autorité.
Pourtant, au-delà du travail d’exemplarisation sous ces notices ISSN,  certaines informations bibliographiques seront ajoutées ou modifiées par l’ABES. Il s’agit de la zone 859 (URL fournie par l’éditeur) mais surtout de la zone 207. Cette zone sert à préciser le numéro et la date du premier et du dernier volume d’un périodique. Cette zone est particulièrement importante pour les périodiques électroniques. En effet, la date de publication d’un périodique électronique ne permet pas de connaître sa couverture réelle. Seule la zone 207 permet de comprendre que le volume n°1 d’une revue électronique créée en 1999 remonte en fait à 1923, du fait d’une numérisation rétrospective. Or, disposant des métadonnées au niveau des articles, l’ABES est en mesure de générer ces informations de manière systématique, fiable et standardisée. Si, dans les faits, il n’est pas toujours possible d’effectuer complètement cette opération au moment de la création de l’exemplaire ABES, elle sera finalisée dans un second temps, une fois les métadonnées livrées par l’éditeur et acceptées.
Par ailleurs, une part non négligeable des périodiques acquis dans le cadre d’ISTEX n’a jamais fait l’objet d’une numérotation ISSN. Un message spécifique portant sur cette question sera bientôt adressé aux centres régionaux du Sudoc PS.

Zoom : les ebooks ISTEX et le Sudoc

Contrairement aux périodiques, c’est à partir des métadonnées fournies par les éditeurs que des notices MARC seront générées et chargées dans le Sudoc. Là encore, un exemplaire ABES leur sera associé.
La qualité des notices produites dépendra essentiellement de la qualité initiale des métadonnées, mais également des efforts fournis par l’ABES pour normaliser, corriger et enrichir ces métadonnées (normalisation de certains types d’information, vérification des DOIs ou des URLs, liens à des référentiels comme IdRef, Viaf, RAMEAU, etc.). Or, ces traitements complémentaires peuvent prendre du temps. C’est pourquoi le signalement des ebooks pourra se faire en deux étapes. Dans un premier temps, les notices chargées dans le Sudoc ne seront qu’un reformatage des éléments d’information présents dans les données des éditeurs. Dans un second temps, ces notices seront modifiées pour intégrer les corrections et enrichissements effectués par l’ABES, dans le cadre du hub de métadonnées. Entre temps, il sera demandé au réseau de ne pas modifier ces notices.
Une fois ces corrections et enrichissements effectués, c’est le réseau des catalogueurs qui reprendra la main. Dans la mesure du possible, l’ABES s’efforcera de guider les efforts des catalogueurs soucieux d’améliorer la qualité de ces nouvelles notices, en indiquant le plus précisément possible celles qui méritent des interventions particulières et les zones sur lesquelles ces interventions devraient porter en priorité.

Pour toute question, merci d’utiliser le guichet d’assistance : https://stp.abes.fr/assistance/domaines/3

Y. Nicolas

Fonctionnalités

DoMyBiblio est un outil en ligne d’édition de bibliographie reposant sur les données du SUDOC. Développée en PHP, cette application permet, à partir d’une liste de numéros ISBN, d’obtenir l’affichage d’une bibliographie, contenant, pour chaque document :

  • 4 éléments de description (Titre / Auteur / Édition / Description)
  • une vignette représentant la couverture (lorsqu’elle est disponible) provenant du service Amazon.

Cette bibliographie peut être imprimée ou enregistrée au format PDF.

De plus, en mode simple, il est possible d’ajouter un commentaire pour chacun des ouvrages figurant dans la liste en respectant la syntaxe proposée : "978-2-84678-116-9*lire le chapitre 2"

Dans ce cas précis, un champ commentaire apparaîtra et contiendra « lire le chapitre 2 ». Ainsi, un professeur peut éditer une bibliographie en indiquant à ses étudiants quels chapitres lire en priorité.

En mode avancé, l’utilisateur peut ajouter plusieurs champs relatifs à chaque référence en suivant la syntaxe proposée par l’application : "0-12-391861-8*Commentaire|lire le chapitre 2*Localisation|Magasin"

Ici, un champ dénommé Commentaire contiendra « lire le chapitre 2 » et un champ Localisation contiendra « Magasin». L’astérisque annonce l’ajout d’un champ et le caractère | sépare l’intitulé du champ de son contenu.

domybiblio_advancedmode

Cette application peut être également utilisée afin d’éditer des listes de nouveautés si votre SIGB ne vous propose pas un outil pour le faire.

De l’utilisation des webservices

DoMyBiblio utilise deux services web proposés par l’ABES : isbn2ppn et Sudoc en RDF. Le premier permet d’obtenir le PPN d’une notice bibliographique à partir d’un ISBN, le second permet  d’afficher les données d’une notice bibliographique donnée. Si le premier est facile à manipuler dans la mesure où il présente une structure xml simple, le second l’est beaucoup moins. En effet, il comprend plusieurs espaces de nommage (namespaces) utilisés pour les différents éléments de la notice :

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#&quot; xmlns:bibo="http://purl.org/ontology/bibo/&quot; xmlns:dc="http://purl.org/dc/elements/1.1/&quot; xmlns:dcterms="http://purl.org/dc/terms/&quot; xmlns:rdafrbr1="http://rdvocab.info/RDARelationshipsWEMI/&quot; xmlns:marcrel="http://www.loc.gov/loc.terms/relators/&quot; xmlns:foaf="http://xmlns.com/foaf/0.1/&quot; xmlns:gr="http://purl.org/goodrelations/v1#&quot; xmlns:owl="http://www.w3.org/2002/07/owl#&quot; xmlns:frbr="http://purl.org/vocab/frbr/core#&quot; xmlns:isbd="http://iflastandards.info/ns/isbd/elements/&quot; xmlns:skos="http://www.w3.org/2004/02/skos/core#&quot; xmlns:rdafrbr2="http://RDVocab.info/uri/schema/FRBRentitiesRDA/&quot; xmlns:rdaelements="http://rdvocab.info/Elements/"&gt;

Pour accéder à l’outil : http://mydk-tomic.net/biblio/do_biblio.php

Yves Tomic, Département du système d’information documentaire, Service commun de documentation de l’Université Paris Sud. Contact : yves.tomic[@]u-psud.fr ou yves[@]mydk-tomic.net

L’ABES remercie Yves Tomic pour sa contribution à l’enrichissement des outils du Sudoc. Le Pôle Formation Documentation vous informe que le tutoriel "La boîte à outils du catalogue Sudoc" a été mis à jour et une leçon "DoMyBiblio"  a été créée : http://moodle.abes.fr/course/view.php?id=40

Logo_Mines_ParisTechAprès la soutenance de leur thèse, les doctorants ont besoin de fournir un exemplaire de leur mémoire de thèse sous forme électronique en conformité avec les normes d’archivage. Suite au besoin exprimé par le correspondant Star de la bibliothèque de l’École des Mines, PDFStar a été réalisé  afin de répondre au besoin de mise en conformité des documents PDF. Parmi les outils capables de répondre à ce besoin, on note Acrobat Pro, qui est l’outil de référence mais un logiciel propriétaire. Dans le domaine des logiciels libres, on trouve ghostscript et pdftk, disponibles sur les plateformes compatibles Unix (Linux, FreeBSD, …). Notre choix porte sur les logiciels libres. Néanmoins, ils ont les inconvénients de n’être compatibles qu’avec des systèmes d’exploitation qui ne sont pas toujours ceux des utilisateurs ciblés et aussi de n’être utilisables que par une machine à la fois.

De la connaissance que nous avons des utilisateurs ayant ce besoin, il fallait :

  • éviter tout outil en ligne de commande avec des options "tordues";
  • éviter d’avoir à dédier un outil à chaque utilisateur;
  • ne pas chercher un outil compatible avec la multitude de systèmes d’exploitation possibles et imaginables.

D’où l’idée d’encapsuler tout cela dans une interface web de façon à offrir un "service de mise en conformité", plutôt qu’un logiciel.

Organisation de pdfstar (le logiciel)

PDFStar est organisé en deux parties :

  • un moteur, qui effectue les travaux de mise en conformité, basé actuellement sur l’outil ghostscript version supérieure à 9. Il s’agit d’un script qui reçoit un fichier ".pdf" en entrée et lance l’appel à ghostscript avec les options qui vont bien pour la mise en conformité;
  • une interface web, développée en PHP, qui gère les interactions avec l’utilisateur : chargement et déchargement des fichiers, configuration générale du logiciel, configuration de contrôle d’accès, journalisation des l’activité, …

Le contrôle d’accès se fait sur un serveur web Apache, grâce à un fichier ".htaccess", habituel dans ce type de configuration. On peut soit laisser le serveur ouvert, soit le configurer avec les options de contrôle usuelles : par adresse IP ou ajouter une vérification de identité du genre basique, LDAP, CAS ou Shibboleeth. Le logiciel est disponible en téléchargement, sous licence GPL à l’adresse ci-dessous.

Organisation de pdfstar.mines-paristech.fr (le service de l’École des Mines)

L’École des Mines met à disposition PDFStar en tant que service à l’adresse : https://pdfstar.mines-paristech.fr

Ce service est disponible, après authentification avec login et mot de passe, à tous les utilisateurs des organismes faisant partie de la fédération d’identités de Renater (authentification faite à l’aide de Shibboleth).

Avenir du logiciel

Dans un proche avenir, nous allons intégrer d’autres outils permettant soit une conversion plus rapide, soit de traiter des cas où la mise en conformité ne se passe pas correctement à cause de polices de caractères propriétaires.

Liens utiles

José-Marcio Martins, Responsable technique au Centre de Calcul et Systèmes d’Information, École des Mines

Depuis 2008, l’analyse des statistiques de consultation du catalogue Sudoc public a montré une baisse importante. Afin d’en déterminer les causes et de décider des éventuelles actions à mener pour y remédier,  une étude a été réalisée à l’ABES, étude que ce billet se propose de présenter.

Des hauts et des bas

Le graphique ci-dessous, publié également dans l’étude SGBM, a servi de point de départ à l’étude :

Image

Ce graphique indique bien une forte hausse entre 2004 et 2008 (de 6 millions à plus de 25 millions de connexions annuelles, soit une hausse de 400%), suivi d’une baisse tout aussi importante (de 25 millions à 15 millions en 2012). Ce constat est renforcé par le fait que les courbes « connexions et  recherches réussies sur le catalogue professionnel  (accessible via WinIBW) sont restées stables depuis 2008.

Pour expliquer ces importantes variations, il s’agissait de déterminer quels évènements de nature « exceptionnelle » avaient eu lieu durant cette période. Les conclusions, disponibles dans le document de l’étude, sont résumées dans ce billet.

Analyse des index et clés de recherche

En analysant  plus spécifiquement les recherches s’appuyant sur les index, un premier constat a fait émerger une très forte augmentation du nombre de recherches sur l’index ISBN entre 2008 et 2010.

Année

% du total

2013 (4 mois)

4,41

2012

5,33

2011

8,13

2010

18,69

2009

42,78

2008

31,83

2007

4,18

2006

3,50

2005

3,50

 

Or, après une analyse plus fine des recherches sur cet index, réalisée à partir des données de Webstats (système de pilotage des applications de l’ABES) et des archives de logs Apache, il s’est avéré que ces requêtes provenaient en majeure partie d’un seul établissement (soit en 2008 : 7,5 millions des 8,5 millions de recherches effectuées sur l’index ISBN). La mise en œuvre d’un portail ou d’un système de recherche fédérée peut expliquer cette hausse de consultation sur l’index ISBN.

Autre augmentation significative : les recherches sur l’index PPN (+ 50% entre 2010 et 2011, et + 100% entre 2011 et 2012). Une augmentation qui s’explique aisément par la mise en place en 2008-2009 de l’URL pérenne d’accès aux notices Sudoc (de type : http://www.sudoc.fr/ppn), la redirection vers la notice détaillée du Sudoc s’effectuant automatiquement par une recherche sur l’index PPN.

De plus, afin de permettre au moteur de recherche Google d’indexer les notices – améliorant ainsi la visibilité du catalogue sur le Web, un sitemap contenant l’ensemble des URL pérennes des notices du Sudoc a été envoyé à Google. L’augmentation du nombre de recherches sur l’index PPN est l’une des conséquences directes de cette initiative.

La chasse au robot

Début 2007, suite à une attaque par « déni de service » (tentative de faire effondrer un réseau par l’envoi d’un très grand nombre de requêtes) sur le serveur hébergeant le Sudoc public, les équipes techniques de l’ABES ont constaté un très fort trafic sur la machine du Sudoc en provenance de robots, et plus particulièrement des robots de Google. Afin d’endiguer ces requêtes « inutiles », un blocage des principales adresses IP de ces robots a été mis en place au niveau du routeur. En effet, l’application Sudoc étant développée dans un langage propriétaire, les requêtes envoyées par les robots ne retournaient jamais de résultats cohérents : ce trafic était donc inutile pour tout le monde, mais il était quand même comptabilisé dans nos statistiques. A titre indicatif, les connexions effectuées par les robots représentaient 37% du nombre total en 2007 et 20% en 2008. Le travail au fil de l’eau pour bloquer ce trafic a permis d’arriver à une valeur proche de 0 en 2009, une valeur survenue à peu près au moment de la fourniture du fichier sitemap à Google, qui a de ce fait désactivé les interrogations du catalogue par leurs robots.

Z3950 oui mais … sans les notices ISSN

Jusqu’en  2011, les accès Z3950 au catalogue Sudoc étaient effectués via des requêtes passées directement sur le catalogue public. Ainsi, toute interrogation du Sudoc via un client Z3950 était comptabilisée dans les statistiques de la base de production de l’interface publique. En mars 2011, suite à une demande formulée par l’ISSN international, les requêtes utilisant le protocole Z3950 ont cessé de cibler la base de production, ne ciblant désormais qu’un sous-ensemble de la base, qui exclut les notices en provenance de l’ISSN. Ainsi, au niveau statistique,  un certain nombre de connexions ciblant initialement la base de production publique ont  été déplacés vers ce sous-ensemble,  soit 676 578 recherches de ce type en 2011 et 979 989 en 2012. Une restriction qui a donc accentué significativement la baisse des consultations.

Vieillissant le Sudoc ?

Divers éléments – tels le vieillissement des machines du Sudoc, l’augmentation de la volumétrie des bases de données – ont entrainé une baisse des performances du Sudoc public, relayée par certains professionnels des réseaux. Même si, suite au changement de machines qui a eu lieu début 2012, une légère augmentation du nombre de connexions a pu être constatée, aucun lien de cause à effet ne peut être confirmé. Cette piste semble toutefois un paramètre méritant d’être mentionné.

Conclusions

A partir des différentes causes énoncées ci-dessus, il est possible d’agréger la quasi-totalité des chiffres. En les déduisant ou les ajoutant aux statistiques à notre disposition sur les périodes concernées, il est possible d’établir de nouveaux totaux, bien plus représentatifs de la réalité de l’activité du catalogue Sudoc public :

Année

Total recherches

Z3950

Robots

ISBN Moyen

ISBN

Nouveau total

2005

18 717 660

1 000 000

443 275

19 274 385

2006

23 254 683

1 000 000

580 083

23 674 600

2007

29 866 256

11 000 000

1 000 000

957 320

18 908 936

2008

34 044 971

6 900 000

1 000 000

8 575 800

19 569 171

2009

27 223 034

250 000

1 000 000

8 950 626

19 022 408

2010

24 685 719

0

1 000 000

3 282 718

22 403 001

2011

19 873 279

676 578

0

1 000 000

1 093 176

20 456 681

2012

18 934 373

979 989

0

1 000 000

736 755

20 177 607

 

Explications  :

  •  La donnée « total des recherches » est extraite du système de pilotage des applications de l’ABES
  •  La donnée « Z3950 » représente le nombre de recherches utilisant ce protocole qui ne sont plus comptabilisées dans les recherches sur la base de production du catalogue public
  •  La donnée « Robots » est une estimation du nombre de requêtes effectuées par des robots d’indexation
  •  La donnée « ISBN moyen » correspond à la moyenne du nombre de recherches sur l’index ISBN ces 2 dernières années
  •   La donnée « ISBN » représente le nombre de recherches effectuées par un seul établissement sur le catalogue Sudoc, ce qui a augmenté les statistiques de façon artificielle
  •  La donnée « nouveau total » est obtenue par le calcul :" total de recherches" + "Z3950" – "Robots" – "ISBN" + "ISBN Moyen"

En agrégeant ce nouveau total dans un graphique, on obtient la courbe suivante :

Image

Cette nouvelle courbe montre que le pic survenu en 2008 – qui a d’ailleurs permis à l’ABES de prendre conscience d’un problème sur la consultation du catalogue – a été résorbé par ce mode de calcul plus représentatif de la réalité des consultations de cette année-là. Une fois les chiffres du pic recalculés, la courbe oscille entre 20 et 25 millions de recherches par an et garde une allure relativement plane.

Un peu de prospective

Du fait de la politique d’ouverture des données développée par l’ABES, cet indicateur quantitatif (= nombre de recherches effectuées sur l’interface publique du Sudoc) ne sera certainement plus pertinent dans quelques années. Il conviendra alors de dissocier les indicateurs d’accès à nos données  -via l’interface publique du Sudoc ou via toutes autres interfaces utilisant les données du Sudoc- de l’indicateur d’accès à l’interface publique elle même. Selon le degré de réutilisation de nos données, cette dernière interface pourrait même avoir vocation à disparaitre pour le grand public. A suivre….

 

boussoleComme annoncé cet été dans un billet du Fil’Abes, un  nouveau service a été mis en production : la géolocalisation des exemplaires des documents décrits dans le catalogue Sudoc. Ce billet se propose d’expliciter comment il a été conçu techniquement. A vos boussoles !

Une condition : des notices RCR enrichies

Pour mettre en place ce service, il a tout d’abord fallu recueillir les coordonnées GPS des établissements documentaires afin de les injecter de façon automatisée dans les notices descriptives des bibliothèques (=notices RCR). Au préalable, deux nouvelles zones -longitude et latitude- avaient  été ajoutées dans le format des notices RCR afin  de pouvoir y indiquer les coordonnées GPS. Ne disposant que des adresses postales, un script SQL a été conçu afin d’extraire les adresses des bibliothèques de la base de données, ce en formulant des requêtes HTTP de ce type : http://maps.googleapis.com/maps/api/geocode/json?region=fr&sensor=false&address=ADRESSE_DE_LETABLISSEMENT

Pour cela, c’est  l’API Geocoding de Google Map qui a été utilisée, une API bien pratique dont le fonctionnement est explicité sur Google Developers. Cette API renvoie un fichier JSON dans lequel il est simple d’extraire les coordonnées GPS afin d’enrichir les notices RCR.

Après cette première mise-en-œuvre automatisée, il appartient aux coordinateurs et responsables CR de renseigner ces informations lors de la création de toute nouvelle notice RCR.

La Géolocalisation côté code

Sur le catalogue Sudoc public, à partir  de l’onglet « Où trouver ce document ? » situé au-dessus de chaque notice bibliographique, un lien utilisant l’identifiant de la notice (=numéro PPN)  est généré : http://www.sudoc.fr/geolocalisation/?ppn=017150590

Pour parvenir à ce résultat, plusieurs web services développés par l’ABES sont utilisés :

  • le lien profond (deep link) intitulé « Disponibilité », pointant vers l’exemplaire situé dans le catalogue de l’établissement : il peut être récupéré en consultant le web service « MultiLinkRcr ». Ce service, qui répond au format JSON, prend en paramètre la liste des numéros RCR des établissements que l’on veut consulter. Le lien profond se trouve dans la zone « racinedeeplinkpsi » : http://www.sudoc.fr/services/multilinkrcr/490072101,290192101,951272104

Comment réutiliser la géolocalisation Sudoc dans vos développements ?

Deux  possibilités s’offrent aux développeurs qui souhaitent intégrer ce web service de géolocalisation à leurs développements :

  • par le biais d’une iFrame
  • en créant directement un lien vers l’URL du service. Celui-ci  fonctionne grâce à l’identifiant des notices Sudoc (= le numéro PPN), passé en paramètre de l’URL : http://www.sudoc.fr/geolocalisation/?ppn=142864811

Rappel  : en fonction des informations dont on dispose, plusieurs services permettent de trouver l’identifiant Sudoc d’une notice (PPN). La liste de ces services ainsi que leur documentation est accessible sur la page « Pour les développeurs » du site de l’ABES.

COLODUS-04Interface web, Colodus ne nécessite aucune installation sur les postes de travail. Son utilisation n’est conditionnée qu’à l’attribution de login créés préalablement dans le cadre du réseau Sudoc par le coordinateur Sudoc, dans le cadre du réseau Sudoc-PS par le responsable du centre régional.

Le développement de masques de saisie prédéfinis ou personnalisés permet de travailler dans Colodus rapidement et efficacement sans pour autant exiger de l’utilisateur une forte expertise du format de catalogage.

Chaque établissement devra décider de l’opportunité de former son personnel à Colodus et déléguer à une partie des professionnels des tâches de corrections, de suppression ou de mises à jours des données d’exemplaire.

Colodus est une porte d’entrée pour s’initier puis approfondir sa connaissance du format et des règles de description des exemplaires puisque toutes les subtilités du format peuvent être restituées.

L’ABES souhaite que ce nouvel outil permette la sensibilisation des acteurs des réseaux  Sudoc et Sudoc-PS à la qualité des données d’exemplaires du catalogue Sudoc.

Mais Colodus ne concerne que les données d’exemplaires de son RCR et ne permet aucune intervention sur la notice bibliographique.

CPD

COLODUS-03Par rapport à WinIBW, Colodus a des fonctionnalités très limitées. Colodus  propose « seulement » un habillage du format de catalogage  avec des libellés en clair pour faciliter la saisie de l’information. Mais ce « seulement » est l’occasion de se pencher sur les spécificités des données d’exemplaires.

Liés à des impératifs du système central du Sudoc, l’ABES distingue  depuis l’origine  deux formats de catalogage des exemplaires :

1/ un format spécifique aux établissements non déployés et rattachés à un centre régional du réseau Sudoc-PS,

2/ un format propre aux établissements déployés dans le Sudoc.

Aussi, Colodus applique à la lettre les règles de description et les formats de catalogage des exemplaires pratiquées dans le Sudoc depuis plus de 10 ans.

Ces règles sont empiriques et les formats sont des formats maison, sans normalisation internationale comme c’est le cas pour Unimarc ou Marc21 par exemple.

Colodus pourrait bien être l’occasion de s’interroger sur certaines pratiques  en usage. Les listes de discussion des réseaux Sudoc et Sudoc-PS pourront  permettre à chacun de s’exprimer et de faire avancer la réflexion. L’ABES sera à l’écoute de ses débats et si les formats de catalogage des exemplaires devaient évoluer, l’ABES l’implémentera dans Colodus.

N’espérez cependant pas de miracle !

Certains points de description, par exemple l’ordre de validation de codes de sous-zones sont intrinsèquement liés aux impératifs de validation de système central du Sudoc. L’ABES ne pourra pas y remédier, tant que le système central du Sudoc (CBS) est ce qu’il est.

Par contre, d’autres éléments d’ergonomie, d’affichage, voire de nouvelles fonctionnalités pourront être étudiés et l’ABES s’efforcera de faire évoluer Colodus selon vos besoins.

CPD

COLODUS-02Avant l’ouverture de Colodus, il n’existait qu’un seul outil pour décrire les exemplaires : le logiciel client WinIBW interconnecté avec le système central du Sudoc, CBS. Ces deux outils ont été développés par la société PICA (rachetée depuis par OCLC).

WinIBW est un outil robuste et complet mais son ergonomie est datée et il nécessite une installation parfois jugée fastidieuse.

S’inspirant de principe de production de données via des interfaces web (IdRef), l’ABES a souhaité développer une interface web pour la production de données d’exemplaires dans le Sudoc (cf. billet « Exemplariser sans WinIBW » http://punktokomo.abes.fr/2012/01/13/exemplariser-sans-winibw/.)

Par rapport à WinIBW, Colodus a les avantages suivants :

  • Colodus est gratuit. L’activité bibliographique réalisée via Colodus par le réseau Sudoc rentre dans le modèle de facturation général.
  • Colodus peut être utilisé sur n’importe quel poste disposant d’un accès internet. Colodus est optimisé pour Firefox.
  • Colodus propose un habillage du format de catalogage  avec des libellés en clair pour faciliter la saisie.

Mais Colodus n’anticipe pas une disparition programmée de WinIBW.

Tout d’abord Colodus ne concerne que les données d’exemplaires soit une infime proportion de l’ensemble des fonctionnalités de WinIBW. Ensuite, le système CBS demeure le cœur central de l’application. En effet, l’accès et l’utilisation de Colodus sont conditionnés par l’existence d’identifiants de connexion au système central du Sudoc (CBS) et le seul outil de création de ces identifiants est WinIBW.

Par conséquent, pour l’environnement Sudoc, Colodus ne peut être utilisé que par les établissements identifiés dans le réseau Sudoc et propriétaire d’au moins une licence WinIBW.

Alors pourquoi choisir d’utiliser Colodus ?

Dans WinIBW, pour décrire des exemplaires, le catalogueur part d’une page blanche : il doit connaître sur le bout de doigt toutes les possibilités du format.

Dans Colodus, le catalogueur se voit proposer des masques de saisie. Ces formulaires peuvent être personnalisés.

Colodus propose des zones par défaut : les zones obligatoires pour la validation d’une notice d’exemplaire, les zones facultatives pour favoriser la complétude de l’information disponible, les zones attendues pour la description d’exemplaires des documents spécifiques (documents électroniques, ressources continues…). En connexion directe avec le CBS, toute  intervention sur les données  – création, modification, suppression des exemplaires – met à jour instantanément la base du Sudoc.

Colodus a pour ambition via une ergonomie simplifiée de faciliter le travail de gestion de vos exemplaires mais aussi de permettre aisément un enrichissement qualitatif de toute l’information disponible sur vos données.

CPD

COLODUS-01Exemplariser sans WinIBW a déjà été évoqué sur ce blog (ici http://punktokomo.abes.fr/2012/01/13/exemplariser-sans-winibw/ et ici http://punktokomo.abes.fr/2013/01/14/colodus-exemplariser-sans-winibw/).

L’ouverture de Colodus est effective pour le réseau Sudoc-PS depuis le 2 avril 2013. Elle le sera pour le réseau Sudoc le 16 septembre 2013.

Colodus s’adresse par conséquent à tous les acteurs du réseau Sudoc (Sudoc et Sudoc-PS) habilités à intervenir sur les données d’exemplaires de leur établissement.
Selon son identifiant l’utilisateur accède à un environnement de travail Sudoc ou Sudoc-PS.

L’environnement Sudoc PS :

Il fait intervenir deux types d’acteurs chacun doté d’une habilitation particulière.
1/ LE RESPONSABLE CR est habilité à intervenir sur tous les exemplaires des RCR dont il a la charge au sein de son CR. Il a la charge de créer et de distribuer les logins exemplarisateur pour les RCR de son CR (cette opération ne se fait pas dans Colodus cf. billet « Colodus et winibw ? Colodus ou winibw ? »).
2/ L’EXEMPLARISATEUR est habilité à intervenir sur les seules données d’exemplaire de son RCR de rattachement.

L’environnement Sudoc :

Dans cet environnement, il n’existe qu’un seul type d’acteur, l’EXEMPLARISATEUR. Il est habilité à intervenir sur les seules données d’exemplaire de son RCR de rattachement.
Quel que soit l’environnement concerné, Colodus poursuit un même but : faciliter le travail d’exemplarisation des notices bibliographiques du Sudoc (cf billet « Coup de projecteur sur les données des exemplaires »). Il s’agit de permettre une saisie simplifiée des informations de localisation en proposant au professionnel toutes les possibilités du format pour enrichir ses données.

Articulé sur 3 onglets, Colodus propose une suite d’événements logiques depuis la recherche d’une notice bibliographique jusqu’à l’affichage des exemplaires.
Colodus concerne donc le dernier maillon dans la chaîne de traitement du document : la création/modification de l’exemplaire qui a pour conséquence de rendre l’information visible par le grand public. Colodus ne permet aucune intervention sur le niveau bibliographique d’une notice.

Looking for a book / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Looking for a book / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Le Sudoc a le document comme niveau de granularité. Ce principe peut se résumer par l’équation suivante : une notice = un document = un support. Appliqué aux thèses dans les cas les plus complexes, ce principe explique la coexistence de plusieurs notices :

  • une notice A : description du document dactylographié remis par le docteur juste après sa soutenance,
  • une notice B : description de la microfiche fabriquée par l’Atelier national de reproduction des thèses de Lille,
  • une notice C : description du document électronique que la bibliothèque a fabriqué par numérisation du document papier et a mis en ligne sur internet après autorisation de l’auteur.

Ces notices décrivent des documents au support matériel distinct mais au contenu identique.
Il peut également exister des notices D, E, etc. décrivant les monographies publiées par un éditeur suite à une révision par le docteur du texte initial de sa thèse. Dans ce cas, non seulement le support matériel est distinct de la version de soutenance, mais en plus le contenu a été remanié.
Dans le Sudoc, il y a donc n notices pour 1 thèse donnée.

A contrario, theses.fr propose une page par thèse. Chaque thèse a pour identifiant le numéro national de thèses, qui permet aussi la construction de l’url de la page. Cette page est construite par regroupement des n notices du Sudoc :

  • la quasi totalité du contenu de la notice A (titre, auteur, directeur, note de thèse, résumé, mots clés..) permet l’identification de la ressource
  • des éléments des notices A, B, C, D et E permettent l’accès à la ressource.

Peut-on considérer que theses.fr est la traduction FRBR d’une partie des données du catalogue Sudoc ?

Cette question appelle une réponse de Normand.

->Non.

Dans l’exemple pré cité, au sens des FRBR, il y a deux entités. La première a pour manifestation A, B et C ; la seconde a pour manifestation D et E. Ces deux entités sont liées (l’une est le remaniement de l’autre) mais elles sont distinctes. Si le degré de remaniement du texte initial de la thèse est très important, on a affaire à deux œuvres distinctes. S’il est moindre, on a affaire à une œuvre dont découlent deux expressions. La limite est ténue et les indications figurant dans les notices D et E permettent difficilement de déterminer s’il s’agit d’expressions de la même œuvre ou deux œuvres différentes.

Nous avons fait le choix de considérer qu’il s’agit de la même œuvre. Une même page de theses.fr regroupe la thèse dans sa version de soutenance et la thèse remaniée en attribuant à l’ensemble un identifiant commun, le numéro national de thèse (qui n’est pourtant pas une métadonnée de la version remaniée). Il ne nous a pas semblé utile de suivre le modèle FRBR à la lettre car theses.fr vise avant tout la simplification. Cependant, l’utilisateur est alerté des différences de contenu entre les deux entités :

  • grâce à l’affichage du titre et de la mention d’édition de la thèse ayant fait l’objet d’une publication
  • et surtout, grâce à un tampon « validé par le jury » qui estampille la version de soutenance.

-> Oui.

Le processus de chargement des données du Sudoc a pour finalité un regroupement des n notices du Sudoc. La granularité de theses.fr est bien l’œuvre, et non le document. Nous avons fait le pari que la forme était anecdotique (collation, ISBN… sont affichés mais peu mis en avant). Par contre l’accès au contenu est une information capitale.
En ce sens, le chargement des données du Sudoc dans theses.fr est conforme aux FRBR (1).

« […] on définit les spécifications fonctionnelles des notices bibliographiques en
articulation avec la liste suivante de tâches qu’accomplissent les utilisateurs au cours de la consultation et de l’exploitation des bibliographies nationales et des catalogues de bibliothèques :
— utilisation des données afin de trouver les documents qui correspondent aux critères de recherche exprimés par l’utilisateur […] ;

L’utilisateur de theses.fr peut effectivement retrouver tous les documents relatifs à une thèse donnée.

— utilisation des données afin d’identifier une entité […] ; — utilisation des données pour choisir une entité qui soit en adéquation avec les besoins de l’utilisateur […] ;

Les données de la version de soutenance ainsi que les données divergentes de la version remaniée sont clairement affichées pour permettre l’utilisateur d’identifier la ressource adéquate.

— utilisation des données pour avoir accès (à titre gratuit ou onéreux) à l’entité décrite […]

L’interface de theses.fr met en avant les différentes actions possibles : consultation du document en bibliothèque, accès en ligne (internet ou intranet), achat du document.

Pour conclure, avec theses.fr, l’ABES a souhaité se frotter concrètement à la problématique de FRBRisation d’un catalogue, non pour réaliser une modélisation parfaite mais pour répondre à une logique d’usage.

Exemple 1

4 notices dans le Sudoc : la version originelle , la microfiche , la thèse remaniée publiée en deux tomes avec deux titres distincts (ici et ) = http://www.theses.fr/2010PA010514

Exemple 2

4 notices dans le Sudoc : la version originelle , la microfiche , la version électronique déposée sur l’archive institutionnelle de l’établissement de soutenance , la version remaniée  = http://www.theses.fr/2006PA082686
NB : notez dans cet exemple que diffusion sur internet et publication par un éditeur ne font pas incompatibles !

IMR

 1. Extrait du Groupe de travail IFLA, « Fonctionnalités requises des notices bibliographiques, rapport final », 2e édition française établie par la Bibliothèque nationale de France, 2012, p. 12. [en ligne] < http://www.bnf.fr/documents/frbr_rapport_final.pdf > Consulté le 7 juin 2013

Suivre

Recevez les nouvelles publications par mail.

Joignez-vous à 43 followers