Il s’avère alors impossible d’automatiser la comparaison de fichiers ou d’en prendre un comme référence et de le compléter, d’autant que certaines données fondamentales ne sont pas toujours disponibles.
Ce billet vise à présenter la solution développée par l’UPEC pour répondre au besoin de signalement des livres électroniques, avec 0,7 ETP.
L’environnement documentaire
La zone communautaire d’ExLibris
Disposant du logiciel Alma de la société Ex Libris, nous avons accès à une zone communautaire (ZC) dans laquelle sont proposés des bouquets.
La capture d’écran ci-dessous laisse entrevoir un monde idéal. Le bouquet proposé stipule qu’il est fondé sur BACON, BAse de COnnaissance Nationale de métadonnées pour le signalement des ressources électroniques gérée par l’Abes.
La réalité est un peu moins satisfaisante. Le bouquet comprend 2006 portfolios (titres) alors que son équivalent dans BACON en contient 2022. Bien que ces 16 titres d’écart représentent moins de 0, 3 % du contenu du bouquet, ils sont loin d’être négligeables, car ce sont probablement des nouveautés, que nous sommes désireux de signaler aussi vite que possible à nos usagers.
L’autre point à noter est l’indicateur de qualité des notices du bouquet , attribué par Ex Libris à partir de la présence de certaines métadonnées, dont celles liées à l’indexation (plus d’informations à ce sujet dans le document de l’université de Liège). Le bouquet ci-dessous doit donc être pensé comme contenant 68% de notices de qualité moyenne ou faible.
L’interface client du prestataire
Pour répondre à ce besoin de signalement, certains prestataires de ressources électroniques fournissent au choix :
- des fichiers des titres sous forme d’une liste globale ou de listes séparées pour chaque bouquet commercial
- un serveur OAI-PMH pour signaler dynamiquement les notices correspondantes à nos achats ou abonnements
- des fichiers de notices (par exemple Cyberlibris) à télécharger et à importer dans son SIGB
Indépendamment de la qualité, c’est la diversité des formats et des modes de signalement qui condamne, cette fois, l’idée même de s’appuyer sur eux pour automatiser la mise à jour de notre base.
Les services de l’Abes
- BACON propose des métadonnées de ressources électroniques labellisées, fournies sous forme de fichiers KBart (les masterlists des éditeurs étant découpées en autant de fichiers que de bouquets commerciaux). Pour plus d’informations
- Le Sudoc, catalogue collectif des bibliothèques de l’Enseignement Supérieur, contient des notices de ressources électroniques. Certaines d’entre-elles précisent le bouquet commercial auxquelles elles appartiennent (via une zone 035 $9). S’il est possible d’interroger la base professionnelle du Sudoc pour les repérer, les établissements membres du réseau le font plutôt à partir de la documentation dédiée aux imports de notices, puis ont recours aux webservices pour télécharger automatiquement un bouquet (ou, à l’inverse, les notices supprimées).
- Les chantiers CERCLES : n’étant pas un réservoir de notices, la mention de ces chantiers ici peut surprendre. Cependant, il importe de noter qu’à la logique de chantier ponctuel initial s’est substitué peu à peu un engagement sur un corpus donné. Les établissements deviennent de ce fait co-responsables de la complétude du signalement dans le Sudoc et éventuellement de la mise à jour des fichiers KBart. Nous ne saurions trop souligner l’importance et l’intérêt de ce dispositif. L’engagement d’un établissement correspond bien à la garantie d’un catalogage satisfaisant et le plus rapide possible.
À titre d’exemple, l’UPEC a pris la responsabilité du signalement de deux bouquets de l’éditeur Elsevier-Masson dans le domaine des sciences médicales et est en relation avec ce dernier pour obtenir la constitution de fichiers KBart adaptés.
L’environnement informatique
L’import des notices dans notre catalogue est bien évidemment proportionnel au fait; d’une part, de pouvoir signaler ces documents dans le Sudoc et, d’autre part, de récupérer les notices complètes. L’exemplarisation peut se faire à l’aide d’ITEM tandis que la récupération des notices est réalisée via les transferts réguliers. L’UPEC utilise avec bonheur le circuit de synchronisation des ressources électroniques mis en place par l’Abes et les universités de Bordeaux et de Toulouse qui consiste à publier celles de nos ressources électroniques pourvues d’un PPN dans un entrepôt OAI. Ce dernier est moissonné par l’Abes qui procède à la création d’un exemplaire dans le Sudoc [Guide méthodologique] et à l’envoi de la notice correspondante.
Nos objectifs et notre fonctionnement
Les motivations à la base de notre travail sont de deux types :
- Un service aux usagers qui vise à :
- signaler le plus tôt possible les ressources proposées par un éditeur quitte à avoir des notices minimalistes dans un premier temps
- proposer des ressources de qualité, c’est à dire susceptibles de donner à l’usager les critères de choix qui lui sont proposés dans notre catalogue (année d’édition, langue, mots-clés).
- Une démarche engagée qui souhaite :
- placer le Sudoc au centre de nos fournisseurs de données
- valoriser le travail collaboratif de l’ESR et particulièrement de CERCLES.
Le processus en œuvre à l’UPEC
Rappel : le traitement décrit ci-dessous est valide pour les livres électroniques francophones. Il est donc parallèle à l’import depuis la CZ des ouvrages anglophones.
La première base retenue pour l’import de notices francophones est BACON.
La capture d’écran ci-contre montre la fréquence d’actualisation de la bibliothèque Dalloz. Celle-ci est certes une des plus régulièrement mise à jour, mais elle montre bien la réactivité vers laquelle nous devons tendre. Si ces fichiers sont de loin les plus à jour, leur format et leur contenu ne sont pas totalement adaptés à un import dans notre SIGB :
- Les formats tout d’abord : un fichier texte (.txt) encodé en en UTF-8 contenant de nombreuses colonnes dédiées aux publications en série (et donc à supprimer dans notre cas) est en revanche relativement pauvre.
- Les données que nous conservons sont néanmoins suffisantes pour une notice de base. Elles comprennent :
-
- un titre
- l’ISBN de l’édition imprimée (nous gardons celui-ci pour faciliter la comparaison des éditions) et celui de l’édition en ligne
- l’URL du document
- le nom du premier auteur
- l’identifiant de la publication chez l’éditeur (que nous conservons systématiquement à des fins éventuelles de dédoublonnage en la faisant précéder de (Editeur_ID)
- l’éditeur
- la date de publication au format électronique.
La dernière colonne de ce fichier est le « best PPN » soit le résultat d’un algorithme qui détermine le n° PPN correspondant à ce titre. Les premiers essais réalisés avec celui-ci ne s’étaient pas révélés concluants ; nous avons donc choisi de ne pas l’utiliser. Il semble cependant que la qualité de ce « best PPN » progresse.
Étape 1 : complétude du fichier
À partir de ce seul fichier :
- nous renommons les colonnes avec les en-têtes adaptés pour Alma
- nous ajoutons un Leader
- nous faisons précéder l’ISBN imprimé de la mention (ISBN-imprimé)
- nous ajoutons une donnée locale BE pour Book electronic (pratique pour l’analyse statistique des collections).
Étape 2 : enrichissement des notices
À partir d’imports dans le Sudoc, un apport d’information enrichit les notices.
Le fichier obtenu est au format .xls. Il contient trois valeurs que nous souhaitons importer dans le fichier construit à partir de BACON : la langue, le pays d’édition et surtout le PPN.
La comparaison se fait sur l’URL, zone pour laquelle nous avons la plus haute probabilité d’obtenir une comparaison fiable.
Le fichier ainsi obtenu comprend donc les valeurs suivantes :
- Leader
- e-isbn
- (isbn-imprimé)
- (Editeur_ID)
- langue du document
- pays d’édition
- titre
- éditeur
- année d’édition
- auteur (suite de caractères alphabétiques sans lien)
- URL de la ressource
- PPN (s’il existe).
Étape 3 : import dans le SGB
Il suffit alors d’importer ce fichier dans Alma pour créer une notice bibliographique minimale ainsi qu’un portfolio, ce dernier correspondant plus ou moins à l’exemplaire d’une ressource électronique. Il recense diverses informations de liens (et notamment l’url d’accès construite sur le 856$u) et de disponibilité, peut être lié à une ligne de commande et surtout à une collection et une interface. Chaque fichier que nous importons est donc lié dans les paramètres d’import à une collection précise.
Grâce à la synchronisation décrite ci-dessus, toute nouvelle notice comprenant un PPN est publiée dans notre entrepôt OAI, moissonnée par le Sudoc qui crée un exemplaire et nous fournit par les Transferts réguliers, la notice complète.
Nos objectifs sont donc atteints : signalement minimal dès parution du fichier BACON et notice de qualité Sudoc dès que disponible.
L’automatisation du processus
L’ensemble des opérations décrites ci-dessus est chronophage et nécessite suffisamment de concentration pour ne pouvoir être réalisée « à la chaîne ». C’est alors qu’intervient la magie informatique. Toutes ces tâches peuvent être automatisées dans une macro Excel : ci-joint la macro initiale qui œuvre sur deux fichiers BACON.txt et Abes.xls enregistrés sur le bureau (le chemin des fichiers est à adapter à votre poste).
L’automatisation de cette tâche augmente de fait la fréquence à laquelle nous pouvons la faire, et c’est ainsi qu’avec son 0.7 ETP l’UPEC réussit à proposer un catalogue à jour, tout en participant aux chantiers CERCLES.
Conclusion
Pour conclure, le process décrit est bien évidemment réplicable à volonté par toute bibliothèque intéressée. Il peut cependant être largement optimisé. Bien plus que l’aspect technique somme toute secondaire, nous souhaitons mettre en avant dan ce billet l’importance et la qualité du dispositif CERCLES. C’est la garantie de la complétude de signalement qui rend l’automatisation intéressante.
Par ailleurs, nous suggérons quelques pistes d’évolution qui pourraient être utiles à ce process :
- proposer que les référents CERCLES prennent en charge l’ajout du PPN dans les fichiers KBart. Du fait qu’ils créent la notice Sudoc, ils sont les plus à même d’assurer la correspondance entre un titre et un PPN
- faciliter l‘information sur l’évolution des signalements par une communication plus régulière. Celle-ci pourrait par exemple prendre la forme d’un abonnement RSS ou Atom
- disposer d’un import fondé sur un critère “date de création de la notice”.
Nous espérons voir un maximum d’établissement rejoindre le dispositif CERCLES et prendre en charge le suivi d’un ou plusieurs corpus.
Ainsi en combinant tous ensemble les quatre O (BacOn, ImpOrt, l’entrepôt Oai et le SudOc) qui gravitent autour de notre planète Alma respective, nous pourrons viser un objectif en or.
Jean Bouyssou, responsable du pôle Données
Service Commun de la Documentation de l’Université Paris-Est Créteil Val de Marne