BACON et la labellisation des données : à quelle aune mesure-t-on la qualité d’un fichier KBART ?

rvb-sloganLa recommandation KBART  , portée par la NISO, a une immense qualité : elle est relativement simple à comprendre et à implémenter. Un fichier KBART doit répondre à des exigences très peu contraignantes de prime abord : des intitulés de colonnes normalisés et parlants (‘publication_title’, ‘first_author’, …), une sortie sous la forme d’un fichier .txt, format universel s’il en est, encodage en UTF-8,… Faire un fichier KBART à la main  n’est donc pas compliqué en soi. La première vérification faite  à l’ABES consiste donc à vérifier que le fichier fourni par un éditeur remplit bien toutes les obligations pour qu’il soit conforme à la recommandation KBART. Sans entrer dans les détails de la recommandation, soulignons ici que nous sommes particulièrement vigilants sur les points suivants :

•    Nom du fichier normalisé (Editeur_consortium/région_package_date.txt)
•    Encodage UTF-8
•    Fichier tabulé (.tsv, .csv, .ssv)
•    Présence des 25 colonnes obligatoires
•    Colonnes correctement nommées
•    Colonnes correctement remplies (respect de la norme ISO 8601 pour les dates, de la description de la volumaison, des valeurs fermées le cas échéant,…)

Les difficultés émergent lorsque l’on essaye de confronter la simplicité apparente de la recommandation avec la réalité, parfois tordue il est vrai, des plates-formes   de périodiques et ou de livres en ligne. KBART est simple, simpliste si on le compare au MARC. La version 2 de la recommandation améliore sa précision (prise en compte des livres électroniques, de l’open access, de l’histoire d’un périodique), sans doute au détriment de sa facilité d’implémentation qui heureusement reste élevée, mais elle n’est toujours pas en mesure de décrire les cas complexes  .
Ce n’est pas un problème en soi : KBART se focalise sur l’accès à des ressources qui peuvent – et doivent – être décrites dans des formats adaptés si on veut en présenter toute la richesse et la complexité. Pour autant, pour que cette complémentarité     entre description bibliographique (MARC) et métadonnées permettant l’accessibilité aux documents (KBART) puisse se faire, deux éléments sont impératifs au niveau du fichier KBART:

•    La description de l’accès à la ressource doit être pertinente : le champ title_url doit effectivement pointer vers la ressource, le champ title_id doit permettre de comprendre comment se structurent les liens d’accès aux volumes, fascicules, articles ou chapitres de la ressource.
•    Les identifiants utilisés (ISSN et ISBN) doivent être corrects et le découpage de l’histoire d’une revue en ses différents avatars doit se retrouver en ligne, comme d’ailleurs le stipule une autre recommandation, PIE-J.

L’analyse effectuée par l’ABES pour vérifier la qualité de ces données débouche sur un diagnostic transmis à l’éditeur qui sait alors précisément par où ses métadonnées pèchent. S’ensuit un dialogue avec ce dernier, voire un accompagnement de ses équipes techniques qui doit aboutir à une mise à jour de la plate-forme, processus qui peut être long et difficile (sous-traitance, restructuration de certains contenus,…). A l’issue de ce dialogue et au vu des améliorations apportées par l’éditeur, l’ABES peut alors attribuer le label de qualité de données, preuve de l’engagement de l’éditeur dans sa démarche globale d’amélioration de description et de signalement de son contenu. Si un éditeur ne peut que fournir un fichier KBART syntaxiquement correct mais ne respectant pas les recommandations plus fines de description, il verra ses fichiers intégrés dans BACON  tels quels et sans label, puisqu’il n’est pas question de modifier les fichiers se rapportant à des produits en abonnement courant.
La démarche est un peu différente pour les bouquets ISTEX. Dans ce cas, les fichiers KBART sont générés non pas par l’éditeur mais par l’équipe du Hub de métadonnées de l’ABES. Les découpages de revues qui ne sont pas présents sur le site de l’éditeur sont quand même indiqués sur le fichier KBART  . L’inconvénient de cette pratique est que la matière première utilisée, les listes contractuelles et le SUDOC, ne permettent pas par exemple de retrouver systématiquement toutes les informations de volumaison , notamment le numéro du premier volume/fascicule appartenant à une revue que l’éditeur n’a pas identifié comme telle (l’équipe du HUB est cependant en train de tenter de régler ce problème en agrégeant les informations trouvées dans les métadonnées d’articles). Son avantage en revanche est de pousser les éditeurs à s’interroger sur leurs pratiques  et à les faire éventuellement évoluer, comme est en train de le faire la Royal Society of Chemistry. En ce sens la démarche adoptée par le HUB rejoint celle de BACON.

Dans un prochain billet, nous expliquerons en détail comment nous réalisons les différentes vérifications.

Publicités

Politique de signalement des licences nationales ISTEX

logo-LN-ombre

[Ce billet reprend le message envoyé aux listes de discussion  Sudoc et Sudoc PS (Périodiques), le 24/2/2014. Il a été suivi d’une série de messages faisant le point sur le signalement de chaque corpus. Si vous n’appartenez pas aux réseaux ABES, le site licencesnationales.fr est le bon endroit pour se tenir informé. Il sera bientôt mis à jour pour intégrer les services évoqués dans le billet qui suit.]

En Janvier, l’ABES a annoncé l’acquisition de plusieurs corpus de ressources numériques en licence nationale, dans le cadre du projet ISTEX :

Au-delà de la négociation de ces ressources, l’ABES est responsable de leur signalement.
Pour chaque corpus, un message spécifique sera envoyé afin de détailler les opérations de signalement qui ont été réalisées ou qui le seront sous peu. A ce jour, malheureusement, il faut noter que le signalement des périodiques Elsevier (ISTEX) n’a pas été réalisé, et ce pour la raison suivante : la liste a été fournie telle quelle par l’éditeur et n’a pas pu être élaborée et vérifiée en amont et en partenariat ABES/éditeur.

La suite de ce message expose les principes généraux et les modalités concrètes du signalement des licences nationales ISTEX.

Signaler au sens large

Aujourd’hui, le signalement doit être entendu en un sens plus large qu’avant. En effet, si le signalement dans le Sudoc demeure un objectif prioritaire, il faut également travailler à signaler ces ressources dans d’autres environnements : aujourd’hui les bases de connaissance, sur lesquelles s’appuient les outils de découverte et les résolveurs de lien ; demain le web de données (LOD – Linked Open Data).
C’est pourquoi le signalement des licences nationales ISTEX est assuré par l’ABES dans le cadre du projet de hub de métadonnées, en collaboration avec les équipes responsables du circuit Sudoc habituel. Derrière le terme de « hub de métadonnées », il faut imaginer un espace de traitement des métadonnées indépendant des autres applications de l’ABES. L’équipe du hub récupère les métadonnées auprès des éditeurs, sans exiger de format particulier. En bout de chaîne, il s’agit de redistribuer des données de qualité, normalisées, exploitables dans différents environnements, dont le Sudoc.

Pour le Sudoc et vos SIGB

Comme c’est le cas depuis des années, afin d’assurer la visibilité de ces ressources dans le catalogue collectif, l’ABES crée systématiquement un exemplaire ABES – en l’occurrence un exemplaire « ABES Licence nationale ».
Les établissements qui souhaiteront ajouter leur propre exemplaire, notamment pour faire redescendre ces notices dans leur SIGB, pourront utiliser le service d’exemplarisation automatique. Pour ce faire, l’ABES fournira au réseau la liste complète des documents appartenant à un corpus ISTEX.

Pour les bases de connaissance

Fait nouveau, l’ABES fournira également des listes conformes à la recommandation KBART, prêtes à l’emploi dans les bases de connaissance qui alimentent les outils d’accès à la documentation électronique.
Les équipes de l’ABES s’efforceront de fournir des listes KBART qui soient bibliographiquement correctes. Souvent, sur la plateforme d’un éditeur, derrière une seule revue se cachent en fait plusieurs revues qui entretiennent entre elles des relations de succession, de scission, d’absorption, etc. Les fichiers KBART de l’ABES veilleront à respecter cette granularité bibliographique. Il faudra être attentif à l’impact de cette granularité sur les résolveurs de lien, par exemple.

Pour une gestion optimale des collections imprimées

Dans le cadre d’ISTEX, l’acquisition des ressources électroniques est adossée à un engagement de l’Etat et de ses opérateurs sur le long terme : le CINES assure la conservation à long terme et l’INIST garantira l’accès sur la plateforme qu’il développe. Dès lors, la politique nationale d’achat pérenne de documentation électronique peut déboucher sur des décisions locales relatives à la gestion des collections imprimées (désherbage, déménagement, etc.).
L’ABES souhaite faciliter ces décisions locales en fournissant, pour chaque corpus de ressources électroniques acquises, la liste des ressources imprimées correspondant. Pour les périodiques, en particulier, il s’agit de lister les documents imprimés en précisant les états de collection électroniques ISTEX.
Ce nouveau service de l’ABES s’inscrit dans une démarche d’ensemble qui vise à offrir aux établissements des outils d’aide à la décision en matière de conservation de l’imprimé, dans le cadre d’un plan de conservation partagée ou non. Une communication spécifique va suivre qui donnera un aperçu de cette nouvelle offre de services en construction.

Zoom : les périodiques ISTEX et le Sudoc

Même si l’ABES récupère auprès des éditeurs des métadonnées au niveau de l’article, c’est au niveau du périodique que se fait le signalement dans le Sudoc. Ces notices de périodique ne sont pas générées à partir des métadonnées d’éditeur, car, dans le Sudoc, ce sont les notices ISSN qui font autorité.
Pourtant, au-delà du travail d’exemplarisation sous ces notices ISSN,  certaines informations bibliographiques seront ajoutées ou modifiées par l’ABES. Il s’agit de la zone 859 (URL fournie par l’éditeur) mais surtout de la zone 207. Cette zone sert à préciser le numéro et la date du premier et du dernier volume d’un périodique. Cette zone est particulièrement importante pour les périodiques électroniques. En effet, la date de publication d’un périodique électronique ne permet pas de connaître sa couverture réelle. Seule la zone 207 permet de comprendre que le volume n°1 d’une revue électronique créée en 1999 remonte en fait à 1923, du fait d’une numérisation rétrospective. Or, disposant des métadonnées au niveau des articles, l’ABES est en mesure de générer ces informations de manière systématique, fiable et standardisée. Si, dans les faits, il n’est pas toujours possible d’effectuer complètement cette opération au moment de la création de l’exemplaire ABES, elle sera finalisée dans un second temps, une fois les métadonnées livrées par l’éditeur et acceptées.
Par ailleurs, une part non négligeable des périodiques acquis dans le cadre d’ISTEX n’a jamais fait l’objet d’une numérotation ISSN. Un message spécifique portant sur cette question sera bientôt adressé aux centres régionaux du Sudoc PS.

Zoom : les ebooks ISTEX et le Sudoc

Contrairement aux périodiques, c’est à partir des métadonnées fournies par les éditeurs que des notices MARC seront générées et chargées dans le Sudoc. Là encore, un exemplaire ABES leur sera associé.
La qualité des notices produites dépendra essentiellement de la qualité initiale des métadonnées, mais également des efforts fournis par l’ABES pour normaliser, corriger et enrichir ces métadonnées (normalisation de certains types d’information, vérification des DOIs ou des URLs, liens à des référentiels comme IdRef, Viaf, RAMEAU, etc.). Or, ces traitements complémentaires peuvent prendre du temps. C’est pourquoi le signalement des ebooks pourra se faire en deux étapes. Dans un premier temps, les notices chargées dans le Sudoc ne seront qu’un reformatage des éléments d’information présents dans les données des éditeurs. Dans un second temps, ces notices seront modifiées pour intégrer les corrections et enrichissements effectués par l’ABES, dans le cadre du hub de métadonnées. Entre temps, il sera demandé au réseau de ne pas modifier ces notices.
Une fois ces corrections et enrichissements effectués, c’est le réseau des catalogueurs qui reprendra la main. Dans la mesure du possible, l’ABES s’efforcera de guider les efforts des catalogueurs soucieux d’améliorer la qualité de ces nouvelles notices, en indiquant le plus précisément possible celles qui méritent des interventions particulières et les zones sur lesquelles ces interventions devraient porter en priorité.

Pour toute question, merci d’utiliser le guichet d’assistance : https://stp.abes.fr/assistance/domaines/3

Y. Nicolas