CERCLES : 4 NOUVEAUX CORPUS

CERCLES_Hula_hoop_Jerry_via_Flick_CC_BY_SA_2_0

Le dispositif CERCLES s’agrandit : 4 nouveaux corpus vont être pris en charge par 4  établissements (2 nouveaux établissements, et 2 établissements déjà référents sur un précédent corpus).

Corpus « American Mathematical Society », Bibliothèque Universitaire Pierre et Marie Curie

  • Corpus : e-books AMS, dont les séries « Memoirs of the AMS » – 2500 titres
  • Période de travail : mai 2016 – décembre 2017
  • Responsable du chantier : Yves Momboisse
  • Axes d’enrichissement : vérification des ISBN, création et complétude des liens 4XX, 6XX et 7XX, création et numérotation ISSN des collections électroniques
  • Le «+» du chantier  :
    • engagement sur la fusion de notices en cas de doublon
    • bonne connaissance du dispositif par le responsable de chantier
    • chantier initié par les bibliothèques MIR qui ont lancé un appel à collaboration auprès des établissements du réseau national des bibliothèques de mathématiques (RNBM) dont elles font partie
    • fort engagement de cet établissement dans le dispositif : la BUPMC prend déjà en charge le corpus ENI (avec la BIU Montpellier) et s’apprête à lancer un 3ième chantier, sur un autre corpus de mathématiques.

Corpus « Cambridge University Press – Sociology 2013-2015 », Bibliothèque de la Fondation Maison des Sciences de l’Homme

  • Corpus : e-books Cambridge University Press – 167 titres
  • Période de travail : avril 2016 – septembre 2016
  • Responsable du chantier : Jeanne Longevialle, Fabrice Mouillot
  • Axes d’enrichissement : création et complétude des liens 4XX, 6XX et 7XX, création et numérotation ISSN des collections électroniques, création des notices d’autorités si nécessaire, traitement des zones 309.
  • Le «+» du chantier  :
    • bonne connaissance du dispositif par les responsables de chantier
    • fort engagement de cet établissement dans le dispositif : la FMSH milite depuis longtemps pour un signalement de qualité des ressources électroniques, et pas seulement dans les outils de découverte.
    • appel ouvert à collaboration avec un autre établissement : la FMSH a fait le choix de ne pas lier sa politique documentaire à la politique commerciale de l’éditeur, et n’a acquis, sur ce bouquet « Sociology 2013-2015 », que les 162 titres qui intéressent ses usagers. L’ABES lance donc un appel aux établissements du réseau intéressés par ce corpus, pour collaborer avec la FMSH dans le cadre de CERCLES et prendre en charge les 41 titres restants.

Corpus « Cairn – monographies encyclopédiques », Bibliothèque Nationale Universitaire de Strasbourg

  • Corpus : e-books « Que sais-je ? » et « Repères » – 1955 titres
  • Période de travail : avril 2016 – avril 2017
  • Responsable du chantier : Christine Hecht
  • Axes d’enrichissement : création et numérotation ISSN des collections électroniques, création et complétude des liens 4XX et 6XX
  • Le «+» du chantier  :
    • choix d’un corpus pluridisciplinaire, intéressant un grand nombre d’établissement
    • collaboration raisonnée et concertée avec un autre établissement CERCLES, le SCD de l’université Jules Verne – Picardie, en charge du corpus CAIRN « toutes collections ». Les axes d’enrichissements ont bien été délimités entre les deux chantiers : à Amiens, on enrichit les zones 7XX (et les mentions de responsabilité en 200) alors qu’à Strasbourg, on ne travaillera qu’à l’amélioration des zones 4XX et 6XX.

Corpus « Dalloz », SCD de l’université de Strasbourg

  • Corpus : e-books  Dalloz – 600 titres (sur 1800 notices)
  • Période de travail : avril 2016 – décembre 2016
  • Responsable du chantier : Stéphanie Himber
  • Axes d’enrichissement : création des notices manquantes, vérification des dates sur les notices existantes, contrôle et correction des URL d’accès, création et numérotation ISSN des collections électroniques
  • Le «+» du chantier  :
    • choix d’un corpus indispensable pour toutes les bibliothèques de droit
    • collaboration en amont avec l’équipe du Hub de métadonnées de l’ABES : comme cela s’est passé pour le chantier CERCLES mené par le SCD de l’université de Lyon 1 Claude-Bernard, en 2015, le chantier DALLOZ a bénéficié d’une première salve de traitements automatisés, pour laisser l’établissement se concentrer par la suite sur les enrichissements plus complexes. Le récit de cette collaboration intéressante fera l’objet de plusieurs billets, publiés prochainement, sur ce blog.

 

 

Comment suivre ces 4 nouveaux chantiers, et les autres ?

Un Manuel « CERCLES  » est désormais en ligne, sur le Guide méthodologique du Sudoc. Le détail de chaque chantier y est mentionné, et tout le monde peut suivre la progression du travail, s’il consulte régulièrement le rapport statistique alimenté par chaque responsable. Un moyen de rester  informé, et de soutenir ces collègues ! CERCLES_manuel

Comment CERCLES fait bouger les lignes

CERCLES_Hula_Hoop_bu_Mari_Francille_via_Flick_CC_BY_SA_2_0Le dispositif, qui pour l’instant répond aux objectifs et semble convenir au réseau, fait évoluer les comportements et les pratiques, non seulement entre les établissements, mais aussi avec l’ABES et également -parfois- avec les éditeurs. Le « cercle vertueux », visé à l’origine, commence à se mettre en place, comme en témoignent de récentes collaborations Etablissement-ABES – éditeurs, dont il sera question lors de la session parallèle « Un cercle vertueux », le 10 mai prochain, pendant les Journées ABES 2016.

BACON et la labellisation des données : à quelle aune mesure-t-on la qualité d’un fichier KBART ?

rvb-sloganLa recommandation KBART  , portée par la NISO, a une immense qualité : elle est relativement simple à comprendre et à implémenter. Un fichier KBART doit répondre à des exigences très peu contraignantes de prime abord : des intitulés de colonnes normalisés et parlants (‘publication_title’, ‘first_author’, …), une sortie sous la forme d’un fichier .txt, format universel s’il en est, encodage en UTF-8,… Faire un fichier KBART à la main  n’est donc pas compliqué en soi. La première vérification faite  à l’ABES consiste donc à vérifier que le fichier fourni par un éditeur remplit bien toutes les obligations pour qu’il soit conforme à la recommandation KBART. Sans entrer dans les détails de la recommandation, soulignons ici que nous sommes particulièrement vigilants sur les points suivants :

•    Nom du fichier normalisé (Editeur_consortium/région_package_date.txt)
•    Encodage UTF-8
•    Fichier tabulé (.tsv, .csv, .ssv)
•    Présence des 25 colonnes obligatoires
•    Colonnes correctement nommées
•    Colonnes correctement remplies (respect de la norme ISO 8601 pour les dates, de la description de la volumaison, des valeurs fermées le cas échéant,…)

Les difficultés émergent lorsque l’on essaye de confronter la simplicité apparente de la recommandation avec la réalité, parfois tordue il est vrai, des plates-formes   de périodiques et ou de livres en ligne. KBART est simple, simpliste si on le compare au MARC. La version 2 de la recommandation améliore sa précision (prise en compte des livres électroniques, de l’open access, de l’histoire d’un périodique), sans doute au détriment de sa facilité d’implémentation qui heureusement reste élevée, mais elle n’est toujours pas en mesure de décrire les cas complexes  .
Ce n’est pas un problème en soi : KBART se focalise sur l’accès à des ressources qui peuvent – et doivent – être décrites dans des formats adaptés si on veut en présenter toute la richesse et la complexité. Pour autant, pour que cette complémentarité     entre description bibliographique (MARC) et métadonnées permettant l’accessibilité aux documents (KBART) puisse se faire, deux éléments sont impératifs au niveau du fichier KBART:

•    La description de l’accès à la ressource doit être pertinente : le champ title_url doit effectivement pointer vers la ressource, le champ title_id doit permettre de comprendre comment se structurent les liens d’accès aux volumes, fascicules, articles ou chapitres de la ressource.
•    Les identifiants utilisés (ISSN et ISBN) doivent être corrects et le découpage de l’histoire d’une revue en ses différents avatars doit se retrouver en ligne, comme d’ailleurs le stipule une autre recommandation, PIE-J.

L’analyse effectuée par l’ABES pour vérifier la qualité de ces données débouche sur un diagnostic transmis à l’éditeur qui sait alors précisément par où ses métadonnées pèchent. S’ensuit un dialogue avec ce dernier, voire un accompagnement de ses équipes techniques qui doit aboutir à une mise à jour de la plate-forme, processus qui peut être long et difficile (sous-traitance, restructuration de certains contenus,…). A l’issue de ce dialogue et au vu des améliorations apportées par l’éditeur, l’ABES peut alors attribuer le label de qualité de données, preuve de l’engagement de l’éditeur dans sa démarche globale d’amélioration de description et de signalement de son contenu. Si un éditeur ne peut que fournir un fichier KBART syntaxiquement correct mais ne respectant pas les recommandations plus fines de description, il verra ses fichiers intégrés dans BACON  tels quels et sans label, puisqu’il n’est pas question de modifier les fichiers se rapportant à des produits en abonnement courant.
La démarche est un peu différente pour les bouquets ISTEX. Dans ce cas, les fichiers KBART sont générés non pas par l’éditeur mais par l’équipe du Hub de métadonnées de l’ABES. Les découpages de revues qui ne sont pas présents sur le site de l’éditeur sont quand même indiqués sur le fichier KBART  . L’inconvénient de cette pratique est que la matière première utilisée, les listes contractuelles et le SUDOC, ne permettent pas par exemple de retrouver systématiquement toutes les informations de volumaison , notamment le numéro du premier volume/fascicule appartenant à une revue que l’éditeur n’a pas identifié comme telle (l’équipe du HUB est cependant en train de tenter de régler ce problème en agrégeant les informations trouvées dans les métadonnées d’articles). Son avantage en revanche est de pousser les éditeurs à s’interroger sur leurs pratiques  et à les faire éventuellement évoluer, comme est en train de le faire la Royal Society of Chemistry. En ce sens la démarche adoptée par le HUB rejoint celle de BACON.

Dans un prochain billet, nous expliquerons en détail comment nous réalisons les différentes vérifications.

Webservice AlgoSudoc : prendre connaissance et remédier aux anomalies de chargement des données Sudoc dans theses.fr

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

« Nous sommes en 2015 après Jésus-Christ. Toutes les thèses de doctorat soutenues en France depuis 1985 sont recensées dans theses.fr… Toutes ? Non ! Un lot d’irréductibles notices Sudoc résiste encore et toujours à l’algorithme de chargement. Et la vie n’est pas facile pour les garnisons de catalogueurs des bibliothèques retranchés dans les établissements de soutenance.« 

En mai 2013, les données du Sudoc ont été chargées dans le moteur de recherche theses.fr. Un précédent billet liste (de manière non exhaustive) les raisons pour lesquelles certaines notices n’ont pas pu être chargées.
Au-delà de l’énoncé de ces quelques principes, le programme de versement des données Sudoc restait une boite noire pour les catalogueurs. Vous avez été nombreux à nous réclamer via le guichet d’assistance des explications sur le non-chargement de telle ou telle notice, souvent à la demande d’un directeur de thèse qui constatait que theses.fr ne recensait pas la totalité des thèses qu’il a dirigées. Nous vous avons répondu au cas par cas, en vous promettant une liste de toutes les notices en erreur.

Ce service est désormais (enfin !) disponible. L’ABES a développé un webservice baptisé AlgoSudoc permettant de générer à la demande un « rapport dynamique de chargement des données Sudoc dans theses.fr ». Ce rapport est un fichier .csv contenant les résultats des tests de l’algorithme. Ces tests portent principalement sur la qualité de la notice décrivant la thèse originelle (codée 105$bm) et sont divers et variés (présence, structure et unicité du numéro national de thèse, structure de la note de thèses…). Pour chaque PPN en anomalie, le catalogueur est invité à corriger la notice dans WinIBW ; le rapport dynamique lui suggère d’intervenir à tel ou tel endroit de la notice.
Aujourd’hui, des dizaines de milliers d’anomalies sont détectées, y compris pour les thèses soutenues après 1985. Face à l’ampleur de la tâche, il est nécessaire d’organiser le travail de correction. En utilisant des paramètres dans l’url de génération du rapport dynamique, il est possible de définir un lot précis (par exemple, toutes les notices de thèses localisées avec un RCR donné).

La documentation sur ce webservice est ici. Un J-e.cours de présentation de ce service aura lieu le 12 mars.

Nous espérons que ce webservice sera l’occasion pour les établissements de mettre en place des chantiers de corrections ciblés, un peu comme le traitement des ebooks de droit international achetés dans le cadre d’ISTEX  ou plus récemment comme dans la démarche des CERCLES (Correction et Enrichissement par le Réseau de Corpus de L‘Enseignement Supérieur) .
Il est évident que dans un corpus centré sur les thèses, composé de notices qui bien souvent sont des unicas, les bibliothèques des établissements habilités à délivrer le doctorat ont une responsabilité particulière.
L’ABES vérifiera régulièrement l’avancement des corrections de manière globale. Par ailleurs, l’ABES prend à sa charge un certain nombre de traitements (qui n’apparaissent pas dans les rapports dynamiques) et ne s’interdit pas de mettre en place de nouveaux contrôles, notamment sur l’absence de liens entre notices bibliographiques et notices d’autorité (tests qui eux apparaitront dans les rapports dynamiques).

Un jour, à terme, ce webservice devrait être inutile : plus aucune anomalie ne devrait être détectée par l’algorithme.

Les irréductibles notices Sudoc n’ayant pas de potion magique, elles seront vaincues par les armées de catalogueurs !

IMR

CheckSUDOC, un nouvel outil de contrôle qualité des notices du SUDOC

CheckSUDOC est une nouvelle application en ligne développé en PHP  permettant d’effectuer un contrôle qualité sur les notices du SUDOC. Ce contrôle peut être effectué chaque jour une fois vos notices bibliographiques importées dans votre SIGB local.

Le fonctionnement est simple. Il s’agit de saisir une liste de PPN (identifiants des notices du SUDOC), un par ligne, et de lancer le traitement. Il existe deux modes d’affichage des résultats : simple et avancé.

Formulaire de Check Sudoc

Formulaire de Check Sudoc

Quelles vérifications sont effectuées sur chaque notice ?

 CheckSUDOC  :

  • contrôle la cohérence des années de publication saisies dans les   zones Unimarc  100  et 210 (sous-champ $d)
  • vérifie si une zone 410 (« appartient à la collection ») est présente à partir du moment où une zone 225 (« collection ») existe dans la notice
  • vérifie également la cohérence entre les champs 181-182  (« type de contenu et type de médiation ») et le sous-champ 200$b (« Indication générale du type de document »). CheckSUDOC indique si un 200$b est présent dans la notice alors que avez saisi des zones 181 et 182. En effet, à partir du 4 novembre 2014, les zones 181 et 182 se substituent à la sous-zone 200$b.
  • contrôle les vedettes matière (zones 601,602,604,605,606,607,608) ainsi que les mentions de responsabilité ( zones 700,701,702). Il vérifie en particulier la présence de liens vers les notices d’autorité qui se trouvent dans le sous-champ $3. Pour les auteurs, CheckSUDOC vérifie si le code fonction est présent ou pas.

Comment exploiter le rapport d’erreur envoyé par CheckSUDOC ?

En mode avancé, les résultats sont affichés dans un tableau dans lequel les anomalies sont signalées en rouge.

Visualisation des anomalies détectées

Visualisation des anomalies détectées

 

A partir du tableau, il est possible de visualiser la notice bibliographique dans un format abrégé en cliquant sur le numéro de PPN.  Pour chacune des zones Unimarc, il est possible d’en afficher le contenu.

Visualisation d'une zone 606

Visualisation d’une zone 606

 

En mode simple, les résultats sont présentés textuellement  sans possibilité de rebonds. Les anomalies  sont signalées en rouge.

Présentation des anomalies en "mode simple"

Présentation des anomalies en « mode simple »

En mode simple comme avancé, les résultats peuvent être téléchargés dans un fichier csv pour être exploités dans un tableur.

Plus de fonctionnalités … ?

ChekSUDOC est un outil évolutif. D’autres contrôles pourront être ajoutés sur la base de vos suggestions.

Pour utiliser CheckSUDOC : http://domybiblio.net/check_sudoc/

 

CheckSUDOC est développé par Yves Tomic, Ingénieur d’études à l’Université Paris Dauphine.