Synthèse de l’enquête « Évaluation du dispositif CERCLES »

CERCLES_pencils_by_art_sourse

Le dispositif CERCLES (Corrections et Enrichissements par le Réseau de Corpus de l’Enseignement Supérieur) a été lancé en 2015.
Depuis, 17 chantiers ont été lancés, dont 9 encore en cours.

Avec le double objectif d’évaluer les modalités de fonctionnement actuelles et de réfléchir à l’évolution du dispositif, une enquête a été menée, en février 2018, auprès des 18 responsables de chantiers CERCLES.

Voici un résumé de leurs opinions sur le dispositif.

Taux de participation : 77,7 %

18 responsables de chantier ont été sollicités, 14 ont validé le questionnaire. Cela constitue le corpus de réponses complètes et exploitables.
Ceux qui n’ont pas répondu appartiennent à des chantiers co-gérés ; à chaque fois, leurs binômes ont validés leurs réponses, de telle sorte qu’on peut affirmer que, si l’enquête ne reflète pas la totalité des établissements CERCLES, elle reflète en revanche la totalité des chantiers.

Sur l’organisation mise en place par le responsable de chantier :

  • le plus souvent, une petite équipe est mise en place, sans organisation très formelle (échanges sans réunions systématiques et planifiées), mais avec un document collaboratif.
  • s’il n’y a qu’1 agent sur le chantier, l’organisation se met en place en tenant compte de ces moyens limités ; la conduite solitaire d’un chantier n’entrave pas sa réalisation.
  • tous les responsables évoquent la difficulté à faire du « reporting » auprès de leur direction, par manque de document modèle.
  • chacun ressent le besoin de créer des documents spécifiques (procédures, scripts).
  • il semble difficile de prévoir en amont la durée du chantier :
    • le travail en mode projet (estimation, contrôle, révision) n’est pas systématiquement appliqué ;
    • les tâches d’organisation, de coordination ne sont pas quantifiées, au départ, dans le temps estimé nécessaire pour le chantier ;
    • il faut gérer des aléas et des charges de travail imprévues.
  • par contre, le travail CERCLES reste souvent prioritaire, en cas d’aléas.

Sur la reconnaissance de la fonction de responsable de chantier :

  • le plus souvent, un chantier est lancé à l’initiative de l’équipe de catalogage.
  • le travail CERCLES est davantage lié à l’agent (la personne) qu’à sa fonction (la fiche de poste). Ainsi :
    • il n’y pas d’objectifs et d’indicateurs associés dans la fiche de poste des agents responsables de chantier ;
    • aucune pérennité du chantier n’est assurée si l’agent quitte l’établissement.

Sur les enrichissements apportés par le chantier :

  • les axes d’enrichissements s’avèrent toujours plus importants que ceux prévus au départ.
  • les difficultés rencontrées pour les corrections sont liées aux difficultés du traitement des documents électroniques, pas au dysfonctionnement du dispositif CERCLES.
  • la collaboration avec l’éditeur du corpus, au sein du chantier, est utile, mais pas obligatoire.

Sur l’apport de l’ABES :

  • les services sont appréciés, à part l’espace de travail collaboratif, perfectible dans sa forme et dans son usage.

Sur la reconnaissance du réseau :

  • les responsables de chantier n’ont pas vraiment d’avis sur la question. Mais ignorer si on est reconnu ne veut pas dire qu’on ne l’est pas. Cela signifie simplement qu’on n’a jamais eu le moyen de mesurer cette reconnaissance (par exemple, l’ABES n’ pas inclut cette question dans l’enquête 2017 sur les usages professionnels du Sudoc).

Sur les évolutions du dispositif CERCLES :

  • les responsables actuels n’envisagent pas forcément de nouveaux chantiers, puisque la charge de travail est déjà importante.
  • le besoin de lancer des chantiers liées aux données d’autorités de leurs corpus n’apparait pas comme une priorité.
  • les chantiers à venir devraient être d’une volumétrie moins importante, pour attirer d’autres bibliothèques.

 

CERCLES_crayonsEt maintenant… ?

L’équipe de l’ABES en charge de coordonner le dispositif CERCLES analyse ces résultats pour formuler une série de préconisations, qui seront ensuite communiquées au réseau.

La synthèse complète et détaillée des résultats est disponible  ICI.

CERCLES : 4 NOUVEAUX CORPUS

CERCLES_Hula_hoop_Jerry_via_Flick_CC_BY_SA_2_0

Le dispositif CERCLES s’agrandit : 4 nouveaux corpus vont être pris en charge par 4  établissements (2 nouveaux établissements, et 2 établissements déjà référents sur un précédent corpus).

Corpus « American Mathematical Society », Bibliothèque Universitaire Pierre et Marie Curie

  • Corpus : e-books AMS, dont les séries « Memoirs of the AMS » – 2500 titres
  • Période de travail : mai 2016 – décembre 2017
  • Responsable du chantier : Yves Momboisse
  • Axes d’enrichissement : vérification des ISBN, création et complétude des liens 4XX, 6XX et 7XX, création et numérotation ISSN des collections électroniques
  • Le «+» du chantier  :
    • engagement sur la fusion de notices en cas de doublon
    • bonne connaissance du dispositif par le responsable de chantier
    • chantier initié par les bibliothèques MIR qui ont lancé un appel à collaboration auprès des établissements du réseau national des bibliothèques de mathématiques (RNBM) dont elles font partie
    • fort engagement de cet établissement dans le dispositif : la BUPMC prend déjà en charge le corpus ENI (avec la BIU Montpellier) et s’apprête à lancer un 3ième chantier, sur un autre corpus de mathématiques.

Corpus « Cambridge University Press – Sociology 2013-2015 », Bibliothèque de la Fondation Maison des Sciences de l’Homme

  • Corpus : e-books Cambridge University Press – 167 titres
  • Période de travail : avril 2016 – septembre 2016
  • Responsable du chantier : Jeanne Longevialle, Fabrice Mouillot
  • Axes d’enrichissement : création et complétude des liens 4XX, 6XX et 7XX, création et numérotation ISSN des collections électroniques, création des notices d’autorités si nécessaire, traitement des zones 309.
  • Le «+» du chantier  :
    • bonne connaissance du dispositif par les responsables de chantier
    • fort engagement de cet établissement dans le dispositif : la FMSH milite depuis longtemps pour un signalement de qualité des ressources électroniques, et pas seulement dans les outils de découverte.
    • appel ouvert à collaboration avec un autre établissement : la FMSH a fait le choix de ne pas lier sa politique documentaire à la politique commerciale de l’éditeur, et n’a acquis, sur ce bouquet « Sociology 2013-2015 », que les 162 titres qui intéressent ses usagers. L’ABES lance donc un appel aux établissements du réseau intéressés par ce corpus, pour collaborer avec la FMSH dans le cadre de CERCLES et prendre en charge les 41 titres restants.

Corpus « Cairn – monographies encyclopédiques », Bibliothèque Nationale Universitaire de Strasbourg

  • Corpus : e-books « Que sais-je ? » et « Repères » – 1955 titres
  • Période de travail : avril 2016 – avril 2017
  • Responsable du chantier : Christine Hecht
  • Axes d’enrichissement : création et numérotation ISSN des collections électroniques, création et complétude des liens 4XX et 6XX
  • Le «+» du chantier  :
    • choix d’un corpus pluridisciplinaire, intéressant un grand nombre d’établissement
    • collaboration raisonnée et concertée avec un autre établissement CERCLES, le SCD de l’université Jules Verne – Picardie, en charge du corpus CAIRN « toutes collections ». Les axes d’enrichissements ont bien été délimités entre les deux chantiers : à Amiens, on enrichit les zones 7XX (et les mentions de responsabilité en 200) alors qu’à Strasbourg, on ne travaillera qu’à l’amélioration des zones 4XX et 6XX.

Corpus « Dalloz », SCD de l’université de Strasbourg

  • Corpus : e-books  Dalloz – 600 titres (sur 1800 notices)
  • Période de travail : avril 2016 – décembre 2016
  • Responsable du chantier : Stéphanie Himber
  • Axes d’enrichissement : création des notices manquantes, vérification des dates sur les notices existantes, contrôle et correction des URL d’accès, création et numérotation ISSN des collections électroniques
  • Le «+» du chantier  :
    • choix d’un corpus indispensable pour toutes les bibliothèques de droit
    • collaboration en amont avec l’équipe du Hub de métadonnées de l’ABES : comme cela s’est passé pour le chantier CERCLES mené par le SCD de l’université de Lyon 1 Claude-Bernard, en 2015, le chantier DALLOZ a bénéficié d’une première salve de traitements automatisés, pour laisser l’établissement se concentrer par la suite sur les enrichissements plus complexes. Le récit de cette collaboration intéressante fera l’objet de plusieurs billets, publiés prochainement, sur ce blog.

 

 

Comment suivre ces 4 nouveaux chantiers, et les autres ?

Un Manuel « CERCLES  » est désormais en ligne, sur le Guide méthodologique du Sudoc. Le détail de chaque chantier y est mentionné, et tout le monde peut suivre la progression du travail, s’il consulte régulièrement le rapport statistique alimenté par chaque responsable. Un moyen de rester  informé, et de soutenir ces collègues ! CERCLES_manuel

Comment CERCLES fait bouger les lignes

CERCLES_Hula_Hoop_bu_Mari_Francille_via_Flick_CC_BY_SA_2_0Le dispositif, qui pour l’instant répond aux objectifs et semble convenir au réseau, fait évoluer les comportements et les pratiques, non seulement entre les établissements, mais aussi avec l’ABES et également -parfois- avec les éditeurs. Le « cercle vertueux », visé à l’origine, commence à se mettre en place, comme en témoignent de récentes collaborations Etablissement-ABES – éditeurs, dont il sera question lors de la session parallèle « Un cercle vertueux », le 10 mai prochain, pendant les Journées ABES 2016.

BACON et la labellisation des données : à quelle aune mesure-t-on la qualité d’un fichier KBART ?

rvb-sloganLa recommandation KBART, portée par la NISO, a entre autre qualité, sa grande simplicité.  Un fichier KBART doit répondre à des exigences peu contraignantes, du type : intitulés de colonnes normalisés et parlants (ex : ‘publication_title’, ‘first_author’ …) ; sortie sous  forme d’un fichier .txt ; encodage en UTF-8 …

La première vérification réalisée à l’Abes consiste donc à vérifier que le fichier fourni par un éditeur remplit bien  les obligations de conformité à la recommandation KBART. Voici les principaux points de vigilance :

  • Nom de fichier normalisé (Editeur_consortium/région_package_date.txt)
    •    Encodage UTF-8
    •    Fichier tabulé (.tsv, .csv, .ssv)
    •    Présence des 25 colonnes obligatoires
    •    Colonnes correctement nommées
    •    Colonnes correctement remplies (respect de la norme ISO 8601 pour les dates,  description de la volumaison, valeurs fermées le cas échéant,…)

Les difficultés émergent lorsqu’on essaie de confronter la simplicité apparente de la recommandation avec la réalité des plates-formes de périodiques et/ou de livres en ligne. La version 2 de la recommandation améliore sa précision (prise en compte des livres électroniques, de l’open access, de l’histoire d’un périodique), sans doute au détriment de sa facilité d’implémentation, mais elle n’est toujours pas en mesure de décrire les cas complexes.
Ce n’est pas un problème en soi : KBART se focalise sur l’accès à des ressources qui peuvent – et doivent – être décrites dans des formats adaptés si on veut en présenter toute la richesse et la complexité. Pour que cette complémentarité entre description bibliographique (MARC) et métadonnées favorisant l’accessibilité aux documents puisse se faire, deux éléments sont impératifs au niveau du fichier KBART:

•    la description de l’accès à la ressource doit être pertinente : le champ title_url doit effectivement pointer vers la ressource, le champ title_id doit permettre de comprendre comment se structurent les liens d’accès aux volumes, fascicules, articles ou chapitres de la ressource.
•    les identifiants utilisés (ISSN et ISBN) doivent être corrects et le découpage de l’histoire d’une revue en ses différents avatars doit se retrouver en ligne, comme d’ailleurs le stipule une autre recommandation, PIE-J.

L’analyse effectuée en interne pour vérifier la qualité de ces données débouche sur un diagnostic transmis à l’éditeur qui sait alors précisément par où ses métadonnées pèchent. S’ensuit un dialogue avec ce dernier, voire un accompagnement de ses équipes techniques qui doit aboutir à une mise à jour de la plate-forme, processus qui peut être long et difficile (sous-traitance, restructuration de certains contenus,…).

A l’issue de ce dialogue et au vu des améliorations apportées par l’éditeur, l’Abes peut alors attribuer le label de qualité de données, preuve de l’engagement de l’éditeur dans sa démarche globale d’amélioration de description et de signalement de son contenu. Si un éditeur  fournitun fichier KBART syntaxiquement correct mais ne respectant pas les recommandations plus fines de description, il verra ses fichiers intégrés dans BACON  tels quels mais sans label, puisqu’il n’est pas question de modifier les fichiers se rapportant à des produits en abonnement courant.

La démarche est un peu différente pour les bouquets ISTEX. Dans ce cas, les fichiers KBART sont générés non par l’éditeur mais par l’équipe du Hub de métadonnées de l’Abes. Les découpages de revues – absents sur le site de l’éditeur-  sont indiqués sur le fichier KBART.

Inconvénient de cette pratique : la matière première utilisée, les listes contractuelles et le Sudoc, ne permettent pas de retrouver systématiquement toutes les informations de volumaison, notamment le numéro du premier volume/fascicule appartenant à une revue que l’éditeur n’a pas identifié comme telle. L’équipe du Hub  tente de régler ce problème en agrégeant les informations trouvées dans les métadonnées d’articles.

Avec cette démarche, il s’agit donc d’inciter les éditeurs à s’interroger sur leurs pratiques  afin de les faire évoluer, comme c’est le cas pour la Royal Society of Chemistry.

Dans un prochain billet, nous expliquerons en détail comment sont réalisées les différentes vérifications.

Webservice AlgoSudoc : prendre connaissance et remédier aux anomalies de chargement des données Sudoc dans theses.fr

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

« Nous sommes en 2015 après Jésus-Christ. Toutes les thèses de doctorat soutenues en France depuis 1985 sont recensées dans theses.fr… Toutes ? Non ! Un lot d’irréductibles notices Sudoc résiste encore et toujours à l’algorithme de chargement. Et la vie n’est pas facile pour les garnisons de catalogueurs des bibliothèques retranchés dans les établissements de soutenance.« 

En mai 2013, les données du Sudoc ont été chargées dans le moteur de recherche theses.fr. Un précédent billet liste (de manière non exhaustive) les raisons pour lesquelles certaines notices n’ont pas pu être chargées.
Au-delà de l’énoncé de ces quelques principes, le programme de versement des données Sudoc restait une boite noire pour les catalogueurs. Vous avez été nombreux à nous réclamer via le guichet d’assistance des explications sur le non-chargement de telle ou telle notice, souvent à la demande d’un directeur de thèse qui constatait que theses.fr ne recensait pas la totalité des thèses qu’il a dirigées. Nous vous avons répondu au cas par cas, en vous promettant une liste de toutes les notices en erreur.

Ce service est désormais (enfin !) disponible. L’ABES a développé un webservice baptisé AlgoSudoc permettant de générer à la demande un « rapport dynamique de chargement des données Sudoc dans theses.fr ». Ce rapport est un fichier .csv contenant les résultats des tests de l’algorithme. Ces tests portent principalement sur la qualité de la notice décrivant la thèse originelle (codée 105$bm) et sont divers et variés (présence, structure et unicité du numéro national de thèse, structure de la note de thèses…). Pour chaque PPN en anomalie, le catalogueur est invité à corriger la notice dans WinIBW ; le rapport dynamique lui suggère d’intervenir à tel ou tel endroit de la notice.
Aujourd’hui, des dizaines de milliers d’anomalies sont détectées, y compris pour les thèses soutenues après 1985. Face à l’ampleur de la tâche, il est nécessaire d’organiser le travail de correction. En utilisant des paramètres dans l’url de génération du rapport dynamique, il est possible de définir un lot précis (par exemple, toutes les notices de thèses localisées avec un RCR donné).

La documentation sur ce webservice est ici. Un J-e.cours de présentation de ce service aura lieu le 12 mars.

Nous espérons que ce webservice sera l’occasion pour les établissements de mettre en place des chantiers de corrections ciblés, un peu comme le traitement des ebooks de droit international achetés dans le cadre d’ISTEX  ou plus récemment comme dans la démarche des CERCLES (Correction et Enrichissement par le Réseau de Corpus de L‘Enseignement Supérieur) .
Il est évident que dans un corpus centré sur les thèses, composé de notices qui bien souvent sont des unicas, les bibliothèques des établissements habilités à délivrer le doctorat ont une responsabilité particulière.
L’ABES vérifiera régulièrement l’avancement des corrections de manière globale. Par ailleurs, l’ABES prend à sa charge un certain nombre de traitements (qui n’apparaissent pas dans les rapports dynamiques) et ne s’interdit pas de mettre en place de nouveaux contrôles, notamment sur l’absence de liens entre notices bibliographiques et notices d’autorité (tests qui eux apparaitront dans les rapports dynamiques).

Un jour, à terme, ce webservice devrait être inutile : plus aucune anomalie ne devrait être détectée par l’algorithme.

Les irréductibles notices Sudoc n’ayant pas de potion magique, elles seront vaincues par les armées de catalogueurs !

IMR

CheckSUDOC, un nouvel outil de contrôle qualité des notices du SUDOC

CheckSUDOC est une nouvelle application en ligne développé en PHP  permettant d’effectuer un contrôle qualité sur les notices du SUDOC. Ce contrôle peut être effectué chaque jour une fois vos notices bibliographiques importées dans votre SIGB local.

Le fonctionnement est simple. Il s’agit de saisir une liste de PPN (identifiants des notices du SUDOC), un par ligne, et de lancer le traitement. Il existe deux modes d’affichage des résultats : simple et avancé.

Formulaire de Check Sudoc

Formulaire de Check Sudoc

Quelles vérifications sont effectuées sur chaque notice ?

 CheckSUDOC  :

  • contrôle la cohérence des années de publication saisies dans les   zones Unimarc  100  et 210 (sous-champ $d)
  • vérifie si une zone 410 (« appartient à la collection ») est présente à partir du moment où une zone 225 (« collection ») existe dans la notice
  • vérifie également la cohérence entre les champs 181-182  (« type de contenu et type de médiation ») et le sous-champ 200$b (« Indication générale du type de document »). CheckSUDOC indique si un 200$b est présent dans la notice alors que avez saisi des zones 181 et 182. En effet, à partir du 4 novembre 2014, les zones 181 et 182 se substituent à la sous-zone 200$b.
  • contrôle les vedettes matière (zones 601,602,604,605,606,607,608) ainsi que les mentions de responsabilité ( zones 700,701,702). Il vérifie en particulier la présence de liens vers les notices d’autorité qui se trouvent dans le sous-champ $3. Pour les auteurs, CheckSUDOC vérifie si le code fonction est présent ou pas.

Comment exploiter le rapport d’erreur envoyé par CheckSUDOC ?

En mode avancé, les résultats sont affichés dans un tableau dans lequel les anomalies sont signalées en rouge.

Visualisation des anomalies détectées

Visualisation des anomalies détectées

 

A partir du tableau, il est possible de visualiser la notice bibliographique dans un format abrégé en cliquant sur le numéro de PPN.  Pour chacune des zones Unimarc, il est possible d’en afficher le contenu.

Visualisation d'une zone 606

Visualisation d’une zone 606

 

En mode simple, les résultats sont présentés textuellement  sans possibilité de rebonds. Les anomalies  sont signalées en rouge.

Présentation des anomalies en "mode simple"

Présentation des anomalies en « mode simple »

En mode simple comme avancé, les résultats peuvent être téléchargés dans un fichier csv pour être exploités dans un tableur.

Plus de fonctionnalités … ?

ChekSUDOC est un outil évolutif. D’autres contrôles pourront être ajoutés sur la base de vos suggestions.

Pour utiliser CheckSUDOC : http://domybiblio.net/check_sudoc/

 

CheckSUDOC est développé par Yves Tomic, Ingénieur d’études à l’Université Paris Dauphine.