CERCLES : 4 nouveaux corpus

by_Horla_Varlan__CC_BY_2_0_via Flick'r

by_Horla_Varlan__CC_BY_2_0_via Flick’r

Ceux d’entres vous qui ont assisté à la séquence « Actualités de l’ABES », lors des Journées ABES 2015, se rappellent qu’il a beaucoup été question de qualité des données et de mutualisation du travail.

Le dispositif CERCLES a fait l’objet d’un premier bilan (pour revoir la séquence, c’est ICI – à partir de 21mn20s).

Il est possible que ce bilan ait convaincu de nouveaux établissements, ou ait simplement conforté ceux qui s’étaient déjà inscrits sur une « liste d’attente ». Quel que soit l’élément déclencheur, nous pouvons annoncer aujourd’hui l’entrée de 4 nouveaux établissements dans le dispositif, et de 4 nouveaux corpus.

Les 4 nouveaux corpus :

BRILL-RADI – SCD de l’université Jean Moulin Lyon 3

  • Corpus : e-books BRILL, Recueils de cours de l’Académie de droit international de La Haye – 1272 notices
  • Période de travail : août 2015 – février 2015
  • Responsable du chantier : Marie-Françoise Bastien
  • Référents ABES : Julie Lempereur
  • Axes d’enrichissements : traitement de la zone 309, création ou amélioration des liens 4XX, 6XX et 7XX, création des notices d’autorités manquantes.
  • Les « + » du chantier :
    • le tableau dynamique qui permet de suivre la progression du chantier
    • l’aide de la 309, qui propose des PPN à lier

De Gruyter – Bibliothèque de l’Ecole Française d’Athènes et Bibliothèque Interuniversitaire Sorbonne

  • Corpus : e-books De Gruyter Classical Studies – 288 notices
  • Période de travail : août 2015 – novembre 2015
  • Responsables du chantier : Clélia Roos (pour EFA), Marie-Line Guillaumée (pour BIS)
  • Référents ABES : Equipe « CERCLES » de l’ABES
  • Axes d’enrichissements : numérotation ISSN et création des notices Od, ajout des 3XX propres aux documents électroniques, création ou amélioration des liens 4XX, 6XX et 7XX, création des notices d’autorités manquantes, relecture de la notice avant validation, dédoublonnage.
  • Les « + » du chantier :
    • la francisation des zones de notes
    • la correction des caractères grecs erronés
    • la collaboration entre 2 bibliothèques

ENI – Bibliothèque de l’université Pierre et Marie Curie

  • Corpus : e-books ENI – 555 notices
  • Période de travail :septembre 2015 – juin 2016
  • Responsable du chantier : Yves Momboisse
  • Référents ABES : Equipe « CERCLES » de l’ABES
  • Axes d’enrichissements : numérotation ISSN et création des notices Od, vérification des ISBN, lien réciproque 452, relecture de la notice avant validation, dédoublonnage.
  • Les « + » du chantier :
    • la vérification des ISBN (papier ou électronique)
    • le dédoublonnage.

Springer LN- SCD de l’université Claude Bernard Lyon 1

  • Corpus :e-books Springer acquis en Licence Nationale – 7360 notices
  • Période de travail : juin 2015 – décembre 2016
  • Responsable du chantier : Nuria Pastor-Martinez
  • Référent ABES : Marion Grand-Demery
  • Axes d’enrichissements : numérotation ISSN et création des notices Od, traitement de la zone 309, création ou amélioration des liens 4XX, 6XX et 7XX, création des notices d’autorités Congrès manquantes, relecture de la notice avant validation.
  • Les « + » du chantier :
    • la création des autorités Congrès manquantes
    • l’articulation avec le travail du hub de métadonnées : le travail d’enrichissement « humain » viendra après le travail d’enrichissement « automatique » réalisé par le hub sur ce corpus. Tout ce qui n’aura pas pu être réalisé automatiquement par les programmes du hub sera traité par les catalogueurs de l’établissement, notamment les liens. C’est le premier exemple de collaboration catalogueur / hub dans le cadre de CERCLES.

Un corpus traité hors « CERCLES », mais bien traité quand même : BMJ

Au printemps 2015, le SCD de Rennes 1 a signalé avoir travaillé sur le corpus BMJ acquis en licence nationale. Bien que n’ayant pas, pour cela, demandé officiellement à l’ABES d’intégrer le dispositif CERCLES, ce SCD mérite que sa contribution soit signalée, et connue des autres établissements Sudoc. Elle répond tout à fait à l’esprit qui anime le dispositif.

BMJ LN – SCD de l’université de Rennes 1

  • Corpus : périodiques publié par le groupe British Medical Journals –  64 notices
  • Période de travail : début 2015
  • Responsable du chantier : Muriel Cadieu
  • Référent ABES : pas de référent, travail effectué hors « CERCLES »
  • Axes d’enrichissements : 27 demandes de numérotation ISSN et 19 demandes de correction ISSN, création ou amélioration des liens 4XX, 6XX et 7XX, création des notices d’autorités manquantes
  • Les « + » du chantier :
    • le choix de corpus acquis en licence nationale, destinés à toute la communauté des bibliothèques, y compris publiques ; le travail réalisé colle parfaitement à l’esprit « réseau », il bénéficiera à tous.

Le rôle renforcé de l’établissement

Ce n’est plus seulement le travail qu’on mutualise, c’est aussi l’expertise. L’établissement devient désormais légitime, en tant que « responsable qualité » de ce corpus, pour  :

  • intervenir sur les listes de diffusion de type « catalogage » (SUCAT, CORCAT, COORDI) lorsqu’une expertise est requise sur les données ou les axes d’enrichissements,
  • répondre aux sollicitations d’autres établissements,
  • suggérer à l’ABES des enrichissements du guide méthodologique sur les informations liées au corpus,
  • tutorer un établissement qui souhaiterait collaborer à son chantier ou à un chantier afférent.

Ce rôle renforcé est désormais inscrit dans l’acte d’engagement que signe tout établissement à son entrée dans le dispositif.

Récapitulatif des corpus CERCLES

CORPUS Enrichissements proposés Etablissement
BMJ

(périodiques)

Numérotation ISSN

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités manquantes

SCD de l’université Rennes 1
Brill RADI

(e-books)

Traitement des 309

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités manquantes

SCD de l’université Jean Moulin Lyon 3
Cairn

(e-books)

Liens aux autorités 7XX

Création des notices d’autorités

Relecture de la notice avant validation

SCD de l’université Jules Verne Picardie
Cambridge University Press

(e-books)

Numérotation ISSN

Création des notices Od liées

Traitement des 309

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités manquantes

Relecture de la notice avant validation

Bibliothèque FMSH Paris
De Gruyter Classical Studies

(e-books)

Numérotation ISSN

Création des notices Od liées

Traitement des 3XX « doc.élec »

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités

Relecture de la notice avant validation

Dédoublonnage

Bibliothèque EFA

Bibliothèque Interuniversitaire Sorbonne

ENI

(e-books)

Numérotation ISSN

Création des notices Od liées

Vérification ISBN

Liens réciproques 4XX

Relecture de la notice avant validation

Dédoublonnage

Bibliothèque de l’université Pierre et Marie Curie
Garnier (Classiques Garnier)

(e-books)

Traitement des 309

Lien réciproques 452

Liens aux autorités 6XX et 7XX

Relecture de la notice avant validation

BIbliothèque Diderot Lyon
Open Editions Books

(e-books)

Traitement des 309

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités manquantes

Vérification des liens 859 avant utilisation en 856 et E856

Relecture de la notice avant validation

SCD de l’université François Rabelais Tours
Oxford University Press

(ressources continues)

Numérotation ISSN

Traitement des 309

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Relecture de la notice avant validation

SCD de l’université Paris Est Créteil
Springer LN Numérotation ISSN

Création des notices Od liées

Traitement des 309

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités « Congrès » manquantes

Relecture de la notice avant validation

SCD de l’université Claude Bernard Lyon 1

OpenRefine ou comment passer des listes aux applications ABES : illustration avec IdRef et theses.fr ?

Problématique de départ : Comment passer une liste de paramètres à IdRef en entrée afin d’obtenir en sortie un type d’informations recherchées ? Par exemple, comment obtenir les identifiants IdRef d’une liste de personnes pour lesquelles on dispose du nom et du prénom ?

Condition : Il va de soi qu’il est exclu pour résoudre ce problème de passer ces noms-prénoms un à un dans l’interface de recherche IdRef.

Hypothèse : IdRef dispose d’un service d’interrogation sous forme de web services Solr à l’adresse suivante : http://www.idref.fr/Sru/Solr

Résolution

import   La première étape consiste à importer les données de base.

 

 

 

 

 

 

import2

 

Un premier traitement,  simple mais essentiel, consiste, pour chacune des colonnes de départ, à « ôter tous les espaces en début et fin de chaine de caractères ». Ensuite, on construit une colonne NomComplet dans laquelle le nom et le prénom sont séparés par une virgule et un espace. Si  ce n’est déjà fait, il convient également de passer le tout en minuscule.

 

 

 

import3A partir de cette mise en forme – opération indispensable du fait que l’index Solr est construit ainsi – il sera possible de requêter l’index « Personne » d’IdRef avec la fonctionnalité « by fetching URL » et une expression rédigée dans le langage GREL propre à OpenRefine dans le menu « Apply » :

 

Exemple de code GREL :

{

« op »: « core/column-addition-by-fetching-urls »,

« description »: « Create column jsonidref at index 3 by fetching URLs based on column NomComplet using expression grel:\ »http://www.idref.fr/Sru/Solr?q=persname_s:\ »+replace(value, ‘ ‘, ‘\\\\%20′)+\n\n\ »*&sort=score%20desc&version=2.2&start=0&rows=30&indent=on&fl=id,ppn_z,recordtype_z,affcourt_z&wt=json\ » »,

« engineConfig »: {

« facets »: [],

« mode »: « row-based »

},

« newColumnName »: « jsonidref »,

« columnInsertIndex »: 3,

« baseColumnName »: « NomComplet »,

« urlExpression »: « grel:\ »http://www.idref.fr/Sru/Solr?q=persname_s:\ »+replace(value, ‘ ‘, ‘\\\\%20′)+\n\n\ »*&sort=score%20desc&version=2.2&start=0&rows=30&indent=on&fl=id,ppn_z,recordtype_z,affcourt_z&wt=json\ » »,

« onError »: « store-error »,

« delay »: 50

},

La réponse obtenue en format json contient (ou pas) les paramètres recherchés. Ici, par exemple, seule la troisième ligne contient l’identifiant souhaité. Cette dernière colonne est obtenue en « parsant » le json.

La question essentielle est celle de la fiabilité de la réponse obtenue. Pour répondre à cette question, il faut revenir au point de départ : de qui est constitué mon corpus de personnes au départ ? S’il est composé de directeurs de thèses, comme c’est le cas pour les données ADUM pour lesquels l’opération d’alignement est en cours (Voir Fil’ABES), alors le requêtage de theses.fr peut donner des résultats dont le taux d’erreur est presque nul.

Et la suite ???

Pour disposer de toute une gamme d’idées et de codes OpenRefine dédiés au requêtage des données mises à disposition par l’ABES, vous pouvez vous reporter à http://www.bibliopedia.fr/wiki/OpenRefine . Si vous avez besoin d’obtenir des identifiants pour des « Personnes » ou d’autres types d’autorité, adressez votre demande à idref@abes.fr. Nous pourrons élaborer ensemble la meilleure façon d’y répondre.

Notons enfin que si OpenRefine s’avère pratique, l’outil connait des limites. Sur la base de l’expérimentation SudocAd, l’ABES développe un outil plus sophistiqué en parallèle du projet de recherche Qualinca qu’elle mène avec le LIRMM. Cet outil, en cours de développement, est bien plus ambitieux en termes de quantité et de qualité des paramètres pris en entrée pour un niveau de fiabilité réhaussé. Pour creuser cette question, nous recommandons la lecture de l’article passionnant d’Aline Le Provost dans le numéro 77 d’Arabesque : http://fil.abes.fr/2015/01/05/arabesques-n77-dialogues-avec-la-machine/

Satisfaction et besoins autour de l’application Step et de ses services : résultats de l’enquête 2015

Depuis son ouverture en 2011, en parallèle de celle de theses.fr, l’application Step a évolué avec l’apport de nouveaux services (export de données vers Star, programme d’import de données commun aux deux applications thèses, interconnexion avec des outils de gestion en local …) et son réseau s’est agrandi pour atteindre aujourd’hui 103 établissements habilités à délivrer le doctorat.

En 2015, l’activité de signalement des thèses en préparation semble avoir atteint sa vitesse de croisière. C’était l’occasion pour l’ABES  de recueillir auprès des correspondants Step leurs avis sur l’application et ses services associés, de connaître leurs éventuelles difficultés ainsi que les évolutions souhaitées. C’est à cette fin qu’une enquête a été menée du 3 mars au 15 avril 2015. En voici les principaux résultats.

Participation des établissements en production dans Step

graphique1Sur les 103 visés par l’enquête, l’ABES a reçu les réponses de 70 établissements, soit une participation de 67%. Parmi les répondants, 10 personnes déclarent que leur établissement n’a pas encore produit de données dans Step bien que la valorisation de leurs recherches doctorales sur theses.fr était une motivation pour rejoindre le réseau.

Une production de données aléatoire

Les principaux obstacles à la production de données dans Step sont liés, soit à une incohérence dans le circuit des thèses (22%), soit à des raisons techniques (22%), soit à un manque de volonté politique (11%). Autres problèmes à la marge soulevés : le manque de personnel et de temps, les changements de statut des établissements (fusion, COMUE) ou le désintérêt des services de scolarité ou des écoles doctorales pour le signalement des thèses en préparation au profit d’autres tâches jugées prioritaires.

Pour les établissements produisant dans Step, les éventuelles difficultés rejoignent celles cités ci-dessus. Elles sont d’ordre technique notamment autour des imports de données avec le module thèse d’Apogée (28%) puis organisationnel : le circuit des thèses entre services au sein de l’établissement est jugé « insatisfaisant » (12%). Viennent ensuite, les difficultés liées au manque de volonté politique de l’établissement (6%), au refus de l’école doctorale (4,5%) et au manque de formation des différents acteurs (4%).

Une application ergonomique et facile à utiliser

Pour 80% d’entre eux, les utilisateurs des formulaires de l’application Step sont satisfaits  et ne rencontrent pas de difficultés particulières.

Un service d’import de données perfectible

graphique239% des répondants affirment alimenter Step en utilisant les imports de données depuis le logiciel de gestion administrative des doctorants en vigueur. La majorité (73%) utilise ces imports de données pour la création et la mise à jour des fiche des thèses en préparation dans Step tandis qu’une minorité des répondants (27%) utilise les imports uniquement pour la création, les données étant ensuite complétées manuellement dans les formulaires.

Le plus grand nombre (69%) des utilisateurs du service d’import de données effectue ses imports depuis le module thèse d’Apogée de l’AMUE (import par Web services), l’autre partie les effectuant depuis l’application ADUM (26,9%).

9 personnes ont décrit en détail les problèmes rencontrés, particulièrement avec les imports depuis le logiciel de l’AMUE, Apogée :

  • créations de doublon pour certains établissements ayant un double circuit d’alimentation (import depuis Apogée dans Step et saisie manuelle uniquement dans Star) ;
  • difficulté d’avoir un scénario d’import en « multiflux » (import depuis une source A dans Step et depuis une source B dans Star) : création de doublon et problème lors de l’export des données vers Star ;
  • problème lié au workflow de l’application Step : écrasement des données saisies manuellement par le doctorant (résumé, mots-clés..) et des liens IdRef (directeur, partenaire de recherche..) dans l’éditeur de Step, à chaque nouvel import de données.

Des pistes d’amélioration pour les imports

Des propositions d’amélioration ont émergé et vont être étudiées par l’ABES comme, par exemple, la protection de certaines zones dans l’éditeur de Step (résumés et des mots-clés) et l’envoi par mail au correspondant Step des messages d’erreur du service d’import, fonctionnant par web service.

D’autres améliorations sont liées à l’utilisation d’Apogée et ne relèvent pas de l’ABES (comme la possibilité d’accepter des codes SISE non présents dans la liste fermée fournie par Apogée ou l’amélioration de la gestion des doublons quand les saisies sont très différentes entre deux sources de données).

Améliorer le cercle vertueux de la communication

11 personnes ont émis des suggestions pour améliorer les échanges d’information :

  • rappel aux doctorants via leur adresse mail personnelle et institutionnelle pour la mise à jour de leurs données diffusées sur theses.fr
  • information par mail des doctorants sur les fonctionnalités de Step et la visibilité des données de thèses en préparation sur theses.fr (plaquette d’information sur Step, interactions avec l’application Star pour les thèses soutenues, sensibilisation en amont sur la nécessité de fournir un document archivable au Cines…).

Une liste de discussion peu utilisée

graphique3Comme pour les autres réseaux de l’ABES (ex : Star, coordinateurs thèses…), une liste de discussion est à la disposition des correspondants du réseau Step pour favoriser les échanges entre établissements sur les pratiques. La moitié des répondants (49%) ne se sent pas concernée par cet outil et signale le manque de temps comme frein à son utilisation (pour 38%).

Des pistes d’informations à partager

Des suggestions ont été apportées concernant le type d’informations que les établissements souhaiteraient que l’ABES diffuse :

  • constituer un argumentaire en faveur du signalement des thèses en préparation à destination des doctorants et aussi en direction des écoles doctorales et des services de la Recherche, notamment pour une généralisation de ce signalement aux « sciences dures » ;
  • mettre en avant, sur le site web de l’ABES ou la FAQ d’ABESstp, les réponses aux questions posées fréquemment sur le guichet d’assistance par les établissements de soutenance et les doctorants ;
  • informations sur la règlementation (bien qu’il existe déjà le Guide du Doctorant 2013 – versions pdf et .doc – qui donne ces informations…) ;
  • indications typographiques à l’intention des doctorants en cours de rédaction de leur thèse ;
  • informations sur l’exhaustivité du signalement des thèses en préparation sur theses.fr. Il existe toutefois une liste des établissements habilités et l’indication de leur participation ou non à STEP. Précisons qu’à la différence du signalement des thèses soutenues qui est une obligation légale, le signalement des thèses en préparation est une option stratégique pour valoriser la recherche doctorale d’un établissement habilité sur le moteur de recherche theses.fr ;
  • faire un état des établissements en production dans STEP avec leurs paramétrages (type d’alimentation, source d’import de données…).

« Rien à signaler sur les données de theses.fr ? »

graphique4Ce bouton permet à un utilisateur de theses.fr de signaler dans un formulaire une erreur sur la description d’une thèse en préparation. Un mail est alors envoyé directement au correspondant Step de l’établissement concerné pour traitement de la demande. La moitié des établissements affirme recevoir plusieurs fois par mois ce type de demande et les traite dans 75% des cas. Ceux qui ne traitent pas les demandes évoquent comme raison une orientation de la demande vers un mauvais destinataire (or, c’est bien au destinataire, correspondant Step, d’orienter la demande vers la personne habilitée) ou le manque de temps. L’autre moitié des établissements n’en reçoit jamais. L’hypothèse explicative serait que la moitié des données des établissements sont de bonne qualité et n’ont pas besoin de mises à jour tandis que l’autre moitié serait perfectible.

Conclusion et suite à l’enquête

Au regard des réponses à cette enquête et aux nombreux commentaires détaillés fournis, les attentes vis-à-vis de l’ABES semblent être davantage d’ordre stratégique (ex : argumentaire et communication sur l’intérêt de diffuser les données de thèses en préparation sur theses.fr) que fonctionnelle (ex : aide à l’utilisation de l’application ou évolution de celle-ci), si ce n’est sur l’amélioration du service d’import de données. C’est dans ce sens que l’ABES envisage les suites à donner à cette enquête auprès du réseau Step.

Être un service libéré, tu sais c’est pas si FACILE…

Synthèse de l’enquête sur les pdf de thèses valides pour un archivage au CINES

velo_facile

Dans le cadre d’un échange entre l’ABES et le CINES, une enquête a été menée auprès des correspondants STAR du 17 au 31 mars 2015. Celle-ci avait pour but de mieux connaître comment les établissements procèdent pour fournir des pdf valides de thèses soutenues pour un archivage au CINES.Le service FACILE mis en place par le CINES a pour objet de valider le format d’archivage du CINES par analyse et expertise et comprend 2 niveaux.
Les demandes d’analyse de niveau 2 de FACILE [https://www.cines.fr/archivage/des-expertises/expertise-formats/facile/] ayant connu ces derniers mois une forte augmentation,  le CINES a souhaité pouvoir réfléchir à un accès possible sur authentification pour ses utilisateurs. Cette piste d’un accès sur authentification a finalement été abandonnée par le CINES qui reste sur le même principe qu’auparavant c’est-à-dire un accès … libre, libéré…

En effet, des améliorations ont été constatées dans l’usage de FACILE suite aux dernières modifications du service (ajouts de tutoriels notamment). Le CINES reste toutefois attentif au nombre de sollicitations via FACILE2.

Que cela ne vous empêche pas de prendre connaissance des résultats de l’enquête :

  • Participation des établissements en production dans STAR à l’enquête menée par l’ABESparticipation

L’ABES a reçu 68 réponses sur les 97 réponses attendues de la part des établissements en production dans STAR soit une participation active des établissements avec un taux de réponse de 70%. Merci à eux !

Quatre questions étaient posées aux correspondants STAR des établissements habilités à délivrer le doctorat :

1) Quelle utilisation d’Adobe Acrobat Pro faites-vous, en tant que correspondant STAR de votre établissement?

Utilisation_Adobe

L’utilisation dans les établissements d’Adobe Acrobat pro pour les besoins du correspondant STAR est assez répandue. 47 établissements sur les 68 ayant répondu l’utilisent ce qui signifie une utilisation par 69% des établissements. Toutefois 2 établissements ont l’outil dans leur établissement mais ne l’utilisent pas en tant que correspondant Star tandis que 2 établissements signalent ne pas être pleinement satisfaits de cet outil.
L’équipement et l’utilisation d’Adobe Acrobat Pro par tous les établissements ne suffirait donc certainement pas à réduire à son minimum le recours au service Facile niveau 2. Le recours à Adobe Acrobat Pro n’est donc pas suffisant pour régler tous les problèmes de format rencontrés par les établissements.

2) Mettez-vous à disposition des doctorants un accès à un PC équipé d’Adobe Acrobat Pro dans votre établissement?
Mise_disposition_doctorants

Peu d’établissements, 7 sur 68, soit un taux de 10%, offrent cette possibilité aux doctorants. Cette possibilité est jugée peu adaptée aux pratiques des doctorants par un établissement.

3) Si oui, quelle version d’Adobe Acrobat Pro est utilisée par vous ou vos doctorants ?

Versions_Adobe

Parmi les 47 établissements utilisant l’outil Adobe Acrobat Pro, la version 11 est utilisée majoritairement par 22 établissements soit un taux d’utilisation de 46%. C’est ensuite la version 10, utilisée par 15 établissements, soit 31%, qui arrive en seconde position tandis que les versions 7, 8 et 9 arrivent en fin de peloton.

4) Si non, quel autre outil est utilisé par vous ou vos doctorants ?

Autres_Outils

Les établissements cumulent en général l’utilisation de plusieurs outils pour résoudre les problèmes rencontrés pour obtenir un pdf valide. Il s’agit principalement de deux outils :

  • l’outil développé par l’Ecole des Mines de Paris https://pdfstar.mines-paristech.fr/ est utilisé par 27 établissements soit une utilisation de l’ordre de 39%,
  • pdf Creator est utilisé par 23 établissements soit une utilisation par les répondants à l’enquête de l’ordre de 33%.
    Les imprimantes virtuelles (Word, Libre Office …) sont utilisées par 11 établissements. A la marge sont également cités d’autres outils : Imprimantes virtuelles, Latex, Ghost Script, Small pdf…

Sonate_facile_la_majeur

Sonate facile la majeur (Mozart)

BACON et la labellisation des données : à quelle aune mesure-t-on la qualité d’un fichier KBART ?

rvb-sloganLa recommandation KBART  , portée par la NISO, a une immense qualité : elle est relativement simple à comprendre et à implémenter. Un fichier KBART doit répondre à des exigences très peu contraignantes de prime abord : des intitulés de colonnes normalisés et parlants (‘publication_title’, ‘first_author’, …), une sortie sous la forme d’un fichier .txt, format universel s’il en est, encodage en UTF-8,… Faire un fichier KBART à la main  n’est donc pas compliqué en soi. La première vérification faite  à l’ABES consiste donc à vérifier que le fichier fourni par un éditeur remplit bien toutes les obligations pour qu’il soit conforme à la recommandation KBART. Sans entrer dans les détails de la recommandation, soulignons ici que nous sommes particulièrement vigilants sur les points suivants :

•    Nom du fichier normalisé (Editeur_consortium/région_package_date.txt)
•    Encodage UTF-8
•    Fichier tabulé (.tsv, .csv, .ssv)
•    Présence des 25 colonnes obligatoires
•    Colonnes correctement nommées
•    Colonnes correctement remplies (respect de la norme ISO 8601 pour les dates, de la description de la volumaison, des valeurs fermées le cas échéant,…)

Les difficultés émergent lorsque l’on essaye de confronter la simplicité apparente de la recommandation avec la réalité, parfois tordue il est vrai, des plates-formes   de périodiques et ou de livres en ligne. KBART est simple, simpliste si on le compare au MARC. La version 2 de la recommandation améliore sa précision (prise en compte des livres électroniques, de l’open access, de l’histoire d’un périodique), sans doute au détriment de sa facilité d’implémentation qui heureusement reste élevée, mais elle n’est toujours pas en mesure de décrire les cas complexes  .
Ce n’est pas un problème en soi : KBART se focalise sur l’accès à des ressources qui peuvent – et doivent – être décrites dans des formats adaptés si on veut en présenter toute la richesse et la complexité. Pour autant, pour que cette complémentarité     entre description bibliographique (MARC) et métadonnées permettant l’accessibilité aux documents (KBART) puisse se faire, deux éléments sont impératifs au niveau du fichier KBART:

•    La description de l’accès à la ressource doit être pertinente : le champ title_url doit effectivement pointer vers la ressource, le champ title_id doit permettre de comprendre comment se structurent les liens d’accès aux volumes, fascicules, articles ou chapitres de la ressource.
•    Les identifiants utilisés (ISSN et ISBN) doivent être corrects et le découpage de l’histoire d’une revue en ses différents avatars doit se retrouver en ligne, comme d’ailleurs le stipule une autre recommandation, PIE-J.

L’analyse effectuée par l’ABES pour vérifier la qualité de ces données débouche sur un diagnostic transmis à l’éditeur qui sait alors précisément par où ses métadonnées pèchent. S’ensuit un dialogue avec ce dernier, voire un accompagnement de ses équipes techniques qui doit aboutir à une mise à jour de la plate-forme, processus qui peut être long et difficile (sous-traitance, restructuration de certains contenus,…). A l’issue de ce dialogue et au vu des améliorations apportées par l’éditeur, l’ABES peut alors attribuer le label de qualité de données, preuve de l’engagement de l’éditeur dans sa démarche globale d’amélioration de description et de signalement de son contenu. Si un éditeur ne peut que fournir un fichier KBART syntaxiquement correct mais ne respectant pas les recommandations plus fines de description, il verra ses fichiers intégrés dans BACON  tels quels et sans label, puisqu’il n’est pas question de modifier les fichiers se rapportant à des produits en abonnement courant.
La démarche est un peu différente pour les bouquets ISTEX. Dans ce cas, les fichiers KBART sont générés non pas par l’éditeur mais par l’équipe du Hub de métadonnées de l’ABES. Les découpages de revues qui ne sont pas présents sur le site de l’éditeur sont quand même indiqués sur le fichier KBART  . L’inconvénient de cette pratique est que la matière première utilisée, les listes contractuelles et le SUDOC, ne permettent pas par exemple de retrouver systématiquement toutes les informations de volumaison , notamment le numéro du premier volume/fascicule appartenant à une revue que l’éditeur n’a pas identifié comme telle (l’équipe du HUB est cependant en train de tenter de régler ce problème en agrégeant les informations trouvées dans les métadonnées d’articles). Son avantage en revanche est de pousser les éditeurs à s’interroger sur leurs pratiques  et à les faire éventuellement évoluer, comme est en train de le faire la Royal Society of Chemistry. En ce sens la démarche adoptée par le HUB rejoint celle de BACON.

Dans un prochain billet, nous expliquerons en détail comment nous réalisons les différentes vérifications.

CERCLES : un corpus supplémentaire

L’expérimentation CERCLES (Correction et Enrichissement par le Réseau de Corpus de LEnseignement Supérieur) s’est construite à partir de la demande formelle de 4 établissements, qui portaient un projet sur un corpus bien défini. Pourtant, il y a déjà deux ans, avant même que ces demandes soient formulées, la Fondation Maison des Sciences de l’Homme (FMSH) de Paris avait émis le souhait de participer à un travail collaboratif d’enrichissement des notices Sudoc, si d’aventures l’ABES mettait en place un tel dispositif.

Un corpus supplémentaire

by Horia_Varlan_CC_BY_2_0_via Flick’r

La finalisation de cette participation a duré un petit plus de temps qu’avec les 4 établissements déjà cités dans les précédents billets, mais aujourd’hui, la FMSH a bel et bien rejoint le dispositif, comme prévu dès l’origine, et a commencé son travail, en suivant les mêmes méthodes et consignes que ses « co-cerclés » : signature de l’acte d’engagement, définition des axes d’enrichissements, complétude d’un journal de bord collaboratif.

Voici le détail de son engagement dans CERCLES :

Fondation Maison des Sciences de l’Homme

  • Corpus : e-books Cambridge University Press – 877 notices
  • Période de travail : février 2015 – mai 2015
  • Responsables du chantier : Jeanne Longevialle et Fabrice Mouillot
  • Référents ABES : Ilhem Addoun Poliakow
  • Points forts du chantier : création ou amélioration des liens 452, 6XX, 7XX ; création des notices d’autorités et de collection électronique manquantes ; émission des demandes de numérotation ISSN.
  • Méthodologie : pas de division du travail en « type de correction », chaque notice est traitée et enrichie dans sa globalité.
  • Les « + » du chantier :
    • collaboration avec l’éditeur en amont pour qu’il fournisse des notices conformes aux demandes du Sudoc
    • création d’un script
  • L’apport de l’ABES :
    • constitution d’un ficher témoin, pré-chantier, pour pouvoir établir ensuite un différentiel
    • expertise, conseil et dépannage

Quels sont donc les corpus pris en charge ?

Les 5 corpus CERCLES (au 01/05/2015)

Comment participer à CERCLES ?

Rappel de la consigne :

Si vous souhaitez intervenir sur des notices d’un des corpus CERCLES, vous le pouvez, à condition d’en informer l’établissement en charge du corpus, avant toute action, et d’y travailler de concert avec lui.

Un très bel exemple de collaboration s’est ainsi mis en place, entre le SCD de Picardie et le SID2 Grenoble, sur le corpus Cairn : Grenoble s’est chargé d’une partie des créations des notices de collection liées aux notices d’e-books pris en charge par Amiens.

Ce corpus, très volumineux (près de 5000 notices à traiter), aurait besoin qu’un autre établissement s’associe au SCD de Picardie. Y aurait-il des volontaires ?

Il est temps de réfléchir ensemble à l’organisation du dispositif CERCLES  au-delà de la période d’expérimentation. Il semble remporter l’adhésion des établissements Sudoc : des établissements nous ont déjà fait part de leur envie d’y participer. Il serait logique que le dispositif soit maintenu, élargi et qu’il trouve sa place dans le fonctionnement normal du réseau Sudoc. Quel rôle souhaiteriez-vous que l’ABES endosse ? Pensez-vous qu’elle devrait assurer, en plus de la coordination, l’expertise sur les données, sachant que celle-ci se retrouve de plus en plus dans un réseau où les compétences des catalogueurs pourraient être mieux exploitées ? Seriez-vous favorable à une intégration à CERCLES par parrainage, où un établissement actif du dispositif dirigerait le travail d’un nouveau-venu ? Devrait-on créer la fonction « correspondant CERCLES », ou renforcer d’une mission « contrôle qualité » la fonction du correspondant catalogage ?

Les Journées ABES nous donneront l’occasion d’engager le débat, avec la séquence « Actualités » (qui proposera un bilan du dispositif) et l’atelier collaboratif « JABESCamp », où chacun pourra partager son avis. Mais d’ores et déjà, les commentaires que vous déposerez sous ce billet alimenteront la réflexion.

IdRef : ORI-OAI, première application externe cliente

La plate-forme ORI-OAI, conçue pour gérer la production numérique institutionnelle d’établissements de l’Enseignement supérieur et de la recherche, propose une nouvelle version du module ORI-OAI-md-editor (version 1.8.3). L’une des nouvelles fonctionnalités de l’outil permet, tout en restant connecté à ORI-OAI, de rechercher, trouver ou créer dans IdRef les autorités Personnes, Collectivités, etc. nécessaires à la description catalographique des thèses.

Pour récupérer cette nouvelle version, il suffit de faire un checkout du module ORI-OAI-md-editor depuis la version 2.0 du projet ORI-OAI.

Principes et fonctionnements

Le principe est similaire à celui utilisé dans l’interfaçage de STAR à IdRef : si un n°PPN est requis dans un champ du formulaire de thèse, l’icône « Lier à l’autorité Sudoc »  est proposée. Ce lien ouvre l’application IdRef dans une iframe (fenêtre intégrée à la page de travail). Le cartouche de recherche est préparé pour que l’opérateur lance la recherche.

Si la recherche est fructueuse, il suffira de cliquer sur le bouton « Lier la notice » en bas de la notice. Alors l’iframe se ferme. Le formulaire de thèse revient en avant-plan et les données utiles sont maintenant présentes dans les champs à remplir.

Dans le cas où l’autorité recherchée n’existe pas encore dans le référentiel, il convient de la créer. Cela se fait avec beaucoup de facilité puisque les données présentes dans la fiche de thèse et intéressant l’autorité sont pré-remplies automatiquement : PPN, date de naissance, nom, prénom, etc. A l’inverse, si les données sont saisies durant la création de l’autorité, elles seront poussées dans les champs correspondants du formulaire TEF d’ORI-OAI lors du liage.

Comprendre le workflow 

ori01

ori-02

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ori-03

ori-04

ori-05

ori-07

Qui est concerné ?

Cette fonctionnalité est déjà en production à Valenciennes. Tous les établissements qui référencent leurs thèses depuis ORI-OAI peuvent utiliser ce service, comme par exemple, l’Université de Lorraine, l’Université Lille 1 Sciences et Technologies, l’Université de Rennes 1, l’Université Paris 2 Panthéon-Assas…

Jacques Brassart, coordinateur fonctionnel du projet ORI-OAI,

Yohan Colmant, coordinateur technique du projet ORI-OAI