CERCLES : 4 nouveaux corpus

by_Horla_Varlan__CC_BY_2_0_via Flick'r

by_Horla_Varlan__CC_BY_2_0_via Flick’r

Ceux d’entres vous qui ont assisté à la séquence « Actualités de l’ABES », lors des Journées ABES 2015, se rappellent qu’il a beaucoup été question de qualité des données et de mutualisation du travail.

Le dispositif CERCLES a fait l’objet d’un premier bilan (pour revoir la séquence, c’est ICI – à partir de 21mn20s).

Il est possible que ce bilan ait convaincu de nouveaux établissements, ou ait simplement conforté ceux qui s’étaient déjà inscrits sur une « liste d’attente ». Quel que soit l’élément déclencheur, nous pouvons annoncer aujourd’hui l’entrée de 4 nouveaux établissements dans le dispositif, et de 4 nouveaux corpus.

Les 4 nouveaux corpus :

BRILL-RADI – SCD de l’université Jean Moulin Lyon 3

  • Corpus : e-books BRILL, Recueils de cours de l’Académie de droit international de La Haye – 1272 notices
  • Période de travail : août 2015 – février 2015
  • Responsable du chantier : Marie-Françoise Bastien
  • Référents ABES : Julie Lempereur
  • Axes d’enrichissements : traitement de la zone 309, création ou amélioration des liens 4XX, 6XX et 7XX, création des notices d’autorités manquantes.
  • Les « + » du chantier :
    • le tableau dynamique qui permet de suivre la progression du chantier
    • l’aide de la 309, qui propose des PPN à lier

De Gruyter – Bibliothèque de l’Ecole Française d’Athènes et Bibliothèque Interuniversitaire Sorbonne

  • Corpus : e-books De Gruyter Classical Studies – 288 notices
  • Période de travail : août 2015 – novembre 2015
  • Responsables du chantier : Clélia Roos (pour EFA), Marie-Line Guillaumée (pour BIS)
  • Référents ABES : Equipe « CERCLES » de l’ABES
  • Axes d’enrichissements : numérotation ISSN et création des notices Od, ajout des 3XX propres aux documents électroniques, création ou amélioration des liens 4XX, 6XX et 7XX, création des notices d’autorités manquantes, relecture de la notice avant validation, dédoublonnage.
  • Les « + » du chantier :
    • la francisation des zones de notes
    • la correction des caractères grecs erronés
    • la collaboration entre 2 bibliothèques

ENI – Bibliothèque de l’université Pierre et Marie Curie

  • Corpus : e-books ENI – 555 notices
  • Période de travail :septembre 2015 – juin 2016
  • Responsable du chantier : Yves Momboisse
  • Référents ABES : Equipe « CERCLES » de l’ABES
  • Axes d’enrichissements : numérotation ISSN et création des notices Od, vérification des ISBN, lien réciproque 452, relecture de la notice avant validation, dédoublonnage.
  • Les « + » du chantier :
    • la vérification des ISBN (papier ou électronique)
    • le dédoublonnage.

Springer LN- SCD de l’université Claude Bernard Lyon 1

  • Corpus :e-books Springer acquis en Licence Nationale – 7360 notices
  • Période de travail : juin 2015 – décembre 2016
  • Responsable du chantier : Nuria Pastor-Martinez
  • Référent ABES : Marion Grand-Demery
  • Axes d’enrichissements : numérotation ISSN et création des notices Od, traitement de la zone 309, création ou amélioration des liens 4XX, 6XX et 7XX, création des notices d’autorités Congrès manquantes, relecture de la notice avant validation.
  • Les « + » du chantier :
    • la création des autorités Congrès manquantes
    • l’articulation avec le travail du hub de métadonnées : le travail d’enrichissement « humain » viendra après le travail d’enrichissement « automatique » réalisé par le hub sur ce corpus. Tout ce qui n’aura pas pu être réalisé automatiquement par les programmes du hub sera traité par les catalogueurs de l’établissement, notamment les liens. C’est le premier exemple de collaboration catalogueur / hub dans le cadre de CERCLES.

Un corpus traité hors « CERCLES », mais bien traité quand même : BMJ

Au printemps 2015, le SCD de Rennes 1 a signalé avoir travaillé sur le corpus BMJ acquis en licence nationale. Bien que n’ayant pas, pour cela, demandé officiellement à l’ABES d’intégrer le dispositif CERCLES, ce SCD mérite que sa contribution soit signalée, et connue des autres établissements Sudoc. Elle répond tout à fait à l’esprit qui anime le dispositif.

BMJ LN – SCD de l’université de Rennes 1

  • Corpus : périodiques publié par le groupe British Medical Journals –  64 notices
  • Période de travail : début 2015
  • Responsable du chantier : Muriel Cadieu
  • Référent ABES : pas de référent, travail effectué hors « CERCLES »
  • Axes d’enrichissements : 27 demandes de numérotation ISSN et 19 demandes de correction ISSN, création ou amélioration des liens 4XX, 6XX et 7XX, création des notices d’autorités manquantes
  • Les « + » du chantier :
    • le choix de corpus acquis en licence nationale, destinés à toute la communauté des bibliothèques, y compris publiques ; le travail réalisé colle parfaitement à l’esprit « réseau », il bénéficiera à tous.

Le rôle renforcé de l’établissement

Ce n’est plus seulement le travail qu’on mutualise, c’est aussi l’expertise. L’établissement devient désormais légitime, en tant que « responsable qualité » de ce corpus, pour  :

  • intervenir sur les listes de diffusion de type « catalogage » (SUCAT, CORCAT, COORDI) lorsqu’une expertise est requise sur les données ou les axes d’enrichissements,
  • répondre aux sollicitations d’autres établissements,
  • suggérer à l’ABES des enrichissements du guide méthodologique sur les informations liées au corpus,
  • tutorer un établissement qui souhaiterait collaborer à son chantier ou à un chantier afférent.

Ce rôle renforcé est désormais inscrit dans l’acte d’engagement que signe tout établissement à son entrée dans le dispositif.

Récapitulatif des corpus CERCLES

CORPUS Enrichissements proposés Etablissement
BMJ

(périodiques)

Numérotation ISSN

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités manquantes

SCD de l’université Rennes 1
Brill RADI

(e-books)

Traitement des 309

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités manquantes

SCD de l’université Jean Moulin Lyon 3
Cairn

(e-books)

Liens aux autorités 7XX

Création des notices d’autorités

Relecture de la notice avant validation

SCD de l’université Jules Verne Picardie
Cambridge University Press

(e-books)

Numérotation ISSN

Création des notices Od liées

Traitement des 309

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités manquantes

Relecture de la notice avant validation

Bibliothèque FMSH Paris
De Gruyter Classical Studies

(e-books)

Numérotation ISSN

Création des notices Od liées

Traitement des 3XX « doc.élec »

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités

Relecture de la notice avant validation

Dédoublonnage

Bibliothèque EFA

Bibliothèque Interuniversitaire Sorbonne

ENI

(e-books)

Numérotation ISSN

Création des notices Od liées

Vérification ISBN

Liens réciproques 4XX

Relecture de la notice avant validation

Dédoublonnage

Bibliothèque de l’université Pierre et Marie Curie
Garnier (Classiques Garnier)

(e-books)

Traitement des 309

Lien réciproques 452

Liens aux autorités 6XX et 7XX

Relecture de la notice avant validation

BIbliothèque Diderot Lyon
Open Editions Books

(e-books)

Traitement des 309

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités manquantes

Vérification des liens 859 avant utilisation en 856 et E856

Relecture de la notice avant validation

SCD de l’université François Rabelais Tours
Oxford University Press

(ressources continues)

Numérotation ISSN

Traitement des 309

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Relecture de la notice avant validation

SCD de l’université Paris Est Créteil
Springer LN Numérotation ISSN

Création des notices Od liées

Traitement des 309

Liens réciproques 4XX

Liens aux autorités 6XX et 7XX

Création des notices d’autorités « Congrès » manquantes

Relecture de la notice avant validation

SCD de l’université Claude Bernard Lyon 1

OpenRefine ou comment passer des listes aux applications ABES : illustration avec IdRef et theses.fr ?

Problématique de départ : Comment passer une liste de paramètres à IdRef en entrée afin d’obtenir en sortie un type d’informations recherchées ? Par exemple, comment obtenir les identifiants IdRef d’une liste de personnes pour lesquelles on dispose du nom et du prénom ?

Condition : Il va de soi qu’il est exclu pour résoudre ce problème de passer ces noms-prénoms un à un dans l’interface de recherche IdRef.

Hypothèse : IdRef dispose d’un service d’interrogation sous forme de web services Solr à l’adresse suivante : http://www.idref.fr/Sru/Solr

Résolution

import   La première étape consiste à importer les données de base.

 

 

 

 

 

 

import2

 

Un premier traitement,  simple mais essentiel, consiste, pour chacune des colonnes de départ, à « ôter tous les espaces en début et fin de chaine de caractères ». Ensuite, on construit une colonne NomComplet dans laquelle le nom et le prénom sont séparés par une virgule et un espace. Si  ce n’est déjà fait, il convient également de passer le tout en minuscule.

 

 

 

import3A partir de cette mise en forme – opération indispensable du fait que l’index Solr est construit ainsi – il sera possible de requêter l’index « Personne » d’IdRef avec la fonctionnalité « by fetching URL » et une expression rédigée dans le langage GREL propre à OpenRefine dans le menu « Apply » :

 

Exemple de code GREL :

{

« op »: « core/column-addition-by-fetching-urls »,

« description »: « Create column jsonidref at index 3 by fetching URLs based on column NomComplet using expression grel:\ »http://www.idref.fr/Sru/Solr?q=persname_s:\ »+replace(value, ‘ ‘, ‘\\\\%20’)+\n\n\ »*&sort=score%20desc&version=2.2&start=0&rows=30&indent=on&fl=id,ppn_z,recordtype_z,affcourt_z&wt=json\ » »,

« engineConfig »: {

« facets »: [],

« mode »: « row-based »

},

« newColumnName »: « jsonidref »,

« columnInsertIndex »: 3,

« baseColumnName »: « NomComplet »,

« urlExpression »: « grel:\ »http://www.idref.fr/Sru/Solr?q=persname_s:\ »+replace(value, ‘ ‘, ‘\\\\%20’)+\n\n\ »*&sort=score%20desc&version=2.2&start=0&rows=30&indent=on&fl=id,ppn_z,recordtype_z,affcourt_z&wt=json\ » »,

« onError »: « store-error »,

« delay »: 50

},

La réponse obtenue en format json contient (ou pas) les paramètres recherchés. Ici, par exemple, seule la troisième ligne contient l’identifiant souhaité. Cette dernière colonne est obtenue en « parsant » le json.

La question essentielle est celle de la fiabilité de la réponse obtenue. Pour répondre à cette question, il faut revenir au point de départ : de qui est constitué mon corpus de personnes au départ ? S’il est composé de directeurs de thèses, comme c’est le cas pour les données ADUM pour lesquels l’opération d’alignement est en cours (Voir Fil’ABES), alors le requêtage de theses.fr peut donner des résultats dont le taux d’erreur est presque nul.

Et la suite ???

Pour disposer de toute une gamme d’idées et de codes OpenRefine dédiés au requêtage des données mises à disposition par l’ABES, vous pouvez vous reporter à http://www.bibliopedia.fr/wiki/OpenRefine . Si vous avez besoin d’obtenir des identifiants pour des « Personnes » ou d’autres types d’autorité, adressez votre demande à idref@abes.fr. Nous pourrons élaborer ensemble la meilleure façon d’y répondre.

Notons enfin que si OpenRefine s’avère pratique, l’outil connait des limites. Sur la base de l’expérimentation SudocAd, l’ABES développe un outil plus sophistiqué en parallèle du projet de recherche Qualinca qu’elle mène avec le LIRMM. Cet outil, en cours de développement, est bien plus ambitieux en termes de quantité et de qualité des paramètres pris en entrée pour un niveau de fiabilité réhaussé. Pour creuser cette question, nous recommandons la lecture de l’article passionnant d’Aline Le Provost dans le numéro 77 d’Arabesque : http://fil.abes.fr/2015/01/05/arabesques-n77-dialogues-avec-la-machine/