CERCLES Bibliothèque Numérique Dalloz : retour d’expérience du SCD de l’université de Strasbourg

logo-unistra

« Genèse » du Chantier CERCLES de la Bibliothèque Numérique Dalloz

Le chantier “CERCLES BNDalloz” a été initié par le SCD de l’Université de Strasbourg en avril 2016 (sa fin est prévue pour le printemps 2017).

Il fait suite à l’immersion de Catherine Storne à l’Abes en janvier/février 2016.
Les objectifs de cette immersion étaient à la fois de rapprocher les équipes “docelec” et “catalogage” pour mieux signaler les ressources électroniques et de circonscrire la relation éditeurs et bibliothèque dans le traitement des métadonnées.

La documentation électronique seconde, voire prend le pas –pour certaines disciplines- sur la documentation papier. Il est dès lors nécessaire aux bibliothèques de s’inscrire comme acteur de leur signalement. Le SCD de l’université de Strasbourg a voulu participer, au travers de ce projet, à cette transition.

Organisation du Chantier CERCLES

L’équipe

L’équipe en charge de ce projet se compose de deux personnes :

  • Stéphanie Himber, responsable du chantier CERCLES BNDalloz.
  • Stéphane Rehlinger

Ne bénéficiant pas de temps dégagé pour se consacrer prioritairement à ce projet, nous y avons travaillé aussi régulièrement que possible lorsque nos activités propres à notre structure nous le permettaient.
Le départ de l’initiatrice du chantier, en septembre 2016, aurait pu nous fragiliser car nous ne disposions alors que des extractions initiales. L’appui des services Interfaces & Traitements et Métadonnées de l’Abes a donc été d’une grande aide : au niveau des outils, nous avons disposé d’extractions ad hoc et bénéficié de modifications en lot ; au niveau de l’accompagnement, nous avons pu nous appuyer sur des conseils et orientations de travail.
Nous avons également pu nous appuyer sur notre collègue Catherine Banos, correspondante “publications en série périodiques et collections” au sein du SCD de l’université de Strasbourg, et sur l’équipe du CR Alsace du Sudoc-PS de la BNUS – Christine Hecht et Estelle Cade – pour les demandes de numérotation ISSN des collections électroniques.

Périmètre du chantier

Le corpus initial – circonscrit en février 2016 – compte environ 1950 notices bibliographiques auxquelles s’ajoutent les versements réguliers de nouveaux titres, soit actuellement près de 2150 notices.
Il convient d’y ajouter les 40 notices de collection dont seulement 6 étaient présentes dans le Sudoc avant le début du chantier.

Lors du travail préparatoire sur ce corpus, les notices Oa ont été créées par copie des notices Aa existantes puis enrichies et corrigées par l’Abes.

Ci-dessous le tableau des modifications apportées par script vbs lors de la création par copie

Notice papier Notice d’e-book correspondante
001 Non repris
002 Non repris
003 Non repris
008 Par défaut : $aOax3
010 Non repris
020 Non repris
021 Non repris
033 Non repris
034 Non repris
035 Remplacé par défaut par : ##$aBNDalloz
073 Non repris
106 Non repris
135 Ajout par défaut : ##$av$br$cm$e#$gm$ia$ja
181 Ajout par défaut : ##$P01$ctxt
182 Ajout par défaut : ##$P01$cc
215 Non repris
225 Non repris
230 Ajout par défaut : ##$aDonnées textuelles
337 Ajout par défaut : ##$aNécessite un logiciel capable de lire un fichier au(x) format(s)Widelook ou Widelook Flash
410 Non repris
452 Ajout par défaut : ##$0″ + ancienPpn
801 Non repris
802 Non repris
830 Non repris

Ci-dessous les enrichissements

zone
010 ISBN électronique
100$a / 210$s dates du tableau-Dalloz ajoutées en 100$a et 210$d (par écrasement de celles éventuellement présentes)
205 Numéro d’édition tiré de la BNDalloz
676 $a340
859 URL fourni par l’OAI-Dalloz

Une fois ces deux opérations terminées, il restait environ 570 notices ou titres à traiter :
Cataloguer les documents électroniques pour lesquels la notice papier n’existe pas ;
Vérifier / corriger les notices Oa déjà présentes dans le Sudoc ;
Vérifier les notices susceptibles d’être des doublons. Dédoublonner quand nécessaire ;
Enrichissement des notices absentes de l’entrepôt OAI-Dalloz.

… et quelques 1830 notices Oa créées par l’Abes à enrichir ou à corriger.

Si la taille de ce corpus est relativement modeste, son signalement dans les catalogues est fortement attendu par les collègues. Aussi, plus que la complexité du traitement catalographique, c’est l’impératif de la réalisation du chantier pour fin 2016/janvier 2017 (comme nous nous l’étions fixé) qui nous a préoccupé.

Organisation du travail

  • Nous avons élaboré des outils de travail que nous avons partagés sur un dossier commun et nous disposions d’un espace collaboratif de travail proposé par l’Abes.

Outils de suivi
▹Tableau de suivi étape par étape ;
▹Tableau de suivi des demandes ISSN ;
▹Tableau des erreurs à corriger : notices doublons, 859 doublons, pb. d’eISBN, erreur de référencement Dalloz, … ;
▹Sauvegarde de plusieurs extractions servant de base de travail ;
▹Tableau détaillé des zones retenues pour le catalogage des documents électroniques.
▹Liste des nouveaux titres versés sur la base depuis mars 2016 : pISBN-eISBN-titre-édition-collection-date de mise en ligne-eppn-URL ;
▹Suivi pour info. au réseau / tableau de bord ;
▹Extractions réalisées par l’Abes.

Le manuel CERCLES de suivi du chantier est disponible ICI

  • Nous avons construit nos scripts vbs :
    Avec Nicole Krieger, correspondante SUDOC pour notre structure, nous avons déterminé les zones Unimarc que nous utiliserons pour créer et enrichir les notices Oa. Dans un document interne, nous avons commenté chaque zone et détaillé la forme du contenu de celle-ci.
    Nous avons formalisé le tout au travers d’un script que nous avons enrichi au fur et à mesure des consignes communiquées par l’Abes (ex. zones 339, 035).

Script vbs des notices bibliographiques :

"010 ##$AISBN$bebook"&vblf&_
"035 ##$aBNDalloz_"&vblf&_
"135 ##$av$br$cm$e#$in"&vblf&_
"181 ##$P01$ctxt"&vblf&_
"182 ##$P01$cc"&vblf&_
"230 ##$aDonnées textuelles"&vblf&_
"303 ##$aDescription d'après la consultation du 2017-MM-JJ"&vblf&_
"304 ##$aTitre provenant de la page de titre de la version électronique"&vblf&_
"305 ##$aVersion électronique de la XXe édition, Paris : Dalloz, 20"&vblf&_
"307 ##$aPagination de l'édition imprimée : XXX p."&vblf&_
"310 ##$aAccès réservé aux usagers des établissements qui en ont fait l'acquisition"&vblf&_
"320 ##$aBibliogr. p. XXX de l'édition imprimée"&vblf&_
"339 ##$aHTML$d20"&vblf&_
"339 ##$aSWF$d20"&vblf&_
"337 ##$aNécessite un logiciel capable de lire un fichier au(x) format(s) Widelook ou Widelook Flash"&vblf&_
"452 ##$0PPN imprimé"&vblf&_
"676 ##$a340$v22"&vblf&_
"830 ##$aChantier CERCLES 2016 ! Ne pas modifier cette notice sans avoir vérifié le périmètre d'intervention sous la responsabilité de : SCD de l'université de Strasbourg. Pour plus d'information, consultez le manuel CERCLES du GM."&vblf

  • Nous avons procédé de la même façon pour les notices Od
    Script vbs des notices de collection :
008 ‎$aOdx3
100 0#‎$a200X‎$d200X-
101 0#‎$afre
102 ##‎$aFR
104 ##‎$ak‎$by‎$cy‎$dba‎$e0‎$ffre
106 ##‎$ar
110 ##‎$ab‎$by‎$cb‎$em‎$f0‎$gy‎$hy‎$i0
135 ##‎$av‎$br‎$cm‎$dn‎$e#‎$gm‎$hn‎$in‎$ja‎$kn
181 ##‎$P01‎$ctxt
182 ##‎$P01‎$cc
200 1#‎$a@Codes Dalloz universitaires et professionnels
210 ##‎$aParis‎$cÉditions Dalloz‎$d[200?]-
230 ##‎$aDonnées textuelles
301 ##‎$aDemande de numérotation ISSN en cours
303 ##‎$aNotice réd. d'après la consultation du 2016-07-06
304 ##‎$aTitre provenant de l'écran-titre
310 ##‎$aL'accès à cette ressource est réservé aux usagers des établissements qui en ont fait l'acquisition.
326 ##‎$aCollection
337 ##‎$aNécessite un logiciel capable de lire un fichier au(x) format(s) Widelook ou Widelook Flash
452 ##$0LIEN VERS Ad
517 ##‎$a@Codes Dalloz

Travaillant à deux personnes sur ce corpus et étant dans des établissements distants, il était capital d’assurer un traitement uniforme des notices au risque de devoir s’entre-corriger.

Le traitement

Suite à l’étude des extractions initiales et à l’étude de la qualité des métadonnées, il a été décidé de créer les notices Oa par duplication des notices Aa pré-existantes et de les corriger / compléter le cas échéant à l’aide des données venues du site  Dalloz.
Aussi, contrairement à d’autres chantiers CERCLES, nous n’avons pas été concernés par la création d’autorités.

Plusieurs opérations ont fait l’objet de modifications en lot par l’Abes à partir d’extractions de sous-ensembles. C’est le cas de l’insertion des zones 035, 225/410, 304, 310, 339, 830, 859.
Le reste des vérifications et traitement des « cas spéciaux » s’est fait manuellement.

Concrètement, les opérations que nous avons eues à mener étaient :

  • des enrichissements ou corrections de notices bibliographiques et de collection : pour cela, nous avons travaillé à partir des extractions initiales et à partir des extractions de sous-ensembles, résultats de modifications en lot, faites tout au long du chantier.
  • des créations de notices bibliographiques et de collection : nous nous sommes appuyés – quand cela a été possible – sur la notice Aa existante que nous avons dupliquée et modifiée à l’aide de notre script.

Chaque création / vérification de notice s’est faite à partir de la « fiche de l’ouvrage » Dalloz + affichage / consultation du document électronique.

Quelques chiffres

Notices de collection Traitement en lot Traitement manuel
Création de notices de collection + demande de numérotation ISSN 39 notices
Doublons
notices dédoublonnées env. 50 notices
URL
Vérification de notices sans URL 34 ppn
Modifications
Insertion zone 010 $a 120 notices
Insertion zone “035BNDalloz” 2081 notices 13 notices
Insertion zones 181/182 5 notices
Insertion zones 225/410 1434 notices 716 notices
Insertion zone 230 1901 notices
Insertion zone 830 1901 notices
Insertion zone 859 “URL” 1726 notices
Zone 859 : substitution de l’URL pointant vers la notice de présentation par l’URL pointant vers le document 380 notices
suppression zone 073 273 notices
Suppression zone 839 30 notices
Créations
création manuelle de notices Oa env. 240 notices

Problèmes rencontrés

  • Numérotation ISSN des collections électroniques :
    L’intitulé de la collection électronique mentionné sur la fiche de présentation de la base Dalloz diffère de la mention de collection signalée sur la page de titre de la version électronique du document (nouvelle collection ou absence de série). Du coup, certaines demandes de numérotation ISSN ont été rejetées par le Centre ISSN France. Ces dernières ont été relancées en mars 2017 avec un dossier étoffé. Sont concernées les collections suivantes :
    ▹Cours
    ▹Dictionnaires Dalloz
    ▹Etudes, mélanges, travaux
    ▹Hors collection
    ▹Hors collection Dalloz / Hors collection Delmas / Hors collection Sirey
  • Communication de l’URL d’accès :
    Nous avons communiqué  les URL au fur et à mesure à l’Abes en complétant un fichier partagé (contenant déjà les PPN des notices créées).  l’Abes ne peut les récupérer directement et facilement via le service dédié Dalloz, un long nettoyage préalable des données récupérées est nécessaire via Open Refine avant de pouvoir les insérer en lot dans les notices.
    Nous avons utilisé le service mis à disposition par Dalloz :
    Test de service BND ☞ http://www.dalloz-bibliotheque.fr/services/bndtest.php?isbn
  • Accès aux anciennes éditions déjà retirées de la base Dalloz. Grâce au même service Dalloz, via l’ISBN (consigné dans les premières extractions) nous avons pu trouver les informations éditeur du document électronique.

dalws

  • Fiche de présentation BNDalloz incomplète ou erronée : absence de l’édition, ISBN doublon, … ;
  • Nombre réduit de connexions simultanées (5) nous obligeant à différer la consultation / le traitement des documents.

Questions soulevées

  • Lors du traitement catalographique :
    • Quel sort réserver à la zone 205 ?
      Pour la BNDalloz, la version électronique est la reproduction de la version imprimée ; c’est donc tout naturellement que Dalloz signale dans la « fiche de présentation » de l’ouvrage électronique, le numéro de l’édition imprimée. La BNDalloz donnant accès à plusieurs éditions du même titre, nous avons choisi de mentionner le numéro d’édition de la version imprimée conformément à ce que Dalloz fait dans sa base.
      Nous avons ajouté également la zone 305 :
      Ex. 305 ##‎$aVersion électronique de la 2e édition, Paris : Dalloz, 2016
    •  Que faire de la mention « matériel d’accompagnement » ?
      Il a été décidé de garder cette information en zone 327.Ex. 327 2#‎$aLa ressource ne donne pas accès aux données contenues sur le CD-ROM accompagnant l’édition imprimée
    • Notices de collection : comment dater le début d’une collection électronique, sachant que la BNDalloz est une base dont la mise à jour est régulière ?
      Il a été convenu que c’est l’année de mise en ligne du premier titre dans la collection qui compte. A défaut de la connaître, nous avons considéré la date comme incertaine :
      100 $a 20XX, 100 $d20XX-… et en 210 $d [20??]-
  • Cas de l’exemplarisation :

La question s’est posée de s’exemplariser de suite sous les notices créées par duplication en février/mars 2016 ou d’attendre la fin du chantier CERCLES.
Certaines bibliothèques, en option « Mises à jour propres » pour leur transferts réguliers, ont décidé de se localiser sous les notices fraîchement créées par copie, au risque de récupérer en local des notices incomplètes et perfectibles. D’autres, en option « toutes mises à jour » ont pu bénéficier de la mise à disposition rapide de nos créations, en ayant la garantie de recevoir au fil de l’eau nos enrichissements.
Ici, le SCD de l’université de Strasbourg a opté pour l’exemplarisation en fin de chantier. Les modalités n’ont pas encore été définies ; il a toutefois été décidé de créer une double localisation si la ressource électronique est présente sur deux bases (le plus souvent ScholarVox) car la BNDalloz est pressentie comme une base relativement stable.

  • La pertinence du corpus :
    Les sciences juridiques étant une discipline pour laquelle l’information est vite obsolète, nous nous sommes demandé s’il était utile et pertinent de signaler des éditions anciennes.
    La réponse n’étant pas clairement tranchée, nous avons traité tous les titres dont nous avions connaissance.
    A voir par la suite si nous procéderons à une sorte de « désherbage » du catalogue.A titre d’exemple, le titre suivant (ppn 191184985) : Comptabilité et gestion des associations : système comptable, gestion financière, analyse et contrôle de gestion / Francis Jaouen. – 11e éd. [à jour au 22 décembre 2008]. – Paris : Dalloz : Delmas, 2009. – (Encyclopédie Delmas).
    La notice ne comporte pas le champ 859 car le titre n’est plus accessible via la base et l’URL n’est pas connu.

Nos impressions sur cette expérience

Ce type de chantier nécessite un investissement important :

  • du temps pour organiser le travail, pour assurer un suivi régulier et être réactif aux diverses sollicitations ;
  • de la concentration pour jongler, au sein de la même journée, entre nos activités initiales et l’étude d’extractions / traitement de notices.

Nous n’avons été que deux personnes à nous lancer dans ce chantier. Après réflexion, cela n’a sans doute pas été un mal car le travail de coordination n’aurait été que plus important si nous avions été plus nombreux.

La création des notices Oa par copie des notices Aa nous a grandement soulagé. Du coup, nous avons eu relativement peu de notices à créer eu égard à la taille du corpus initial.
En outre, il me semble que pour mener à bien ce type de chantier, il est nécessaire de trouver l’appui d’une équipe capable de manipuler les métadonnées dans tous les sens, de faire des extractions du corpus et des modifications d’ensemble. Grâce aux équipes de l’Abes, nous avons pu avancer à pas de géant dans le traitement des notices.

Et la suite ?

Conformément au principe du dispositif CERCLES, où l’établissement reste le référent sur le corpus pour le réseau Sudoc, le SCD de l’université de Strasbourg maintiendra l’effort de mise à jour. En effet, Dalloz fait partie des éditeurs qui ne fournissent pas (encore ?) de métadonnées exploitables qu’il serait possible de traiter de façon automatique ou presque pour alimenter le SUDOC et d’autres outils.
En s’appuyant sur le nombre de titres versés sur la base en 2016, nous pouvons estimer le nombre de nouveaux titres annuels à environ 200.
Se pose en sus la gestion des titres quittant la base : introuvables via la BNDalloz mais consultables si l’URL est connue (… pour le moment).

La page dédiée au corpus Dalloz bibliothèque numérique est désormais disponible dans le manuel import ICI

28684221452_443261be71_n

« Kandinsky circles int’l july » (CC BY-NC-ND 2.0) by CaZaTo Ma

Stéphanie Himber
Responsable du chantier CERCLES BNDalloz

logo-unistra

Webservice AlgoLiens : remédier à l’absence de liens dans les données du Sudoc

imagealogoliens

Expo Asterix BNF / Manuel F. Picaud / CC BY-NC-SA 2.0, via Flickr

 

L’ABES vient de mettre en production un nouveau web service, baptisé AlgoLiens. Ce dernier détecte les notices du Sudoc dans lesquelles une zone de liens aux autorités n’est pas liée. En mettant à la disposition de leurs créateurs les notices présentant une telle anomalie afin de les amener à la corriger, l’objectif est d’atteindre à un signalement documentaire total.

A l’origine d’AlgoLiens, nouvel outil à la disposition des catalogueurs du réseau Sudoc, se trouve une question que plus d’une fois nous nous sommes collectivement posée : comment améliorer les données du Sudoc ? Cette question à peine énoncée, le doute s’instille. Finalement, est-ce tout simplement possible ? Ecrasante, la recherche de la réponse est repoussée à un horizon de pieuse espérance habité par de dociles machines… Pourtant, insistons car le jeu, en vaut la chandelle et répond à quatre enjeux MAJEURS :

  • l’exhaustivité du signalement catalographique,
  • la valorisation scientifique de l’IST,
  • la valorisation patrimoniale des BU,
  • la contribution des données Sudoc au Web de données liées.

Commençons par rendre la question moins effrayante : comment approcher la notion de qualité du catalogue Sudoc et prendre à bras le corps les anomalies qu’immanquablement les données contiennent ? Avec le webservice Algoliens, la porte d’entrée retenue concerne les zones de liens aux notices d’autorité. En effet, les notices d’autorité ont pour fonction de normaliser les points d’accès autorisés des notices – bibliographiques et d’autorités. De plus, elles recensent les variantes de formes. Enfin, elles ont vocation, dans les notices bibliographiques comme dans les notices d’autorité, à être liées à tous les points d’accès.

Conçu sous forme d’un web service, AlgoLiens détecte les notices dans lesquelles une zone de lien n’est pas liée. Ce servicepermet de générer à la demande un « rapport d’absence de liens dans les zones de lien du Sudoc » qui se présente sous forme d’un fichier .csv contenant les résultats des tests de l’algorithme.

L’algorithme porte, en premier lieu, sur la présence d’un lien situé dans les zones de lien des notices. Mais il fait bien plus en permettant de croiser de nombreux critères. Il est ainsi possible de filtrer les résultats souhaités par établissement, depuis une date fixée, pour un type de document précis, pour les unicas uniquement.

Voici par exemple la requête qui permet de remonter les notices des documents imprimés créées et modifiées par l’ILN 100 depuis le 10 mars 2015 dans lesquels des zones d’indexation ne sont pas liées :

http://www.idref.fr/AlgoLiens?typdoc=Aa&iln=100&code=B60X&date=20150310

Pour chaque PPN en anomalie, le catalogueur est invité à corriger la notice dans WinIBW ou IdRef. Le rapport dynamique lui suggère d’intervenir à tel ou tel endroit de la notice :

Algoliens_rapport

Aujourd’hui, des dizaines de milliers d’anomalies sont détectées. Face à l’ampleur de la tâche, il est nécessaire d’organiser le travail de correction. En utilisant des paramètres dans l’url de génération du rapport dynamique, il est possible de définir des lots personnalisés.

La documentation de ce webservice est disponible à cette adresse. Le J-e.cours de présentation de ce service qui a eu lieu le 1er décembre 2016 est accessible sur notre plateforme de formation.

Nous espérons que ce webservice sera l’occasion pour les établissements de mettre en place des chantiers de corrections ciblés, à l’instar de la démarche CERCLES. Et si vous ne savez pas par où commencer, songez à vos corpus préférés, vos petits trésors documentaires ou vos unicas… et testez des requêtes !!!

De son côté, l’ABES utilisera AlgoLiens pour suivre l’avancement des corrections de manière globale. De même, elle s’en servira pour déterminer des corpus pertinents sur lesquels l’apport d’algorithmes correctifs s’avérerait pertinent.

Enfin, un jour – que nous espérons le plus proche possible, ce webservice deviendra inutile car l’algorithme ne détectera plus aucune anomalie. Ce jour, nous pourrons être encore plus fiers du travail collectif accompli.

François Mistral, responsable du référentiel IdRef

CERCLES : retour d’expérience du SCD de l’Université de Picardie Jules Verne sur le corpus CAIRN

Les origines

Les questions sur SUCAT

cercles_upjv

Nouvelle adjointe à la gestion de la bibliothèque numérique dans mon établissement, et chargée du signalement des e-books, je me suis posé beaucoup de questions quant au traitement de ces ressources. J’ai étudié de près les avantages et inconvénients de l’exemplarisation automatique, notamment en terme de qualité et de complétude des notices, et lancé une question ouverte aux catalogueurs de ressources en ligne sur SUCAT (ndlr : la liste de diffusion des catalogueurs du réseau Sudoc), posant les questions qui me taraudaient, intitulée : « Aux catalogueurs des bibliothèques numériques ».

Les réponses ont afflué, l’ABES a également répondu que cela figurait parmi ses préoccupations actuelles.

La mise en place de CERCLES

Des pistes de résolution et une expérimentation avec un SCD sur le principe de mutualisation du traitement de la qualité des données de ressources électroniques dans le Sudoc étant déjà en cours, l’ABES m’a proposé de faire partie du projet naissant.

L’engagement

Avec l’accord de ma hiérarchie, un acte d’engagement a été signé entre mon établissement et l’ABES, mentionnant le périmètre d’action et les délais engagés.

Délimitation du périmètre d’action :

Un corpus clos a été établi par l’ABES, avec l’édition d’un tableau de PPN, édité à une date D, et dans lequel tout nouveau versement n’apparaîtra pas, soit une liste de 4852 notices à traiter.

Axes d’enrichissements :

L’accord initial prévoyait une mise en lien des 7xx, et le travail collatéral : indicateurs, codes de fonction, création d’autorités au besoin.

Évaluation en amont des notices du corpus :

Un travail préalable, sur un échantillon de 50 notices, m’a permis de faire une estimation du temps passé, mais aussi et surtout de constater nombre de surprises, et donc, d’élaborer quelques changements d’orientation, exposés et acceptés par l’ABES : ainsi, les notices dans lesquelles les auteurs étaient déjà liés, ont été exclues de mon champ d’action. Les notices dans lesquelles des liens étaient à créer sont restées à ma charge (1484 PPN).
Pour celles-ci, je me suis engagée, en plus de créer les liens et les notices d’autorité le cas échéant (+ travail collatéral pré-cité) :

  • à contrôler la construction des 200 ($f $g) ;
  • à redistribuer en conséquence les zones et codes de fonction en 7xx ;
  • à assurer les modifications suivantes : caractères parasites, arobase mal positionné, désordre des sous-zones en 200 ;
  • à signaler tout problème d’URL (ABES et Cairn).

Mon périmètre initial a été certes réduit (on est passé de 4852 notices à 1484), mais les modifications apportées sont finalement plus nombreuses et plus poussées.

Le chantier d’enrichissement

Traitement en pratique

By_Horla_Varlan_CC_BY

Étape 1 : j’ouvre les outils dont j’ai besoin

  • l’espace collaboratif CERCLES (les 3 documents « tableau de bord », « suivi pour info réseau » et « tableau de suivi »)
  • WinIBW
  • la plateforme « Cairn.info« 

Étape 2 : j’affiche la notice WinIBW à étudier (je copie/colle le PPN à partir de mon « tableau de suivi »)

Étape 3 : je copie/colle l’URL de la zone 859 dans « Cairn.info » pour vérifier l’URL fournisseur et accéder à la ressource

Si l’URL est erronée, je recherche par titre puis demande de modification de la zone 859 à l’ABES via le guichet d’assistance + signalement à Cairn + transmission au Correspondant Catalogage pour diffusion de l’information sur les listes, afin que les bibliothèques actualisent leur E856. Je corrige immédiatement la zone E856 de mon exemplaire.

Étape 4 : j’ouvre le document dans « Cairn.info » (en PDF ou en HTML) pour accéder à la page de titre notamment, source principale de catalogage. Je commence le travail de vérification / enrichissement :

  • vérification de la conformité de la zone 200 $a, $e ; $f ; $g, et corrections le cas échéant
    • toujours, les auteurs, toutes responsabilités confondues, sont présents en $f
    • souvent, il manque $e
    • souvent, $e est mal placée (après $f)
  • redistribution des 7XX et des codes de fonction, corrections
    • toujours, il n’y a que des 700 et 701, pas de 702 (beaucoup d’auteurs en réalité « directeurs »)
    • toujours, les indicateurs des 7XX sont erronés
  • mise en lien des 7XX
    • création d’Autorités Personnes Physiques (APP) le cas échéant
    • vérification des liens déjà faits : parfois, les liens sont erronés (homonymes)
    • vérification des données codées des APP (zone 106 en particulier)
    • si un doublon APP est identifié, transmission au Correspondant Autorité
  • vérification de l’indication du type de document : 200 $b ou 181-182
    • parfois, les deux coexistent : suppression de 200 $b
  • vérification de la zone 300, et corrections le cas échéant
    • souvent, des caractères parasites sont présents

Étape 5 : je légende mon document « tableau de suivi », selon mon code couleurs

Étape 6 : je trie et chiffre le travail effectué

Étape 7 : je reporte les informations dans le « tableau de bord » (le récit au jour le jour de mon travail, pour l’ABES et pour moi) et dans le document « Suivi pour info réseau » (les infos sur l’avancée du chantier, pour les membres du réseau).

Dans le SIGB Horizon, la mise à jour du catalogue local s’effectue au fil des corrections, par le transfert régulier quotidien.

Les moyens

Outil collaboratif et référent :

Le répertoire BOUDA (GED de l’ABES), un temps utilisé, puis le GoogleDrive permettent un accès garanti aux outils de suivi. Merci à l’ABES de les avoir mis à disposition.

Outils « maison » :

Pour gagner du temps, je me suis créé des « messages-modèles », à destination du guichet d’assistance ABESstp, des Correspondants Catalogage et Autorité de mon établissement, de mon interlocutrice chez Cairn. Je n’ai plus qu’à y remplacer les PPN et/ou URL.

Les difficultés :

  1. L’engagement dans le temps : seule sur la gestion de ce chantier, et occupée comme tout un chacun par les tâches quotidiennes et les autres projets de mon établissement, je n’ai pas pu respecter le délai imparti. De plus, l’accord initial ne prévoyant pas un travail si poussé sur les notices, l’estimation du temps de traitement s’est vite avérée complètement fausse.
  2. Les créations d’APP : elles peuvent s’avérer difficiles, si ni IdRef ni l’ouvrage lui-même ne fournissent d’information sur l’auteur. La zone 340 de l’autorité ne peut donc être renseignée.

Conclusion

Bilan quantitatif

C’est là où le bât blesse : surprises au gré du chantier, suivi du chantier en solitaire, charge de travail, … La quantité de notices traitées est loin de celle visée. Le traitement est long. En cette fin d’ année universitaire 2015-2016, 493 notices sont traitées selon les modalités approfondies, pour 814 liens en 7XX et 56 créations d’APP.

Bilan qualitatif

  1. La qualité du Sudoc : à propos du travail effectué, je suis plutôt satisfaite. Une satisfaction à la fois personnelle, parce que le format des notices d’e-books, nouveau à mes yeux n’a plus de secret pour moi, et aussi professionnelle, de par la contribution à l’enrichissement de ces notices, et ceci non seulement pour mon établissement, mais à l’échelle du réseau (ndlr : depuis avril 2016, la BNU de Strasbourg s’est aussi lancée dans un chantier CERCLES sur les monographies encyclopédiques CAIRN).
  2. La qualité des notices fournies par l’éditeur : mon interlocutrice chez Cairn compile les types de problèmes rencontrés, et veille à l’amélioration future de la fourniture des métadonnées, afin de ne pas reproduire ces problèmes désormais identifiés.

L’ABES et moi

cercles_rond

Mon référent est toujours disponible. Merci à Kattialyn G. et aussi à Laurent P. ! J’ai été très honorée que l’ABES m’ait proposé ce projet. Je me sens d’autant plus active au sein du réseau que mon établissement participe à un chantier de mutualisation d’enrichissement des données.

La valorisation et la visibilité des données n’est pas une mince affaire, mais à l’heure de l’évolution des catalogues de bibliothèques, une collaboration entre les éditeurs et l’ABES, mise en pratique par les membres du réseau, est capitale.

Aurélie Bec, pour le SCD de l’université de Picardie Jules Verne  logo_scd_upjv

 

 

Récit d’une immersion. Traiter les ebooks Dalloz avec les données Sudoc, les données de l’éditeur et les outils du hub

Ce billet relate à la première personne l’immersion effectuée par Catherine Storne (Université de Strasbourg) au sein de l’équipe hub de l’ABES, entre le 1er et le 5 février 2016. Catherine a eu l’occasion de partager cette expérience aux dernières journées ABES. Merci pour tout, Catherine !

Placée en face de la nouvelle « Metadaten Weltanschauung » au travers de la réflexion locale sur l’abonnement à un outil de découverte (discovery tool) ou sur les réalisations de la plateforme ISTEX sur les licences nationales, je ressentais le besoin de monter en compétences sur la manipulation des métadonnées. J’ai donc souhaité faire une immersion à l’ABES pour mieux comprendre les projets de l’établissement tournant autour des métadonnées dont les noms parvenaient aux confins de nos bibliothèques : BACON, hub de métadonnées, CERCLES, ainsi que les liens entre eux. Mon objectif étant de travailler au rapprochement, au sein du SCD de Strasbourg, des équipes de la documentation électronique et du catalogage, la participation à un projet concret, au travers d’un chantier CERCLES me semblait de nature à y contribuer.

Après discussion avec quelques collègues, il est apparu que le corpus d’e-books de la bibliothèque numérique Dalloz était mal-traité, i.e mal catalogué au SCD, qu’un catalogage de qualité de ce corpus dans le Sudoc était attendu et profiterait à l’ensemble des bibliothèques du réseau.

Pour l’ABES, l’immersion devait permettre d’avancer dans la réflexion sur le rôle que certains établissements pourraient jouer dans la chaîne de traitement des métadonnées fournies par les éditeurs, avant même leur traitement par le hub de métadonnées.

Avec un peu (beaucoup) d’appréhension à l’idée de me retrouver dans l’antre de « Winnie » [WinIBW] sans savoir réellement cataloguer et sans avoir retenu de mes lectures sur RDF tout ce que j’aurais dû, je quittais mon grand Est natal pour rejoindre le temps d’une semaine Montpellier, la surdouée.

1.  Les données sur la bibliothèque numérique Dalloz

La plateforme de Dalloz http://www.dalloz-bibliotheque.fr/ , permet une recherche sur les e-books de cet éditeur par titre, auteur, domaines ou collections. La liste complète des titres sous la forme d’un tableau est quant à elle disponible à  http://www.dalloz-bibliotheque.fr/listing.php (appelée par la suite « Tableau-Dalloz »).

Par ailleurs, Dalloz met à disposition un entrepôt OAI : http://logistic.book-vision.com/services/oai/act68.php?verb=ListRecords&metadataPrefix=onix_dc (appelé par la suite « OAI-Dalloz ».)

1.1  Premier constat

Les deux sources ne comportent pas un nombre identique de titres (1939 pour Tableau-Dalloz, 1626 pour OAI-Dalloz) ni les mêmes données.

Tableau-Dalloz contient l’ISBN électronique, l’ISBN papier correspondant, le titre, le n° de l’édition, la collection. Pas même l’URL de consultation. Les données d’OAI-Dalloz sont plus riches ; parmi elles : titre, auteur, sujet, résumé, éditeur, date d’édition, ISBN électroniques, les informations pour la reconstitution d’une URL de consultation, etc.

1.2  Deuxième constat, dû à l’œil expert des collègues de l’ABES

Tous les titres, ou presque, sont catalogués dans le Sudoc, pour la version papier du livre. Le web service isbn2ppn de l’ABES permet, à partir des ISBN-papier du tableau-Dalloz d’obtenir la liste des ppn (de la version papier) correspondants ; une extraction du Sudoc de ces titres à partir de la liste des ppn (de la version papier) constitue la troisième source de données (appelée Sudoc-Dalloz),

1.3  Directions de travail

A partir de ces deux constats, s’esquissent quelques lignes de travail :

  • vérifier la qualité des notices du Sudoc, pour s’assurer que les liens sont présents (6XX et 7XX, collection)
  • comparer les 3 sources entre elles.

Pour les notices Sudoc :

  • tous les 7XX ont un lien vers un ppn autorités
  • tous les 410 ont un lien vers le ppn de la collection

Sur les 1939 du Tableau-Dalloz :

  • 38 titres ne sont pas catalogués dans le Sudoc dans leur version papier
  • 38 autres titres sont déjà catalogués dans le Sudoc dans leur version électronique
  • 1 titre du Tableau-Dalloz contient une erreur d’ISBN électronique
  • 31 ppn sont écartés car il faut vérifier s’ils sont des doublons

Au final, il reste 1832 titres qui ne posent aucun problème.

En règle générale, le hub de métadonnées part des données des éditeurs pour créer les notices d’e-books. Dans le cas du corpus Dalloz, la réflexion est différente car la pré-existence dans le Sudoc des notices des documents papier, complètes, constitue une base de départ fiable.Il est donc décidé de créer les notices des e-books dans le Sudoc à partir des notices correspondantes des livres-papier puis d’utiliser les données venues des sources Dalloz pour enrichir ou corriger les notices créées dans le Sudoc en utilisant pour cela des outils développés dans le cadre du Hub de métadonnées.

2.  Création par copie de notices d’e-books dans le Sudoc

Pour chaque ppn indiqué, le script de création de notices a dupliqué la notice du livre imprimé en y apportant les modifications du tableau ci-dessous :

Notice papier Notice d’e-book correspondante
001 Non repris
002 Non repris
003 Non repris
008 Par défaut :

$aOax3

010 Non repris
020 Non repris
021 Non repris
033 Non repris
034 Non repris
035 Remplacé par défaut par :

##$aBNDalloz

073 Non repris
106 Non repris
135 Ajout par défaut :

##$av$br$cm$e#$gm$ia$ja

181 Ajout par défaut :

##$P01$ctxt

182 Ajout par défaut :

##$P01$cc

215 Non repris
225 Non repris
230 Ajout par défaut :

##$aDonnées textuelles

337 Ajout par défaut :

##$aNécessite un logiciel capable de lire un fichier au(x) format(s)Widelook ou Widelook Flash

410 Non repris
452 Ajout par défaut :

##$0″ + ancienPpn

801 Non repris
802 Non repris
830 Non repris

 

3.  Les enrichissements du hub de métadonnées (ABES)

Les notices d’e-books ont été enrichies par le hub de métadonnées.

Pour ce faire, le fichier « Tableau-Dalloz » a été complété via l’outil Openrefine (téléchargeable à openrefine.org/), des données suivantes :

  • ppn papier (obtenu grâce au web service isbn2ppn)
  • ppn électronique (équivalence p-ppn/e-ppn obtenue par le compte-rendu du script de création)

Il a ensuite été transformé en RDF.

Par ailleurs, les données « OAI-Dalloz » ont été converties en RDF/XML et chargées dans la base XML Oracle de l’ABES. Plusieurs notices étant en doublon dans le moissonnage OAI, le nombre final d’e-books distincts est de 1566.

3.1  RDF

3.1.1  En trois mots

RDF est le langage du web sémantique.

« RDF (Resource Description Framework) est un modèle de représentation de données élaboré sous l’égide du W3C (World Wide Web Consortium). Il attribue à des ressources, identifiées par des URI, des propriétés et des classes (ou catégories), permettant de les définir, les décrire, ou d’établir des relations entre elles. […]

Les données sont découpées en entités élémentaires pour former des triplets : <sujet> <prédicat> <objet>

  • le sujet est l’identifiant de la ressource ;
  • le prédicat est une propriété ou une relation, elle-même identifiée par une URI (le plus souvent représentée par un préfixe) ;
  • l’objet est l’identifiant d’une autre ressource en relation avec la première, une valeur ou un littéral. »

Définition trouvée dans : http://documentation.abes.fr/sudoc/manuels/pdf/sudoc-rdf.pdf (consulté 06/03/2016)

3.1.2  Choix de construction des URI

Pour que les sujets, prédicats, éventuellement objets puissent être identifiés de manière unique, il faut leur attribuer des identifiants, construits sous forme d’URI.

Voici les choix qui ont été faits dans le cas de la bibliothèque numérique Dalloz pour construire un modèle de création des URI pour les œuvres et les manifestations.

  • Pour l’œuvre :
  • Pour la manifestation :
    • Manifestation électronique :
      • champs attribués à la manifestation électronique : issn (électronique), ppn (électronique), numéros permettant de reconstituer l’url de consultation (n° puc, n° nu), date de publication
      • identifiant choisi : ISBN électronique
    • Exemple : http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/web (/m pour préciser qu’il s’agit d’une manifestation ; /web pour préciser qu’elle est électronique)
    • Manifestation imprimée (papier) :
      • champs attribués à la manifestation électronique : issn (papier), ppn (papier), date de publication
      • identifiant choisi : ISBN électronique
    • Exemple : http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/print (/m pour préciser qu’il s’agit d’une manifestation ; /print pour préciser qu’elle est imprimée)

3.1.3  Exemples de triplets

<http://www.hub.abes.fr/bndalloz/ebook/9782247103713/w> dcterms:title "50 droits contre l'exclusion " ;

<http://rdaregistry.info/Elements/w/P10072> <http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/web>, <http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/print> .

Signifie : L’oeuvre dont l’identifiant (l’ISBN électronique) est 9782247103713 a pour titre « 50 droits contre l’exclusion » ; elle a deux propriétés dont on retrouve la définition dans rdaregistry : P10072 correspond à « has manifestation of work ; donc, l’oeuvre a deux manifestations : l’une  électronique, l’autre imprimée.

<http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/web> <http://purl.org/ontology/bibo/isbn> "9782247103713" ;

<http://www.hub.abes.fr/namespaces/ppn> "191163120" ;

dcterms:isPartOf <http://www.hub.abes.fr/bndalloz/collection/asavoir> ;

<http://purl.org/ontology/bibo/edition> "1" .

Signifie : la manifestation électronique a pour ISBN électronique 9782247103713 et  pour ppn (défini dans le vocabulaire du hub) 191163120 ; elle appartient à la collection « asavoir » (A savoir) et en est à la première édition

<http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/print> <http://purl.org/ontology/bibo/isbn> "9782247070602" ;
<http://www.hub.abes.fr/namespaces/ppn> "134600878"

Signifie : la manifestation papier a pour ISBN papier 97822470706020 et pour ppn 134600878.

RDF, par les déclarations  et les triplets, décrit des relations. Ces relations peuvent être décrites sous forme de représentations graphiques, composées d’ovales, flèches, rectangles.

dalloz_graphe

 

3.1.4  Les graphes

On obtient deux sous-ensembles séparés dans la base RDF (ce qu’on appelle des « graphes ») :

  • celui des données du « Tableau-Dalloz » enrichi :

<http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016/tableaudalloz>

  • celui des données « OAI-Dalloz :

<http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016/>

Les URI des documents étant dans chacun d’eux construits sur l’ISBN électronique, les données peuvent être fusionnées facilement.

3.2  Le programme MARCEDMOD

L’ABES a récemment développé un programme expérimental de modification de notices du Sudoc, répondant au doux nom de MARCEDMOD [pour Marc-édition-modification ? eux, comme ils veulent toujours créer du lien, l’appellent plutôt Marc et Maud ! Il faudra quand même leur demander la source de leur inspiration !].

Ce programme interroge les données auparavant converties en RDF, avec des requêtes SPARQL (SPARQL n’est rien d’autre que le langage de requête des données en RDF). Ces requêtes permettent de sélectionner les triplets correspondant aux critères choisis. Ensuite, pour chaque type de modification à faire dans le Sudoc, un script va chercher les notices correspondantes dans le Sudoc et opérer la transformation souhaitée en remplaçant la donnée présente dans le Sudoc par celle issue de RDF.

Par exemple, pour ajouter la Dewey issue de OAI-Dalloz sur les notices du Sudoc qui n’en ont pas, MARCEDMOD fait ce qui suit :

select distinct ?eppn

# Je sélectionne tous les ppn électroniques

from <http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016/tableaudalloz>
from <http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016>

# à la fois dans les données Tableau-Dalloz et OAI-Dalloz désormais présentes en RDF dans la base du hub

where {

?work <http://rdaregistry.info/Elements/w/P10072> ?manif.

?manif <http://iflastandards.info/ns/isbd/elements/P1003> <http://iflastandards.info/ns/isbd/terms/mediatype/T1002>.

?manif <http://www.hub.abes.fr/namespaces/ppn> ?eppn.

# pour lesquels une œuvre a une manifestation, manifestation qui est de type électronique et qui a dans le hub un ppn électronique

} LIMIT 1000

Script :

J’injecte cette liste de ppn électroniques dans le Sudoc :

Node zone=Notice.find("676");

Je recherche toutes les zones « 676 »

if (zone == null)
{
Notice.Insert("676","#","#","a","340");

S’il n’y a pas de Dewey présente, j’insère 676##a340

}
else
{
Notice.alert("la zone existe dejà");
}

Sinon, je ne fais rien et je dis que « la zone existe déjà »

3.3  Enrichissements faits par le hub

  • Résumé : prévu, sera bientôt fait
  • ISBN électronique (tirés du tableau-Dalloz)
  • Dates d’édition : dates du tableau-Dalloz ajoutées en 100$a et 210$d (par écrasement de celles éventuellement présentes)
  • Edition : pour les titres du tableau-dalloz ayant un numéro d’édition autre que 1, ce numéro d’édition a remplacé celui présent dans le Sudoc
  • Dewey : pour les notices sans 676, ajout d’un 676 avec le code dewey 340 tiré d’OAI-Dalloz
  • URL : le champ 859 a été créé pour les seules les notices de OAI-Dalloz ont pu être traitées car les numéros permettant de reconstituer l’URL ne sont pas présents ailleurs.
  • Editeur : seules les notices de OAI-Dalloz ont pu être traitées

4.  Le programme de travail du chantier CERCLES

Récapitulatif des travaux catalographiques (vérifications ou corrections) à faire dans le Sudoc par le SCD de Strasbourg :

  • Catalogage des notices qui n’ont de ppn papier : 38 titres
  • Vérification et enrichissement des notices d’e-book qui existaient déjà dans le Sudoc : 35 titres
  • Vérification d’1 titre du Tableau-Dalloz qui contient une erreur d’ISBN électronique
  • Catalogage des 31 ppn écartés car il faut vérifier s’ils sont des doublons
  • Vérification des notices pour lesquelles la date d’édition entre le Sudoc et le tableau-Dalloz sont différentes : 59 titre
  • Enrichissement manuel des notices ne figurant pas dans OAI-Dalloz : 382 titres
    • ajout de l’url
    • modifier l’année
    • modifier l’éditeur
    • ajouter le code Dewey “340” si aucun Dewey n’est présent dans la notice
  • Titres présents dans OAI-Dalloz mais absents de tableau-Dalloz : 29 titres à traiter dans un second temps
  • Travail sur les notices d’e-books créées par l’ABES :
    • collections numériques : récupération du ppn ou demande de création
    • Envoi à l’ABES des ppn des collections numériques, en regard des URI fournis par l’ABES
    • Vérifier nécessité de créer et comment les champs 303,304,305,307,339
    • Vérifier les 13 notices signalées par l’ABES pour lesquelles plusieurs urls de consultations sont associées (liste fournie par l’ABES)

Conclusion

La durée de l’immersion n’a pas encore permis de répondre aux questionnements de l’ABES sur une implication d’établissements volontaires dépassant le cadre du catalogage et s’attachant  à des manipulations préparatoires sur les données soit pour participer à la mise à jour régulière des corpus  soit pour alimenter aussi BACON . Cette réflexion est encore en cours et fera l’objet vraisemblablement d’un autre billet.
Il nous faudra également revenir sur le chantier CERCLES en cours et et sur la question du fichier KBART, qui dépend de l’action de l’éditeur lui-même.

 

Catherine STORNE,

Responsable du département du système d’information documentaire,

SCD de l’université de Strasbourg

Mettre nos données en réseau – un démonstrateur. [1] Introduction.

Ce démonstrateur est un plaidoyer en faveur d’une approche “web sémantique” de l’interopérabilité des données de l’IST. Mais, cette fois, il s’agit de montrer et non d’argumenter. Il s’agit de défendre, en illustrant cette approche par des études de cas. Alors, si vous fuyez les plaidoyers, si vous exigez du concret, de la donnée (RDF), de la requête (SPARQL), passez cette introduction et lisez l’un des billets suivants :

  1. Introduction (ce billet)
  2. Inventaire des données
  3. Suivez le guide ! Le modèle de données
  4. Études de cas

SPARQL endpoint : https://lod.abes.fr/sparql
Interface de recherche full text et de navigation : https://lod.abes.fr/fct

Pourquoi ce démonstrateur

Mettre nos données en réseau, c’est structurer et publier nos données conformément aux principes et aux bonnes pratiques du web sémantique.
Nos données, ce sont à la fois les données produites par les réseaux ABES (Sudoc, Sudoc PS, Thèses, Calames) mais également  toutes ces données voisines, complémentaires produites par les éditeurs, l’administration, les institutions culturelles, les institutions dédiées à l’information scientifique et technique (IST).
Ce périmètre est par définition extensible : par exemple, si nos données, ce sont d’abord les métadonnées de thèse électronique produites ou importées dans STAR, ce sont également les informations sur l’équipe de recherche (RNSR, HAL, IdRef), l’école doctorale (Ministère, IdRef), l’entreprise qui finance le contrat CIFRE (ANRT), les articles du doctorant (HAL et autres archives, éditeurs), la production du directeur de thèse (HAL, éditeurs), les vocabulaires contrôlés qui décrivent le contenu (RAMEAU, MeSH, tel vocabulaire spécialisé, etc.), les bibliothèques qui possèdent telle thèse, etc.
Second exemple : nos données, ce sont d’abord les métadonnées des articles acquis dans le cadre d’ISTEX (ISSN, Sudoc), mais ce sont également les métadonnées des revues, des fascicules et des volumes, les métadonnées des auteurs (IdRef, ISNI, VIAF, ORCID, HAL, Persée, Wikipedia, etc.), les affiliations, les vocabulaires contrôlés, les métadonnées sur le package commercial correspondant à l’acquisition (BACON, GoKB), la licence, les bibliothèques couvertes par la licence, etc.

lodcloud
Troisième et dernier exemple : pour savoir que tel auteur est affilié à l’université Paris 4, on a besoin de remonter le courant : de telle notice Sudoc à tel auteur IdRef, puis à tel auteur HAL, puis à tel document HAL, puis à telle équipe de recherche du référentiel HAL, puis à cette même équipe dans le référentiel RNSR, équipe rattachée à Paris 4. Il existe un chemin plus court, mais dans tous les cas, il faut être agile, rebondir d’une base à l’autre, d’un organisme à l’autre.
ist_organismes

L’information est par définition extensible. On ne peut définir a priori le périmètre des données qui correspond à nos besoins. La gestion de l’information doit être aussi extensible que l’information elle-même.
Et précisément, les technologies du web sémantique sont faites pour ça : établir des liens effectifs entre données complémentaires, sans fixer à l’avance ni le périmètre des données, ni la nature de ces liens.

Une base RDF + des requêtes SPARQL

Ce démonstrateur n’est rien d’autre que l’agrégation de données RDF brutes au sein d’une seule base de données. Si ce n’est préparer et documenter ces données, nous n’avons rien fait d’autre : ni construction d’index pour interroger les données, ni développement d’un web service de recherche, ni réalisation d’une interface graphique. Nous nous sommes contentés de charger ces données brutes dans une base RDF supportant le langage de requête SPARQL : ipso facto, nos données sont devenues interrogeables, consultables, navigables.

Pour interroger nos données, il suffit de se rendre à cette adresse : https://lod.abes.fr/sparql et de lancer une requête SPARQL. SPARQL est un langage très puissant, qui demande un apprentissage progressif. Mais tous les billets de cette série proposent des exemples de requête. Ce sont de bons points de départ. Si vous vous prenez au jeu, forgez vos propres requêtes et les jugez intéressantes, merci de les partager en commentaires.
SPARQL est un langage mais également un protocole web , c’est-à-dire un web service : https://lod.abes.fr/sparql n’est donc pas seulement une page web pour fans des données, mais également l’URL principale d’un web service de recherche qui permet à n’importe quel programme d’interroger une base RDF et d’en exploiter les résultats sous différents formats (HTML, XML, CSV, JSON, etc.). Grâce  à SPARQL, nous pourrons offrir une API standard pour interroger de manière sophistiquée les corpus ISTEX, par exemple, en complément de l’API de recherche développée par l’INIST. On a besoin des deux : une base de données ouverte et un moteur de recherche ouvert.
Si vous n’êtes ni un geek ni un programme, vous avez la possibilité de vous promener dans les données de notre base via cette interface, livrée avec le logiciel qui gère notre base de données : https://lod.abes.fr/fct. Chaque page de cette interface correspond à une entité de notre base (un article, une personne, un concept, etc.). Ainsi, la page https://lod.abes.fr/describe/?url=http://hub.abes.fr/springerB/ebook/3540183000/w décrit l’ebook identifié par : http://hub.abes.fr/springerB/ebook/3540183000/w. (Si vous activez cette URL, conformément aux principes des linked data (par TBL, il y a dix ans), vous serez redirigé vers une page qui décrit ce document : ne pas confondre la chose et sa description).
Cet ebook est caractérisé par des attributs (son titre, sa langue) et par des relations : relations vers les concepts dont parlent ce livre, relations vers l’éditeur, relations vers les auteurs (via le concept de contribution), etc. Ce sont ces relations qui permettent de naviguer d’entité en entité, comme on parcourt une encyclopédie. On croit naviguer d’une page à l’autre, mais en fait on navigue aussi d’une chose à l’autre : d’un laboratoire vers une personne, d’une personne vers un document, d’un document vers un concept, etc. De proche en proche, l’ensemble de ces relations constitue un réseau de données, un web de données.

Stratégie du coucou ? Pourquoi mettre tous ces données dans le même panier ?

Il sera naturel de soulever l’objection suivante : vous n’allez pas prétendre enfermer le web de données dans le monde clos de votre base ? Par définition, le web est décentralisé et il doit en être de même pour le web de données.
Cette objection est tout à fait légitime : il y a quelque chose d’artificiel à vouloir démontrer l’efficacité du web sémantique comme solution d’interopérabilité en rassemblant au sein d’une même base tous les jeux de données qu’on veut interconnecter et faire interagir. Nous justifions ainsi notre choix :
La plupart des données que nous voulions entrelacer n’existent pas (encore) sous forme RDF. On s’y est collé, à des fins pédagogiques.
Les solutions pour interroger un web de données décentralisé ne sont pas encore tout à fait mûres. SPARQL prévoit bien la recherche fédérée mais, quel que soit le type de technologies, ce type de recherche achoppe toujours sur les mêmes difficultés (disponibilités des bases à interroger, performances).
Il va de soi que ce n’est pas à l’ABES de produire, maintenir et publier en RDF les données du RNSR, de HAL, de Paris 4 ou d’ORCID, voire de Nature ou Springer (d’ailleurs, la plupart de ces initiatives sont précisément en train de construire leur offre de service RDF – disons, à notre connaissance, 4 sur 6 – nous vous laissons deviner). Ce qu’on espère c’est précisément un monde où les uns et les autres, sans concertation, sans négociation, sans plan quinquennal, font le pari du web sémantique et, comme par miracle, contribuent à construire un espace public de données, souvent complémentaires, parfois redondantes, parfois dissonantes.
Il ne s’agit pas de s’accorder entre nous (même si ça aide et fait plaisir), mais de s’accorder sur les mêmes bonnes pratiques internationales, sur l’état de l’art.

Affirmons à nouveau que chaque producteur est responsable de publier ses données et que le consommateur a le choix des moyens pour les exploiter : requête SPARQL fédérée, navigation à travers des browsers sémantiques, récupération de données en local (ne serait-ce que pour leur faire jouer le rôle d’un cache). Chaque solution a ses avantages et ses contextes d’utilisation privilégiés.

Caveat emptor

  • Ce démonstrateur est un démonstrateur.
  • Ce démonstrateur est vivant et donc périssable. Nous nous réservons le droit d’y ajouter des données, d’en retirer et même de le passer par pertes et profits.
  • Les URLs de ressources commençant par http://hub.abes.fr n’ont pas de durée de vie garantie. Encore moins les URLS pour les ressources de BACON,  HAL, de Persée ou du RNSR.
  • Certains jeux de données de la base sont complets (ORCID, Nature), d’autres ne sont que des échantillons (Annuaire Paris 4, Sudoc, IdRef, Oxford UP).
  • L’approche web sémantique n’est pas l’alpha et l’oméga de l’interopérabilité. A côté de la puissance de SPARQL, coûteuse et pas toujours performante, il y a de la place pour des API hyperspécialisées et hyperoptimisées, comme les micro web services du Sudoc ou d’IdRef.

Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Pour les besoins de la démonstration, nous avons agrégé des données diverses et variées, mais finalement cette auberge espagnole n’est pas si anarchique : tout mène à tout, et on peut regrouper les jeux de données de différentes manières :

  • Données descriptives vs Référentiels
  • Données produites par les réseaux ABES vs Données de tiers
  • Données du monde des bibliothèques vs Données d’autres mondes (science, administration, etc.)
  • Données récupérées en RDF vs Données produites en RDF

Mais dans ABES, il y a B : notre réseau de données se déploie autour des données bibliographiques, qui décrivent des livres, des revues, mais également des chapitres et des articles.

Un jeu de données = un graphe nommé dans la base

Chaque jeu de données chargé dans la base RDF demeure un sous-ensemble bien identifié, un « graphe nommé« . Les données se croisent mais conservent leur pedigree.

Dans une requête SPARQL, on peut préciser ne vouloir interroger que les données de tel graphe – ou de plusieurs graphes. La requête suivante va chercher des titres de document dans le seul graphe des documents HAL :


PREFIX dcterms: <http://purl.org/dc/terms/>
select ?titre
from <http://hub.abes.fr/ccsd/docs/paris4>
where {
?document dcterms:title ?titre.
} LIMIT 10

Pourtant, il n’est pas conseillé d’utiliser le graphe comme un filtre de recherche documentaire : une même base peut être partitionnée en graphes de mille manières différentes ; on pourrait même tout mettre dans un seul graphe. L’organisation par graphes obéit moins à une logique documentaire qu’à des contraintes prosaïques de gestion de la base (regrouper les données ayant la même origine, par exemple) . Cette organisation fera davantage penser aux magasins du CTLES qu’aux salles de bibliothèque en libres accès.

Attention : le nom d’un graphe est une URI, comme http://hub.abes.fr/ccsd/docs/paris4 par exemple, mais inutile de cliquer dessus : elle ne mènera rien, elle sert d’identifiant unique, pas d’adresse web.

Les documents ISTEX

Dans le cadre du projet hub de métadonnées, cette approche « web sémantique » a d’abord été appliquée aux métadonnées livrées dans le cadre d’ISTEX, programme d’acquisition massive de documentation électronique. Ce cadre se prêtait parfaitement à cette approche : les éditeurs nous livrent des données riches et hétérogènes. Notre travail est de conserver toute cette richesse, de l’enrichir encore et de redistribuer librement ces données.

Dans le démonstrateur on trouvera ces données ISTEX :

Revue OUP

Contenu : Métadonnées de la revue Oxford Economic Papers : articles (2112), fascicules, volumes, périodique.

Graphe : http://hub.abes.fr/oup/journals/oxecon

Modélisation : ABES

Exemple :

<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O33> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#F23> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O34> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://rdaregistry.info/Elements/w/P10072>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/m/web> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://purl.org/ontology/bibo/Article> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://vivoweb.org/ontology/core#relatedBy>  <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/authorship/1-1> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/isPartOf>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/w> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://hub.abes.fr/namespace/articleType>    <http://hub.abes.fr/oup/articletype/researcharticle> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#F13> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdaregistry.info/Elements/c/C10001> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://rdaregistry.info/Elements/w/P10072>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/m/print> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://vivoweb.org/ontology/core#relatedBy>  <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/authorship/1-2> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O14> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/title>  "On welfare reducing technological change in a North-South framework"^^<http://www.w3.org/1999/02/22-rdf-syntax-ns#XMLLiteral> .

 

Revues Nature (NPG)

Contenu : Tous les articles de toutes les revues Nature (NPG), dont la fameuse Nature.

Ce jeu de données a ceci de particulier qu’au lieu de convertir en RDF les métadonnées XML livrées par l’éditeur, nous avons privilégié les données RDF générées par l’éditeur lui-même. Ce sont des données d’assez bonne qualité, plus riches que les livraisons XML par certains côtés, moins par d’autres.

Côté plus, l’éditeur a fait un gros travail d’indexation des articles selon un thesaurus maison et un très précieux travail d’alignement de ce thesaurus vers les versions RDF de Wikipedia et MeSH. Ces alignements nous ont tout particulièrement intéressés, vous vous en doutez…

Côté moins, la version RDF est très pauvre en informations sur les auteurs, tandis que la version XML possède des données d’affiliation et des emails, par exemple.

Il s’agit donc d’un cas singulier, mais prometteur et appelé à se généraliser : l’éditeur ouvre lui-même ses données en RDF, mais ces données ne sont pas exhaustives. Il demeure pertinent d’exiger de lui une livraison de données brutes, XML dans ce cas, pour en extraire de informations précieuses et complémentaires. Selon les cas, on pourra redistribuer ces informations ou bien se contenter de les exploiter en interne, par exemple pour générer des alignements.

Graphes (nombreux) :
http://ns.nature.com/graphs/articles
http://ns.nature.com/graphs/contributors
http://ns.nature.com/graphs/map-article-types-dbpedia
http://ns.nature.com/datasets/npg-core-ontology
http://ns.nature.com/graphs/map-journals-dbpedia
http://ns.nature.com/graphs/map-journals-wikidata
http://ns.nature.com/graphs/map-subjects-dbpedia
http://ns.nature.com/graphs/map-subjects-mesh
http://ns.nature.com/graphs/map-subjects-wikidata
http://ns.nature.com/article-types
http://ns.nature.com/blogs
http://ns.nature.com/terms
http://ns.nature.com/journals
http://ns.nature.com/publish-states
http://ns.nature.com/relations
http://ns.nature.com/review-states
http://ns.nature.com/subjects
http://ns.nature.com/graphs/articles-dbpedia
http://ns.nature.com/summary-types

Modélisation : NPG

Exemple :

<http://ns.nature.com/articles/ajg20001205>	<http://ns.nature.com/terms/hasJournal>	<http://ns.nature.com/journals/ajg> .
<http://ns.nature.com/articles/ajg20001205>	<http://purl.org/ontology/bibo/doi>	"10.1111/j.1572-0241.2000.02953.x" .
<http://ns.nature.com/articles/ajg20001205>	<http://ns.nature.com/terms/hasContributor>	<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205> .
<http://ns.nature.com/articles/ajg20001205>	<http://purl.org/dc/elements/1.1/title>	"Urinary retention: a systemic complication of botulinum toxin injection therapy for achalasia" .

 

Ebooks Springer

Contenu : plus de mille livres Springer, composés de plus de 300 000 chapitres.

Graphe : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC

Modélisation : ABES

Exemple :

<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://purl.org/ontology/bibo/Book> .
<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://hub.abes.fr/namespace/subTitle>	"A Case Study in Pipelined Architecture and Vector Processing" .
<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://purl.org/dc/terms/subject>	<http://www.idref.fr/027756688/id> .

 

Les documents HAL

Contenu : environ 8 500 documents ayant pour affiliation Paris 4.

Graphe : http://hub.abes.fr/ccsd/docs/paris4

Modélisation : ABES

Exemple :

<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://vivoweb.org/ontology/core#relatedBy>	<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/authorship/1> .
<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://purl.org/dc/terms/title>	"Diversité linguistique en Nouvelle-Calédonie"@fr .
<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://purl.org/dc/terms/subject>	<https://hal.archives-ouvertes.fr/resource/domain/shs.anthro-se> .

 

Les documents Sudoc

Contenu :

  • Ebooks Dalloz (BND)
  • Livres papier et électroniques correspondant aux ebooks Springer
  • Documents liés aux auteurs IdRef mentionnés dans la base (description bibliographique succincte, non structurée)

Il faudra bien, plus tard, verser tout le Sudoc : toutes les notices ; tous les champs MARC de ces notices . Ce qui est une autre paire de manches. On y travaille…

Graphe :
http://www.sudoc.fr (Ebooks Dalloz)
http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/SUDOC/ELEC (Springer)
http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/SUDOC/PRINT (Springer)
http://www.idref.fr (entre autres, références des documents liés à une autorité chargée dans ce graphe)

Modélisation : ABES

Exemple :

<http://www.sudoc.fr/19116433X/id>	<http://id.loc.gov/vocabulary/relators/aut>	<http://www.idref.fr/060265310/id> .

 

Les référentiels de personnes

 

VIAF

Contenu : chaque mois, nous récupérons et traitons le dump VIAF des alignements entre fichiers d’autorité. Nous n’avons donc que les liens, et pas le contenu des autorités. (Et encore, nous ne gardons qu’une partie des liens, ceux qui relient des fichiers qui ont pignon sur rue. Mais cela fait tout de même près de 24 000 000 de liens.)

Graphe : http://hub.abes.fr/referentiel/linksviaf_03_2016

Modélisation : ABES

Exemple :

<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/05019321X/id> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://hub.abes.fr/frbn/13490714> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://id.loc.gov/authorities/names/n85098625> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.wikidata.org/entity/Q18911870> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://isni.org/isni/0000000121203999> .

 

ORCID

Contenu : chaque année, nous récupérons et traitons le dump ORCID (nou$ aimerion$ bien pa$$er à un dump men$uel). Il s’agit d’un dump XML que nous convertissons en 111 000 000 triplets RDF.

ORCID annonce 1 500 000 profils ORCID dans leur base :


PREFIX foaf: &lt;http://xmlns.com/foaf/0.1/&gt;
select (count(?s) as ?nb)
from &lt;http://hub.abes.fr/referentiel/ORCID2015&gt;
where { ?s a foaf:PersonalProfileDocument }

mais beaucoup n’ont qu’un nom et un prénom, aucune référence de document, ce qui rend ces profils moins fiables et moins utiles.

Graphe : http://hub.abes.fr/referentiel/ORCID2015

Modélisation : ABES

Exemple :

<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/ns/org#hasMembership>	<http://orcid.org/0000-0002-0018-0588/affiliation/1> .
<http://orcid.org/0000-0002-0018-0588>	<http://xmlns.com/foaf/0.1/familyName>	"Cain" .
<http://orcid.org/0000-0002-0018-0588>	<http://xmlns.com/foaf/0.1/givenName>	"Jeff" .
<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/2002/07/owl#sameAs>	<http://hub.abes.fr/referentiel/scopusAuthorID/9247844700> .

 

IdRef

Contenu : Nous aurions pu charger toutes les personnes IdRef, mais ces 2 000 000 d’entités auraient pu noyer le reste des données du démonstrateur. Nous avons seulement chargé les triplets RDF correspondant à un identifiant IdRef mentionné quelque part dans la base (en général, dans les alignements).

Graphe : http://www.idref.fr

Modélisation : ABES

Exemple :

<http://www.idref.fr/02670000X/id>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://www.idref.fr/02670000X/id>	<http://www.w3.org/2002/07/owl#sameAs>	<http://data.bnf.fr/ark:/12148/cb11889814d#foaf:Person> .
<http://www.idref.fr/02670000X/id>	<http://xmlns.com/foaf/0.1/name>	"Bacot, Jacques" .
<http://www.idref.fr/02670000X/id>	<http://www.w3.org/2002/07/owl#sameAs>	<http://isni.org/isni/0000000121400095> .

 

L’annuaire des chercheurs de trois laboratoires de Paris 4

Contenu : près de 800 chercheurs, rattachés à trois équipes de recherche de Paris 4. Dans ce graphe, on ne sait pas grand chose de chaque chercheur : son nom, son prénom, son laboratoire, trois informations glanées sur le site de l’université. Aucun LDAP n’a été maltraité pendant cette opération.

Graphe : http://hub.abes.fr/paris4/labos/auteurs

Modélisation : ABES

Exemple :

<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/givenName>	"Mahamane" .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/083406964/id> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://schema.org/memberOf>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812914A> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/familyName>	"DJOUDOU" .

 

Les référentiels d’organismes

 

Référentiel National des Structures de Recherche (RNSR)

Contenu : Paris 4 et ses structures

Nous avons converti en RDF un export partiel de la base RNSR.

Graphe : <http://hub.abes.fr/rnsr/structures/paris4&gt;

Modélisation : ABES

Exemple :

<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://schema.org/name>	"CENTRE D'ETUDE DE LA LANGUE ET DE LA LITTERATURE FRANCAISES DES XVIIEME ET XVIIIEME SIECLES" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://hub.abes.fr/namespace/sigle>	"UMR8599" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://schema.org/foundingDate>	"1998" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/vocab/typStruct/UR> .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .

 

Référentiel des structures de HAL

Contenu : Paris 4 et ses structures

Nous avons récupéré les données via l’API de HAL et les avons converti en RDF.

Graphe : http://hub.abes.fr/ccsd/structures/paris4

Modélisation : ABES

Exemple :

<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://hub.abes.fr/namespace/sigle>	"CELLFXXS" .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<https://hal.archives-ouvertes.fr/resource/typStruct/laboratory> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/2002/07/owl#sameAs>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://schema.org/name>	"Centre d'\u00E9tude de la langue et de la litt\u00E9rature fran\u00E7aises des\n                XVIIe et XVIIIe si\u00E8cles [CELLFXXS]" .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://hub.abes.fr/namespace/structCode>	"UMR8599" .

 

Les référentiels d’analyse du contenu

 

RAMEAU

Contenu : dump BnF (avril 2015)

Graphe : http://hub.abes.fr/rameau_avril2015

Modélisation : BnF

Exemple :

<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#related>	<http://data.bnf.fr/ark:/12148/cb120000024> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2000/01/rdf-schema#seeAlso>	<http://catalogue.bnf.fr/ark:/12148/cb12041722r> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/028618106/id> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2002/07/owl#sameAs>	<http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb12041722r> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://www.w3.org/2004/02/skos/core#Concept> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dewey.info/class/915/> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Portugal -- Colonies -- Afrique"@fr .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dewey.info/class/950/> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://data.bnf.fr/ontology/bnf-onto/FRBNF>	"12041722"^^<http://www.w3.org/2001/XMLSchema#integer> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#broader>	<http://data.bnf.fr/ark:/12148/cb11979529k> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#narrower>	<http://data.bnf.fr/ark:/12148/cb16661249d> .

 

LCSH

Contenu : dump LCSH (octobre 2014)

Graphe : http://hub.abes.fr/lcsh_27oct2014

Modélisation : LoC

Exemple :

<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#broader>	<http://id.loc.gov/authorities/subjects/sh96010352> .
<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Businesswomen"@en .
<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#narrower>	<http://id.loc.gov/authorities/subjects/sh86006258> .

 

MeSH

Contenu : dump NLM

Graphe : http://id.nlm.nih.gov/mesh

Modélisation : NLM

Exemple :

<http://id.nlm.nih.gov/mesh/D000035>	<http://id.nlm.nih.gov/mesh/vocab#nlmClassificationNumber>	"WM 420.5.A2" .
<http://id.nlm.nih.gov/mesh/D000035>	<http://id.nlm.nih.gov/mesh/vocab#broaderDescriptor>	<http://id.nlm.nih.gov/mesh/D013811> .
<http://id.nlm.nih.gov/mesh/D000035>	<http://www.w3.org/2000/01/rdf-schema#label>	"Abreaction"@en .

 

FMeSH (MeSH en français)

Contenu : Notices FMeSH chargées annuellement dans IdRef

Graphe : http://hub.abes.fr/referentiel/idref/mesh/14042016

Modélisation : ABES

Exemple :

<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#inScheme>	<http://id.nlm.nih.gov/mesh> .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"tendances (qualificatif)" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"trends" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"TD" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"tendances"@fr .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://www.w3.org/2004/02/skos/core#Concept> .

 

Thesaurus Nature (NPG)

Contenu : dump NPG

Graphe : http://ns.nature.com/subjects

Modélisation : NPG

Exemple : <http://ns.nature.com/subjects/enteric-nervous-system&gt; (description)

<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://id.nlm.nih.gov/mesh/D017615> .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://ns.nature.com/terms/hasRoot>	<http://ns.nature.com/subjects/biological-sciences> .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Enteric nervous system"@en .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dbpedia.org/resource/Enteric_nervous_system> .

 

Journal of economic literature (JEL) classification system

Contenu : dump RDF de cette classification spécialisée

Graphe : http://hub.abes.fr/graph/jel

Modélisation : ZBW

Exemple :

<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Modèles de r"gression discrète et de choix qualitatif; Régresseurs discrets; Proportions; Probabilités"@fr .
<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Discrete Regression and Qualitative Choice Models; Discrete Regressors; Proportions; Probabilities"@en .
<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Diskrete Regressionsmodelle und qualitative Auswahlmodelle; Diskrete Regressoren; Gr\u00F6\u00DFenverh\u00E4ltnisse; Wahrscheinlichkeiten"@de .

 

Les référentiels de bouquet

 

Bouquet Dalloz

Contenu : modélisation en KBART très light de la collection des ebooks Dalloz

Graphe : http://hub.abes.fr/dalloz/bn/kbart/lite

Modélisation : GoKB (modélisation non finalisée)

Exemple :

<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://www.loc.gov/standards/mods/modsrdf/v1/#locationUrl>	"http://dallozbndpro-pvgpsla5.dalloz-bibliotheque.fr/fr/pvpage2.asp?puc=4236&amp;amp;amp;nu=36&amp;amp;amp;selfsize=1" .
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://gokb.org/tipp/#hasTitle>	<http://www.sudoc.fr/191183768/id> .
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://gokb.org/tipp/#belongsToPkg>	<https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .

 

Les localisations

 

Bibliothèques possédant le bouquet Dalloz

Contenu : Liste des bibliothèques « possédant » le bouquet dalloz (d’après ERE).

Graphe : http://hub.abes.fr/dalloz/bn/who

Modélisation : ABES

Exemple :

<http://data.enseignementsup-recherche.gouv.fr/uai/0134031L>	<http://schema.org/owns>	<https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .
<http://data.enseignementsup-recherche.gouv.fr/uai/0134031L>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .

 

Les alignements

Nous considérons que les alignements sont des jeux de données comme les autres, à côté des autres. On a intérêt à les gérer à part et à les diffuser à part : il est important de garder la traçabilité des données, de pouvoir faire le tri entre les données d’origine et les enrichissements ajoutés.
 

Alignements entre des auteurs NPG et ORCID

Contenu : quelques milliers d’alignements entre les identifiants locaux des auteurs NPG et les identifiants ORCID

Graphe : http://ns.nature.com/graphs/contributors/align/orcid

Exemple :

<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/givenName>	"Jamie" .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/name>	"Jamie Barkin S" .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://ns.nature.com/terms/Contributor> .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/familyName>	"Barkin S" .

 

Alignements entre des auteurs NPG et ISNI

Contenu : quelques milliers d’alignements entre les identifiants locaux des auteurs NPG et les identifiants ORCID, obtenus via Qualinca

Graphe : http://ns.nature.com/graphs/contributors/align/isni

Exemple :

<http://ns.nature.com/contributors/w-h-irwin-mclean-ng.276> owl:sameAs <http://isni.org/isni/0000000124496002> .

 

Alignements entre des auteurs HAL et IdRef

Contenu : quelques centaines d’alignements entre les auteurs HAL et les auteurs IdRef. Beaucoup d’autres sont prévus.

Graphe : http://hub.abes.fr/ccsd/docs/paris4/align/idref

Exemple :

<https://hal.archives-ouvertes.fr/resource/author/1087935>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/111217776/id> .

 

Alignements entre des chercheurs de Paris 4 et IdRef

Contenu : La grande majorité de nos chercheurs de Paris 4 alignés vers IdRef.

Graphe : http://hub.abes.fr/paris4/labos/auteurs/align/idref

Exemple :

<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/givenName>	"Mahamane" .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/083406964/id> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://schema.org/memberOf>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812914A> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/familyName>	"DJOUDOU" .

 

Alignements entre des auteurs de Persée et IdRef

Contenu : Plus de 10 000 alignements entre Persée et IdRef. Des milliers d’autres seront bientôt générés, dans le cadre d’une fructueuse collaboration avec Persée. Les URIs qui identifient les auteurs Persée sont pour l’instant fictives, mais nos collègues Lyonnais travaillent à l’exposition de leur base sur le web de données.

Graphe : http://hub.abes.fr/persee/auteurs/align/idref

Exemple :

<http://data.persee.fr/person/10004#Person>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/068894449/id> .

 

Alignements entre auteurs Nature (NPG)

Contenu : Plus de 10 000 alignements entre auteurs Nature. Dans le dump RDF de Nature, les auteurs ne sont pas identifiés : si un même auteur a publié deux articles, il apparaîtra avec deux URIs différentes. Pour l’identifier, on peut soit l’aligner sur un référentiel extérieur (ce qu’on fait par ailleurs, dans le cadre de notre projet de recherche Qualinca), soit, à défaut, aligner entre elles les URIs sous lesquelles il est nommé au sein du jeu de données. C’est ce qui a été fait en exploitant l’email, absent du dump RDF mais présent dans les données XML ISTEX : si deux personnes ont le même email et des noms très proches, alors on considère que c’est la même personne. A terme, nous créerons des URIs pivot vers lesquelles pointeront toutes les URIs rapprochées. Pour l’instant, on ajoute des relations owl:sameAs entre chaque paire d’URIs, ce qui est plus bavard.

Graphe : http://ns.nature.com/graphs/contributors/align/email

Exemple :

<http://ns.nature.com/contributors/aaron-f-straight-ncb1899>    owl:sameAs <http://ns.nature.com/contributors/ns1:aaron-f-straight-nature10379> .

 

Alignements entre les auteurs Springer et IdRef

Contenu : Près de 20 000 alignements entre des auteurs d’ebooks (voire de chapitres) et des auteurs IdRef. D’autres alignements seront générés, soit par programme, soit par les catalogueurs du réseau Sudoc, notamment dans le cadre du dispositif CERCLES.

Graphe : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/personnes/idref

Exemple :

<http://hub.abes.fr/springerB/ebook/10904251/caofrederic>  owl#sameAs  <http://www.idref.fr/094231737/id> .

 

Alignements entre les documents Springer et RAMEAU

Contenu : Plus de 70 000 liens entre les documents Springer et les identifiants IdRef de RAMEAU, obtenus grâce à l’alignement entre le thesaurus d’indexation matière de Springer, LCSH et RAMEAU.

Graphe :
Liens les documents et le RAMEAU IdRef : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/rameauppn
Alignements entre le RAMEAU officiel (BnF) et le RAMEAU Idref : http://hub.abes.fr/rameau_avril2015/ppns
Alignements entre le thesaurus d’indexation matière de Springer, LCSH et RAMEAU : http://hub.abes.fr/theses/referentiel/concepts/springer/8janvier2016

Exemple :

<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	dcterms:subject	<http://www.idref.fr/027239519/id> .

 

Alignement entre les domaines HAL et Dewey

Contenu : Alignement manuel entre les domaines HAL et la classification Dewey. Ces alignements de concepts sont toujours délicats. Ils mériteraient d’être revus et amendés de manière collaborative, d’autant qu’ils peuvent être utiles à beaucoup de collègues dans les bibliothèques et les laboratoires.
Depuis la fermeture du site dewey.info par OCLC, les URI Dewey sont en déshérence.

Graphe :
http://hub.abes.fr/ccsd/domaines/align/dewey

Exemple :

<https://hal.archives-ouvertes.fr/resource/domain/info.info-ai>	 skos:closeMatch  <http://dewey.info/class/006.3/> .

 

Alignement entre les structures de recherche de Paris 4 dans les référentiels RNSR, HAL et IdRef

Contenu : Alignement manuel.

Graphe :
http://hub.abes.fr/alignements/structures/rnsr/idref/ccsd

Exemple :

<https://hal.archives-ouvertes.fr/resource/structure/74682>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .
<https://hal.archives-ouvertes.fr/resource/structure/107600>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .
<http://www.idref.fr/031896596/id>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .

CERCLES : 4 NOUVEAUX CORPUS

CERCLES_Hula_hoop_Jerry_via_Flick_CC_BY_SA_2_0

Le dispositif CERCLES s’agrandit : 4 nouveaux corpus vont être pris en charge par 4  établissements (2 nouveaux établissements, et 2 établissements déjà référents sur un précédent corpus).

Corpus « American Mathematical Society », Bibliothèque Universitaire Pierre et Marie Curie

  • Corpus : e-books AMS, dont les séries « Memoirs of the AMS » – 2500 titres
  • Période de travail : mai 2016 – décembre 2017
  • Responsable du chantier : Yves Momboisse
  • Axes d’enrichissement : vérification des ISBN, création et complétude des liens 4XX, 6XX et 7XX, création et numérotation ISSN des collections électroniques
  • Le «+» du chantier  :
    • engagement sur la fusion de notices en cas de doublon
    • bonne connaissance du dispositif par le responsable de chantier
    • chantier initié par les bibliothèques MIR qui ont lancé un appel à collaboration auprès des établissements du réseau national des bibliothèques de mathématiques (RNBM) dont elles font partie
    • fort engagement de cet établissement dans le dispositif : la BUPMC prend déjà en charge le corpus ENI (avec la BIU Montpellier) et s’apprête à lancer un 3ième chantier, sur un autre corpus de mathématiques.

Corpus « Cambridge University Press – Sociology 2013-2015 », Bibliothèque de la Fondation Maison des Sciences de l’Homme

  • Corpus : e-books Cambridge University Press – 167 titres
  • Période de travail : avril 2016 – septembre 2016
  • Responsable du chantier : Jeanne Longevialle, Fabrice Mouillot
  • Axes d’enrichissement : création et complétude des liens 4XX, 6XX et 7XX, création et numérotation ISSN des collections électroniques, création des notices d’autorités si nécessaire, traitement des zones 309.
  • Le «+» du chantier  :
    • bonne connaissance du dispositif par les responsables de chantier
    • fort engagement de cet établissement dans le dispositif : la FMSH milite depuis longtemps pour un signalement de qualité des ressources électroniques, et pas seulement dans les outils de découverte.
    • appel ouvert à collaboration avec un autre établissement : la FMSH a fait le choix de ne pas lier sa politique documentaire à la politique commerciale de l’éditeur, et n’a acquis, sur ce bouquet « Sociology 2013-2015 », que les 162 titres qui intéressent ses usagers. L’ABES lance donc un appel aux établissements du réseau intéressés par ce corpus, pour collaborer avec la FMSH dans le cadre de CERCLES et prendre en charge les 41 titres restants.

Corpus « Cairn – monographies encyclopédiques », Bibliothèque Nationale Universitaire de Strasbourg

  • Corpus : e-books « Que sais-je ? » et « Repères » – 1955 titres
  • Période de travail : avril 2016 – avril 2017
  • Responsable du chantier : Christine Hecht
  • Axes d’enrichissement : création et numérotation ISSN des collections électroniques, création et complétude des liens 4XX et 6XX
  • Le «+» du chantier  :
    • choix d’un corpus pluridisciplinaire, intéressant un grand nombre d’établissement
    • collaboration raisonnée et concertée avec un autre établissement CERCLES, le SCD de l’université Jules Verne – Picardie, en charge du corpus CAIRN « toutes collections ». Les axes d’enrichissements ont bien été délimités entre les deux chantiers : à Amiens, on enrichit les zones 7XX (et les mentions de responsabilité en 200) alors qu’à Strasbourg, on ne travaillera qu’à l’amélioration des zones 4XX et 6XX.

Corpus « Dalloz », SCD de l’université de Strasbourg

  • Corpus : e-books  Dalloz – 600 titres (sur 1800 notices)
  • Période de travail : avril 2016 – décembre 2016
  • Responsable du chantier : Stéphanie Himber
  • Axes d’enrichissement : création des notices manquantes, vérification des dates sur les notices existantes, contrôle et correction des URL d’accès, création et numérotation ISSN des collections électroniques
  • Le «+» du chantier  :
    • choix d’un corpus indispensable pour toutes les bibliothèques de droit
    • collaboration en amont avec l’équipe du Hub de métadonnées de l’ABES : comme cela s’est passé pour le chantier CERCLES mené par le SCD de l’université de Lyon 1 Claude-Bernard, en 2015, le chantier DALLOZ a bénéficié d’une première salve de traitements automatisés, pour laisser l’établissement se concentrer par la suite sur les enrichissements plus complexes. Le récit de cette collaboration intéressante fera l’objet de plusieurs billets, publiés prochainement, sur ce blog.

 

 

Comment suivre ces 4 nouveaux chantiers, et les autres ?

Un Manuel « CERCLES  » est désormais en ligne, sur le Guide méthodologique du Sudoc. Le détail de chaque chantier y est mentionné, et tout le monde peut suivre la progression du travail, s’il consulte régulièrement le rapport statistique alimenté par chaque responsable. Un moyen de rester  informé, et de soutenir ces collègues ! CERCLES_manuel

Comment CERCLES fait bouger les lignes

CERCLES_Hula_Hoop_bu_Mari_Francille_via_Flick_CC_BY_SA_2_0Le dispositif, qui pour l’instant répond aux objectifs et semble convenir au réseau, fait évoluer les comportements et les pratiques, non seulement entre les établissements, mais aussi avec l’ABES et également -parfois- avec les éditeurs. Le « cercle vertueux », visé à l’origine, commence à se mettre en place, comme en témoignent de récentes collaborations Etablissement-ABES – éditeurs, dont il sera question lors de la session parallèle « Un cercle vertueux », le 10 mai prochain, pendant les Journées ABES 2016.