CERCLES : retour d’expérience du SCD de l’Université de Picardie Jules Verne sur le corpus CAIRN

Les origines

Les questions sur SUCAT

cercles_upjv

Nouvelle adjointe à la gestion de la bibliothèque numérique dans mon établissement, et chargée du signalement des e-books, je me suis posé beaucoup de questions quant au traitement de ces ressources. J’ai étudié de près les avantages et inconvénients de l’exemplarisation automatique, notamment en terme de qualité et de complétude des notices, et lancé une question ouverte aux catalogueurs de ressources en ligne sur SUCAT (ndlr : la liste de diffusion des catalogueurs du réseau Sudoc), posant les questions qui me taraudaient, intitulée : « Aux catalogueurs des bibliothèques numériques ».

Les réponses ont afflué, l’ABES a également répondu que cela figurait parmi ses préoccupations actuelles.

La mise en place de CERCLES

Des pistes de résolution et une expérimentation avec un SCD sur le principe de mutualisation du traitement de la qualité des données de ressources électroniques dans le Sudoc étant déjà en cours, l’ABES m’a proposé de faire partie du projet naissant.

L’engagement

Avec l’accord de ma hiérarchie, un acte d’engagement a été signé entre mon établissement et l’ABES, mentionnant le périmètre d’action et les délais engagés.

Délimitation du périmètre d’action :

Un corpus clos a été établi par l’ABES, avec l’édition d’un tableau de PPN, édité à une date D, et dans lequel tout nouveau versement n’apparaîtra pas, soit une liste de 4852 notices à traiter.

Axes d’enrichissements :

L’accord initial prévoyait une mise en lien des 7xx, et le travail collatéral : indicateurs, codes de fonction, création d’autorités au besoin.

Évaluation en amont des notices du corpus :

Un travail préalable, sur un échantillon de 50 notices, m’a permis de faire une estimation du temps passé, mais aussi et surtout de constater nombre de surprises, et donc, d’élaborer quelques changements d’orientation, exposés et acceptés par l’ABES : ainsi, les notices dans lesquelles les auteurs étaient déjà liés, ont été exclues de mon champ d’action. Les notices dans lesquelles des liens étaient à créer sont restées à ma charge (1484 PPN).
Pour celles-ci, je me suis engagée, en plus de créer les liens et les notices d’autorité le cas échéant (+ travail collatéral pré-cité) :

  • à contrôler la construction des 200 ($f $g) ;
  • à redistribuer en conséquence les zones et codes de fonction en 7xx ;
  • à assurer les modifications suivantes : caractères parasites, arobase mal positionné, désordre des sous-zones en 200 ;
  • à signaler tout problème d’URL (ABES et Cairn).

Mon périmètre initial a été certes réduit (on est passé de 4852 notices à 1484), mais les modifications apportées sont finalement plus nombreuses et plus poussées.

Le chantier d’enrichissement

Traitement en pratique

By_Horla_Varlan_CC_BY

Étape 1 : j’ouvre les outils dont j’ai besoin

  • l’espace collaboratif CERCLES (les 3 documents « tableau de bord », « suivi pour info réseau » et « tableau de suivi »)
  • WinIBW
  • la plateforme « Cairn.info« 

Étape 2 : j’affiche la notice WinIBW à étudier (je copie/colle le PPN à partir de mon « tableau de suivi »)

Étape 3 : je copie/colle l’URL de la zone 859 dans « Cairn.info » pour vérifier l’URL fournisseur et accéder à la ressource

Si l’URL est erronée, je recherche par titre puis demande de modification de la zone 859 à l’ABES via le guichet d’assistance + signalement à Cairn + transmission au Correspondant Catalogage pour diffusion de l’information sur les listes, afin que les bibliothèques actualisent leur E856. Je corrige immédiatement la zone E856 de mon exemplaire.

Étape 4 : j’ouvre le document dans « Cairn.info » (en PDF ou en HTML) pour accéder à la page de titre notamment, source principale de catalogage. Je commence le travail de vérification / enrichissement :

  • vérification de la conformité de la zone 200 $a, $e ; $f ; $g, et corrections le cas échéant
    • toujours, les auteurs, toutes responsabilités confondues, sont présents en $f
    • souvent, il manque $e
    • souvent, $e est mal placée (après $f)
  • redistribution des 7XX et des codes de fonction, corrections
    • toujours, il n’y a que des 700 et 701, pas de 702 (beaucoup d’auteurs en réalité « directeurs »)
    • toujours, les indicateurs des 7XX sont erronés
  • mise en lien des 7XX
    • création d’Autorités Personnes Physiques (APP) le cas échéant
    • vérification des liens déjà faits : parfois, les liens sont erronés (homonymes)
    • vérification des données codées des APP (zone 106 en particulier)
    • si un doublon APP est identifié, transmission au Correspondant Autorité
  • vérification de l’indication du type de document : 200 $b ou 181-182
    • parfois, les deux coexistent : suppression de 200 $b
  • vérification de la zone 300, et corrections le cas échéant
    • souvent, des caractères parasites sont présents

Étape 5 : je légende mon document « tableau de suivi », selon mon code couleurs

Étape 6 : je trie et chiffre le travail effectué

Étape 7 : je reporte les informations dans le « tableau de bord » (le récit au jour le jour de mon travail, pour l’ABES et pour moi) et dans le document « Suivi pour info réseau » (les infos sur l’avancée du chantier, pour les membres du réseau).

Dans le SIGB Horizon, la mise à jour du catalogue local s’effectue au fil des corrections, par le transfert régulier quotidien.

Les moyens

Outil collaboratif et référent :

Le répertoire BOUDA (GED de l’ABES), un temps utilisé, puis le GoogleDrive permettent un accès garanti aux outils de suivi. Merci à l’ABES de les avoir mis à disposition.

Outils « maison » :

Pour gagner du temps, je me suis créé des « messages-modèles », à destination du guichet d’assistance ABESstp, des Correspondants Catalogage et Autorité de mon établissement, de mon interlocutrice chez Cairn. Je n’ai plus qu’à y remplacer les PPN et/ou URL.

Les difficultés :

  1. L’engagement dans le temps : seule sur la gestion de ce chantier, et occupée comme tout un chacun par les tâches quotidiennes et les autres projets de mon établissement, je n’ai pas pu respecter le délai imparti. De plus, l’accord initial ne prévoyant pas un travail si poussé sur les notices, l’estimation du temps de traitement s’est vite avérée complètement fausse.
  2. Les créations d’APP : elles peuvent s’avérer difficiles, si ni IdRef ni l’ouvrage lui-même ne fournissent d’information sur l’auteur. La zone 340 de l’autorité ne peut donc être renseignée.

Conclusion

Bilan quantitatif

C’est là où le bât blesse : surprises au gré du chantier, suivi du chantier en solitaire, charge de travail, … La quantité de notices traitées est loin de celle visée. Le traitement est long. En cette fin d’ année universitaire 2015-2016, 493 notices sont traitées selon les modalités approfondies, pour 814 liens en 7XX et 56 créations d’APP.

Bilan qualitatif

  1. La qualité du Sudoc : à propos du travail effectué, je suis plutôt satisfaite. Une satisfaction à la fois personnelle, parce que le format des notices d’e-books, nouveau à mes yeux n’a plus de secret pour moi, et aussi professionnelle, de par la contribution à l’enrichissement de ces notices, et ceci non seulement pour mon établissement, mais à l’échelle du réseau (ndlr : depuis avril 2016, la BNU de Strasbourg s’est aussi lancée dans un chantier CERCLES sur les monographies encyclopédiques CAIRN).
  2. La qualité des notices fournies par l’éditeur : mon interlocutrice chez Cairn compile les types de problèmes rencontrés, et veille à l’amélioration future de la fourniture des métadonnées, afin de ne pas reproduire ces problèmes désormais identifiés.

L’ABES et moi

cercles_rond

Mon référent est toujours disponible. Merci à Kattialyn G. et aussi à Laurent P. ! J’ai été très honorée que l’ABES m’ait proposé ce projet. Je me sens d’autant plus active au sein du réseau que mon établissement participe à un chantier de mutualisation d’enrichissement des données.

La valorisation et la visibilité des données n’est pas une mince affaire, mais à l’heure de l’évolution des catalogues de bibliothèques, une collaboration entre les éditeurs et l’ABES, mise en pratique par les membres du réseau, est capitale.

Aurélie Bec, pour le SCD de l’université de Picardie Jules Verne  logo_scd_upjv

 

 

Récit d’une immersion. Traiter les ebooks Dalloz avec les données Sudoc, les données de l’éditeur et les outils du hub

Ce billet relate à la première personne l’immersion effectuée par Catherine Storne (Université de Strasbourg) au sein de l’équipe hub de l’ABES, entre le 1er et le 5 février 2016. Catherine a eu l’occasion de partager cette expérience aux dernières journées ABES. Merci pour tout, Catherine !

Placée en face de la nouvelle « Metadaten Weltanschauung » au travers de la réflexion locale sur l’abonnement à un outil de découverte (discovery tool) ou sur les réalisations de la plateforme ISTEX sur les licences nationales, je ressentais le besoin de monter en compétences sur la manipulation des métadonnées. J’ai donc souhaité faire une immersion à l’ABES pour mieux comprendre les projets de l’établissement tournant autour des métadonnées dont les noms parvenaient aux confins de nos bibliothèques : BACON, hub de métadonnées, CERCLES, ainsi que les liens entre eux. Mon objectif étant de travailler au rapprochement, au sein du SCD de Strasbourg, des équipes de la documentation électronique et du catalogage, la participation à un projet concret, au travers d’un chantier CERCLES me semblait de nature à y contribuer.

Après discussion avec quelques collègues, il est apparu que le corpus d’e-books de la bibliothèque numérique Dalloz était mal-traité, i.e mal catalogué au SCD, qu’un catalogage de qualité de ce corpus dans le Sudoc était attendu et profiterait à l’ensemble des bibliothèques du réseau.

Pour l’ABES, l’immersion devait permettre d’avancer dans la réflexion sur le rôle que certains établissements pourraient jouer dans la chaîne de traitement des métadonnées fournies par les éditeurs, avant même leur traitement par le hub de métadonnées.

Avec un peu (beaucoup) d’appréhension à l’idée de me retrouver dans l’antre de « Winnie » [WinIBW] sans savoir réellement cataloguer et sans avoir retenu de mes lectures sur RDF tout ce que j’aurais dû, je quittais mon grand Est natal pour rejoindre le temps d’une semaine Montpellier, la surdouée.

1.  Les données sur la bibliothèque numérique Dalloz

La plateforme de Dalloz http://www.dalloz-bibliotheque.fr/ , permet une recherche sur les e-books de cet éditeur par titre, auteur, domaines ou collections. La liste complète des titres sous la forme d’un tableau est quant à elle disponible à  http://www.dalloz-bibliotheque.fr/listing.php (appelée par la suite « Tableau-Dalloz »).

Par ailleurs, Dalloz met à disposition un entrepôt OAI : http://logistic.book-vision.com/services/oai/act68.php?verb=ListRecords&metadataPrefix=onix_dc (appelé par la suite « OAI-Dalloz ».)

1.1  Premier constat

Les deux sources ne comportent pas un nombre identique de titres (1939 pour Tableau-Dalloz, 1626 pour OAI-Dalloz) ni les mêmes données.

Tableau-Dalloz contient l’ISBN électronique, l’ISBN papier correspondant, le titre, le n° de l’édition, la collection. Pas même l’URL de consultation. Les données d’OAI-Dalloz sont plus riches ; parmi elles : titre, auteur, sujet, résumé, éditeur, date d’édition, ISBN électroniques, les informations pour la reconstitution d’une URL de consultation, etc.

1.2  Deuxième constat, dû à l’œil expert des collègues de l’ABES

Tous les titres, ou presque, sont catalogués dans le Sudoc, pour la version papier du livre. Le web service isbn2ppn de l’ABES permet, à partir des ISBN-papier du tableau-Dalloz d’obtenir la liste des ppn (de la version papier) correspondants ; une extraction du Sudoc de ces titres à partir de la liste des ppn (de la version papier) constitue la troisième source de données (appelée Sudoc-Dalloz),

1.3  Directions de travail

A partir de ces deux constats, s’esquissent quelques lignes de travail :

  • vérifier la qualité des notices du Sudoc, pour s’assurer que les liens sont présents (6XX et 7XX, collection)
  • comparer les 3 sources entre elles.

Pour les notices Sudoc :

  • tous les 7XX ont un lien vers un ppn autorités
  • tous les 410 ont un lien vers le ppn de la collection

Sur les 1939 du Tableau-Dalloz :

  • 38 titres ne sont pas catalogués dans le Sudoc dans leur version papier
  • 38 autres titres sont déjà catalogués dans le Sudoc dans leur version électronique
  • 1 titre du Tableau-Dalloz contient une erreur d’ISBN électronique
  • 31 ppn sont écartés car il faut vérifier s’ils sont des doublons

Au final, il reste 1832 titres qui ne posent aucun problème.

En règle générale, le hub de métadonnées part des données des éditeurs pour créer les notices d’e-books. Dans le cas du corpus Dalloz, la réflexion est différente car la pré-existence dans le Sudoc des notices des documents papier, complètes, constitue une base de départ fiable.Il est donc décidé de créer les notices des e-books dans le Sudoc à partir des notices correspondantes des livres-papier puis d’utiliser les données venues des sources Dalloz pour enrichir ou corriger les notices créées dans le Sudoc en utilisant pour cela des outils développés dans le cadre du Hub de métadonnées.

2.  Création par copie de notices d’e-books dans le Sudoc

Pour chaque ppn indiqué, le script de création de notices a dupliqué la notice du livre imprimé en y apportant les modifications du tableau ci-dessous :

Notice papier Notice d’e-book correspondante
001 Non repris
002 Non repris
003 Non repris
008 Par défaut :

$aOax3

010 Non repris
020 Non repris
021 Non repris
033 Non repris
034 Non repris
035 Remplacé par défaut par :

##$aBNDalloz

073 Non repris
106 Non repris
135 Ajout par défaut :

##$av$br$cm$e#$gm$ia$ja

181 Ajout par défaut :

##$P01$ctxt

182 Ajout par défaut :

##$P01$cc

215 Non repris
225 Non repris
230 Ajout par défaut :

##$aDonnées textuelles

337 Ajout par défaut :

##$aNécessite un logiciel capable de lire un fichier au(x) format(s)Widelook ou Widelook Flash

410 Non repris
452 Ajout par défaut :

##$0″ + ancienPpn

801 Non repris
802 Non repris
830 Non repris

 

3.  Les enrichissements du hub de métadonnées (ABES)

Les notices d’e-books ont été enrichies par le hub de métadonnées.

Pour ce faire, le fichier « Tableau-Dalloz » a été complété via l’outil Openrefine (téléchargeable à openrefine.org/), des données suivantes :

  • ppn papier (obtenu grâce au web service isbn2ppn)
  • ppn électronique (équivalence p-ppn/e-ppn obtenue par le compte-rendu du script de création)

Il a ensuite été transformé en RDF.

Par ailleurs, les données « OAI-Dalloz » ont été converties en RDF/XML et chargées dans la base XML Oracle de l’ABES. Plusieurs notices étant en doublon dans le moissonnage OAI, le nombre final d’e-books distincts est de 1566.

3.1  RDF

3.1.1  En trois mots

RDF est le langage du web sémantique.

« RDF (Resource Description Framework) est un modèle de représentation de données élaboré sous l’égide du W3C (World Wide Web Consortium). Il attribue à des ressources, identifiées par des URI, des propriétés et des classes (ou catégories), permettant de les définir, les décrire, ou d’établir des relations entre elles. […]

Les données sont découpées en entités élémentaires pour former des triplets : <sujet> <prédicat> <objet>

  • le sujet est l’identifiant de la ressource ;
  • le prédicat est une propriété ou une relation, elle-même identifiée par une URI (le plus souvent représentée par un préfixe) ;
  • l’objet est l’identifiant d’une autre ressource en relation avec la première, une valeur ou un littéral. »

Définition trouvée dans : http://documentation.abes.fr/sudoc/manuels/pdf/sudoc-rdf.pdf (consulté 06/03/2016)

3.1.2  Choix de construction des URI

Pour que les sujets, prédicats, éventuellement objets puissent être identifiés de manière unique, il faut leur attribuer des identifiants, construits sous forme d’URI.

Voici les choix qui ont été faits dans le cas de la bibliothèque numérique Dalloz pour construire un modèle de création des URI pour les œuvres et les manifestations.

  • Pour l’œuvre :
  • Pour la manifestation :
    • Manifestation électronique :
      • champs attribués à la manifestation électronique : issn (électronique), ppn (électronique), numéros permettant de reconstituer l’url de consultation (n° puc, n° nu), date de publication
      • identifiant choisi : ISBN électronique
    • Exemple : http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/web (/m pour préciser qu’il s’agit d’une manifestation ; /web pour préciser qu’elle est électronique)
    • Manifestation imprimée (papier) :
      • champs attribués à la manifestation électronique : issn (papier), ppn (papier), date de publication
      • identifiant choisi : ISBN électronique
    • Exemple : http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/print (/m pour préciser qu’il s’agit d’une manifestation ; /print pour préciser qu’elle est imprimée)

3.1.3  Exemples de triplets

<http://www.hub.abes.fr/bndalloz/ebook/9782247103713/w> dcterms:title "50 droits contre l'exclusion " ;

<http://rdaregistry.info/Elements/w/P10072> <http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/web>, <http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/print> .

Signifie : L’oeuvre dont l’identifiant (l’ISBN électronique) est 9782247103713 a pour titre « 50 droits contre l’exclusion » ; elle a deux propriétés dont on retrouve la définition dans rdaregistry : P10072 correspond à « has manifestation of work ; donc, l’oeuvre a deux manifestations : l’une  électronique, l’autre imprimée.

<http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/web> <http://purl.org/ontology/bibo/isbn> "9782247103713" ;

<http://www.hub.abes.fr/namespaces/ppn> "191163120" ;

dcterms:isPartOf <http://www.hub.abes.fr/bndalloz/collection/asavoir> ;

<http://purl.org/ontology/bibo/edition> "1" .

Signifie : la manifestation électronique a pour ISBN électronique 9782247103713 et  pour ppn (défini dans le vocabulaire du hub) 191163120 ; elle appartient à la collection « asavoir » (A savoir) et en est à la première édition

<http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/print> <http://purl.org/ontology/bibo/isbn> "9782247070602" ;
<http://www.hub.abes.fr/namespaces/ppn> "134600878"

Signifie : la manifestation papier a pour ISBN papier 97822470706020 et pour ppn 134600878.

RDF, par les déclarations  et les triplets, décrit des relations. Ces relations peuvent être décrites sous forme de représentations graphiques, composées d’ovales, flèches, rectangles.

dalloz_graphe

 

3.1.4  Les graphes

On obtient deux sous-ensembles séparés dans la base RDF (ce qu’on appelle des « graphes ») :

  • celui des données du « Tableau-Dalloz » enrichi :

<http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016/tableaudalloz>

  • celui des données « OAI-Dalloz :

<http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016/>

Les URI des documents étant dans chacun d’eux construits sur l’ISBN électronique, les données peuvent être fusionnées facilement.

3.2  Le programme MARCEDMOD

L’ABES a récemment développé un programme expérimental de modification de notices du Sudoc, répondant au doux nom de MARCEDMOD [pour Marc-édition-modification ? eux, comme ils veulent toujours créer du lien, l’appellent plutôt Marc et Maud ! Il faudra quand même leur demander la source de leur inspiration !].

Ce programme interroge les données auparavant converties en RDF, avec des requêtes SPARQL (SPARQL n’est rien d’autre que le langage de requête des données en RDF). Ces requêtes permettent de sélectionner les triplets correspondant aux critères choisis. Ensuite, pour chaque type de modification à faire dans le Sudoc, un script va chercher les notices correspondantes dans le Sudoc et opérer la transformation souhaitée en remplaçant la donnée présente dans le Sudoc par celle issue de RDF.

Par exemple, pour ajouter la Dewey issue de OAI-Dalloz sur les notices du Sudoc qui n’en ont pas, MARCEDMOD fait ce qui suit :

select distinct ?eppn

# Je sélectionne tous les ppn électroniques

from <http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016/tableaudalloz>
from <http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016>

# à la fois dans les données Tableau-Dalloz et OAI-Dalloz désormais présentes en RDF dans la base du hub

where {

?work <http://rdaregistry.info/Elements/w/P10072> ?manif.

?manif <http://iflastandards.info/ns/isbd/elements/P1003> <http://iflastandards.info/ns/isbd/terms/mediatype/T1002>.

?manif <http://www.hub.abes.fr/namespaces/ppn> ?eppn.

# pour lesquels une œuvre a une manifestation, manifestation qui est de type électronique et qui a dans le hub un ppn électronique

} LIMIT 1000

Script :

J’injecte cette liste de ppn électroniques dans le Sudoc :

Node zone=Notice.find("676");

Je recherche toutes les zones « 676 »

if (zone == null)
{
Notice.Insert("676","#","#","a","340");

S’il n’y a pas de Dewey présente, j’insère 676##a340

}
else
{
Notice.alert("la zone existe dejà");
}

Sinon, je ne fais rien et je dis que « la zone existe déjà »

3.3  Enrichissements faits par le hub

  • Résumé : prévu, sera bientôt fait
  • ISBN électronique (tirés du tableau-Dalloz)
  • Dates d’édition : dates du tableau-Dalloz ajoutées en 100$a et 210$d (par écrasement de celles éventuellement présentes)
  • Edition : pour les titres du tableau-dalloz ayant un numéro d’édition autre que 1, ce numéro d’édition a remplacé celui présent dans le Sudoc
  • Dewey : pour les notices sans 676, ajout d’un 676 avec le code dewey 340 tiré d’OAI-Dalloz
  • URL : le champ 859 a été créé pour les seules les notices de OAI-Dalloz ont pu être traitées car les numéros permettant de reconstituer l’URL ne sont pas présents ailleurs.
  • Editeur : seules les notices de OAI-Dalloz ont pu être traitées

4.  Le programme de travail du chantier CERCLES

Récapitulatif des travaux catalographiques (vérifications ou corrections) à faire dans le Sudoc par le SCD de Strasbourg :

  • Catalogage des notices qui n’ont de ppn papier : 38 titres
  • Vérification et enrichissement des notices d’e-book qui existaient déjà dans le Sudoc : 35 titres
  • Vérification d’1 titre du Tableau-Dalloz qui contient une erreur d’ISBN électronique
  • Catalogage des 31 ppn écartés car il faut vérifier s’ils sont des doublons
  • Vérification des notices pour lesquelles la date d’édition entre le Sudoc et le tableau-Dalloz sont différentes : 59 titre
  • Enrichissement manuel des notices ne figurant pas dans OAI-Dalloz : 382 titres
    • ajout de l’url
    • modifier l’année
    • modifier l’éditeur
    • ajouter le code Dewey “340” si aucun Dewey n’est présent dans la notice
  • Titres présents dans OAI-Dalloz mais absents de tableau-Dalloz : 29 titres à traiter dans un second temps
  • Travail sur les notices d’e-books créées par l’ABES :
    • collections numériques : récupération du ppn ou demande de création
    • Envoi à l’ABES des ppn des collections numériques, en regard des URI fournis par l’ABES
    • Vérifier nécessité de créer et comment les champs 303,304,305,307,339
    • Vérifier les 13 notices signalées par l’ABES pour lesquelles plusieurs urls de consultations sont associées (liste fournie par l’ABES)

Conclusion

La durée de l’immersion n’a pas encore permis de répondre aux questionnements de l’ABES sur une implication d’établissements volontaires dépassant le cadre du catalogage et s’attachant  à des manipulations préparatoires sur les données soit pour participer à la mise à jour régulière des corpus  soit pour alimenter aussi BACON . Cette réflexion est encore en cours et fera l’objet vraisemblablement d’un autre billet.
Il nous faudra également revenir sur le chantier CERCLES en cours et et sur la question du fichier KBART, qui dépend de l’action de l’éditeur lui-même.

 

Catherine STORNE,

Responsable du département du système d’information documentaire,

SCD de l’université de Strasbourg

Mettre nos données en réseau – un démonstrateur. [1] Introduction.

Ce démonstrateur est un plaidoyer en faveur d’une approche “web sémantique” de l’interopérabilité des données de l’IST. Mais, cette fois, il s’agit de montrer et non d’argumenter. Il s’agit de défendre, en illustrant cette approche par des études de cas. Alors, si vous fuyez les plaidoyers, si vous exigez du concret, de la donnée (RDF), de la requête (SPARQL), passez cette introduction et lisez l’un des billets suivants :

  1. Introduction (ce billet)
  2. Inventaire des données
  3. Suivez le guide ! Le modèle de données
  4. Études de cas

SPARQL endpoint : https://lod.abes.fr/sparql
Interface de recherche full text et de navigation : https://lod.abes.fr/fct

Pourquoi ce démonstrateur

Mettre nos données en réseau, c’est structurer et publier nos données conformément aux principes et aux bonnes pratiques du web sémantique.
Nos données, ce sont à la fois les données produites par les réseaux ABES (Sudoc, Sudoc PS, Thèses, Calames) mais également  toutes ces données voisines, complémentaires produites par les éditeurs, l’administration, les institutions culturelles, les institutions dédiées à l’information scientifique et technique (IST).
Ce périmètre est par définition extensible : par exemple, si nos données, ce sont d’abord les métadonnées de thèse électronique produites ou importées dans STAR, ce sont également les informations sur l’équipe de recherche (RNSR, HAL, IdRef), l’école doctorale (Ministère, IdRef), l’entreprise qui finance le contrat CIFRE (ANRT), les articles du doctorant (HAL et autres archives, éditeurs), la production du directeur de thèse (HAL, éditeurs), les vocabulaires contrôlés qui décrivent le contenu (RAMEAU, MeSH, tel vocabulaire spécialisé, etc.), les bibliothèques qui possèdent telle thèse, etc.
Second exemple : nos données, ce sont d’abord les métadonnées des articles acquis dans le cadre d’ISTEX (ISSN, Sudoc), mais ce sont également les métadonnées des revues, des fascicules et des volumes, les métadonnées des auteurs (IdRef, ISNI, VIAF, ORCID, HAL, Persée, Wikipedia, etc.), les affiliations, les vocabulaires contrôlés, les métadonnées sur le package commercial correspondant à l’acquisition (BACON, GoKB), la licence, les bibliothèques couvertes par la licence, etc.

lodcloud
Troisième et dernier exemple : pour savoir que tel auteur est affilié à l’université Paris 4, on a besoin de remonter le courant : de telle notice Sudoc à tel auteur IdRef, puis à tel auteur HAL, puis à tel document HAL, puis à telle équipe de recherche du référentiel HAL, puis à cette même équipe dans le référentiel RNSR, équipe rattachée à Paris 4. Il existe un chemin plus court, mais dans tous les cas, il faut être agile, rebondir d’une base à l’autre, d’un organisme à l’autre.
ist_organismes

L’information est par définition extensible. On ne peut définir a priori le périmètre des données qui correspond à nos besoins. La gestion de l’information doit être aussi extensible que l’information elle-même.
Et précisément, les technologies du web sémantique sont faites pour ça : établir des liens effectifs entre données complémentaires, sans fixer à l’avance ni le périmètre des données, ni la nature de ces liens.

Une base RDF + des requêtes SPARQL

Ce démonstrateur n’est rien d’autre que l’agrégation de données RDF brutes au sein d’une seule base de données. Si ce n’est préparer et documenter ces données, nous n’avons rien fait d’autre : ni construction d’index pour interroger les données, ni développement d’un web service de recherche, ni réalisation d’une interface graphique. Nous nous sommes contentés de charger ces données brutes dans une base RDF supportant le langage de requête SPARQL : ipso facto, nos données sont devenues interrogeables, consultables, navigables.

Pour interroger nos données, il suffit de se rendre à cette adresse : https://lod.abes.fr/sparql et de lancer une requête SPARQL. SPARQL est un langage très puissant, qui demande un apprentissage progressif. Mais tous les billets de cette série proposent des exemples de requête. Ce sont de bons points de départ. Si vous vous prenez au jeu, forgez vos propres requêtes et les jugez intéressantes, merci de les partager en commentaires.
SPARQL est un langage mais également un protocole web , c’est-à-dire un web service : https://lod.abes.fr/sparql n’est donc pas seulement une page web pour fans des données, mais également l’URL principale d’un web service de recherche qui permet à n’importe quel programme d’interroger une base RDF et d’en exploiter les résultats sous différents formats (HTML, XML, CSV, JSON, etc.). Grâce  à SPARQL, nous pourrons offrir une API standard pour interroger de manière sophistiquée les corpus ISTEX, par exemple, en complément de l’API de recherche développée par l’INIST. On a besoin des deux : une base de données ouverte et un moteur de recherche ouvert.
Si vous n’êtes ni un geek ni un programme, vous avez la possibilité de vous promener dans les données de notre base via cette interface, livrée avec le logiciel qui gère notre base de données : https://lod.abes.fr/fct. Chaque page de cette interface correspond à une entité de notre base (un article, une personne, un concept, etc.). Ainsi, la page https://lod.abes.fr/describe/?url=http://hub.abes.fr/springerB/ebook/3540183000/w décrit l’ebook identifié par : http://hub.abes.fr/springerB/ebook/3540183000/w. (Si vous activez cette URL, conformément aux principes des linked data (par TBL, il y a dix ans), vous serez redirigé vers une page qui décrit ce document : ne pas confondre la chose et sa description).
Cet ebook est caractérisé par des attributs (son titre, sa langue) et par des relations : relations vers les concepts dont parlent ce livre, relations vers l’éditeur, relations vers les auteurs (via le concept de contribution), etc. Ce sont ces relations qui permettent de naviguer d’entité en entité, comme on parcourt une encyclopédie. On croit naviguer d’une page à l’autre, mais en fait on navigue aussi d’une chose à l’autre : d’un laboratoire vers une personne, d’une personne vers un document, d’un document vers un concept, etc. De proche en proche, l’ensemble de ces relations constitue un réseau de données, un web de données.

Stratégie du coucou ? Pourquoi mettre tous ces données dans le même panier ?

Il sera naturel de soulever l’objection suivante : vous n’allez pas prétendre enfermer le web de données dans le monde clos de votre base ? Par définition, le web est décentralisé et il doit en être de même pour le web de données.
Cette objection est tout à fait légitime : il y a quelque chose d’artificiel à vouloir démontrer l’efficacité du web sémantique comme solution d’interopérabilité en rassemblant au sein d’une même base tous les jeux de données qu’on veut interconnecter et faire interagir. Nous justifions ainsi notre choix :
La plupart des données que nous voulions entrelacer n’existent pas (encore) sous forme RDF. On s’y est collé, à des fins pédagogiques.
Les solutions pour interroger un web de données décentralisé ne sont pas encore tout à fait mûres. SPARQL prévoit bien la recherche fédérée mais, quel que soit le type de technologies, ce type de recherche achoppe toujours sur les mêmes difficultés (disponibilités des bases à interroger, performances).
Il va de soi que ce n’est pas à l’ABES de produire, maintenir et publier en RDF les données du RNSR, de HAL, de Paris 4 ou d’ORCID, voire de Nature ou Springer (d’ailleurs, la plupart de ces initiatives sont précisément en train de construire leur offre de service RDF – disons, à notre connaissance, 4 sur 6 – nous vous laissons deviner). Ce qu’on espère c’est précisément un monde où les uns et les autres, sans concertation, sans négociation, sans plan quinquennal, font le pari du web sémantique et, comme par miracle, contribuent à construire un espace public de données, souvent complémentaires, parfois redondantes, parfois dissonantes.
Il ne s’agit pas de s’accorder entre nous (même si ça aide et fait plaisir), mais de s’accorder sur les mêmes bonnes pratiques internationales, sur l’état de l’art.

Affirmons à nouveau que chaque producteur est responsable de publier ses données et que le consommateur a le choix des moyens pour les exploiter : requête SPARQL fédérée, navigation à travers des browsers sémantiques, récupération de données en local (ne serait-ce que pour leur faire jouer le rôle d’un cache). Chaque solution a ses avantages et ses contextes d’utilisation privilégiés.

Caveat emptor

  • Ce démonstrateur est un démonstrateur.
  • Ce démonstrateur est vivant et donc périssable. Nous nous réservons le droit d’y ajouter des données, d’en retirer et même de le passer par pertes et profits.
  • Les URLs de ressources commençant par http://hub.abes.fr n’ont pas de durée de vie garantie. Encore moins les URLS pour les ressources de BACON,  HAL, de Persée ou du RNSR.
  • Certains jeux de données de la base sont complets (ORCID, Nature), d’autres ne sont que des échantillons (Annuaire Paris 4, Sudoc, IdRef, Oxford UP).
  • L’approche web sémantique n’est pas l’alpha et l’oméga de l’interopérabilité. A côté de la puissance de SPARQL, coûteuse et pas toujours performante, il y a de la place pour des API hyperspécialisées et hyperoptimisées, comme les micro web services du Sudoc ou d’IdRef.

Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Pour les besoins de la démonstration, nous avons agrégé des données diverses et variées, mais finalement cette auberge espagnole n’est pas si anarchique : tout mène à tout, et on peut regrouper les jeux de données de différentes manières :

  • Données descriptives vs Référentiels
  • Données produites par les réseaux ABES vs Données de tiers
  • Données du monde des bibliothèques vs Données d’autres mondes (science, administration, etc.)
  • Données récupérées en RDF vs Données produites en RDF

Mais dans ABES, il y a B : notre réseau de données se déploie autour des données bibliographiques, qui décrivent des livres, des revues, mais également des chapitres et des articles.

Un jeu de données = un graphe nommé dans la base

Chaque jeu de données chargé dans la base RDF demeure un sous-ensemble bien identifié, un « graphe nommé« . Les données se croisent mais conservent leur pedigree.

Dans une requête SPARQL, on peut préciser ne vouloir interroger que les données de tel graphe – ou de plusieurs graphes. La requête suivante va chercher des titres de document dans le seul graphe des documents HAL :


PREFIX dcterms: <http://purl.org/dc/terms/>
select ?titre
from <http://hub.abes.fr/ccsd/docs/paris4>
where {
?document dcterms:title ?titre.
} LIMIT 10

Pourtant, il n’est pas conseillé d’utiliser le graphe comme un filtre de recherche documentaire : une même base peut être partitionnée en graphes de mille manières différentes ; on pourrait même tout mettre dans un seul graphe. L’organisation par graphes obéit moins à une logique documentaire qu’à des contraintes prosaïques de gestion de la base (regrouper les données ayant la même origine, par exemple) . Cette organisation fera davantage penser aux magasins du CTLES qu’aux salles de bibliothèque en libres accès.

Attention : le nom d’un graphe est une URI, comme http://hub.abes.fr/ccsd/docs/paris4 par exemple, mais inutile de cliquer dessus : elle ne mènera rien, elle sert d’identifiant unique, pas d’adresse web.

Les documents ISTEX

Dans le cadre du projet hub de métadonnées, cette approche « web sémantique » a d’abord été appliquée aux métadonnées livrées dans le cadre d’ISTEX, programme d’acquisition massive de documentation électronique. Ce cadre se prêtait parfaitement à cette approche : les éditeurs nous livrent des données riches et hétérogènes. Notre travail est de conserver toute cette richesse, de l’enrichir encore et de redistribuer librement ces données.

Dans le démonstrateur on trouvera ces données ISTEX :

Revue OUP

Contenu : Métadonnées de la revue Oxford Economic Papers : articles (2112), fascicules, volumes, périodique.

Graphe : http://hub.abes.fr/oup/journals/oxecon

Modélisation : ABES

Exemple :

<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O33> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#F23> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O34> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://rdaregistry.info/Elements/w/P10072>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/m/web> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://purl.org/ontology/bibo/Article> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://vivoweb.org/ontology/core#relatedBy>  <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/authorship/1-1> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/isPartOf>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/w> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://hub.abes.fr/namespace/articleType>    <http://hub.abes.fr/oup/articletype/researcharticle> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#F13> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdaregistry.info/Elements/c/C10001> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://rdaregistry.info/Elements/w/P10072>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/m/print> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://vivoweb.org/ontology/core#relatedBy>  <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/authorship/1-2> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O14> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/title>  "On welfare reducing technological change in a North-South framework"^^<http://www.w3.org/1999/02/22-rdf-syntax-ns#XMLLiteral> .

 

Revues Nature (NPG)

Contenu : Tous les articles de toutes les revues Nature (NPG), dont la fameuse Nature.

Ce jeu de données a ceci de particulier qu’au lieu de convertir en RDF les métadonnées XML livrées par l’éditeur, nous avons privilégié les données RDF générées par l’éditeur lui-même. Ce sont des données d’assez bonne qualité, plus riches que les livraisons XML par certains côtés, moins par d’autres.

Côté plus, l’éditeur a fait un gros travail d’indexation des articles selon un thesaurus maison et un très précieux travail d’alignement de ce thesaurus vers les versions RDF de Wikipedia et MeSH. Ces alignements nous ont tout particulièrement intéressés, vous vous en doutez…

Côté moins, la version RDF est très pauvre en informations sur les auteurs, tandis que la version XML possède des données d’affiliation et des emails, par exemple.

Il s’agit donc d’un cas singulier, mais prometteur et appelé à se généraliser : l’éditeur ouvre lui-même ses données en RDF, mais ces données ne sont pas exhaustives. Il demeure pertinent d’exiger de lui une livraison de données brutes, XML dans ce cas, pour en extraire de informations précieuses et complémentaires. Selon les cas, on pourra redistribuer ces informations ou bien se contenter de les exploiter en interne, par exemple pour générer des alignements.

Graphes (nombreux) :
http://ns.nature.com/graphs/articles
http://ns.nature.com/graphs/contributors
http://ns.nature.com/graphs/map-article-types-dbpedia
http://ns.nature.com/datasets/npg-core-ontology
http://ns.nature.com/graphs/map-journals-dbpedia
http://ns.nature.com/graphs/map-journals-wikidata
http://ns.nature.com/graphs/map-subjects-dbpedia
http://ns.nature.com/graphs/map-subjects-mesh
http://ns.nature.com/graphs/map-subjects-wikidata
http://ns.nature.com/article-types
http://ns.nature.com/blogs
http://ns.nature.com/terms
http://ns.nature.com/journals
http://ns.nature.com/publish-states
http://ns.nature.com/relations
http://ns.nature.com/review-states
http://ns.nature.com/subjects
http://ns.nature.com/graphs/articles-dbpedia
http://ns.nature.com/summary-types

Modélisation : NPG

Exemple :

<http://ns.nature.com/articles/ajg20001205>	<http://ns.nature.com/terms/hasJournal>	<http://ns.nature.com/journals/ajg> .
<http://ns.nature.com/articles/ajg20001205>	<http://purl.org/ontology/bibo/doi>	"10.1111/j.1572-0241.2000.02953.x" .
<http://ns.nature.com/articles/ajg20001205>	<http://ns.nature.com/terms/hasContributor>	<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205> .
<http://ns.nature.com/articles/ajg20001205>	<http://purl.org/dc/elements/1.1/title>	"Urinary retention: a systemic complication of botulinum toxin injection therapy for achalasia" .

 

Ebooks Springer

Contenu : plus de mille livres Springer, composés de plus de 300 000 chapitres.

Graphe : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC

Modélisation : ABES

Exemple :

<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://purl.org/ontology/bibo/Book> .
<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://hub.abes.fr/namespace/subTitle>	"A Case Study in Pipelined Architecture and Vector Processing" .
<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://purl.org/dc/terms/subject>	<http://www.idref.fr/027756688/id> .

 

Les documents HAL

Contenu : environ 8 500 documents ayant pour affiliation Paris 4.

Graphe : http://hub.abes.fr/ccsd/docs/paris4

Modélisation : ABES

Exemple :

<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://vivoweb.org/ontology/core#relatedBy>	<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/authorship/1> .
<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://purl.org/dc/terms/title>	"Diversité linguistique en Nouvelle-Calédonie"@fr .
<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://purl.org/dc/terms/subject>	<https://hal.archives-ouvertes.fr/resource/domain/shs.anthro-se> .

 

Les documents Sudoc

Contenu :

  • Ebooks Dalloz (BND)
  • Livres papier et électroniques correspondant aux ebooks Springer
  • Documents liés aux auteurs IdRef mentionnés dans la base (description bibliographique succincte, non structurée)

Il faudra bien, plus tard, verser tout le Sudoc : toutes les notices ; tous les champs MARC de ces notices . Ce qui est une autre paire de manches. On y travaille…

Graphe :
http://www.sudoc.fr (Ebooks Dalloz)
http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/SUDOC/ELEC (Springer)
http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/SUDOC/PRINT (Springer)
http://www.idref.fr (entre autres, références des documents liés à une autorité chargée dans ce graphe)

Modélisation : ABES

Exemple :

<http://www.sudoc.fr/19116433X/id>	<http://id.loc.gov/vocabulary/relators/aut>	<http://www.idref.fr/060265310/id> .

 

Les référentiels de personnes

 

VIAF

Contenu : chaque mois, nous récupérons et traitons le dump VIAF des alignements entre fichiers d’autorité. Nous n’avons donc que les liens, et pas le contenu des autorités. (Et encore, nous ne gardons qu’une partie des liens, ceux qui relient des fichiers qui ont pignon sur rue. Mais cela fait tout de même près de 24 000 000 de liens.)

Graphe : http://hub.abes.fr/referentiel/linksviaf_03_2016

Modélisation : ABES

Exemple :

<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/05019321X/id> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://hub.abes.fr/frbn/13490714> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://id.loc.gov/authorities/names/n85098625> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.wikidata.org/entity/Q18911870> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://isni.org/isni/0000000121203999> .

 

ORCID

Contenu : chaque année, nous récupérons et traitons le dump ORCID (nou$ aimerion$ bien pa$$er à un dump men$uel). Il s’agit d’un dump XML que nous convertissons en 111 000 000 triplets RDF.

ORCID annonce 1 500 000 profils ORCID dans leur base :


PREFIX foaf: &lt;http://xmlns.com/foaf/0.1/&gt;
select (count(?s) as ?nb)
from &lt;http://hub.abes.fr/referentiel/ORCID2015&gt;
where { ?s a foaf:PersonalProfileDocument }

mais beaucoup n’ont qu’un nom et un prénom, aucune référence de document, ce qui rend ces profils moins fiables et moins utiles.

Graphe : http://hub.abes.fr/referentiel/ORCID2015

Modélisation : ABES

Exemple :

<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/ns/org#hasMembership>	<http://orcid.org/0000-0002-0018-0588/affiliation/1> .
<http://orcid.org/0000-0002-0018-0588>	<http://xmlns.com/foaf/0.1/familyName>	"Cain" .
<http://orcid.org/0000-0002-0018-0588>	<http://xmlns.com/foaf/0.1/givenName>	"Jeff" .
<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/2002/07/owl#sameAs>	<http://hub.abes.fr/referentiel/scopusAuthorID/9247844700> .

 

IdRef

Contenu : Nous aurions pu charger toutes les personnes IdRef, mais ces 2 000 000 d’entités auraient pu noyer le reste des données du démonstrateur. Nous avons seulement chargé les triplets RDF correspondant à un identifiant IdRef mentionné quelque part dans la base (en général, dans les alignements).

Graphe : http://www.idref.fr

Modélisation : ABES

Exemple :

<http://www.idref.fr/02670000X/id>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://www.idref.fr/02670000X/id>	<http://www.w3.org/2002/07/owl#sameAs>	<http://data.bnf.fr/ark:/12148/cb11889814d#foaf:Person> .
<http://www.idref.fr/02670000X/id>	<http://xmlns.com/foaf/0.1/name>	"Bacot, Jacques" .
<http://www.idref.fr/02670000X/id>	<http://www.w3.org/2002/07/owl#sameAs>	<http://isni.org/isni/0000000121400095> .

 

L’annuaire des chercheurs de trois laboratoires de Paris 4

Contenu : près de 800 chercheurs, rattachés à trois équipes de recherche de Paris 4. Dans ce graphe, on ne sait pas grand chose de chaque chercheur : son nom, son prénom, son laboratoire, trois informations glanées sur le site de l’université. Aucun LDAP n’a été maltraité pendant cette opération.

Graphe : http://hub.abes.fr/paris4/labos/auteurs

Modélisation : ABES

Exemple :

<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/givenName>	"Mahamane" .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/083406964/id> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://schema.org/memberOf>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812914A> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/familyName>	"DJOUDOU" .

 

Les référentiels d’organismes

 

Référentiel National des Structures de Recherche (RNSR)

Contenu : Paris 4 et ses structures

Nous avons converti en RDF un export partiel de la base RNSR.

Graphe : <http://hub.abes.fr/rnsr/structures/paris4&gt;

Modélisation : ABES

Exemple :

<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://schema.org/name>	"CENTRE D'ETUDE DE LA LANGUE ET DE LA LITTERATURE FRANCAISES DES XVIIEME ET XVIIIEME SIECLES" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://hub.abes.fr/namespace/sigle>	"UMR8599" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://schema.org/foundingDate>	"1998" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/vocab/typStruct/UR> .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .

 

Référentiel des structures de HAL

Contenu : Paris 4 et ses structures

Nous avons récupéré les données via l’API de HAL et les avons converti en RDF.

Graphe : http://hub.abes.fr/ccsd/structures/paris4

Modélisation : ABES

Exemple :

<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://hub.abes.fr/namespace/sigle>	"CELLFXXS" .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<https://hal.archives-ouvertes.fr/resource/typStruct/laboratory> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/2002/07/owl#sameAs>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://schema.org/name>	"Centre d'\u00E9tude de la langue et de la litt\u00E9rature fran\u00E7aises des\n                XVIIe et XVIIIe si\u00E8cles [CELLFXXS]" .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://hub.abes.fr/namespace/structCode>	"UMR8599" .

 

Les référentiels d’analyse du contenu

 

RAMEAU

Contenu : dump BnF (avril 2015)

Graphe : http://hub.abes.fr/rameau_avril2015

Modélisation : BnF

Exemple :

<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#related>	<http://data.bnf.fr/ark:/12148/cb120000024> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2000/01/rdf-schema#seeAlso>	<http://catalogue.bnf.fr/ark:/12148/cb12041722r> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/028618106/id> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2002/07/owl#sameAs>	<http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb12041722r> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://www.w3.org/2004/02/skos/core#Concept> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dewey.info/class/915/> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Portugal -- Colonies -- Afrique"@fr .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dewey.info/class/950/> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://data.bnf.fr/ontology/bnf-onto/FRBNF>	"12041722"^^<http://www.w3.org/2001/XMLSchema#integer> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#broader>	<http://data.bnf.fr/ark:/12148/cb11979529k> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#narrower>	<http://data.bnf.fr/ark:/12148/cb16661249d> .

 

LCSH

Contenu : dump LCSH (octobre 2014)

Graphe : http://hub.abes.fr/lcsh_27oct2014

Modélisation : LoC

Exemple :

<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#broader>	<http://id.loc.gov/authorities/subjects/sh96010352> .
<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Businesswomen"@en .
<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#narrower>	<http://id.loc.gov/authorities/subjects/sh86006258> .

 

MeSH

Contenu : dump NLM

Graphe : http://id.nlm.nih.gov/mesh

Modélisation : NLM

Exemple :

<http://id.nlm.nih.gov/mesh/D000035>	<http://id.nlm.nih.gov/mesh/vocab#nlmClassificationNumber>	"WM 420.5.A2" .
<http://id.nlm.nih.gov/mesh/D000035>	<http://id.nlm.nih.gov/mesh/vocab#broaderDescriptor>	<http://id.nlm.nih.gov/mesh/D013811> .
<http://id.nlm.nih.gov/mesh/D000035>	<http://www.w3.org/2000/01/rdf-schema#label>	"Abreaction"@en .

 

FMeSH (MeSH en français)

Contenu : Notices FMeSH chargées annuellement dans IdRef

Graphe : http://hub.abes.fr/referentiel/idref/mesh/14042016

Modélisation : ABES

Exemple :

<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#inScheme>	<http://id.nlm.nih.gov/mesh> .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"tendances (qualificatif)" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"trends" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"TD" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"tendances"@fr .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://www.w3.org/2004/02/skos/core#Concept> .

 

Thesaurus Nature (NPG)

Contenu : dump NPG

Graphe : http://ns.nature.com/subjects

Modélisation : NPG

Exemple : <http://ns.nature.com/subjects/enteric-nervous-system&gt; (description)

<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://id.nlm.nih.gov/mesh/D017615> .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://ns.nature.com/terms/hasRoot>	<http://ns.nature.com/subjects/biological-sciences> .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Enteric nervous system"@en .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dbpedia.org/resource/Enteric_nervous_system> .

 

Journal of economic literature (JEL) classification system

Contenu : dump RDF de cette classification spécialisée

Graphe : http://hub.abes.fr/graph/jel

Modélisation : ZBW

Exemple :

<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Modèles de r"gression discrète et de choix qualitatif; Régresseurs discrets; Proportions; Probabilités"@fr .
<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Discrete Regression and Qualitative Choice Models; Discrete Regressors; Proportions; Probabilities"@en .
<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Diskrete Regressionsmodelle und qualitative Auswahlmodelle; Diskrete Regressoren; Gr\u00F6\u00DFenverh\u00E4ltnisse; Wahrscheinlichkeiten"@de .

 

Les référentiels de bouquet

 

Bouquet Dalloz

Contenu : modélisation en KBART très light de la collection des ebooks Dalloz

Graphe : http://hub.abes.fr/dalloz/bn/kbart/lite

Modélisation : GoKB (modélisation non finalisée)

Exemple :

<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://www.loc.gov/standards/mods/modsrdf/v1/#locationUrl>	"http://dallozbndpro-pvgpsla5.dalloz-bibliotheque.fr/fr/pvpage2.asp?puc=4236&amp;amp;amp;nu=36&amp;amp;amp;selfsize=1" .
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://gokb.org/tipp/#hasTitle>	<http://www.sudoc.fr/191183768/id> .
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://gokb.org/tipp/#belongsToPkg>	<https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .

 

Les localisations

 

Bibliothèques possédant le bouquet Dalloz

Contenu : Liste des bibliothèques « possédant » le bouquet dalloz (d’après ERE).

Graphe : http://hub.abes.fr/dalloz/bn/who

Modélisation : ABES

Exemple :

<http://data.enseignementsup-recherche.gouv.fr/uai/0134031L>	<http://schema.org/owns>	<https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .
<http://data.enseignementsup-recherche.gouv.fr/uai/0134031L>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .

 

Les alignements

Nous considérons que les alignements sont des jeux de données comme les autres, à côté des autres. On a intérêt à les gérer à part et à les diffuser à part : il est important de garder la traçabilité des données, de pouvoir faire le tri entre les données d’origine et les enrichissements ajoutés.
 

Alignements entre des auteurs NPG et ORCID

Contenu : quelques milliers d’alignements entre les identifiants locaux des auteurs NPG et les identifiants ORCID

Graphe : http://ns.nature.com/graphs/contributors/align/orcid

Exemple :

<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/givenName>	"Jamie" .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/name>	"Jamie Barkin S" .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://ns.nature.com/terms/Contributor> .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/familyName>	"Barkin S" .

 

Alignements entre des auteurs NPG et ISNI

Contenu : quelques milliers d’alignements entre les identifiants locaux des auteurs NPG et les identifiants ORCID, obtenus via Qualinca

Graphe : http://ns.nature.com/graphs/contributors/align/isni

Exemple :

<http://ns.nature.com/contributors/w-h-irwin-mclean-ng.276> owl:sameAs <http://isni.org/isni/0000000124496002> .

 

Alignements entre des auteurs HAL et IdRef

Contenu : quelques centaines d’alignements entre les auteurs HAL et les auteurs IdRef. Beaucoup d’autres sont prévus.

Graphe : http://hub.abes.fr/ccsd/docs/paris4/align/idref

Exemple :

<https://hal.archives-ouvertes.fr/resource/author/1087935>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/111217776/id> .

 

Alignements entre des chercheurs de Paris 4 et IdRef

Contenu : La grande majorité de nos chercheurs de Paris 4 alignés vers IdRef.

Graphe : http://hub.abes.fr/paris4/labos/auteurs/align/idref

Exemple :

<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/givenName>	"Mahamane" .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/083406964/id> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://schema.org/memberOf>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812914A> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/familyName>	"DJOUDOU" .

 

Alignements entre des auteurs de Persée et IdRef

Contenu : Plus de 10 000 alignements entre Persée et IdRef. Des milliers d’autres seront bientôt générés, dans le cadre d’une fructueuse collaboration avec Persée. Les URIs qui identifient les auteurs Persée sont pour l’instant fictives, mais nos collègues Lyonnais travaillent à l’exposition de leur base sur le web de données.

Graphe : http://hub.abes.fr/persee/auteurs/align/idref

Exemple :

<http://data.persee.fr/person/10004#Person>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/068894449/id> .

 

Alignements entre auteurs Nature (NPG)

Contenu : Plus de 10 000 alignements entre auteurs Nature. Dans le dump RDF de Nature, les auteurs ne sont pas identifiés : si un même auteur a publié deux articles, il apparaîtra avec deux URIs différentes. Pour l’identifier, on peut soit l’aligner sur un référentiel extérieur (ce qu’on fait par ailleurs, dans le cadre de notre projet de recherche Qualinca), soit, à défaut, aligner entre elles les URIs sous lesquelles il est nommé au sein du jeu de données. C’est ce qui a été fait en exploitant l’email, absent du dump RDF mais présent dans les données XML ISTEX : si deux personnes ont le même email et des noms très proches, alors on considère que c’est la même personne. A terme, nous créerons des URIs pivot vers lesquelles pointeront toutes les URIs rapprochées. Pour l’instant, on ajoute des relations owl:sameAs entre chaque paire d’URIs, ce qui est plus bavard.

Graphe : http://ns.nature.com/graphs/contributors/align/email

Exemple :

<http://ns.nature.com/contributors/aaron-f-straight-ncb1899>    owl:sameAs <http://ns.nature.com/contributors/ns1:aaron-f-straight-nature10379> .

 

Alignements entre les auteurs Springer et IdRef

Contenu : Près de 20 000 alignements entre des auteurs d’ebooks (voire de chapitres) et des auteurs IdRef. D’autres alignements seront générés, soit par programme, soit par les catalogueurs du réseau Sudoc, notamment dans le cadre du dispositif CERCLES.

Graphe : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/personnes/idref

Exemple :

<http://hub.abes.fr/springerB/ebook/10904251/caofrederic>  owl#sameAs  <http://www.idref.fr/094231737/id> .

 

Alignements entre les documents Springer et RAMEAU

Contenu : Plus de 70 000 liens entre les documents Springer et les identifiants IdRef de RAMEAU, obtenus grâce à l’alignement entre le thesaurus d’indexation matière de Springer, LCSH et RAMEAU.

Graphe :
Liens les documents et le RAMEAU IdRef : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/rameauppn
Alignements entre le RAMEAU officiel (BnF) et le RAMEAU Idref : http://hub.abes.fr/rameau_avril2015/ppns
Alignements entre le thesaurus d’indexation matière de Springer, LCSH et RAMEAU : http://hub.abes.fr/theses/referentiel/concepts/springer/8janvier2016

Exemple :

<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	dcterms:subject	<http://www.idref.fr/027239519/id> .

 

Alignement entre les domaines HAL et Dewey

Contenu : Alignement manuel entre les domaines HAL et la classification Dewey. Ces alignements de concepts sont toujours délicats. Ils mériteraient d’être revus et amendés de manière collaborative, d’autant qu’ils peuvent être utiles à beaucoup de collègues dans les bibliothèques et les laboratoires.
Depuis la fermeture du site dewey.info par OCLC, les URI Dewey sont en déshérence.

Graphe :
http://hub.abes.fr/ccsd/domaines/align/dewey

Exemple :

<https://hal.archives-ouvertes.fr/resource/domain/info.info-ai>	 skos:closeMatch  <http://dewey.info/class/006.3/> .

 

Alignement entre les structures de recherche de Paris 4 dans les référentiels RNSR, HAL et IdRef

Contenu : Alignement manuel.

Graphe :
http://hub.abes.fr/alignements/structures/rnsr/idref/ccsd

Exemple :

<https://hal.archives-ouvertes.fr/resource/structure/74682>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .
<https://hal.archives-ouvertes.fr/resource/structure/107600>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .
<http://www.idref.fr/031896596/id>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .

CERCLES : 4 NOUVEAUX CORPUS

CERCLES_Hula_hoop_Jerry_via_Flick_CC_BY_SA_2_0

Le dispositif CERCLES s’agrandit : 4 nouveaux corpus vont être pris en charge par 4  établissements (2 nouveaux établissements, et 2 établissements déjà référents sur un précédent corpus).

Corpus « American Mathematical Society », Bibliothèque Universitaire Pierre et Marie Curie

  • Corpus : e-books AMS, dont les séries « Memoirs of the AMS » – 2500 titres
  • Période de travail : mai 2016 – décembre 2017
  • Responsable du chantier : Yves Momboisse
  • Axes d’enrichissement : vérification des ISBN, création et complétude des liens 4XX, 6XX et 7XX, création et numérotation ISSN des collections électroniques
  • Le «+» du chantier  :
    • engagement sur la fusion de notices en cas de doublon
    • bonne connaissance du dispositif par le responsable de chantier
    • chantier initié par les bibliothèques MIR qui ont lancé un appel à collaboration auprès des établissements du réseau national des bibliothèques de mathématiques (RNBM) dont elles font partie
    • fort engagement de cet établissement dans le dispositif : la BUPMC prend déjà en charge le corpus ENI (avec la BIU Montpellier) et s’apprête à lancer un 3ième chantier, sur un autre corpus de mathématiques.

Corpus « Cambridge University Press – Sociology 2013-2015 », Bibliothèque de la Fondation Maison des Sciences de l’Homme

  • Corpus : e-books Cambridge University Press – 167 titres
  • Période de travail : avril 2016 – septembre 2016
  • Responsable du chantier : Jeanne Longevialle, Fabrice Mouillot
  • Axes d’enrichissement : création et complétude des liens 4XX, 6XX et 7XX, création et numérotation ISSN des collections électroniques, création des notices d’autorités si nécessaire, traitement des zones 309.
  • Le «+» du chantier  :
    • bonne connaissance du dispositif par les responsables de chantier
    • fort engagement de cet établissement dans le dispositif : la FMSH milite depuis longtemps pour un signalement de qualité des ressources électroniques, et pas seulement dans les outils de découverte.
    • appel ouvert à collaboration avec un autre établissement : la FMSH a fait le choix de ne pas lier sa politique documentaire à la politique commerciale de l’éditeur, et n’a acquis, sur ce bouquet « Sociology 2013-2015 », que les 162 titres qui intéressent ses usagers. L’ABES lance donc un appel aux établissements du réseau intéressés par ce corpus, pour collaborer avec la FMSH dans le cadre de CERCLES et prendre en charge les 41 titres restants.

Corpus « Cairn – monographies encyclopédiques », Bibliothèque Nationale Universitaire de Strasbourg

  • Corpus : e-books « Que sais-je ? » et « Repères » – 1955 titres
  • Période de travail : avril 2016 – avril 2017
  • Responsable du chantier : Christine Hecht
  • Axes d’enrichissement : création et numérotation ISSN des collections électroniques, création et complétude des liens 4XX et 6XX
  • Le «+» du chantier  :
    • choix d’un corpus pluridisciplinaire, intéressant un grand nombre d’établissement
    • collaboration raisonnée et concertée avec un autre établissement CERCLES, le SCD de l’université Jules Verne – Picardie, en charge du corpus CAIRN « toutes collections ». Les axes d’enrichissements ont bien été délimités entre les deux chantiers : à Amiens, on enrichit les zones 7XX (et les mentions de responsabilité en 200) alors qu’à Strasbourg, on ne travaillera qu’à l’amélioration des zones 4XX et 6XX.

Corpus « Dalloz », SCD de l’université de Strasbourg

  • Corpus : e-books  Dalloz – 600 titres (sur 1800 notices)
  • Période de travail : avril 2016 – décembre 2016
  • Responsable du chantier : Stéphanie Himber
  • Axes d’enrichissement : création des notices manquantes, vérification des dates sur les notices existantes, contrôle et correction des URL d’accès, création et numérotation ISSN des collections électroniques
  • Le «+» du chantier  :
    • choix d’un corpus indispensable pour toutes les bibliothèques de droit
    • collaboration en amont avec l’équipe du Hub de métadonnées de l’ABES : comme cela s’est passé pour le chantier CERCLES mené par le SCD de l’université de Lyon 1 Claude-Bernard, en 2015, le chantier DALLOZ a bénéficié d’une première salve de traitements automatisés, pour laisser l’établissement se concentrer par la suite sur les enrichissements plus complexes. Le récit de cette collaboration intéressante fera l’objet de plusieurs billets, publiés prochainement, sur ce blog.

 

 

Comment suivre ces 4 nouveaux chantiers, et les autres ?

Un Manuel « CERCLES  » est désormais en ligne, sur le Guide méthodologique du Sudoc. Le détail de chaque chantier y est mentionné, et tout le monde peut suivre la progression du travail, s’il consulte régulièrement le rapport statistique alimenté par chaque responsable. Un moyen de rester  informé, et de soutenir ces collègues ! CERCLES_manuel

Comment CERCLES fait bouger les lignes

CERCLES_Hula_Hoop_bu_Mari_Francille_via_Flick_CC_BY_SA_2_0Le dispositif, qui pour l’instant répond aux objectifs et semble convenir au réseau, fait évoluer les comportements et les pratiques, non seulement entre les établissements, mais aussi avec l’ABES et également -parfois- avec les éditeurs. Le « cercle vertueux », visé à l’origine, commence à se mettre en place, comme en témoignent de récentes collaborations Etablissement-ABES – éditeurs, dont il sera question lors de la session parallèle « Un cercle vertueux », le 10 mai prochain, pendant les Journées ABES 2016.

CERCLES : tous concernés !

 Mon établissement n’est pas dans CERCLES. En quoi suis-je alors concerné par ce dispositif ?

Le dispositif CERCLES est le premier dispositif formalisé d’enrichissement collaboratif au sein du réseau Sudoc. Les établissements volontaires prennent en charge un corpus, et concentrent leur activité d’enrichissement des notices sur ce seul corpus. Au niveau du réseau, la charge de travail est mieux répartie, et les corpus qui bénéficient d’un travail d’enrichissement programmé sont mieux identifiés.

Le résultat sert la communauté. Tout membre du réseau Sudoc est donc concerné par CERCLES, que son établissement soit actif dans le dispositif ou pas.

Tout catalogueur peut être amené à travailler sur une notice d’un corpus CERCLES.

Parce que son établissement a acquis la ressource, au titre ou dans le cadre d’un bouquet, un catalogueur peut être amené à se localiser sous une notice bibliographique d’un des corpus pris en charge.

Parce qu’il est toujours consciencieux, le catalogueur examinera la notice avant d’y créer son exemplaire, et sera tenté, s’il y voit des erreurs ou des lacunes, de les corriger. S’agissant d’erreurs ou de lacunes « classiques » (i.e. vérification de conformité aux normes de catalogage), il a toute la légitimité pour le faire. S’agissant d’enrichissements ciblés et propres aux particularités de ce corpus, il pourrait empiéter sur les prérogatives des référents dudit corpus. Et risquer, en toute bonne foi mais par mégarde, d’interférer dans leur travail.

Un exemple récent illustre ce risque.

Sharp crayons pointing up

Le corpus des e-books d’Open Edition, pour lequel le SCD François Rabelais de Tours est référent CERCLES,  présente des notices bibliographiques avec de multiples mentions de responsabilité (en 200 $f ou $g). En accord avec l’ABES, une consigne particulière a été adoptée pour le traitement de ces notices : basculer les mentions de responsabilité en zone 314, créer des liens auteur (701) pour au moins les 3 premières mentions signalées, et laisser les autres accès auteur, même non liés.
Un catalogueur non avisé de cette consigne risquerait de défaire le travail initié par les collègues tourangeaux.

La consigne a donc fait l’objet d’un message sur la liste des catalogueurs (SUCAT) et des correspondants catalogage (CORCAT).

CERCLES_message_Tours

Nous invitons par conséquent tout catalogueur, lorsqu’il souhaite intervenir sur une notice d’un corpus CERCLES pour y apporter des modifications d’importance,  à contacter le référent du corpus, afin de s’assurer que son intention ne contredit pas un consigne spécifique.

Pour cela, il lui faut bien connaître les corpus CERCLES, les chantiers en cours, et les référents à contacter.

Une excellente solution serait l’insertion, dans ces notices, d’une note interne 830, destinée aux catalogueurs des réseaux Sudoc et Sudoc-PS, qui dirait (pour l’exemple du corpus Open Edition) « Chantiers CERCLES : cette notice fait partie du corpus Open Edition (collections courantes). Merci de ne pas la modifier sans l’accord du responsable de chantier (SCD de l’université François Rabelais de Tours). Pour plus d’information, consulter le guide méthodologique… ». L’ABES y est favorable, mais la solution n’est pas encore techniquement mise en place. Alors en attendant, pour informer largement le réseau des chantiers en cours, c’est un nouveau manuel qui donnera aux catalogueurs toutes les informations nécessaires.

CERCLES_acces_manuel

Un nouveau manuel, accessible depuis le Guide méthodologique

Dans ce nouveau manuel « CERCLES », on trouvera :

  • la présentation du dispositif CERCLES
  • la procédure pour candidater
  • le tableau récapitulatif des chantiers, et l’établissement référent

Et chaque lecteur aura la possibilité de suivre l’avancée d’un chantier particulier, via un document d’information dynamique mis à jour par le responsable du chantier lui-même.

cercles_info_reseau

Document d’information, dynamique, destiné au réseau.

Tout administrateur du catalogue peut vouloir récupérer les notices enrichies

L’enrichissement des notices doit profiter à tous les établissements, c’est le principe de la mutualisation. Comment peut-on récupérer dans son SIGB local les notices bibliographiques enrichies dans le cadre de CERCLES ?

A) Si mon établissement est déjà localisé sous les notices

  • la récupération peut se faire via les transferts réguliers ; la condition, pour cela, est de paramétrer son transfert avec l’option « toutes mises à jour ». L’établissement récupère alors chaque notice bibliographique enrichie par l’établissement CERCLES, pour laquelle il possède au moins un exemplaire.
  • la récupération peut se faire via le service Export à la demande, si l’établissement souhaite conserver l’option « mise à jour propre » de ses transferts réguliers. Un fichier de notices bibliographiques du corpus lui sera envoyé sur demande, gratuitement dans la limite d’une demande par an.

B) Si mon établissement n’est pas encore localisé sous les notices

  • la récupération se fera lors de l’exemplarisation automatique que l’établissement aura demandé ; il récupérera les notices enrichies, et son exemplaire.

CERCLES_quel_formulaire_choisir

Export à la demande ? Exemplarisations automatiques ? Quel formulaire choisir ?

En résumé

 

The word Go made from jigsaw puzzle pieces

Puzzle par Horia Varlan CC-BY-NC-2.0 via Flickr

 

  • Un établissement prend en charge l’enrichissement d’un corpus au nom de tous.
  • Tous les établissements en bénéficient, en récupérant, via les services ABES, des notices enrichies.
  • Un manuel informe les catalogueurs des chantiers en cours.
  • Tous les catalogueurs peuvent solliciter les responsables des chantiers, et collaborer.

CERCLES : Retour d’expérience de La Sorbonne & l’École Française d’Athènes

L’engagement BIS / EFA

CERCLESLa Bibliothèque Interuniversitaire Sorbonne (BIS) et l’École Française d’Athènes (EFA), rejoignent le dispositif CERCLES en juillet 2015 et s’engagent à corriger les notices des bouquets 2011 à 2014 des Classical Studies publiés par De Gruyter. Ces e-books ont été acquis par le CADIST Antiquité pour les usagers des deux établissements.

Délimitation du périmètre d’action :

  • Corpus De Gruyter, Classical studies : 288 notices à traiter
  • Bouquets 2011, 2012, 2013 et 2014
  • Répartition par établissements :
    •      EFA : bouquet 2014
    •      BIS : bouquets 2011, 2012, 2013
  • Calendrier prévisionnel établi d’après une estimation du temps de travail par notice : 40 minutes en moyenne
  • Début du chantier : août 2015
  • Fin du chantier : fin novembre 2015

Axes d’enrichissements

Les axes d’enrichissements prévus au départ :

  • Fusion de notices en cas de doublons ;
  • Création des zones 4XX, 6XX et 7XX, et liens (amélioration et correction) ;
  • Ajout de l’indexation-matière ;
  • Nettoyage des notices (francisation des notes, correction des caractères grecs erronés) ;
  • Ajout des zones propres aux documents électroniques (305, 306, 307, etc.) ;
  • Création des notices d’autorité lorsqu’elles n’existent pas ;
  • Demande de numérotation ISSN des notices de collection et création de notices de collection si besoin.

L’évaluation en amont des notices du corpus

Pour les premiers bouquets traités (bouquet 2011-BIS, et 2014-EFA), il a été décidé de noter de façon systématique toutes les corrections apportées aux notices, afin de repérer les plus récurrentes, et ainsi avoir l’analyse la plus précise de la qualité du corpus à traiter. Pour les bouquets 2012 et 2013 en revanche, les corrections étant les mêmes, nous avons choisi de ne plus les reporter. Nous avons préféré signaler d’autres problèmes qui sont apparus avec ces bouquets : les titres présents dans plusieurs bouquets, les titres non parus et les formats disponibles (PDF et/ou EPUB).

 

Le chantier d’enrichissement

 Traitement dans WinIBW 

CERCLES_2L’EFA qui a commencé le chantier avant la BIS avec le bouquet 2014, a pu nous faire bénéficier de son avancement et de son expérience.

 Dans la pratique :

  • Recherche par MTI (mots du titre) ou TOU (tous les mots) ou ISB (ISBN) des titres fournis par l’éditeur ne permettant pas toujours de trouver la notice
  • Affichage des notices papier et électronique en « mosaïque verticale » et mise des 2 notices en « modification »
  • Copier-coller des zones 101/102/104/105, 200
  • Copier-coller de 452 ##$0 dans les 2 notices puis copier-coller du PPN de l’autre notice après le $0
  • Copier-coller des 6XX du papier vers l’électronique
  • Copier-coller des 7XX du papier vers l’électronique
  • Copie de l’URL DOI pour afficher le document sur Internet et vérifier les informations mentionnées par l’éditeur : date, format PDF/EPUB, pagination, Table des matières, document pas encore paru, gratuit/payant…
  • Exemplarisation

En avançant dans le traitement des différents bouquets, nous avons  constaté que  l’enrichissement des notices ne se limitait pas aux seules prévisions de départ. Voici, pour bon nombre d’entre elles, les corrections et améliorations apportées :

  • 100, 101, 135 (les zones des données codées) : incohérences au niveau des dates (100/210), erreurs dans les langues, etc ;
  • 200 $a, $f, $g (la zone du titre propre) : nombreuses erreurs d’indicateurs, parfois reprise du titre et des mentions de responsabilités. Egalement, suppression du « $bRessource électronique » ;
  • 3XX :
    • 302 (note sur les langues) : reprise des notes sur la version et traduction ;
    • 328 (note de thèse) : absentes le plus souvent, ou non structurées ;
    • 359 (zone de la table des matières) : l’une des parties la plus chronophage a été pour nous la reprise systématique des tables de matières ;
  • 500, 503 (titre de forme et titre uniforme) : absence systématique.

Plusieurs vérifications/corrections sur des champs particuliers ont été faites à la fin de chaque lot traité : cela a permis la reprise d’oublis.

 Traitement dans le SIGB Millennium

Un travail en amont a dû être fait avec la Cellule des Ressources électroniques et le Service informatique de la BIS afin de déterminer les données d’exemplaire à saisir dans Millennium. Après plusieurs mois de réflexion, les données exemplaires ont été validées en juillet 2015, et les paramétrages dans le SIGB effectués dans la foulée. Ainsi, dès le chargement des notices SUDOC dans Millennium, nous avons pu reprendre les données locales dans les notices items (création et exécution de fichiers de révision), et avoir un affichage satisfaisant à l’OPAC pour le lecteur.

 Traitement des demandes ISSN

Notre engagement prévoyait aussi la création des notices de collections électroniques (Od) et la demande de numérotation ISSN pour ces collections. C’est pourquoi nous avons également été amenées à travailler avec Véronique Comby, responsable du CR 26.

Nous nous sommes interrogées sur les justificatifs à fournir pour la demande de numérotation ainsi que sur la conservation des liens 452 (lien type de support de la version électronique vers  la version papier – la conservation d’un lien impliquant deux demandes de numérotation : une pour la version électronique et une pour la version imprimée). Au final, pour les justificatifs nous avons fourni les captures d’écran des collections du site éditeur. Et, pour les zones de lien 452 vers la version imprimée de la collection, les demandes n’ont tout simplement pas été traitées quand nous n’avions pas de localisation sous ces notices.

 

Les moyens mis en place

Création de scripts locaux et zones spécifiques

Afin de gagner du temps et éviter les oublis et les erreurs de saisie, différents scripts ont été créés :

  • Scripts des zones 3XX (zones spécifiques aux ressources électroniques) : Suite à un rechargement de l’ABES des notices de De Gruyter, le script de départ a dû être légèrement modifié (remplacement de la zone 336 par la zone 339). Par ailleurs, certaines zones propres aux ressources électroniques étaient déjà présentes dans beaucoup de notices, comme la 310 ou 337. Nous avons alors veillé à ne pas doubler ces zones.
 303 ##$aNotice rédigée d’après la consultation du AAAA-MM-J
304 ##$aTitre provenant de l’écran titre
305 ##$aVersion électronique de l’édition de Berlin : De Gruyter, XXXX
307 ##$aLa pagination de l’édition imprimée correspondante est de : … pages
310 ##$aL’accès complet à la ressource est réservé aux usagers des établissements qui en ont fait l’acquisition
337 ##$aNécessite navigateur et un lecteur de fichier PDF
339 ##$aPDF$dAAAA
339 ##$$aEPUB$dAAAA
  •  Script de la Zone 615 : nous avons choisi cette zone pour identifier chaque bouquet car la recherche sur le sous-bouquet « Classical studies » était impossible dans le SUDOC. Cette zone 615 permettra aux établissements qui voudront se localiser sous certains bouquets de les distinguer parmi les 38 418 notices d’e-book de l’éditeur De Gruyter. Cette zone a été ajoutée dans chaque notice, y compris lorsqu’il y avait plusieurs bouquets. La sous zone $n permet d’identifier le bouquet grâce à un numéro ISBN fourni par l’éditeur (une discussion est en cours au sein de l’ABES pour valider cette façon d’identifier les sous-lots).
615 ##$aClassical Studies 2011$n978-3-110-26121-9$2De Gruyter
615 ##$aClassical Studies 2012$n978-3-11-028896-4$2De Gruyter
615 ##$aClassical Studies 2013$n978-3-11-031709-1$2De Gruyter
615 ##$aClassical Studies 2014$n978-3-11-036961-8$2De Gruyter
  •  Script de localisation des e-books payants : zone E856 d’accès direct à la ressource en ligne : lien permanent doi -Digital Object Identifier -, ou à défaut autre lien fourni par l’éditeur  (décision collégiale avec la cellule informatique et des ressources électroniques).

 e01 $bx

930 ##$b751052105$aRessource en ligne$js
999 ##$aInitiales catalogueur
E856 4#$qPDF$zTexteintégral$uhttp://janus.biu.sorbonne.fr/login?url= http://dx.doi.org/…..
  •  Script de localisation des e-books gratuits : zone 856 et non E856 et code PEB différent (= « g » – non disponible pour le PEB car disponible pour tous).
 856 4#$qPDF$uhttp://www.degruyter.com/doc/cover/9783110266405.jpg
859 4#$qPDF$uhttp://www.degruyter.com/search?f_0=isbnissn&q_0=9783110266405&searchTitles=true
859 4#$qPDF$uhttp://dx.doi.org/10.1515/9783110266405
e01 $a21-09-15$bx
930 ##$b751052105$aRessource en ligne$jg
999 $aInitiales catalogueur
  •  Script de localisation d’une collection d’e-books :

 

e01 $bxO
930 ##$b751052105$js
955 41$4Collection de livres électroniques
999 ##$aInitiales catalogueur
E856 4#$uhttp://www.degruyter.com…

 

Outil collaboratif

Pour avancer dans ce chantier, en plus de l’organisation de plusieurs réunions et d’une correspondance email avec l’EFA pour faire le point sur les difficultés rencontrées, nous avons pu disposer d’ un espace de travail collaboratif en ligne pour un échange entre l’ABES et les établissements participant à CERCLES .

Cet outil nous a permis d’accéder à différents fichiers modifiables ou en mode de lecture seule , notamment un tableau de bord nous permettant de communiquer avec l’EFA et l’ABES. Nous avons également pu y déposer un fichier afin de suivre notre avancée sur les différents bouquets : quatre tableaux Excel indiquant la progression de notre travail avec la liste des PPN, les notices traitées, les corrections et remarques, etc..

Nous avons parfois dû reprendre l’ensemble des notices d’un bouquet en fonction des réponses données dans le tableau par l’ABES ou l’EFA ; en  exemple, la zone 336 et 339 sur le(s) format(s) : toutes les zones 336 ont été écrasées lors de chargements de l’ABES. Après demande via Bouda et attente de confirmation de l’ABES, il a fallu reprendre l’ensemble d’un bouquet pour ajouter cette zone quand elle ne figurait pas déjà dans la notice.

Bilan du chantier

Le chantier s’est déroulé sur 5 mois, de juillet à novembre 2015.

 Bilan quantitatif

L’outil Check Sudoc a permis de corriger quelques oublis : incohérences entre la date saisie en zone 100 et 210, absence de zone 410.

Eléments quantitatifs du chantier : 288 notices

  • 9 notices de collections créées
  • 15 demandes de numérotation ISSN via CIDEMIS
  • 9 autorités auteurs créées
  • 195 liens 410 faits
  • 10 liens 461 faits
  • 260 notices ayant reçu une indexation matière
  • 1026 liens 6XX faits
  • 417 liens 7XX faits  (+ les 71X non visibles par Check Sudoc)
  • 522 liens 452 dans les notices de monographies (de l’électronique vers le papier et inversement)
  • 76 liens 452 faits dans les notices de collection (de la collection électronique vers la collection papier et inversement)

 

Bilan qualitatif

La qualité des notices fournies par l’éditeur :

Les notices fournies par l’éditeur De Gruyter sont complètes mais leur structuration ne correspond pas à celle attendue dans le Sudoc.

Si le gain de temps est manifeste grâce à la saisie des données et à l’utilisation des notices bibliographiques décrivant les versions papier des ouvrages, il ne l’est pas sur les modifications à apporter pour rendre les notices du bouquet De Gruyter conformes aux exigences de qualité du Sudoc.

En moyenne, nous évaluons à 40 minutes le temps passé sur une notice entre le contrôle de la saisie des données (titres faux, tronqués …), la restructuration des champs (notamment pour le bloc des 3XX, avec des 359 inexploitables), la création des liens, l’exemplarisation …

L’ABES incite chaque établissement à mener des négociations directes avec l’éditeur afin d’obtenir des notices de meilleure qualité. (cf. démarche suivie par la MSH auprès de CUP, Cambridge University Press, ils ont conditionné leurs futurs achats à la fourniture de notices de qualité).

Un outil collaboratif plus performant :

L’outil utilisé par l’ABES (Bouda) pour permettre des échanges simplifiés entre l’EFA, l’ABES et la BIS n’a pas toujours été performant. Il devait permettre aux bibliothèques participant au projet CERCLEde poser des questions, de voir les questions posées par les autres établissements ainsi que les réponses apportées par l’ABES. Il devait aussi permettre à l’ABES d’avoir une visibilité sur le travail accompli.

Il faut noter que cet outil ne permet pas aux participants d’être prévenus lorsqu’une question a été posée ou qu’une réponse a été apportée par l’ABES ou par un autre établissement.

Sur le plan technique, la plate-forme a connu plusieurs dysfonctionnements nous obligeant à trouver des solutions pour pallier les manques (notamment lorsque l’accès à la plate-forme n’a pas été possible pendant plusieurs jours).

L’ABES est consciente des limites de cet outil (double saisie, suivi difficile des questions et des réponses) et travaille à son évolution. Une solution de contournement provisoire est le recours à Google Drive.

Réactivité de l’ABES :

Suite aux contraintes de l’EFA (mutation au 31 août de la responsable du chantier), le travail sur les notices a débuté au mois de juillet.

La période estivale a perturbé les temps de réponses de l’ABES et les temps de traitement par l’équipe de la BIS. Certaines réponses tardives de l’ABES nous ont contraintes plusieurs fois à reprendre des données (336/339, E856…).

 

Conclusion

CERCLES_le_cercle_eternel_Serge_Gladky

Rideau de fond pour Le Cercle Eternel (http://gallical.bnf.ark:/12148/btv1b8436894k)

 

 

Un traitement « facilité » :

Pour le corpus De Gruyter, nous avons bénéficié de la présence quasi systématique des notices bibliographiques de la version imprimée des documents. Cela nous a permis de copier-coller l’indexation, les liens vers les notices Autorités…

Dans une certaine mesure, on peut penser que cela a un peu contrebalancé le temps nécessaire à la restructuration des données.

La collaboration :

Ce projet a permis le travail en collaboration de deux bibliothèques distantes. Nous avons pu discuter de nos pratiques de catalogage respectives, les mettre en perspective et parvenir à établir un socle commun sur les modifications à faire.

La même démarche a été mise en place à la BIS. Des réunions régulières (6 réunions d’environ 2 heures entre juillet et début décembre) nous ont permis de discuter de nos pratiques, d’échanger nos points de vue et de valider des choix. Ces réunions étaient aussi l’occasion de faire le point sur l’avancée du chantier, de répartir les notices à traiter ou les reprises de données, poser des questions à l’ABES et discuter de leur réponse via la plate-forme Bouda …

Les objectifs et les moyens définis au départ (nombre de notices, délais, nombre restreint de personnes impliquées) ont permis que ce chantier soit conduit dans de bonnes conditions.

 La valorisation et la visibilité :

Les livres électroniques présents depuis plusieurs années en bibliothèques sont encore, à ce jour, rarement catalogués.

Le dispositif CERCLE mené par l’ABES autour de 10 corpus permet de :

  • mener une réflexion sur le catalogage des ressources électroniques
  • mettre l’accent sur la collaboration en mettant à disposition du réseau des notices de qualité, permettant une localisation automatique
  • valoriser ces ressources en les rendant visibles dans le Sudoc et dans les catalogues des établissements participants.

Pour la BIS, il permet de rendre visibles des ressources électroniques non intégrées à ENCORE et de s’inscrire dans un programme national de valorisation de ces ressources. Pour donner une suite à ce chantier, on pourra s’orienter vers une nouvelle participation à CERCLEsur un autre corpus, ou, en lien avec la Cellule des Ressources électroniques, envisager le catalogage des bases de données.

 

BISPour la bibliothèque de la Sorbonne : Marie-Line Guillaumée, Pascale Guillen-Casadesus, Natacha Sauques, Virginie Sourget.

Lien vers le catalogue de la BIS : https://catalogue.biu.sorbonne.fr/

EFAPour la bibliothèque de l’Ecole Française d’Athènes : Clélia Roos, Marie Jean.

Lien vers le catalogue de l’EFA : http://www.catalogue.efa.gr/client/efa