Récit d’une immersion. Traiter les ebooks Dalloz avec les données Sudoc, les données de l’éditeur et les outils du hub

Ce billet relate à la première personne l’immersion effectuée par Catherine Storne (Université de Strasbourg) au sein de l’équipe hub de l’ABES, entre le 1er et le 5 février 2016. Catherine a eu l’occasion de partager cette expérience aux dernières journées ABES. Merci pour tout, Catherine !

Placée en face de la nouvelle « Metadaten Weltanschauung » au travers de la réflexion locale sur l’abonnement à un outil de découverte (discovery tool) ou sur les réalisations de la plateforme ISTEX sur les licences nationales, je ressentais le besoin de monter en compétences sur la manipulation des métadonnées. J’ai donc souhaité faire une immersion à l’ABES pour mieux comprendre les projets de l’établissement tournant autour des métadonnées dont les noms parvenaient aux confins de nos bibliothèques : BACON, hub de métadonnées, CERCLES, ainsi que les liens entre eux. Mon objectif étant de travailler au rapprochement, au sein du SCD de Strasbourg, des équipes de la documentation électronique et du catalogage, la participation à un projet concret, au travers d’un chantier CERCLES me semblait de nature à y contribuer.

Après discussion avec quelques collègues, il est apparu que le corpus d’e-books de la bibliothèque numérique Dalloz était mal-traité, i.e mal catalogué au SCD, qu’un catalogage de qualité de ce corpus dans le Sudoc était attendu et profiterait à l’ensemble des bibliothèques du réseau.

Pour l’ABES, l’immersion devait permettre d’avancer dans la réflexion sur le rôle que certains établissements pourraient jouer dans la chaîne de traitement des métadonnées fournies par les éditeurs, avant même leur traitement par le hub de métadonnées.

Avec un peu (beaucoup) d’appréhension à l’idée de me retrouver dans l’antre de « Winnie » [WinIBW] sans savoir réellement cataloguer et sans avoir retenu de mes lectures sur RDF tout ce que j’aurais dû, je quittais mon grand Est natal pour rejoindre le temps d’une semaine Montpellier, la surdouée.

1.  Les données sur la bibliothèque numérique Dalloz

La plateforme de Dalloz http://www.dalloz-bibliotheque.fr/ , permet une recherche sur les e-books de cet éditeur par titre, auteur, domaines ou collections. La liste complète des titres sous la forme d’un tableau est quant à elle disponible à  http://www.dalloz-bibliotheque.fr/listing.php (appelée par la suite « Tableau-Dalloz »).

Par ailleurs, Dalloz met à disposition un entrepôt OAI : http://logistic.book-vision.com/services/oai/act68.php?verb=ListRecords&metadataPrefix=onix_dc (appelé par la suite « OAI-Dalloz ».)

1.1  Premier constat

Les deux sources ne comportent pas un nombre identique de titres (1939 pour Tableau-Dalloz, 1626 pour OAI-Dalloz) ni les mêmes données.

Tableau-Dalloz contient l’ISBN électronique, l’ISBN papier correspondant, le titre, le n° de l’édition, la collection. Pas même l’URL de consultation. Les données d’OAI-Dalloz sont plus riches ; parmi elles : titre, auteur, sujet, résumé, éditeur, date d’édition, ISBN électroniques, les informations pour la reconstitution d’une URL de consultation, etc.

1.2  Deuxième constat, dû à l’œil expert des collègues de l’ABES

Tous les titres, ou presque, sont catalogués dans le Sudoc, pour la version papier du livre. Le web service isbn2ppn de l’ABES permet, à partir des ISBN-papier du tableau-Dalloz d’obtenir la liste des ppn (de la version papier) correspondants ; une extraction du Sudoc de ces titres à partir de la liste des ppn (de la version papier) constitue la troisième source de données (appelée Sudoc-Dalloz),

1.3  Directions de travail

A partir de ces deux constats, s’esquissent quelques lignes de travail :

  • vérifier la qualité des notices du Sudoc, pour s’assurer que les liens sont présents (6XX et 7XX, collection)
  • comparer les 3 sources entre elles.

Pour les notices Sudoc :

  • tous les 7XX ont un lien vers un ppn autorités
  • tous les 410 ont un lien vers le ppn de la collection

Sur les 1939 du Tableau-Dalloz :

  • 38 titres ne sont pas catalogués dans le Sudoc dans leur version papier
  • 38 autres titres sont déjà catalogués dans le Sudoc dans leur version électronique
  • 1 titre du Tableau-Dalloz contient une erreur d’ISBN électronique
  • 31 ppn sont écartés car il faut vérifier s’ils sont des doublons

Au final, il reste 1832 titres qui ne posent aucun problème.

En règle générale, le hub de métadonnées part des données des éditeurs pour créer les notices d’e-books. Dans le cas du corpus Dalloz, la réflexion est différente car la pré-existence dans le Sudoc des notices des documents papier, complètes, constitue une base de départ fiable.Il est donc décidé de créer les notices des e-books dans le Sudoc à partir des notices correspondantes des livres-papier puis d’utiliser les données venues des sources Dalloz pour enrichir ou corriger les notices créées dans le Sudoc en utilisant pour cela des outils développés dans le cadre du Hub de métadonnées.

2.  Création par copie de notices d’e-books dans le Sudoc

Pour chaque ppn indiqué, le script de création de notices a dupliqué la notice du livre imprimé en y apportant les modifications du tableau ci-dessous :

Notice papier Notice d’e-book correspondante
001 Non repris
002 Non repris
003 Non repris
008 Par défaut :

$aOax3

010 Non repris
020 Non repris
021 Non repris
033 Non repris
034 Non repris
035 Remplacé par défaut par :

##$aBNDalloz

073 Non repris
106 Non repris
135 Ajout par défaut :

##$av$br$cm$e#$gm$ia$ja

181 Ajout par défaut :

##$P01$ctxt

182 Ajout par défaut :

##$P01$cc

215 Non repris
225 Non repris
230 Ajout par défaut :

##$aDonnées textuelles

337 Ajout par défaut :

##$aNécessite un logiciel capable de lire un fichier au(x) format(s)Widelook ou Widelook Flash

410 Non repris
452 Ajout par défaut :

##$0″ + ancienPpn

801 Non repris
802 Non repris
830 Non repris

 

3.  Les enrichissements du hub de métadonnées (ABES)

Les notices d’e-books ont été enrichies par le hub de métadonnées.

Pour ce faire, le fichier « Tableau-Dalloz » a été complété via l’outil Openrefine (téléchargeable à openrefine.org/), des données suivantes :

  • ppn papier (obtenu grâce au web service isbn2ppn)
  • ppn électronique (équivalence p-ppn/e-ppn obtenue par le compte-rendu du script de création)

Il a ensuite été transformé en RDF.

Par ailleurs, les données « OAI-Dalloz » ont été converties en RDF/XML et chargées dans la base XML Oracle de l’ABES. Plusieurs notices étant en doublon dans le moissonnage OAI, le nombre final d’e-books distincts est de 1566.

3.1  RDF

3.1.1  En trois mots

RDF est le langage du web sémantique.

« RDF (Resource Description Framework) est un modèle de représentation de données élaboré sous l’égide du W3C (World Wide Web Consortium). Il attribue à des ressources, identifiées par des URI, des propriétés et des classes (ou catégories), permettant de les définir, les décrire, ou d’établir des relations entre elles. […]

Les données sont découpées en entités élémentaires pour former des triplets : <sujet> <prédicat> <objet>

  • le sujet est l’identifiant de la ressource ;
  • le prédicat est une propriété ou une relation, elle-même identifiée par une URI (le plus souvent représentée par un préfixe) ;
  • l’objet est l’identifiant d’une autre ressource en relation avec la première, une valeur ou un littéral. »

Définition trouvée dans : http://documentation.abes.fr/sudoc/manuels/pdf/sudoc-rdf.pdf (consulté 06/03/2016)

3.1.2  Choix de construction des URI

Pour que les sujets, prédicats, éventuellement objets puissent être identifiés de manière unique, il faut leur attribuer des identifiants, construits sous forme d’URI.

Voici les choix qui ont été faits dans le cas de la bibliothèque numérique Dalloz pour construire un modèle de création des URI pour les œuvres et les manifestations.

  • Pour l’œuvre :
  • Pour la manifestation :
    • Manifestation électronique :
      • champs attribués à la manifestation électronique : issn (électronique), ppn (électronique), numéros permettant de reconstituer l’url de consultation (n° puc, n° nu), date de publication
      • identifiant choisi : ISBN électronique
    • Exemple : http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/web (/m pour préciser qu’il s’agit d’une manifestation ; /web pour préciser qu’elle est électronique)
    • Manifestation imprimée (papier) :
      • champs attribués à la manifestation électronique : issn (papier), ppn (papier), date de publication
      • identifiant choisi : ISBN électronique
    • Exemple : http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/print (/m pour préciser qu’il s’agit d’une manifestation ; /print pour préciser qu’elle est imprimée)

3.1.3  Exemples de triplets

<http://www.hub.abes.fr/bndalloz/ebook/9782247103713/w> dcterms:title "50 droits contre l'exclusion " ;

<http://rdaregistry.info/Elements/w/P10072> <http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/web>, <http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/print> .

Signifie : L’oeuvre dont l’identifiant (l’ISBN électronique) est 9782247103713 a pour titre « 50 droits contre l’exclusion » ; elle a deux propriétés dont on retrouve la définition dans rdaregistry : P10072 correspond à « has manifestation of work ; donc, l’oeuvre a deux manifestations : l’une  électronique, l’autre imprimée.

<http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/web> <http://purl.org/ontology/bibo/isbn> "9782247103713" ;

<http://www.hub.abes.fr/namespaces/ppn> "191163120" ;

dcterms:isPartOf <http://www.hub.abes.fr/bndalloz/collection/asavoir> ;

<http://purl.org/ontology/bibo/edition> "1" .

Signifie : la manifestation électronique a pour ISBN électronique 9782247103713 et  pour ppn (défini dans le vocabulaire du hub) 191163120 ; elle appartient à la collection « asavoir » (A savoir) et en est à la première édition

<http://www.hub.abes.fr/bndalloz/ebook/9782247103713/m/print> <http://purl.org/ontology/bibo/isbn> "9782247070602" ;
<http://www.hub.abes.fr/namespaces/ppn> "134600878"

Signifie : la manifestation papier a pour ISBN papier 97822470706020 et pour ppn 134600878.

RDF, par les déclarations  et les triplets, décrit des relations. Ces relations peuvent être décrites sous forme de représentations graphiques, composées d’ovales, flèches, rectangles.

dalloz_graphe

 

3.1.4  Les graphes

On obtient deux sous-ensembles séparés dans la base RDF (ce qu’on appelle des « graphes ») :

  • celui des données du « Tableau-Dalloz » enrichi :

<http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016/tableaudalloz>

  • celui des données « OAI-Dalloz :

<http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016/>

Les URI des documents étant dans chacun d’eux construits sur l’ISBN électronique, les données peuvent être fusionnées facilement.

3.2  Le programme MARCEDMOD

L’ABES a récemment développé un programme expérimental de modification de notices du Sudoc, répondant au doux nom de MARCEDMOD [pour Marc-édition-modification ? eux, comme ils veulent toujours créer du lien, l’appellent plutôt Marc et Maud ! Il faudra quand même leur demander la source de leur inspiration !].

Ce programme interroge les données auparavant converties en RDF, avec des requêtes SPARQL (SPARQL n’est rien d’autre que le langage de requête des données en RDF). Ces requêtes permettent de sélectionner les triplets correspondant aux critères choisis. Ensuite, pour chaque type de modification à faire dans le Sudoc, un script va chercher les notices correspondantes dans le Sudoc et opérer la transformation souhaitée en remplaçant la donnée présente dans le Sudoc par celle issue de RDF.

Par exemple, pour ajouter la Dewey issue de OAI-Dalloz sur les notices du Sudoc qui n’en ont pas, MARCEDMOD fait ce qui suit :

select distinct ?eppn

# Je sélectionne tous les ppn électroniques

from <http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016/tableaudalloz>
from <http://www.hub.abes.fr/dalloz/DALLOZ_4FEV2016>

# à la fois dans les données Tableau-Dalloz et OAI-Dalloz désormais présentes en RDF dans la base du hub

where {

?work <http://rdaregistry.info/Elements/w/P10072> ?manif.

?manif <http://iflastandards.info/ns/isbd/elements/P1003> <http://iflastandards.info/ns/isbd/terms/mediatype/T1002>.

?manif <http://www.hub.abes.fr/namespaces/ppn> ?eppn.

# pour lesquels une œuvre a une manifestation, manifestation qui est de type électronique et qui a dans le hub un ppn électronique

} LIMIT 1000

Script :

J’injecte cette liste de ppn électroniques dans le Sudoc :

Node zone=Notice.find("676");

Je recherche toutes les zones « 676 »

if (zone == null)
{
Notice.Insert("676","#","#","a","340");

S’il n’y a pas de Dewey présente, j’insère 676##a340

}
else
{
Notice.alert("la zone existe dejà");
}

Sinon, je ne fais rien et je dis que « la zone existe déjà »

3.3  Enrichissements faits par le hub

  • Résumé : prévu, sera bientôt fait
  • ISBN électronique (tirés du tableau-Dalloz)
  • Dates d’édition : dates du tableau-Dalloz ajoutées en 100$a et 210$d (par écrasement de celles éventuellement présentes)
  • Edition : pour les titres du tableau-dalloz ayant un numéro d’édition autre que 1, ce numéro d’édition a remplacé celui présent dans le Sudoc
  • Dewey : pour les notices sans 676, ajout d’un 676 avec le code dewey 340 tiré d’OAI-Dalloz
  • URL : le champ 859 a été créé pour les seules les notices de OAI-Dalloz ont pu être traitées car les numéros permettant de reconstituer l’URL ne sont pas présents ailleurs.
  • Editeur : seules les notices de OAI-Dalloz ont pu être traitées

4.  Le programme de travail du chantier CERCLES

Récapitulatif des travaux catalographiques (vérifications ou corrections) à faire dans le Sudoc par le SCD de Strasbourg :

  • Catalogage des notices qui n’ont de ppn papier : 38 titres
  • Vérification et enrichissement des notices d’e-book qui existaient déjà dans le Sudoc : 35 titres
  • Vérification d’1 titre du Tableau-Dalloz qui contient une erreur d’ISBN électronique
  • Catalogage des 31 ppn écartés car il faut vérifier s’ils sont des doublons
  • Vérification des notices pour lesquelles la date d’édition entre le Sudoc et le tableau-Dalloz sont différentes : 59 titre
  • Enrichissement manuel des notices ne figurant pas dans OAI-Dalloz : 382 titres
    • ajout de l’url
    • modifier l’année
    • modifier l’éditeur
    • ajouter le code Dewey “340” si aucun Dewey n’est présent dans la notice
  • Titres présents dans OAI-Dalloz mais absents de tableau-Dalloz : 29 titres à traiter dans un second temps
  • Travail sur les notices d’e-books créées par l’ABES :
    • collections numériques : récupération du ppn ou demande de création
    • Envoi à l’ABES des ppn des collections numériques, en regard des URI fournis par l’ABES
    • Vérifier nécessité de créer et comment les champs 303,304,305,307,339
    • Vérifier les 13 notices signalées par l’ABES pour lesquelles plusieurs urls de consultations sont associées (liste fournie par l’ABES)

Conclusion

La durée de l’immersion n’a pas encore permis de répondre aux questionnements de l’ABES sur une implication d’établissements volontaires dépassant le cadre du catalogage et s’attachant  à des manipulations préparatoires sur les données soit pour participer à la mise à jour régulière des corpus  soit pour alimenter aussi BACON . Cette réflexion est encore en cours et fera l’objet vraisemblablement d’un autre billet.
Il nous faudra également revenir sur le chantier CERCLES en cours et et sur la question du fichier KBART, qui dépend de l’action de l’éditeur lui-même.

 

Catherine STORNE,

Responsable du département du système d’information documentaire,

SCD de l’université de Strasbourg

Publicités

Mettre nos données en réseau – un démonstrateur. [1] Introduction.

Ce démonstrateur est un plaidoyer en faveur d’une approche “web sémantique” de l’interopérabilité des données de l’IST. Mais, cette fois, il s’agit de montrer et non d’argumenter. Il s’agit de défendre, en illustrant cette approche par des études de cas. Alors, si vous fuyez les plaidoyers, si vous exigez du concret, de la donnée (RDF), de la requête (SPARQL), passez cette introduction et lisez l’un des billets suivants :

  1. Introduction (ce billet)
  2. Inventaire des données
  3. Suivez le guide ! Le modèle de données
  4. Études de cas

SPARQL endpoint : https://lod.abes.fr/sparql
Interface de recherche full text et de navigation : https://lod.abes.fr/fct

Pourquoi ce démonstrateur

Mettre nos données en réseau, c’est structurer et publier nos données conformément aux principes et aux bonnes pratiques du web sémantique.
Nos données, ce sont à la fois les données produites par les réseaux ABES (Sudoc, Sudoc PS, Thèses, Calames) mais également  toutes ces données voisines, complémentaires produites par les éditeurs, l’administration, les institutions culturelles, les institutions dédiées à l’information scientifique et technique (IST).
Ce périmètre est par définition extensible : par exemple, si nos données, ce sont d’abord les métadonnées de thèse électronique produites ou importées dans STAR, ce sont également les informations sur l’équipe de recherche (RNSR, HAL, IdRef), l’école doctorale (Ministère, IdRef), l’entreprise qui finance le contrat CIFRE (ANRT), les articles du doctorant (HAL et autres archives, éditeurs), la production du directeur de thèse (HAL, éditeurs), les vocabulaires contrôlés qui décrivent le contenu (RAMEAU, MeSH, tel vocabulaire spécialisé, etc.), les bibliothèques qui possèdent telle thèse, etc.
Second exemple : nos données, ce sont d’abord les métadonnées des articles acquis dans le cadre d’ISTEX (ISSN, Sudoc), mais ce sont également les métadonnées des revues, des fascicules et des volumes, les métadonnées des auteurs (IdRef, ISNI, VIAF, ORCID, HAL, Persée, Wikipedia, etc.), les affiliations, les vocabulaires contrôlés, les métadonnées sur le package commercial correspondant à l’acquisition (BACON, GoKB), la licence, les bibliothèques couvertes par la licence, etc.

lodcloud
Troisième et dernier exemple : pour savoir que tel auteur est affilié à l’université Paris 4, on a besoin de remonter le courant : de telle notice Sudoc à tel auteur IdRef, puis à tel auteur HAL, puis à tel document HAL, puis à telle équipe de recherche du référentiel HAL, puis à cette même équipe dans le référentiel RNSR, équipe rattachée à Paris 4. Il existe un chemin plus court, mais dans tous les cas, il faut être agile, rebondir d’une base à l’autre, d’un organisme à l’autre.
ist_organismes

L’information est par définition extensible. On ne peut définir a priori le périmètre des données qui correspond à nos besoins. La gestion de l’information doit être aussi extensible que l’information elle-même.
Et précisément, les technologies du web sémantique sont faites pour ça : établir des liens effectifs entre données complémentaires, sans fixer à l’avance ni le périmètre des données, ni la nature de ces liens.

Une base RDF + des requêtes SPARQL

Ce démonstrateur n’est rien d’autre que l’agrégation de données RDF brutes au sein d’une seule base de données. Si ce n’est préparer et documenter ces données, nous n’avons rien fait d’autre : ni construction d’index pour interroger les données, ni développement d’un web service de recherche, ni réalisation d’une interface graphique. Nous nous sommes contentés de charger ces données brutes dans une base RDF supportant le langage de requête SPARQL : ipso facto, nos données sont devenues interrogeables, consultables, navigables.

Pour interroger nos données, il suffit de se rendre à cette adresse : https://lod.abes.fr/sparql et de lancer une requête SPARQL. SPARQL est un langage très puissant, qui demande un apprentissage progressif. Mais tous les billets de cette série proposent des exemples de requête. Ce sont de bons points de départ. Si vous vous prenez au jeu, forgez vos propres requêtes et les jugez intéressantes, merci de les partager en commentaires.
SPARQL est un langage mais également un protocole web , c’est-à-dire un web service : https://lod.abes.fr/sparql n’est donc pas seulement une page web pour fans des données, mais également l’URL principale d’un web service de recherche qui permet à n’importe quel programme d’interroger une base RDF et d’en exploiter les résultats sous différents formats (HTML, XML, CSV, JSON, etc.). Grâce  à SPARQL, nous pourrons offrir une API standard pour interroger de manière sophistiquée les corpus ISTEX, par exemple, en complément de l’API de recherche développée par l’INIST. On a besoin des deux : une base de données ouverte et un moteur de recherche ouvert.
Si vous n’êtes ni un geek ni un programme, vous avez la possibilité de vous promener dans les données de notre base via cette interface, livrée avec le logiciel qui gère notre base de données : https://lod.abes.fr/fct. Chaque page de cette interface correspond à une entité de notre base (un article, une personne, un concept, etc.). Ainsi, la page https://lod.abes.fr/describe/?url=http://hub.abes.fr/springerB/ebook/3540183000/w décrit l’ebook identifié par : http://hub.abes.fr/springerB/ebook/3540183000/w. (Si vous activez cette URL, conformément aux principes des linked data (par TBL, il y a dix ans), vous serez redirigé vers une page qui décrit ce document : ne pas confondre la chose et sa description).
Cet ebook est caractérisé par des attributs (son titre, sa langue) et par des relations : relations vers les concepts dont parlent ce livre, relations vers l’éditeur, relations vers les auteurs (via le concept de contribution), etc. Ce sont ces relations qui permettent de naviguer d’entité en entité, comme on parcourt une encyclopédie. On croit naviguer d’une page à l’autre, mais en fait on navigue aussi d’une chose à l’autre : d’un laboratoire vers une personne, d’une personne vers un document, d’un document vers un concept, etc. De proche en proche, l’ensemble de ces relations constitue un réseau de données, un web de données.

Stratégie du coucou ? Pourquoi mettre tous ces données dans le même panier ?

Il sera naturel de soulever l’objection suivante : vous n’allez pas prétendre enfermer le web de données dans le monde clos de votre base ? Par définition, le web est décentralisé et il doit en être de même pour le web de données.
Cette objection est tout à fait légitime : il y a quelque chose d’artificiel à vouloir démontrer l’efficacité du web sémantique comme solution d’interopérabilité en rassemblant au sein d’une même base tous les jeux de données qu’on veut interconnecter et faire interagir. Nous justifions ainsi notre choix :
La plupart des données que nous voulions entrelacer n’existent pas (encore) sous forme RDF. On s’y est collé, à des fins pédagogiques.
Les solutions pour interroger un web de données décentralisé ne sont pas encore tout à fait mûres. SPARQL prévoit bien la recherche fédérée mais, quel que soit le type de technologies, ce type de recherche achoppe toujours sur les mêmes difficultés (disponibilités des bases à interroger, performances).
Il va de soi que ce n’est pas à l’ABES de produire, maintenir et publier en RDF les données du RNSR, de HAL, de Paris 4 ou d’ORCID, voire de Nature ou Springer (d’ailleurs, la plupart de ces initiatives sont précisément en train de construire leur offre de service RDF – disons, à notre connaissance, 4 sur 6 – nous vous laissons deviner). Ce qu’on espère c’est précisément un monde où les uns et les autres, sans concertation, sans négociation, sans plan quinquennal, font le pari du web sémantique et, comme par miracle, contribuent à construire un espace public de données, souvent complémentaires, parfois redondantes, parfois dissonantes.
Il ne s’agit pas de s’accorder entre nous (même si ça aide et fait plaisir), mais de s’accorder sur les mêmes bonnes pratiques internationales, sur l’état de l’art.

Affirmons à nouveau que chaque producteur est responsable de publier ses données et que le consommateur a le choix des moyens pour les exploiter : requête SPARQL fédérée, navigation à travers des browsers sémantiques, récupération de données en local (ne serait-ce que pour leur faire jouer le rôle d’un cache). Chaque solution a ses avantages et ses contextes d’utilisation privilégiés.

Caveat emptor

  • Ce démonstrateur est un démonstrateur.
  • Ce démonstrateur est vivant et donc périssable. Nous nous réservons le droit d’y ajouter des données, d’en retirer et même de le passer par pertes et profits.
  • Les URLs de ressources commençant par http://hub.abes.fr n’ont pas de durée de vie garantie. Encore moins les URLS pour les ressources de BACON,  HAL, de Persée ou du RNSR.
  • Certains jeux de données de la base sont complets (ORCID, Nature), d’autres ne sont que des échantillons (Annuaire Paris 4, Sudoc, IdRef, Oxford UP).
  • L’approche web sémantique n’est pas l’alpha et l’oméga de l’interopérabilité. A côté de la puissance de SPARQL, coûteuse et pas toujours performante, il y a de la place pour des API hyperspécialisées et hyperoptimisées, comme les micro web services du Sudoc ou d’IdRef.

Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Pour les besoins de la démonstration, nous avons agrégé des données diverses et variées, mais finalement cette auberge espagnole n’est pas si anarchique : tout mène à tout, et on peut regrouper les jeux de données de différentes manières :

  • Données descriptives vs Référentiels
  • Données produites par les réseaux ABES vs Données de tiers
  • Données du monde des bibliothèques vs Données d’autres mondes (science, administration, etc.)
  • Données récupérées en RDF vs Données produites en RDF

Mais dans ABES, il y a B : notre réseau de données se déploie autour des données bibliographiques, qui décrivent des livres, des revues, mais également des chapitres et des articles.

Un jeu de données = un graphe nommé dans la base

Chaque jeu de données chargé dans la base RDF demeure un sous-ensemble bien identifié, un « graphe nommé« . Les données se croisent mais conservent leur pedigree.

Dans une requête SPARQL, on peut préciser ne vouloir interroger que les données de tel graphe – ou de plusieurs graphes. La requête suivante va chercher des titres de document dans le seul graphe des documents HAL :


PREFIX dcterms: <http://purl.org/dc/terms/>
select ?titre
from <http://hub.abes.fr/ccsd/docs/paris4>
where {
?document dcterms:title ?titre.
} LIMIT 10

Pourtant, il n’est pas conseillé d’utiliser le graphe comme un filtre de recherche documentaire : une même base peut être partitionnée en graphes de mille manières différentes ; on pourrait même tout mettre dans un seul graphe. L’organisation par graphes obéit moins à une logique documentaire qu’à des contraintes prosaïques de gestion de la base (regrouper les données ayant la même origine, par exemple) . Cette organisation fera davantage penser aux magasins du CTLES qu’aux salles de bibliothèque en libres accès.

Attention : le nom d’un graphe est une URI, comme http://hub.abes.fr/ccsd/docs/paris4 par exemple, mais inutile de cliquer dessus : elle ne mènera rien, elle sert d’identifiant unique, pas d’adresse web.

Les documents ISTEX

Dans le cadre du projet hub de métadonnées, cette approche « web sémantique » a d’abord été appliquée aux métadonnées livrées dans le cadre d’ISTEX, programme d’acquisition massive de documentation électronique. Ce cadre se prêtait parfaitement à cette approche : les éditeurs nous livrent des données riches et hétérogènes. Notre travail est de conserver toute cette richesse, de l’enrichir encore et de redistribuer librement ces données.

Dans le démonstrateur on trouvera ces données ISTEX :

Revue OUP

Contenu : Métadonnées de la revue Oxford Economic Papers : articles (2112), fascicules, volumes, périodique.

Graphe : http://hub.abes.fr/oup/journals/oxecon

Modélisation : ABES

Exemple :

<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O33> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#F23> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O34> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://rdaregistry.info/Elements/w/P10072>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/m/web> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://purl.org/ontology/bibo/Article> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://vivoweb.org/ontology/core#relatedBy>  <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/authorship/1-1> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/isPartOf>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/w> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://hub.abes.fr/namespace/articleType>    <http://hub.abes.fr/oup/articletype/researcharticle> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#F13> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdaregistry.info/Elements/c/C10001> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://rdaregistry.info/Elements/w/P10072>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/m/print> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://vivoweb.org/ontology/core#relatedBy>  <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/authorship/1-2> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O14> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/title>  "On welfare reducing technological change in a North-South framework"^^<http://www.w3.org/1999/02/22-rdf-syntax-ns#XMLLiteral> .

 

Revues Nature (NPG)

Contenu : Tous les articles de toutes les revues Nature (NPG), dont la fameuse Nature.

Ce jeu de données a ceci de particulier qu’au lieu de convertir en RDF les métadonnées XML livrées par l’éditeur, nous avons privilégié les données RDF générées par l’éditeur lui-même. Ce sont des données d’assez bonne qualité, plus riches que les livraisons XML par certains côtés, moins par d’autres.

Côté plus, l’éditeur a fait un gros travail d’indexation des articles selon un thesaurus maison et un très précieux travail d’alignement de ce thesaurus vers les versions RDF de Wikipedia et MeSH. Ces alignements nous ont tout particulièrement intéressés, vous vous en doutez…

Côté moins, la version RDF est très pauvre en informations sur les auteurs, tandis que la version XML possède des données d’affiliation et des emails, par exemple.

Il s’agit donc d’un cas singulier, mais prometteur et appelé à se généraliser : l’éditeur ouvre lui-même ses données en RDF, mais ces données ne sont pas exhaustives. Il demeure pertinent d’exiger de lui une livraison de données brutes, XML dans ce cas, pour en extraire de informations précieuses et complémentaires. Selon les cas, on pourra redistribuer ces informations ou bien se contenter de les exploiter en interne, par exemple pour générer des alignements.

Graphes (nombreux) :
http://ns.nature.com/graphs/articles
http://ns.nature.com/graphs/contributors
http://ns.nature.com/graphs/map-article-types-dbpedia
http://ns.nature.com/datasets/npg-core-ontology
http://ns.nature.com/graphs/map-journals-dbpedia
http://ns.nature.com/graphs/map-journals-wikidata
http://ns.nature.com/graphs/map-subjects-dbpedia
http://ns.nature.com/graphs/map-subjects-mesh
http://ns.nature.com/graphs/map-subjects-wikidata
http://ns.nature.com/article-types
http://ns.nature.com/blogs
http://ns.nature.com/terms
http://ns.nature.com/journals
http://ns.nature.com/publish-states
http://ns.nature.com/relations
http://ns.nature.com/review-states
http://ns.nature.com/subjects
http://ns.nature.com/graphs/articles-dbpedia
http://ns.nature.com/summary-types

Modélisation : NPG

Exemple :

<http://ns.nature.com/articles/ajg20001205>	<http://ns.nature.com/terms/hasJournal>	<http://ns.nature.com/journals/ajg> .
<http://ns.nature.com/articles/ajg20001205>	<http://purl.org/ontology/bibo/doi>	"10.1111/j.1572-0241.2000.02953.x" .
<http://ns.nature.com/articles/ajg20001205>	<http://ns.nature.com/terms/hasContributor>	<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205> .
<http://ns.nature.com/articles/ajg20001205>	<http://purl.org/dc/elements/1.1/title>	"Urinary retention: a systemic complication of botulinum toxin injection therapy for achalasia" .

 

Ebooks Springer

Contenu : plus de mille livres Springer, composés de plus de 300 000 chapitres.

Graphe : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC

Modélisation : ABES

Exemple :

<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://purl.org/ontology/bibo/Book> .
<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://hub.abes.fr/namespace/subTitle>	"A Case Study in Pipelined Architecture and Vector Processing" .
<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://purl.org/dc/terms/subject>	<http://www.idref.fr/027756688/id> .

 

Les documents HAL

Contenu : environ 8 500 documents ayant pour affiliation Paris 4.

Graphe : http://hub.abes.fr/ccsd/docs/paris4

Modélisation : ABES

Exemple :

<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://vivoweb.org/ontology/core#relatedBy>	<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/authorship/1> .
<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://purl.org/dc/terms/title>	"Diversité linguistique en Nouvelle-Calédonie"@fr .
<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://purl.org/dc/terms/subject>	<https://hal.archives-ouvertes.fr/resource/domain/shs.anthro-se> .

 

Les documents Sudoc

Contenu :

  • Ebooks Dalloz (BND)
  • Livres papier et électroniques correspondant aux ebooks Springer
  • Documents liés aux auteurs IdRef mentionnés dans la base (description bibliographique succincte, non structurée)

Il faudra bien, plus tard, verser tout le Sudoc : toutes les notices ; tous les champs MARC de ces notices . Ce qui est une autre paire de manches. On y travaille…

Graphe :
http://www.sudoc.fr (Ebooks Dalloz)
http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/SUDOC/ELEC (Springer)
http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/SUDOC/PRINT (Springer)
http://www.idref.fr (entre autres, références des documents liés à une autorité chargée dans ce graphe)

Modélisation : ABES

Exemple :

<http://www.sudoc.fr/19116433X/id>	<http://id.loc.gov/vocabulary/relators/aut>	<http://www.idref.fr/060265310/id> .

 

Les référentiels de personnes

 

VIAF

Contenu : chaque mois, nous récupérons et traitons le dump VIAF des alignements entre fichiers d’autorité. Nous n’avons donc que les liens, et pas le contenu des autorités. (Et encore, nous ne gardons qu’une partie des liens, ceux qui relient des fichiers qui ont pignon sur rue. Mais cela fait tout de même près de 24 000 000 de liens.)

Graphe : http://hub.abes.fr/referentiel/linksviaf_03_2016

Modélisation : ABES

Exemple :

<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/05019321X/id> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://hub.abes.fr/frbn/13490714> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://id.loc.gov/authorities/names/n85098625> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.wikidata.org/entity/Q18911870> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://isni.org/isni/0000000121203999> .

 

ORCID

Contenu : chaque année, nous récupérons et traitons le dump ORCID (nou$ aimerion$ bien pa$$er à un dump men$uel). Il s’agit d’un dump XML que nous convertissons en 111 000 000 triplets RDF.

ORCID annonce 1 500 000 profils ORCID dans leur base :


PREFIX foaf: &lt;http://xmlns.com/foaf/0.1/&gt;
select (count(?s) as ?nb)
from &lt;http://hub.abes.fr/referentiel/ORCID2015&gt;
where { ?s a foaf:PersonalProfileDocument }

mais beaucoup n’ont qu’un nom et un prénom, aucune référence de document, ce qui rend ces profils moins fiables et moins utiles.

Graphe : http://hub.abes.fr/referentiel/ORCID2015

Modélisation : ABES

Exemple :

<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/ns/org#hasMembership>	<http://orcid.org/0000-0002-0018-0588/affiliation/1> .
<http://orcid.org/0000-0002-0018-0588>	<http://xmlns.com/foaf/0.1/familyName>	"Cain" .
<http://orcid.org/0000-0002-0018-0588>	<http://xmlns.com/foaf/0.1/givenName>	"Jeff" .
<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/2002/07/owl#sameAs>	<http://hub.abes.fr/referentiel/scopusAuthorID/9247844700> .

 

IdRef

Contenu : Nous aurions pu charger toutes les personnes IdRef, mais ces 2 000 000 d’entités auraient pu noyer le reste des données du démonstrateur. Nous avons seulement chargé les triplets RDF correspondant à un identifiant IdRef mentionné quelque part dans la base (en général, dans les alignements).

Graphe : http://www.idref.fr

Modélisation : ABES

Exemple :

<http://www.idref.fr/02670000X/id>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://www.idref.fr/02670000X/id>	<http://www.w3.org/2002/07/owl#sameAs>	<http://data.bnf.fr/ark:/12148/cb11889814d#foaf:Person> .
<http://www.idref.fr/02670000X/id>	<http://xmlns.com/foaf/0.1/name>	"Bacot, Jacques" .
<http://www.idref.fr/02670000X/id>	<http://www.w3.org/2002/07/owl#sameAs>	<http://isni.org/isni/0000000121400095> .

 

L’annuaire des chercheurs de trois laboratoires de Paris 4

Contenu : près de 800 chercheurs, rattachés à trois équipes de recherche de Paris 4. Dans ce graphe, on ne sait pas grand chose de chaque chercheur : son nom, son prénom, son laboratoire, trois informations glanées sur le site de l’université. Aucun LDAP n’a été maltraité pendant cette opération.

Graphe : http://hub.abes.fr/paris4/labos/auteurs

Modélisation : ABES

Exemple :

<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/givenName>	"Mahamane" .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/083406964/id> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://schema.org/memberOf>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812914A> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/familyName>	"DJOUDOU" .

 

Les référentiels d’organismes

 

Référentiel National des Structures de Recherche (RNSR)

Contenu : Paris 4 et ses structures

Nous avons converti en RDF un export partiel de la base RNSR.

Graphe : <http://hub.abes.fr/rnsr/structures/paris4&gt;

Modélisation : ABES

Exemple :

<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://schema.org/name>	"CENTRE D'ETUDE DE LA LANGUE ET DE LA LITTERATURE FRANCAISES DES XVIIEME ET XVIIIEME SIECLES" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://hub.abes.fr/namespace/sigle>	"UMR8599" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://schema.org/foundingDate>	"1998" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/vocab/typStruct/UR> .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .

 

Référentiel des structures de HAL

Contenu : Paris 4 et ses structures

Nous avons récupéré les données via l’API de HAL et les avons converti en RDF.

Graphe : http://hub.abes.fr/ccsd/structures/paris4

Modélisation : ABES

Exemple :

<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://hub.abes.fr/namespace/sigle>	"CELLFXXS" .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<https://hal.archives-ouvertes.fr/resource/typStruct/laboratory> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/2002/07/owl#sameAs>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://schema.org/name>	"Centre d'\u00E9tude de la langue et de la litt\u00E9rature fran\u00E7aises des\n                XVIIe et XVIIIe si\u00E8cles [CELLFXXS]" .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://hub.abes.fr/namespace/structCode>	"UMR8599" .

 

Les référentiels d’analyse du contenu

 

RAMEAU

Contenu : dump BnF (avril 2015)

Graphe : http://hub.abes.fr/rameau_avril2015

Modélisation : BnF

Exemple :

<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#related>	<http://data.bnf.fr/ark:/12148/cb120000024> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2000/01/rdf-schema#seeAlso>	<http://catalogue.bnf.fr/ark:/12148/cb12041722r> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/028618106/id> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2002/07/owl#sameAs>	<http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb12041722r> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://www.w3.org/2004/02/skos/core#Concept> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dewey.info/class/915/> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Portugal -- Colonies -- Afrique"@fr .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dewey.info/class/950/> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://data.bnf.fr/ontology/bnf-onto/FRBNF>	"12041722"^^<http://www.w3.org/2001/XMLSchema#integer> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#broader>	<http://data.bnf.fr/ark:/12148/cb11979529k> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#narrower>	<http://data.bnf.fr/ark:/12148/cb16661249d> .

 

LCSH

Contenu : dump LCSH (octobre 2014)

Graphe : http://hub.abes.fr/lcsh_27oct2014

Modélisation : LoC

Exemple :

<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#broader>	<http://id.loc.gov/authorities/subjects/sh96010352> .
<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Businesswomen"@en .
<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#narrower>	<http://id.loc.gov/authorities/subjects/sh86006258> .

 

MeSH

Contenu : dump NLM

Graphe : http://id.nlm.nih.gov/mesh

Modélisation : NLM

Exemple :

<http://id.nlm.nih.gov/mesh/D000035>	<http://id.nlm.nih.gov/mesh/vocab#nlmClassificationNumber>	"WM 420.5.A2" .
<http://id.nlm.nih.gov/mesh/D000035>	<http://id.nlm.nih.gov/mesh/vocab#broaderDescriptor>	<http://id.nlm.nih.gov/mesh/D013811> .
<http://id.nlm.nih.gov/mesh/D000035>	<http://www.w3.org/2000/01/rdf-schema#label>	"Abreaction"@en .

 

FMeSH (MeSH en français)

Contenu : Notices FMeSH chargées annuellement dans IdRef

Graphe : http://hub.abes.fr/referentiel/idref/mesh/14042016

Modélisation : ABES

Exemple :

<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#inScheme>	<http://id.nlm.nih.gov/mesh> .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"tendances (qualificatif)" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"trends" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"TD" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"tendances"@fr .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://www.w3.org/2004/02/skos/core#Concept> .

 

Thesaurus Nature (NPG)

Contenu : dump NPG

Graphe : http://ns.nature.com/subjects

Modélisation : NPG

Exemple : <http://ns.nature.com/subjects/enteric-nervous-system&gt; (description)

<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://id.nlm.nih.gov/mesh/D017615> .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://ns.nature.com/terms/hasRoot>	<http://ns.nature.com/subjects/biological-sciences> .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Enteric nervous system"@en .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dbpedia.org/resource/Enteric_nervous_system> .

 

Journal of economic literature (JEL) classification system

Contenu : dump RDF de cette classification spécialisée

Graphe : http://hub.abes.fr/graph/jel

Modélisation : ZBW

Exemple :

<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Modèles de r"gression discrète et de choix qualitatif; Régresseurs discrets; Proportions; Probabilités"@fr .
<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Discrete Regression and Qualitative Choice Models; Discrete Regressors; Proportions; Probabilities"@en .
<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Diskrete Regressionsmodelle und qualitative Auswahlmodelle; Diskrete Regressoren; Gr\u00F6\u00DFenverh\u00E4ltnisse; Wahrscheinlichkeiten"@de .

 

Les référentiels de bouquet

 

Bouquet Dalloz

Contenu : modélisation en KBART très light de la collection des ebooks Dalloz

Graphe : http://hub.abes.fr/dalloz/bn/kbart/lite

Modélisation : GoKB (modélisation non finalisée)

Exemple :

<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://www.loc.gov/standards/mods/modsrdf/v1/#locationUrl>	"http://dallozbndpro-pvgpsla5.dalloz-bibliotheque.fr/fr/pvpage2.asp?puc=4236&amp;amp;amp;nu=36&amp;amp;amp;selfsize=1" .
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://gokb.org/tipp/#hasTitle>	<http://www.sudoc.fr/191183768/id> .
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://gokb.org/tipp/#belongsToPkg>	<https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .

 

Les localisations

 

Bibliothèques possédant le bouquet Dalloz

Contenu : Liste des bibliothèques « possédant » le bouquet dalloz (d’après ERE).

Graphe : http://hub.abes.fr/dalloz/bn/who

Modélisation : ABES

Exemple :

<http://data.enseignementsup-recherche.gouv.fr/uai/0134031L>	<http://schema.org/owns>	<https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .
<http://data.enseignementsup-recherche.gouv.fr/uai/0134031L>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .

 

Les alignements

Nous considérons que les alignements sont des jeux de données comme les autres, à côté des autres. On a intérêt à les gérer à part et à les diffuser à part : il est important de garder la traçabilité des données, de pouvoir faire le tri entre les données d’origine et les enrichissements ajoutés.
 

Alignements entre des auteurs NPG et ORCID

Contenu : quelques milliers d’alignements entre les identifiants locaux des auteurs NPG et les identifiants ORCID

Graphe : http://ns.nature.com/graphs/contributors/align/orcid

Exemple :

<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/givenName>	"Jamie" .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/name>	"Jamie Barkin S" .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://ns.nature.com/terms/Contributor> .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/familyName>	"Barkin S" .

 

Alignements entre des auteurs NPG et ISNI

Contenu : quelques milliers d’alignements entre les identifiants locaux des auteurs NPG et les identifiants ORCID, obtenus via Qualinca

Graphe : http://ns.nature.com/graphs/contributors/align/isni

Exemple :

<http://ns.nature.com/contributors/w-h-irwin-mclean-ng.276> owl:sameAs <http://isni.org/isni/0000000124496002> .

 

Alignements entre des auteurs HAL et IdRef

Contenu : quelques centaines d’alignements entre les auteurs HAL et les auteurs IdRef. Beaucoup d’autres sont prévus.

Graphe : http://hub.abes.fr/ccsd/docs/paris4/align/idref

Exemple :

<https://hal.archives-ouvertes.fr/resource/author/1087935>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/111217776/id> .

 

Alignements entre des chercheurs de Paris 4 et IdRef

Contenu : La grande majorité de nos chercheurs de Paris 4 alignés vers IdRef.

Graphe : http://hub.abes.fr/paris4/labos/auteurs/align/idref

Exemple :

<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/givenName>	"Mahamane" .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/083406964/id> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://schema.org/memberOf>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812914A> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/familyName>	"DJOUDOU" .

 

Alignements entre des auteurs de Persée et IdRef

Contenu : Plus de 10 000 alignements entre Persée et IdRef. Des milliers d’autres seront bientôt générés, dans le cadre d’une fructueuse collaboration avec Persée. Les URIs qui identifient les auteurs Persée sont pour l’instant fictives, mais nos collègues Lyonnais travaillent à l’exposition de leur base sur le web de données.

Graphe : http://hub.abes.fr/persee/auteurs/align/idref

Exemple :

<http://data.persee.fr/person/10004#Person>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/068894449/id> .

 

Alignements entre auteurs Nature (NPG)

Contenu : Plus de 10 000 alignements entre auteurs Nature. Dans le dump RDF de Nature, les auteurs ne sont pas identifiés : si un même auteur a publié deux articles, il apparaîtra avec deux URIs différentes. Pour l’identifier, on peut soit l’aligner sur un référentiel extérieur (ce qu’on fait par ailleurs, dans le cadre de notre projet de recherche Qualinca), soit, à défaut, aligner entre elles les URIs sous lesquelles il est nommé au sein du jeu de données. C’est ce qui a été fait en exploitant l’email, absent du dump RDF mais présent dans les données XML ISTEX : si deux personnes ont le même email et des noms très proches, alors on considère que c’est la même personne. A terme, nous créerons des URIs pivot vers lesquelles pointeront toutes les URIs rapprochées. Pour l’instant, on ajoute des relations owl:sameAs entre chaque paire d’URIs, ce qui est plus bavard.

Graphe : http://ns.nature.com/graphs/contributors/align/email

Exemple :

<http://ns.nature.com/contributors/aaron-f-straight-ncb1899>    owl:sameAs <http://ns.nature.com/contributors/ns1:aaron-f-straight-nature10379> .

 

Alignements entre les auteurs Springer et IdRef

Contenu : Près de 20 000 alignements entre des auteurs d’ebooks (voire de chapitres) et des auteurs IdRef. D’autres alignements seront générés, soit par programme, soit par les catalogueurs du réseau Sudoc, notamment dans le cadre du dispositif CERCLES.

Graphe : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/personnes/idref

Exemple :

<http://hub.abes.fr/springerB/ebook/10904251/caofrederic>  owl#sameAs  <http://www.idref.fr/094231737/id> .

 

Alignements entre les documents Springer et RAMEAU

Contenu : Plus de 70 000 liens entre les documents Springer et les identifiants IdRef de RAMEAU, obtenus grâce à l’alignement entre le thesaurus d’indexation matière de Springer, LCSH et RAMEAU.

Graphe :
Liens les documents et le RAMEAU IdRef : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/rameauppn
Alignements entre le RAMEAU officiel (BnF) et le RAMEAU Idref : http://hub.abes.fr/rameau_avril2015/ppns
Alignements entre le thesaurus d’indexation matière de Springer, LCSH et RAMEAU : http://hub.abes.fr/theses/referentiel/concepts/springer/8janvier2016

Exemple :

<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	dcterms:subject	<http://www.idref.fr/027239519/id> .

 

Alignement entre les domaines HAL et Dewey

Contenu : Alignement manuel entre les domaines HAL et la classification Dewey. Ces alignements de concepts sont toujours délicats. Ils mériteraient d’être revus et amendés de manière collaborative, d’autant qu’ils peuvent être utiles à beaucoup de collègues dans les bibliothèques et les laboratoires.
Depuis la fermeture du site dewey.info par OCLC, les URI Dewey sont en déshérence.

Graphe :
http://hub.abes.fr/ccsd/domaines/align/dewey

Exemple :

<https://hal.archives-ouvertes.fr/resource/domain/info.info-ai>	 skos:closeMatch  <http://dewey.info/class/006.3/> .

 

Alignement entre les structures de recherche de Paris 4 dans les référentiels RNSR, HAL et IdRef

Contenu : Alignement manuel.

Graphe :
http://hub.abes.fr/alignements/structures/rnsr/idref/ccsd

Exemple :

<https://hal.archives-ouvertes.fr/resource/structure/74682>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .
<https://hal.archives-ouvertes.fr/resource/structure/107600>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .
<http://www.idref.fr/031896596/id>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .

Le SUDOC en RDF : du nouveau ! 1/2

A propos du  web de données, et du Sudoc en RDF, voir notamment les billets précédents ici et .

L’été 2013 avait vu la mise en ligne d’une documentation sur l’exposition du SUDOC en RDF, et l’annonce d’un chantier visant à enrichir et affiner progressivement celle-ci. Ce chantier a produit ses premiers résultats au cours de l’année universitaire écoulée, par petites touches successives. Zoom sur les nouveautés.

Alignements

Dans un souci d’interopérabilité avec Data.bnf.fr, le FRBNF des notices BNF a été ajouté, à côté des OCN d’OCLC déjà présents : onto-bnf :FRBNF (propriété maintenue par la BnF elle-même). Les identifiants ark – présents dans une partie des notices du Sudoc, devraient suivre un peu plus tard.

Types de documents

Pour typer les documents décrits, on fait appel, de façon partiellement redondante, à trois vocabulaires :

–  Bibliographic ontology (plus familièrement « bibo »). C’est un vocabulaire simplifié d’usage assez large, au-delà de la communauté professionnelle des bibliothécaires

Dublin Core, encore plus générique

ISBD en RDF, maintenu par l’IFLA. Celui-là correspond plus strictement à nos standards de description bibliographique. Plus précis mais sans doute plus déroutant pour le profane…

Jusqu’ici, on utilisait de « bibo » que les classes « Book », « Periodical », « Series ». D’autres types de documents sont désormais identifiés: « Image », « Audio », « Audiovisual »…

– Idem pour Dublin Core : Image, Moving Image, Sound…

Côté ISBD, on utilise les deux propriétés isbd:P1001 « Content form » (type de contenu) et isbd:P1003 « Media type » (type de « médiation ») qui font appel à des listes de valeurs contrôlées.

Auparavant on ne distinguait guère que les documents imprimés et électroniques.  Désormais, le spectre des documents identifiés est plus large, même si pas encore tout à fait exhaustif : images fixes ou animées, documents musicaux ou sonores, cartographiques, microformes…

Exemple (RDF/XML):

<bibo:AudioVisualDocument rdf:about="http://www.sudoc.fr/114415641/id">
 <dc:title>Les Shadoks  [Images animées]  : l'intégrale des origines à nos jours  / René Borg, Robert Richez, Jacques Rouxel... [et al.], réal.  ; Jacques Rouxel, texte  ; Robert Cohen-Solal, comp.  ; Claude Piéplu, voix</dc:title>
 …
 <isbd:P1001>
 <skos:Concept rdf:about="http://iflastandards.info/ns/isbd/terms/contentform/T1002">
 <skos:prefLabel xml:lang="en">image</skos:prefLabel></skos:Concept>
 </isbd:P1001>
 <isbd:P1003>
 <skos:Concept rdf:about="http://iflastandards.info/ns/isbd/terms/mediatype/T1007"><skos:prefLabel xml:lang="en">video</skos:prefLabel></skos:Concept>
 </isbd:P1003>
 …
 </bibo:AudioVisualDocument>

Soit en Turtle :

<http://www.sudoc.fr/114415641/id> a bibo:AudioVisualDocument ;
 dc:title "Les Shadoks  [Images animées]  : l'intégrale des origines à nos jours  / René Borg, Robert Richez, Jacques Rouxel... [et al.], réal.  ; Jacques Rouxel, texte  ; Robert Cohen-Solal, comp.  ; Claude Piéplu, voix" ;
 isbd:P1001 <http://iflastandards.info/ns/isbd/terms/contentform/T1002> ;
 isbd:P1003 <http://iflastandards.info/ns/isbd/terms/mediatype/T1007> ;
 dc:type "Moving Image" ;
  
 <http://iflastandards.info/ns/isbd/terms/contentform/T1002> a skos:Concept ;
 skos:prefLabel "image"@en .
 <http://iflastandards.info/ns/isbd/terms/mediatype/T1007> a skos:Concept ;
 skos:prefLabel "video"@en .

Zones de liens bibliographiques : Unimarc 4XX

Ces liens se trouvent dans les zones 4XX de l’Unimarc, une bonne partie d’entre eux concernant les périodiques dont ils permettent de reconstituer l’historique (suite de/ devient, fusions/scissions, etc.).

Jusqu’ici, seule une petite partie d’entre eux était convertie, à l’aide des propriétés relationnelles de Dublin Core, beaucoup moins précis en la matière que l’Unimarc : hasFormat, relation, hasVersion.

A présent presque tous ces liens sont publiés. Il reste encore un peu de  Dublin Core (is part of / has part), de Bibo, à la marge (notamment pour les tirés à part) ; le reste avec RDA qui a fourni l’essentiel du vocabulaire ad hoc. (Voir la suite)

Certaines relations ont été par la même occasion précisées par une nouvelle propriété : par exemple « Est une reproduction de » : traduit par dcterms:isFormat l’est désormais par rdau:P60297 (is reproduction of)

Deux zones Unimarc sont encore exprimées de façon approximative :

– 451 : Autre édition sur un même support

– 452 : Autre édition sur un support différent

Elles n’existent dans aucun vocabulaire et devront être forgées.

La suite consistera à exposer  ces mêmes champs 4XX quand ils n’ont pas de lien, c’est-à-dire lorsqu’ils sont utilisés comme points d’accès. Comme, par exemple, les nombreuses 463$t ou 464$t (Comprend) contenant des titres de volumes ou d’œuvres contenues.

Mises à jour, présentes et à venir : bonnes pratiques

L’ancienne propriété a été pour l’instant  conservée, de façon redondante.

Par ailleurs, les propriétés RDA WorkManifested, ManifestationOfWork, et la classe Work : déjà utilisées dans quelques cas précis (titres uniformes, thèses) sont désormais obsolètes et sont  remplacées par leurs homologues rdam:P30135, rdac:C10001. De même que modeOfIssuance par  rdau:30003

A noter que le vocabulaire obsolète est pour l’instant maintenu. Ceci dans un souci d’assurer une interopérabilité entre deux versions du modèle de données, et d’éviter de « casser » des applications qui exploiteraient les données impactées. Ce principe ne pourra pas toujours être appliqué, mais à l’avenir, les modifications apportées à l’existant seront annoncées à l’avance avec une échéance, comme pour les modifications habituelles de format.

A ce propos, tous les retours sont les bienvenus !

Chantier ouvert au public, casque obligatoire

D’après A. Raanes. CC by 2.0. Source :Flickr

Rappelons enfin que tout ce qui précède est détaillé dans la documentation en ligne :

http://documentation.abes.fr/sudoc/manuels/administration/sudoc_rdf

M. Jeulin

Un serveur SPARQL pour le Sudoc

Depuis juillet 2011, l’ensemble des données Sudoc est accessible en RDF. Si on connaît son identifiant, chacune des dix millions de notices du Sudoc peut être affichée en RDF/XML. Mais encore faut-il connaître cet identifiant… Ce dispositif est utile pour permettre à un programme de naviguer de notice en notice, y compris en rebondissant sur les données RDF d’IdRef par exemple, mais cela ne permet pas d’explorer systématiquement le Sudoc ni d’effectuer une recherche.

SPARQLer le Sudoc ?

Pour ce faire, il faudrait que toutes ces pages RDF soient agrégées en une seule base qui supporte la possibilité d’interroger des données RDF en tant que RDF. Cette possibilité s’appelle SPARQL : il s’agit d’un langage de requête standardisé conçu pour interroger les données RDF. Pour l’ABES, offrir un accès au Sudoc en SPARQL reste un objectif, mais ce n’est pas une priorité de premier niveau. Par contre, faire en sorte que d’autres acteurs puissent récupérer l’ensemble du Sudoc en RDF et ce, s’ils le souhaitent, dans une base RDF compatible avec SPARQL, c’est incontournable.

Moissonner le Sudoc

C’est pourquoi, dès juillet 2011, nous avons indiqué à des agrégateurs potentiels comment moissonner le Sudoc en RDF. De la même manière que les robots des moteurs de recherche peuvent crawler un site web dynamique à partir d’un fichier XML qui liste toutes les URLs du site, les robots des agrégateurs de données RDF ont été invités à crawler le Sudoc de la même manière, mais en demandant explicitement le format RDF/XML. Au passage, ce fichier XML qui liste les URLs est un fichier sitemap et le fait de pouvoir servir une page en HTML ou en RDF (ou autre chose encore) en fonction de la demande du client s’appelle la négociation de contenu.

S’il est en théorie séduisant et rassurant d’imaginer qu’on puisse crawler la version RDF d’une base de données selon la méthode de crawl standard qui fait le web d’aujourd’hui, en pratique, aujourd’hui, ce n’est pas la solution la plus efficace. En un an, Sindice, un des principaux agrégateurs de contenu RDF, n’a moissonné que 10% de la base.

Vous avez prévu quoi pour juillet … 2021 ?

Dumper le Sudoc

Il nous faut donc recourir aux bonnes vieilles méthodes. Nous allons donc générer des exports réguliers du Sudoc en RDF et nous les publierons, en libre accès. Contrairement à la solution du crawl, cette solution du dump implique nécessairement un décalage temporel entre les données du Sudoc et celles de son dump. Nous espérons limiter à un mois ce décalage inévitable.

Afin de roder ce nouveau dispositif, nous avons mis le dump à la disposition de Sindice. Dès que le conseil d’administration aura décidé de la licence juridique associée aux données des réseaux ABES, donc du Sudoc, ce dump sera ouvert à tous.

SPARQLer le Sudoc  avec Sindice !

En attendant, c’est avec enthousiasme que nous avons constaté l’intégration réussie des 300 000 000 de triplets RDF du Sudoc dans le moteur de recherche Sindice et dans son serveur SPARQL. Certes, Sindice est une initiative universitaire, qui ne peut prétendre garantir la continuité de service d’un serveur commercial (ceci dit, Sindice a désormais sa structure commerciale). Certes, les bases de données RDF de cette taille n’ont pas les performances des bases de données relationnelles et encore moins des moteurs de recherche comme Solr. Mais la souplesse et la puissance de SPARQL sont addictifs.

Disposer d’un accès au Sudoc en SPARQL, c’est très précieux pour développer des prototypes, se former au web sémantique sur des données familières, faire des requêtes impossibles avec les interfaces actuelles du Sudoc (Web, Z39.50), identifier avec précision les aspects sur lesquels la conversion actuelle  du MARC en RDF peut être améliorée…. Mais nous ne conseillons pas de faire dépendre un service en production du serveur SPARQL de Sindice. Ce n’est pas le but.

Afin de vous encourager à confesser votre propre addiction dans les commentaires, voici une première requête, très simple, qui liste tous les auteurs que Jacques Roubaud a pu traduire :

SELECT distinct  ?auteur ?auteurnom

FROM <http://www.sudoc.fr/>

WHERE {
  ?doc <http://www.loc.gov/loc.terms/relators/trl> <http://www.idref.fr/027110583/id>.
  ?doc dc:title ?titre.
  ?doc >http://www.loc.gov/loc.terms/relators/aut> ?auteur.
  ?auteur foaf:name ?auteurnom.
      }

Y. Nicolas

IdRef dans VIAF et après … #2 Faciliter et améliorer le catalogage par dérivation

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la deuxième.

Grâce à MARC et Z39.50, le catalogage est d’ores et déjà une pratique professionnelle locale qui fonctionne dans un cadre global. L’idéal visé est le suivant : pour chaque livre, sa notice bibliographique est créée une fois, par quelqu’un, quelque part, puis échangée, reprise, exemplarisée autant de fois que nécessaire, partout, par tous.

Dans le cadre du Sudoc, plutôt que de créer ex nihilo une notice qui manque, le catalogueur interroge d’autres catalogues à la recherche de cette notice. S’il la trouve, il la récupère dans l’outil de catalogage du Sudoc et l’intègre telle quelle, … à beaucoup de détails près… C’est ce qu’on appelle du catalogage par dérivation. En voici un tutoriel, propre au contexte du Sudoc :

Parmi les adaptions à faire pour acclimater une notice externe à son nouvel environnement Sudoc, une des plus lourdes est de lier les points d’accès de la nouvelle notice aux autorités Sudoc (ie IdRef) : indexation matière, auteurs et autres mentions de responsabilité. Dans le cas des auteurs par exemple, il s’agit en général d’identifier dans les autorités Sudoc (ie IdRef) la bonne notice à partir d’un nom et d’un prénom (éventuellement complétés par une date). C’est une tâche très importante, mais parfois difficile, consommatrice de temps et sujette à erreur.

Or, il faut savoir que certains des catalogues qui servent de source à la dérivation dans le Sudoc sont eux-mêmes des catalogues sous contrôle d’autorité : en interne, leurs propres notices bibliographiques sont liées à des notices d’autorité, grâce à un identifiant. C’est le cas, par exemple, du catalogue de la bibliothèque nationale d’Allemagne et même de Worldcat. Par exemple, après vérification, il s’avère que la notice de Worldcat 212038123 est liée à une notice d’autorité interne et que cette autorité interne n’est qu’un clone de la notice nb98088322 du fichier d’autorité de la Bibliothèque du Congrès (LC). Hélas, quand cette notice Worldcat est exposée en ligne, soit par le Z39.50 auquel l’outil de catalogage du Sudoc est connecté, soit par web service, la mention de l’autorité a disparu : à la place de son identifiant, il ne reste qu’une chaîne de caractères (nom/prénom)… à partir de laquelle le catalogueur doit chercher une autorité Sudoc (en l’occurrence, 076940322).

Or, grâce à VIAF, si Worldcat exposait ses autorités internes – ou encore mieux l’identifiant LC -, il deviendrait possible d’automatiser cette tâche manuelle. En effet, cette grappe de VIAF met en relation l’autorité LC et l’autorité Sudoc (IdRef) que nous venons de prendre pour exemples. Dès lors, grâce aux solutions techniques proposées par VIAF, l’outil de catalogage du Sudoc pourrait automatiser cette tâche-ci du catalogage par dérivation qui consiste à lier un nom à une autorité Sudoc. Ce serait un gain de temps et sans doute en qualité. Certes, personne ne croit aux miracles ! VIAF ne réussit pas toujours à lier des autorités préexistantes. Et quand l’auteur n’a pas encore sa notice dans le Sudoc, il faut bien la créer. Mais ce serait néanmoins un progrès non négligeable.

Hélas, avant de mettre en place cette solution, il faudra attendre que Worldcat et les autres bases aient inclus dans les notices bibliographiques qu’elles exposent le lien à des autorités intégrées à VIAF. Côté Worldcat, l’ABES a explicitement transmis à OCLC une demande d’évolution allant dans ce sens. Pour d’autres bases, ce n’est pas encore le cas. Pour d’autres bases encore, c’est encore plus hypothétique : dans un catalogue comme celui de la Bibliothèque du Congrès, même en interne, il n’existe pas de lien matériel entre les notices bibliographiques et les notices d’autorité : seule la forme retenue de l’autorité est présente dans la notice bibliographique, mais pas son identifiant. La migration vers RDA et au-delà devrait permettre de dépasser ce manque.

Y. Nicolas

IdRef dans VIAF et après … #1 Passer d’un identifiant à l’autre (VIAF, IdRef, LC, BnF, Wikipedia, …)

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la première.

Tout l’intérêt de VIAF repose dans son travail d’interconnexion entre des notices d’autorité d’origines différentes. En effet, les algorithmes de VIAF cherchent à identifier toutes les notices d’autorité qui « parlent’ de la même chose, qu’il s’agisse d’une personne, d’une collectivité ou d’une oeuvre. Ils génèrent alors des grappes (clusters) d’autorités. Ces grappes VIAF possèdent elles-même un identifiant unique, en bijection avec chacun des identifiants des autorités membres de la grappe.

Par exemple, l’historien Alain Boureau correspond à la grappe 52358786, qui regroupe l’identifiant IdRef, l’identifiant BnF, l’identifiant de la BN allemande, l’identifiant de la Bibliothèque du Congrès ou encore celui de la Bibliothèque Vaticane. VIAF publie les informations de cette grappe pour qu’elles puissent être lues par un humain (HTML) ou exploitées par un programme (RDF, JSON, MARCXML). Chacune de ces pages  intègre les liens vers les notices d’autorité d’origine, ce qui permet de facilement naviguer de VIAF vers IdRef et les autres bases : connaissant l’identifiant VIAF, un humain ou un programme pourra découvrir l’identifiant IdRef et, en déroulant la bobine de notre web service Biblio, la liste des documents Sudoc liés à cette autorité.

Mais le chemin inverse est tout aussi utile à parcourir : connaissant l’identifiant IdRef, découvrir la grappe VIAF. A terme, cette opération sera possible grâce à l’injection de l’identifiant VIAF à l’intérieur même de chaque autorité IdRef (chantier en cours). En attendant, ce parcours est possible au moyen de l’astuce suivante : connaissant l’identifiant IdRef (ex : PPN = 028270282), on peut accéder à cette page de VIAF http://viaf.org/viaf/sourceID/SUDOC|028270282 qui redirige automatiquement vers l’URL de la grappe : http://viaf.org/viaf/52358786/. Cette redirection peut être exploitée à la fois par un humain et par un programme.

Il est donc possible de faire le chemin aller et le le chemin retour entre VIAF et n’importe quelle autorité d’origine, telle celle d’IdRef. Mais, par transitivité, VIAF peut aussi servir à passer d’une autorité d’origine à une autre, d’une notice de la BN allemande à une notice de la BN espagnole ou d’IdRef à la BnF (et vice versa). Certes, les liens entre les autorités IdRef et les autorités BnF existent déjà, puisque beaucoup de notices IdRef sont créées à partir des notices BnF et en conservent le numéro source. Mais chacun de ces fichiers d’autorité ayant sa propre autonomie, il est probable que VIAF permette de découvrir de nouveaux liens IdRef/BnF, ce qui est une excellente chose pour tout le monde.

Enfin, VIAF contient parfois un lien vers DBpedia, version RDF de Wikipedia versée sur le web de données. Par exemple, en RDF, la grappe Paul Veyne pointe vers cette entrée de DBpedia, et donc de Wikipedia. Là, encore, par transivité, on peut aller de l’autorité IdRef à la page de Wikipedia.

Toutes ces interconnexions contribuent à densifier le maillage de l’information au sein du web de données, et donc à en multiplier les possibilités d’exploitation. Mais en-deçà de cet enjeu global et de long terme, VIAF peut ici et maintenant aider le catalogueur au quotidien.

Y. Nicolas