Site icon PUNKTOKOMO

Mettre nos données en réseau – un démonstrateur. [4a] Nature en VOSTFR

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Nature est un des rares éditeurs à ouvrir ses métadonnées sur le web sémantique. Après avoir provisoirement offert un service SPARQL, Nature propose désormais des dumps RDF. Ils ont fait le choix de découper leurs données en lots : un dump pour les articles, un dump pour les contributeurs, un dump pour chacun de leur vocabulaire contrôlé (les revues, les types d’articles, un thésaurus des sujets fait maison), et un dump par type d’alignement. Parmi ces alignements, la correspondance entre le thésaurus Nature et MeSH est particulièrement précieux.

« Donnez-moi un ID, et un lien, je soulèverai le monde »

Cet article http://ns.nature.com/articles/nrgastro.2013.180 traite du système nerveux entérique, ce qui correspond au concept suivant dans le thésaurus maison de Nature : http://ns.nature.com/subjects/enteric-nervous-system. Et, d’après l’alignement établi par Nature,

<http://ns.nature.com/subjects/enteric-nervous-system> skos:closeMatch <http://id.nlm.nih.gov/mesh/D017615>.

http://id.nlm.nih.gov/mesh/D017615 est un identifiant officiel dans le vocabulaire MeSH.

Or, il se trouve qu’IdRef comprend deux vocabulaires d’indexation matière : RAMEAU et FMeSH. FMesh est la traduction de MeSH en français, réalisée par l’INSERM.

Comme toutes les notices d’IdRef, les notices FMeSH sont exposées en RDF et nous avons eu la bonne idée d’y inclure un alignement entre la version française et la version originale (US) de chaque concept MeSH (http://www.idref.fr/040823253/id en l’occurrence).

Résultat des courses : sujet Nature ≈ sujet MeSH = sujet FMeSH = sujet IdRef

Par transitivité, cela signifie qu’il est possible de rebondir d’une notice FMeSH IdRef vers les documents Nature qui traitent de ce sujet. Plus intéressant encore, il est donc possible d’interroger les articles de Nature en Français, au moyen des des libellés français des concepts FMesH. La requête suivante demande à voir les articles sur le « Système nerveux entérique » :

PREFIX owl: <http://www.w3.org/2002/07/owl#>

PREFIX skos: <http://www.w3.org/2004/02/skos/core#>

PREFIX dc: <http://purl.org/dc/elements/1.1/>

select ?NPGdoc ?NPGtitle ?NPGsubject ?mesh (?idref as ?fmesh_idref)

where {

?NPGdoc <http://ns.nature.com/terms/hasSubject> ?NPGsubject ; dc:title ?NPGtitle.

?NPGsubject skos:closeMatch ?mesh.

?idref owl:sameAs ?mesh.

?idref skos:prefLabel "Système nerveux entérique"@fr

} LIMIT 100

Ce qu’on peut regretter, c’est que les notices FMeSH d’IdRef sont assez pauvres : on a perdu en route les relations hiérarchiques entre concepts MeSH. Mais cela ne nous empêche pas de demander tous les documents de Nature qui portent sur le concept hyperonyme de « Système nerveux entérique », grâce au dump RDF de MeSH proposé par la NLM (US), qui contient les relations hiérarchiques.

Cette étude de cas « Nature en VOSTFR » est un pousse-au-crime-de-paresse. Tout ce que nous avons eu à faire, c’est juxtaposer les données Nature, les alignements Nature, le dump MesH de la NLM (US) et IdRef. Les donnés se sont connectées d’elles-mêmes. Il nous restait à cueillir le fruit à l’aide de la bonne requête SPARQL.

Ce n’est pas toujours aussi simple.

Quitter la version mobile