Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Pour les besoins de la démonstration, nous avons agrégé des données diverses et variées, mais finalement cette auberge espagnole n’est pas si anarchique : tout mène à tout, et on peut regrouper les jeux de données de différentes manières :

  • Données descriptives vs Référentiels
  • Données produites par les réseaux ABES vs Données de tiers
  • Données du monde des bibliothèques vs Données d’autres mondes (science, administration, etc.)
  • Données récupérées en RDF vs Données produites en RDF

Mais dans ABES, il y a B : notre réseau de données se déploie autour des données bibliographiques, qui décrivent des livres, des revues, mais également des chapitres et des articles.

Un jeu de données = un graphe nommé dans la base

Chaque jeu de données chargé dans la base RDF demeure un sous-ensemble bien identifié, un « graphe nommé« . Les données se croisent mais conservent leur pedigree.

Dans une requête SPARQL, on peut préciser ne vouloir interroger que les données de tel graphe – ou de plusieurs graphes. La requête suivante va chercher des titres de document dans le seul graphe des documents HAL :


PREFIX dcterms: <http://purl.org/dc/terms/>
select ?titre
from <http://hub.abes.fr/ccsd/docs/paris4>
where {
?document dcterms:title ?titre.
} LIMIT 10

Pourtant, il n’est pas conseillé d’utiliser le graphe comme un filtre de recherche documentaire : une même base peut être partitionnée en graphes de mille manières différentes ; on pourrait même tout mettre dans un seul graphe. L’organisation par graphes obéit moins à une logique documentaire qu’à des contraintes prosaïques de gestion de la base (regrouper les données ayant la même origine, par exemple) . Cette organisation fera davantage penser aux magasins du CTLES qu’aux salles de bibliothèque en libres accès.

Attention : le nom d’un graphe est une URI, comme http://hub.abes.fr/ccsd/docs/paris4 par exemple, mais inutile de cliquer dessus : elle ne mènera rien, elle sert d’identifiant unique, pas d’adresse web.

Les documents ISTEX

Dans le cadre du projet hub de métadonnées, cette approche « web sémantique » a d’abord été appliquée aux métadonnées livrées dans le cadre d’ISTEX, programme d’acquisition massive de documentation électronique. Ce cadre se prêtait parfaitement à cette approche : les éditeurs nous livrent des données riches et hétérogènes. Notre travail est de conserver toute cette richesse, de l’enrichir encore et de redistribuer librement ces données.

Dans le démonstrateur on trouvera ces données ISTEX :

Revue OUP

Contenu : Métadonnées de la revue Oxford Economic Papers : articles (2112), fascicules, volumes, périodique.

Graphe : http://hub.abes.fr/oup/journals/oxecon

Modélisation : ABES

Exemple :

<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O33> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#F23> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O34> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://rdaregistry.info/Elements/w/P10072>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/m/web> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://purl.org/ontology/bibo/Article> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://vivoweb.org/ontology/core#relatedBy>  <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/authorship/1-1> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/isPartOf>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/w> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://hub.abes.fr/namespace/articleType>    <http://hub.abes.fr/oup/articletype/researcharticle> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#F13> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdaregistry.info/Elements/c/C10001> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://rdaregistry.info/Elements/w/P10072>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/m/print> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://vivoweb.org/ontology/core#relatedBy>  <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/authorship/1-2> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O14> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/title>  "On welfare reducing technological change in a North-South framework"^^<http://www.w3.org/1999/02/22-rdf-syntax-ns#XMLLiteral> .

 

Revues Nature (NPG)

Contenu : Tous les articles de toutes les revues Nature (NPG), dont la fameuse Nature.

Ce jeu de données a ceci de particulier qu’au lieu de convertir en RDF les métadonnées XML livrées par l’éditeur, nous avons privilégié les données RDF générées par l’éditeur lui-même. Ce sont des données d’assez bonne qualité, plus riches que les livraisons XML par certains côtés, moins par d’autres.

Côté plus, l’éditeur a fait un gros travail d’indexation des articles selon un thesaurus maison et un très précieux travail d’alignement de ce thesaurus vers les versions RDF de Wikipedia et MeSH. Ces alignements nous ont tout particulièrement intéressés, vous vous en doutez…

Côté moins, la version RDF est très pauvre en informations sur les auteurs, tandis que la version XML possède des données d’affiliation et des emails, par exemple.

Il s’agit donc d’un cas singulier, mais prometteur et appelé à se généraliser : l’éditeur ouvre lui-même ses données en RDF, mais ces données ne sont pas exhaustives. Il demeure pertinent d’exiger de lui une livraison de données brutes, XML dans ce cas, pour en extraire de informations précieuses et complémentaires. Selon les cas, on pourra redistribuer ces informations ou bien se contenter de les exploiter en interne, par exemple pour générer des alignements.

Graphes (nombreux) :
http://ns.nature.com/graphs/articles
http://ns.nature.com/graphs/contributors
http://ns.nature.com/graphs/map-article-types-dbpedia
http://ns.nature.com/datasets/npg-core-ontology
http://ns.nature.com/graphs/map-journals-dbpedia
http://ns.nature.com/graphs/map-journals-wikidata
http://ns.nature.com/graphs/map-subjects-dbpedia
http://ns.nature.com/graphs/map-subjects-mesh
http://ns.nature.com/graphs/map-subjects-wikidata
http://ns.nature.com/article-types
http://ns.nature.com/blogs
http://ns.nature.com/terms
http://ns.nature.com/journals
http://ns.nature.com/publish-states
http://ns.nature.com/relations
http://ns.nature.com/review-states
http://ns.nature.com/subjects
http://ns.nature.com/graphs/articles-dbpedia
http://ns.nature.com/summary-types

Modélisation : NPG

Exemple :

<http://ns.nature.com/articles/ajg20001205>	<http://ns.nature.com/terms/hasJournal>	<http://ns.nature.com/journals/ajg> .
<http://ns.nature.com/articles/ajg20001205>	<http://purl.org/ontology/bibo/doi>	"10.1111/j.1572-0241.2000.02953.x" .
<http://ns.nature.com/articles/ajg20001205>	<http://ns.nature.com/terms/hasContributor>	<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205> .
<http://ns.nature.com/articles/ajg20001205>	<http://purl.org/dc/elements/1.1/title>	"Urinary retention: a systemic complication of botulinum toxin injection therapy for achalasia" .

 

Ebooks Springer

Contenu : plus de mille livres Springer, composés de plus de 300 000 chapitres.

Graphe : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC

Modélisation : ABES

Exemple :

<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://purl.org/ontology/bibo/Book> .
<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://hub.abes.fr/namespace/subTitle>	"A Case Study in Pipelined Architecture and Vector Processing" .
<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://purl.org/dc/terms/subject>	<http://www.idref.fr/027756688/id> .

 

Les documents HAL

Contenu : environ 8 500 documents ayant pour affiliation Paris 4.

Graphe : http://hub.abes.fr/ccsd/docs/paris4

Modélisation : ABES

Exemple :

<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://vivoweb.org/ontology/core#relatedBy>	<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/authorship/1> .
<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://purl.org/dc/terms/title>	"Diversité linguistique en Nouvelle-Calédonie"@fr .
<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://purl.org/dc/terms/subject>	<https://hal.archives-ouvertes.fr/resource/domain/shs.anthro-se> .

 

Les documents Sudoc

Contenu :

  • Ebooks Dalloz (BND)
  • Livres papier et électroniques correspondant aux ebooks Springer
  • Documents liés aux auteurs IdRef mentionnés dans la base (description bibliographique succincte, non structurée)

Il faudra bien, plus tard, verser tout le Sudoc : toutes les notices ; tous les champs MARC de ces notices . Ce qui est une autre paire de manches. On y travaille…

Graphe :
http://www.sudoc.fr (Ebooks Dalloz)
http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/SUDOC/ELEC (Springer)
http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/SUDOC/PRINT (Springer)
http://www.idref.fr (entre autres, références des documents liés à une autorité chargée dans ce graphe)

Modélisation : ABES

Exemple :

<http://www.sudoc.fr/19116433X/id>	<http://id.loc.gov/vocabulary/relators/aut>	<http://www.idref.fr/060265310/id> .

 

Les référentiels de personnes

 

VIAF

Contenu : chaque mois, nous récupérons et traitons le dump VIAF des alignements entre fichiers d’autorité. Nous n’avons donc que les liens, et pas le contenu des autorités. (Et encore, nous ne gardons qu’une partie des liens, ceux qui relient des fichiers qui ont pignon sur rue. Mais cela fait tout de même près de 24 000 000 de liens.)

Graphe : http://hub.abes.fr/referentiel/linksviaf_03_2016

Modélisation : ABES

Exemple :

<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/05019321X/id> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://hub.abes.fr/frbn/13490714> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://id.loc.gov/authorities/names/n85098625> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.wikidata.org/entity/Q18911870> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://isni.org/isni/0000000121203999> .

 

ORCID

Contenu : chaque année, nous récupérons et traitons le dump ORCID (nou$ aimerion$ bien pa$$er à un dump men$uel). Il s’agit d’un dump XML que nous convertissons en 111 000 000 triplets RDF.

ORCID annonce 1 500 000 profils ORCID dans leur base :


PREFIX foaf: &lt;http://xmlns.com/foaf/0.1/&gt;
select (count(?s) as ?nb)
from &lt;http://hub.abes.fr/referentiel/ORCID2015&gt;
where { ?s a foaf:PersonalProfileDocument }

mais beaucoup n’ont qu’un nom et un prénom, aucune référence de document, ce qui rend ces profils moins fiables et moins utiles.

Graphe : http://hub.abes.fr/referentiel/ORCID2015

Modélisation : ABES

Exemple :

<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/ns/org#hasMembership>	<http://orcid.org/0000-0002-0018-0588/affiliation/1> .
<http://orcid.org/0000-0002-0018-0588>	<http://xmlns.com/foaf/0.1/familyName>	"Cain" .
<http://orcid.org/0000-0002-0018-0588>	<http://xmlns.com/foaf/0.1/givenName>	"Jeff" .
<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/2002/07/owl#sameAs>	<http://hub.abes.fr/referentiel/scopusAuthorID/9247844700> .

 

IdRef

Contenu : Nous aurions pu charger toutes les personnes IdRef, mais ces 2 000 000 d’entités auraient pu noyer le reste des données du démonstrateur. Nous avons seulement chargé les triplets RDF correspondant à un identifiant IdRef mentionné quelque part dans la base (en général, dans les alignements).

Graphe : http://www.idref.fr

Modélisation : ABES

Exemple :

<http://www.idref.fr/02670000X/id>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://www.idref.fr/02670000X/id>	<http://www.w3.org/2002/07/owl#sameAs>	<http://data.bnf.fr/ark:/12148/cb11889814d#foaf:Person> .
<http://www.idref.fr/02670000X/id>	<http://xmlns.com/foaf/0.1/name>	"Bacot, Jacques" .
<http://www.idref.fr/02670000X/id>	<http://www.w3.org/2002/07/owl#sameAs>	<http://isni.org/isni/0000000121400095> .

 

L’annuaire des chercheurs de trois laboratoires de Paris 4

Contenu : près de 800 chercheurs, rattachés à trois équipes de recherche de Paris 4. Dans ce graphe, on ne sait pas grand chose de chaque chercheur : son nom, son prénom, son laboratoire, trois informations glanées sur le site de l’université. Aucun LDAP n’a été maltraité pendant cette opération.

Graphe : http://hub.abes.fr/paris4/labos/auteurs

Modélisation : ABES

Exemple :

<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/givenName>	"Mahamane" .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/083406964/id> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://schema.org/memberOf>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812914A> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/familyName>	"DJOUDOU" .

 

Les référentiels d’organismes

 

Référentiel National des Structures de Recherche (RNSR)

Contenu : Paris 4 et ses structures

Nous avons converti en RDF un export partiel de la base RNSR.

Graphe : <http://hub.abes.fr/rnsr/structures/paris4&gt;

Modélisation : ABES

Exemple :

<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://schema.org/name>	"CENTRE D'ETUDE DE LA LANGUE ET DE LA LITTERATURE FRANCAISES DES XVIIEME ET XVIIIEME SIECLES" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://hub.abes.fr/namespace/sigle>	"UMR8599" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://schema.org/foundingDate>	"1998" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/vocab/typStruct/UR> .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .

 

Référentiel des structures de HAL

Contenu : Paris 4 et ses structures

Nous avons récupéré les données via l’API de HAL et les avons converti en RDF.

Graphe : http://hub.abes.fr/ccsd/structures/paris4

Modélisation : ABES

Exemple :

<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://hub.abes.fr/namespace/sigle>	"CELLFXXS" .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<https://hal.archives-ouvertes.fr/resource/typStruct/laboratory> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/2002/07/owl#sameAs>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://schema.org/name>	"Centre d'\u00E9tude de la langue et de la litt\u00E9rature fran\u00E7aises des\n                XVIIe et XVIIIe si\u00E8cles [CELLFXXS]" .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://hub.abes.fr/namespace/structCode>	"UMR8599" .

 

Les référentiels d’analyse du contenu

 

RAMEAU

Contenu : dump BnF (avril 2015)

Graphe : http://hub.abes.fr/rameau_avril2015

Modélisation : BnF

Exemple :

<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#related>	<http://data.bnf.fr/ark:/12148/cb120000024> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2000/01/rdf-schema#seeAlso>	<http://catalogue.bnf.fr/ark:/12148/cb12041722r> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/028618106/id> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2002/07/owl#sameAs>	<http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb12041722r> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://www.w3.org/2004/02/skos/core#Concept> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dewey.info/class/915/> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Portugal -- Colonies -- Afrique"@fr .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dewey.info/class/950/> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://data.bnf.fr/ontology/bnf-onto/FRBNF>	"12041722"^^<http://www.w3.org/2001/XMLSchema#integer> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#broader>	<http://data.bnf.fr/ark:/12148/cb11979529k> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#narrower>	<http://data.bnf.fr/ark:/12148/cb16661249d> .

 

LCSH

Contenu : dump LCSH (octobre 2014)

Graphe : http://hub.abes.fr/lcsh_27oct2014

Modélisation : LoC

Exemple :

<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#broader>	<http://id.loc.gov/authorities/subjects/sh96010352> .
<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Businesswomen"@en .
<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#narrower>	<http://id.loc.gov/authorities/subjects/sh86006258> .

 

MeSH

Contenu : dump NLM

Graphe : http://id.nlm.nih.gov/mesh

Modélisation : NLM

Exemple :

<http://id.nlm.nih.gov/mesh/D000035>	<http://id.nlm.nih.gov/mesh/vocab#nlmClassificationNumber>	"WM 420.5.A2" .
<http://id.nlm.nih.gov/mesh/D000035>	<http://id.nlm.nih.gov/mesh/vocab#broaderDescriptor>	<http://id.nlm.nih.gov/mesh/D013811> .
<http://id.nlm.nih.gov/mesh/D000035>	<http://www.w3.org/2000/01/rdf-schema#label>	"Abreaction"@en .

 

FMeSH (MeSH en français)

Contenu : Notices FMeSH chargées annuellement dans IdRef

Graphe : http://hub.abes.fr/referentiel/idref/mesh/14042016

Modélisation : ABES

Exemple :

<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#inScheme>	<http://id.nlm.nih.gov/mesh> .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"tendances (qualificatif)" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"trends" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"TD" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"tendances"@fr .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://www.w3.org/2004/02/skos/core#Concept> .

 

Thesaurus Nature (NPG)

Contenu : dump NPG

Graphe : http://ns.nature.com/subjects

Modélisation : NPG

Exemple : <http://ns.nature.com/subjects/enteric-nervous-system&gt; (description)

<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://id.nlm.nih.gov/mesh/D017615> .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://ns.nature.com/terms/hasRoot>	<http://ns.nature.com/subjects/biological-sciences> .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Enteric nervous system"@en .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dbpedia.org/resource/Enteric_nervous_system> .

 

Journal of economic literature (JEL) classification system

Contenu : dump RDF de cette classification spécialisée

Graphe : http://hub.abes.fr/graph/jel

Modélisation : ZBW

Exemple :

<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Modèles de r"gression discrète et de choix qualitatif; Régresseurs discrets; Proportions; Probabilités"@fr .
<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Discrete Regression and Qualitative Choice Models; Discrete Regressors; Proportions; Probabilities"@en .
<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Diskrete Regressionsmodelle und qualitative Auswahlmodelle; Diskrete Regressoren; Gr\u00F6\u00DFenverh\u00E4ltnisse; Wahrscheinlichkeiten"@de .

 

Les référentiels de bouquet

 

Bouquet Dalloz

Contenu : modélisation en KBART très light de la collection des ebooks Dalloz

Graphe : http://hub.abes.fr/dalloz/bn/kbart/lite

Modélisation : GoKB (modélisation non finalisée)

Exemple :

<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://www.loc.gov/standards/mods/modsrdf/v1/#locationUrl>	"http://dallozbndpro-pvgpsla5.dalloz-bibliotheque.fr/fr/pvpage2.asp?puc=4236&amp;amp;amp;nu=36&amp;amp;amp;selfsize=1" .
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://gokb.org/tipp/#hasTitle>	<http://www.sudoc.fr/191183768/id> .
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://gokb.org/tipp/#belongsToPkg>	<https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .

 

Les localisations

 

Bibliothèques possédant le bouquet Dalloz

Contenu : Liste des bibliothèques « possédant » le bouquet dalloz (d’après ERE).

Graphe : http://hub.abes.fr/dalloz/bn/who

Modélisation : ABES

Exemple :

<http://data.enseignementsup-recherche.gouv.fr/uai/0134031L>	<http://schema.org/owns>	<https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .
<http://data.enseignementsup-recherche.gouv.fr/uai/0134031L>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .

 

Les alignements

Nous considérons que les alignements sont des jeux de données comme les autres, à côté des autres. On a intérêt à les gérer à part et à les diffuser à part : il est important de garder la traçabilité des données, de pouvoir faire le tri entre les données d’origine et les enrichissements ajoutés.
 

Alignements entre des auteurs NPG et ORCID

Contenu : quelques milliers d’alignements entre les identifiants locaux des auteurs NPG et les identifiants ORCID

Graphe : http://ns.nature.com/graphs/contributors/align/orcid

Exemple :

<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/givenName>	"Jamie" .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/name>	"Jamie Barkin S" .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://ns.nature.com/terms/Contributor> .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/familyName>	"Barkin S" .

 

Alignements entre des auteurs NPG et ISNI

Contenu : quelques milliers d’alignements entre les identifiants locaux des auteurs NPG et les identifiants ORCID, obtenus via Qualinca

Graphe : http://ns.nature.com/graphs/contributors/align/isni

Exemple :

<http://ns.nature.com/contributors/w-h-irwin-mclean-ng.276> owl:sameAs <http://isni.org/isni/0000000124496002> .

 

Alignements entre des auteurs HAL et IdRef

Contenu : quelques centaines d’alignements entre les auteurs HAL et les auteurs IdRef. Beaucoup d’autres sont prévus.

Graphe : http://hub.abes.fr/ccsd/docs/paris4/align/idref

Exemple :

<https://hal.archives-ouvertes.fr/resource/author/1087935>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/111217776/id> .

 

Alignements entre des chercheurs de Paris 4 et IdRef

Contenu : La grande majorité de nos chercheurs de Paris 4 alignés vers IdRef.

Graphe : http://hub.abes.fr/paris4/labos/auteurs/align/idref

Exemple :

<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/givenName>	"Mahamane" .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/083406964/id> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://schema.org/memberOf>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812914A> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/familyName>	"DJOUDOU" .

 

Alignements entre des auteurs de Persée et IdRef

Contenu : Plus de 10 000 alignements entre Persée et IdRef. Des milliers d’autres seront bientôt générés, dans le cadre d’une fructueuse collaboration avec Persée. Les URIs qui identifient les auteurs Persée sont pour l’instant fictives, mais nos collègues Lyonnais travaillent à l’exposition de leur base sur le web de données.

Graphe : http://hub.abes.fr/persee/auteurs/align/idref

Exemple :

<http://data.persee.fr/person/10004#Person>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/068894449/id> .

 

Alignements entre auteurs Nature (NPG)

Contenu : Plus de 10 000 alignements entre auteurs Nature. Dans le dump RDF de Nature, les auteurs ne sont pas identifiés : si un même auteur a publié deux articles, il apparaîtra avec deux URIs différentes. Pour l’identifier, on peut soit l’aligner sur un référentiel extérieur (ce qu’on fait par ailleurs, dans le cadre de notre projet de recherche Qualinca), soit, à défaut, aligner entre elles les URIs sous lesquelles il est nommé au sein du jeu de données. C’est ce qui a été fait en exploitant l’email, absent du dump RDF mais présent dans les données XML ISTEX : si deux personnes ont le même email et des noms très proches, alors on considère que c’est la même personne. A terme, nous créerons des URIs pivot vers lesquelles pointeront toutes les URIs rapprochées. Pour l’instant, on ajoute des relations owl:sameAs entre chaque paire d’URIs, ce qui est plus bavard.

Graphe : http://ns.nature.com/graphs/contributors/align/email

Exemple :

<http://ns.nature.com/contributors/aaron-f-straight-ncb1899>    owl:sameAs <http://ns.nature.com/contributors/ns1:aaron-f-straight-nature10379> .

 

Alignements entre les auteurs Springer et IdRef

Contenu : Près de 20 000 alignements entre des auteurs d’ebooks (voire de chapitres) et des auteurs IdRef. D’autres alignements seront générés, soit par programme, soit par les catalogueurs du réseau Sudoc, notamment dans le cadre du dispositif CERCLES.

Graphe : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/personnes/idref

Exemple :

<http://hub.abes.fr/springerB/ebook/10904251/caofrederic>  owl#sameAs  <http://www.idref.fr/094231737/id> .

 

Alignements entre les documents Springer et RAMEAU

Contenu : Plus de 70 000 liens entre les documents Springer et les identifiants IdRef de RAMEAU, obtenus grâce à l’alignement entre le thesaurus d’indexation matière de Springer, LCSH et RAMEAU.

Graphe :
Liens les documents et le RAMEAU IdRef : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/rameauppn
Alignements entre le RAMEAU officiel (BnF) et le RAMEAU Idref : http://hub.abes.fr/rameau_avril2015/ppns
Alignements entre le thesaurus d’indexation matière de Springer, LCSH et RAMEAU : http://hub.abes.fr/theses/referentiel/concepts/springer/8janvier2016

Exemple :

<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	dcterms:subject	<http://www.idref.fr/027239519/id> .

 

Alignement entre les domaines HAL et Dewey

Contenu : Alignement manuel entre les domaines HAL et la classification Dewey. Ces alignements de concepts sont toujours délicats. Ils mériteraient d’être revus et amendés de manière collaborative, d’autant qu’ils peuvent être utiles à beaucoup de collègues dans les bibliothèques et les laboratoires.
Depuis la fermeture du site dewey.info par OCLC, les URI Dewey sont en déshérence.

Graphe :
http://hub.abes.fr/ccsd/domaines/align/dewey

Exemple :

<https://hal.archives-ouvertes.fr/resource/domain/info.info-ai>	 skos:closeMatch  <http://dewey.info/class/006.3/> .

 

Alignement entre les structures de recherche de Paris 4 dans les référentiels RNSR, HAL et IdRef

Contenu : Alignement manuel.

Graphe :
http://hub.abes.fr/alignements/structures/rnsr/idref/ccsd

Exemple :

<https://hal.archives-ouvertes.fr/resource/structure/74682>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .
<https://hal.archives-ouvertes.fr/resource/structure/107600>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .
<http://www.idref.fr/031896596/id>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .
Advertisements

2 réflexions sur “Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

  1. Bonjour,
    De façon concrète, comment avez-vous procédé aux alignements ? Avez-vous des outils pour vous aider ?
    Merci pour votre réponse et bravo pour cette série de billets.

    • Bonjour Fred,
      nous avons différentes stratégies pour aligner :
      1/
      Pour les *concepts* (indexation matière / classification), nous préférons le faire à la main. C’est une opération intellectuelle très délicate. On a essayé d’automatiser, mais il faut toujours venir arbitrer à la main – et c’est souvent plus efficace de tout faire à la main si le vocabulaire contient quelques centaines de descripteurs. C’est ce qu’on a fait dans ce cas : https://punktokomo.abes.fr/2016/05/16/mettre-nos-donnees-en-reseau-un-demonstrateur-4c-les-ebooks-springer-idref-rameau-dewey/ . Nous allons publier notre mapping. On pourrait imaginer une manière de l’améliorer et le maintenir de manière collaborative. On est preneur d’idées.
      Idem pour les domaines HAL / Dewey.
      Dans le cas https://punktokomo.abes.fr/2016/05/16/mettre-nos-donnees-en-reseau-un-demonstrateur-4b-les-revues-doxford-up-et-la-classification-jel-economie/ on n’a pas eu besoin d’aligner : juste à exploiter le code JEL perdu dans les données de OUP.
      Au lieu d’aligner, on a aussi expérimenté avec l’API d’indexation automatique d’IBM : http://www.alchemyapi.com/products/alchemylanguage/concept-tagging . C’est très séduisant, mais il y a encore trop de bruit. Les bonnes solutions sont sans doute spécialisées par type de document ou par domaine scientifique, et non généralistes : ces systèmes doivent être entraînés sur des corpus ciblés. Et puis là, on est dans un autre métier – avec lequel il faut travailler, comme c’est le cas dans le cadre d’ISTEX.

      2/ Pour les *personnes*, comme expliqué trop rapidement dans https://punktokomo.abes.fr/2016/05/16/mettre-nos-donnees-en-reseau-un-demonstrateur-4c-les-ebooks-springer-idref-rameau-dewey/,
      . soit nous allons chercher l’identifiant d’auteur dans une base qui a déjà identifié que tel document est associé à telle personne (Sudoc, Worldcat, ORCID) (entre nous, on appelle ça « dériver « un triplet, car au lieu de dériver une notice, on dérive un triplet, du genre « telle-personne-springer owl:sameAs telle-personne-idref ») ;
      . soit nous calculons le bon lien avec les programmes développés dans le cadre (ou autour) du projet Qualinca. Ce projet ANR se termine en septembre 2016. Il nous faudra revenir dessus en détail, bien sûr. Mais dès aujourd’hui, nous pouvons d’aligner certains de vos auteurs, cf. http://documentation.abes.fr/aideidrefdeveloppeur/ch06.html.

      Dans tous les cas, on souhaite privilégier la qualité à la quantité. Le silence vaut mieux que le bruit, surtout dans un environnement aussi interconnecté que le web de données : qui dit interopérabilité dit contagion, pour le meilleur et pour le pire.
      Cela ne signifie pas que nos alignements sont 100% corrects. Faut pas rêver.

      (et merci pour les encouragements !)

Les personnes disposent d’un droit d’accès aux informations contenues dans cette zone de texte. Les informations que vous y inscrivez doivent être pertinentes au regard du contexte. Elles ne doivent pas comporter d’appréciation subjective, ni faire apparaître, directement ou indirectement les origines raciales, les opinions politiques, philosophiques ou religieuses, les appartenances syndicales ou les mœurs de la personne concernée.

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s