Mettre nos données en réseau – un démonstrateur. [1] Introduction.

Ce démonstrateur est un plaidoyer en faveur d’une approche “web sémantique” de l’interopérabilité des données de l’IST. Mais, cette fois, il s’agit de montrer et non d’argumenter. Il s’agit de défendre, en illustrant cette approche par des études de cas. Alors, si vous fuyez les plaidoyers, si vous exigez du concret, de la donnée (RDF), de la requête (SPARQL), passez cette introduction et lisez l’un des billets suivants :

  1. Introduction (ce billet)
  2. Inventaire des données
  3. Suivez le guide ! Le modèle de données
  4. Études de cas

SPARQL endpoint : https://lod.abes.fr/sparql
Interface de recherche full text et de navigation : https://lod.abes.fr/fct

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4h] La fédération a de l’avenir

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Une des forces de SPARQL est d’être non seulement un langage de requêtes, comme SQL, mais aussi un protocole, s’appuyant sur des requêtes http. Un sparql endpoint fonctionne donc comme un web service. Mais il y a mieux : comme il est standard, il permet à un endpoint d’en interroger n’importe quel autre, distant. A condition, bien entendu, que chacun d’eux ait été configuré pour cela. Cet appel distant est introduit par une sous requête SERVICE {…}

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4g] Le Bouquet des ebooks dalloz

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Avec Bacon, le bestiaire ABES s’enrichit d’une nouvelle espèce : le bouquet. Un bouquet (package) n’est pas une collection de titres de périodique, mais une collection de TIPP : “Title Instance, Package, and Platform”. En effet, ce qu’on achète ou loue à travers un bouquet, en général, ce n’est pas une revue dans l’absolu, mais telle revue sur telle plateforme selon les conditions de telle offre commerciale. Ainsi, quand on achète les droits d’accès aux archives d’une revue, les dates de la revue ne coïncident pas avec les dates du TIPP correspondant : la revue peut être encore vivante alors que le TIPP s’arrête en 2014.

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4f] Matrice des fascicules pour conservation partagée

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Dans le cadre d’ISTEX, les éditeurs nous livrent des données plutôt riches : un fichier par article, comprenant, outre le full text, des informations sur l’article mais également le fascicule, le volume et la revue. Or, ces différents niveaux reflètent le mode de publication imprimée. Il est donc tentant de vouloir extraire de ces métadonnées ISTEX des informations utiles à la conservation des revues papier correspondantes.

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4d] Le même auteur dans IdRef, VIAF, HAL, Persée, etc.

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

La production d’un chercheur est dispersée entre différentes bases de publication ou de référencement. Les alignements entre les différents identifiants du même auteur permettent de rassembler toute cette production, d’en faire la liste comme si toutes les références étaient dans la même base.

C’est le cas de ce chercheur de Paris 4 : Mounir Arbach. Il est présent dans l’annuaire de Paris 4, dans HAL et dans Persée. Nos alignements ont permis de faire converger toutes ces mentions vers le même identifiant IdRef – et du coup, vers le même identifiant VIAF ou ISNI. Voici ce que sait notre base RDF :

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4e] Mapping entre structures de recherche de Paris 4 : IdRef/RNSR/HAL

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Comme les personnes physiques, les organismes de recherche sont identifiés dans différents référentiels. En principe, pour la France, le RNSR a vocation à devenir le référentiel pivot, si ce n’est unique.

D’après nos alignements manuels, cette équipe RNSR http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200412806G est identique à une équipe IdRef et trois équipes HAL :

  • http://www.idref.fr/098390031/id
  • https://hal.archives-ouvertes.fr/resource/structure/2092 (avec docs)
  • https://hal.archives-ouvertes.fr/resource/structure/150960 (avec docs)
  • https://hal.archives-ouvertes.fr/resource/structure/432449 (sans doc ni même description – peut-être non valide ?)
Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4c] Les ebooks Springer, IdRef, RAMEAU, Dewey

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

A force d’en goûter, nous avons développé un certain nez pour les métadonnées d’éditeur. Verdict : Springer, c’est une bonne maison, fiable, facile à boire mais avec du corps. Nous en avons donc pris soin, en ajoutant aux métadonnées initiales toutes sortes d’enrichissements, certes franco-français (auteurs IdRef et RAMEAU), mais qui servent de passerelles vers les référentiels étrangers ou internationaux (LCSH, VIAF, ISNI, etc.).

Notre travail d’enrichissement a fait feu de tout bois. Voici quelques stratégies :

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4b] Les revues d’Oxford UP et la classification JEL (économie)

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Nature indexe ses articles avec un thesaurus maison. Springer aussi. Chez OUP, les mots clés sont libres, et parfois anarchiques, à tel point que nous dû forger une propriété « fourre-tout » (hub:). En effet, parmi les mots-clés auteur, on trouve également des types d’articles.

Mais au milieu de ce bruit, en tamisant finement, on trouve des pépites, qui ont cette apparence : « J63 », « C24 », et qui mettent la puce à l’oreille. Très vite, on comprend que ces codes ne sont pas des scories, mais des indices du système de classification du Journal of Economic Literature (JEL). Et quelques instants après, on découvre que cette classification a été portée en RDF par la bibliothèque nationale allemande d’économie (ZBW).

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4a] Nature en VOSTFR

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Nature est un des rares éditeurs à ouvrir ses métadonnées sur le web sémantique. Après avoir provisoirement offert un service SPARQL, Nature propose désormais des dumps RDF. Ils ont fait le choix de découper leurs données en lots : un dump pour les articles, un dump pour les contributeurs, un dump pour chacun de leur vocabulaire contrôlé (les revues, les types d’articles, un thésaurus des sujets fait maison), et un dump par type d’alignement. Parmi ces alignements, la correspondance entre le thésaurus Nature et MeSH est particulièrement précieux.

« Donnez-moi un ID, et un lien, je soulèverai le monde »

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [3] Suivez le guide ! Le modèle de données

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

De quoi parle-t-on ?

Les corpus présents dans le démonstrateur, et ceux qui n’y sont pas ou pas encore, ne nous ont pas (à une exception près) été fournis directement en RDF. Il s’agissait en général de fichiers XML respectant (plus ou moins) des DTD ou modèles de données hétérogènes, qu’il nous a fallu convertir, en concevant nous-même un modèle général suffisamment souple pour les accueillir tous, et suffisamment bien structuré pour favoriser les manipulations de données ultérieures.

En effet, les données fournies sont généralement “à plat” : un fichier par article de revue ou chapitre de livre, regroupant des informations relevant de différents niveaux :

  • Certaines informations (titres, contributeurs, sujets, et relations d’appartenance) se répartissent entre article/chapitre, le livre, le numéro, le volume de la revue qui les contiennent, la revue elle-même ou la collection ;
  • D’autres sont, en plus, spécifiques à l’édition, soit imprimée, soit électronique (ISBN, ISSN, DOI)

Ces informations sont donc à la fois lacunaires et redondantes : redondantes car répétées sans nécessité dans tout ou partie des fichiers ; et lacunaires car ces informations peuvent manquer ou être corrompues dans certains d’entre eux.

Continuer la lecture