; PUNKTOKOMO

Mettre nos données en réseau – un démonstrateur. [4g] Le Bouquet des ebooks dalloz

Auteur/autrice de la publication :Punktauteur
Publication publiée :16 mai 2016
Post category:Non classé

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Avec Bacon, le bestiaire ABES s’enrichit d’une nouvelle espèce : le bouquet. Un bouquet (package) n’est pas une collection de titres de périodique, mais une collection de TIPP : “Title Instance, Package, and Platform”. En effet, ce qu’on achète ou loue à travers un bouquet, en général, ce n’est pas une revue dans l’absolu, mais telle revue sur telle plateforme selon les conditions de telle offre commerciale. Ainsi, quand on achète les droits d’accès aux archives d’une revue, les dates de la revue ne coïncident pas avec les dates du TIPP correspondant : la revue peut être encore vivante alors que le TIPP s’arrête en 2014.

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4f] Matrice des fascicules pour conservation partagée

Auteur/autrice de la publication :Punktauteur
Publication publiée :16 mai 2016
Post category:Non classé

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Dans le cadre d’ISTEX, les éditeurs nous livrent des données plutôt riches : un fichier par article, comprenant, outre le full text, des informations sur l’article mais également le fascicule, le volume et la revue. Or, ces différents niveaux reflètent le mode de publication imprimée. Il est donc tentant de vouloir extraire de ces métadonnées ISTEX des informations utiles à la conservation des revues papier correspondantes.

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4d] Le même auteur dans IdRef, VIAF, HAL, Persée, etc.

Auteur/autrice de la publication :Punktauteur
Publication publiée :16 mai 2016
Post category:Non classé

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

La production d’un chercheur est dispersée entre différentes bases de publication ou de référencement. Les alignements entre les différents identifiants du même auteur permettent de rassembler toute cette production, d’en faire la liste comme si toutes les références étaient dans la même base.

C’est le cas de ce chercheur de Paris 4 : Mounir Arbach. Il est présent dans l’annuaire de Paris 4, dans HAL et dans Persée. Nos alignements ont permis de faire converger toutes ces mentions vers le même identifiant IdRef – et du coup, vers le même identifiant VIAF ou ISNI. Voici ce que sait notre base RDF :

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4e] Mapping entre structures de recherche de Paris 4 : IdRef/RNSR/HAL

Auteur/autrice de la publication :Punktauteur
Publication publiée :16 mai 2016
Post category:Non classé

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Comme les personnes physiques, les organismes de recherche sont identifiés dans différents référentiels. En principe, pour la France, le RNSR a vocation à devenir le référentiel pivot, si ce n’est unique.

D’après nos alignements manuels, cette équipe RNSR http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200412806G est identique à une équipe IdRef et trois équipes HAL :

http://www.idref.fr/098390031/id
https://hal.archives-ouvertes.fr/resource/structure/2092 (avec docs)
https://hal.archives-ouvertes.fr/resource/structure/150960 (avec docs)
https://hal.archives-ouvertes.fr/resource/structure/432449 (sans doc ni même description – peut-être non valide ?)

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4c] Les ebooks Springer, IdRef, RAMEAU, Dewey

Auteur/autrice de la publication :Punktauteur
Publication publiée :16 mai 2016
Post category:Non classé

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

A force d’en goûter, nous avons développé un certain nez pour les métadonnées d’éditeur. Verdict : Springer, c’est une bonne maison, fiable, facile à boire mais avec du corps. Nous en avons donc pris soin, en ajoutant aux métadonnées initiales toutes sortes d’enrichissements, certes franco-français (auteurs IdRef et RAMEAU), mais qui servent de passerelles vers les référentiels étrangers ou internationaux (LCSH, VIAF, ISNI, etc.).

Notre travail d’enrichissement a fait feu de tout bois. Voici quelques stratégies :

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4b] Les revues d’Oxford UP et la classification JEL (économie)

Auteur/autrice de la publication :Punktauteur
Publication publiée :16 mai 2016
Post category:Non classé

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Nature indexe ses articles avec un thesaurus maison. Springer aussi. Chez OUP, les mots clés sont libres, et parfois anarchiques, à tel point que nous dû forger une propriété « fourre-tout » (hub:). En effet, parmi les mots-clés auteur, on trouve également des types d’articles.

Mais au milieu de ce bruit, en tamisant finement, on trouve des pépites, qui ont cette apparence : « J63 », « C24 », et qui mettent la puce à l’oreille. Très vite, on comprend que ces codes ne sont pas des scories, mais des indices du système de classification du Journal of Economic Literature (JEL). Et quelques instants après, on découvre que cette classification a été portée en RDF par la bibliothèque nationale allemande d’économie (ZBW).

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4a] Nature en VOSTFR

Auteur/autrice de la publication :Punktauteur
Publication publiée :16 mai 2016
Post category:Non classé

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Nature est un des rares éditeurs à ouvrir ses métadonnées sur le web sémantique. Après avoir provisoirement offert un service SPARQL, Nature propose désormais des dumps RDF. Ils ont fait le choix de découper leurs données en lots : un dump pour les articles, un dump pour les contributeurs, un dump pour chacun de leur vocabulaire contrôlé (les revues, les types d’articles, un thésaurus des sujets fait maison), et un dump par type d’alignement. Parmi ces alignements, la correspondance entre le thésaurus Nature et MeSH est particulièrement précieux.

« Donnez-moi un ID, et un lien, je soulèverai le monde »

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [3] Suivez le guide ! Le modèle de données

Auteur/autrice de la publication :Punktauteur
Publication publiée :16 mai 2016
Post category:Non classé

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

De quoi parle-t-on ?

Les corpus présents dans le démonstrateur, et ceux qui n’y sont pas ou pas encore, ne nous ont pas (à une exception près) été fournis directement en RDF. Il s’agissait en général de fichiers XML respectant (plus ou moins) des DTD ou modèles de données hétérogènes, qu’il nous a fallu convertir, en concevant nous-même un modèle général suffisamment souple pour les accueillir tous, et suffisamment bien structuré pour favoriser les manipulations de données ultérieures.

En effet, les données fournies sont généralement “à plat” : un fichier par article de revue ou chapitre de livre, regroupant des informations relevant de différents niveaux :

Certaines informations (titres, contributeurs, sujets, et relations d’appartenance) se répartissent entre article/chapitre, le livre, le numéro, le volume de la revue qui les contiennent, la revue elle-même ou la collection ;
D’autres sont, en plus, spécifiques à l’édition, soit imprimée, soit électronique (ISBN, ISSN, DOI)

Ces informations sont donc à la fois lacunaires et redondantes : redondantes car répétées sans nécessité dans tout ou partie des fichiers ; et lacunaires car ces informations peuvent manquer ou être corrompues dans certains d’entre eux.

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

Auteur/autrice de la publication :Punktauteur
Publication publiée :16 mai 2016
Post category:bacon biblio docelec IdRef Non classé Sudoc techno

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Pour les besoins de la démonstration, nous avons agrégé des données diverses et variées, mais finalement cette auberge espagnole n’est pas si anarchique : tout mène à tout, et on peut regrouper les jeux de données de différentes manières :

Données descriptives vs Référentiels
Données produites par les réseaux ABES vs Données de tiers
Données du monde des bibliothèques vs Données d’autres mondes (science, administration, etc.)
Données récupérées en RDF vs Données produites en RDF

Mais dans ABES, il y a B : notre réseau de données se déploie autour des données bibliographiques, qui décrivent des livres, des revues, mais également des chapitres et des articles.

Continuer la lecture

CERCLES : 4 NOUVEAUX CORPUS

Auteur/autrice de la publication :Punktauteur
Publication publiée :22 avril 2016
Post category:Sudoc

CERCLES_Hula_hoop_Jerry_via_Flick_CC_BY_SA_2_0

Le dispositif CERCLES s’agrandit : 4 nouveaux corpus vont être pris en charge par 4 établissements (2 nouveaux établissements, et 2 établissements déjà référents sur un précédent corpus).

Corpus « American Mathematical Society », Bibliothèque Universitaire Pierre et Marie Curie

Corpus : e-books AMS, dont les séries « Memoirs of the AMS » – 2500 titres
Période de travail : mai 2016 – décembre 2017
Responsable du chantier : Yves Momboisse
Axes d’enrichissement : vérification des ISBN, création et complétude des liens 4XX, 6XX et 7XX, création et numérotation ISSN des collections électroniques
Le «+» du chantier :
- engagement sur la fusion de notices en cas de doublon
- bonne connaissance du dispositif par le responsable de chantier
- chantier initié par les bibliothèques MIR qui ont lancé un appel à collaboration auprès des établissements du réseau national des bibliothèques de mathématiques (RNBM) dont elles font partie
- fort engagement de cet établissement dans le dispositif : la BUPMC prend déjà en charge le corpus ENI (avec la BIU Montpellier) et s’apprête à lancer un 3ième chantier, sur un autre corpus de mathématiques.

Continuer la lecture