Mettre nos données en réseau – un démonstrateur. [4c] Les ebooks Springer, IdRef, RAMEAU, Dewey

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

A force d’en goûter, nous avons développé un certain nez pour les métadonnées d’éditeur. Verdict : Springer, c’est une bonne maison, fiable, facile à boire mais avec du corps. Nous en avons donc pris soin, en ajoutant aux métadonnées initiales toutes sortes d’enrichissements, certes franco-français (auteurs IdRef et RAMEAU), mais qui servent de passerelles vers les référentiels étrangers ou internationaux (LCSH, VIAF, ISNI, etc.).

Notre travail d’enrichissement a fait feu de tout bois. Voici quelques stratégies :

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4b] Les revues d’Oxford UP et la classification JEL (économie)

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Nature indexe ses articles avec un thesaurus maison. Springer aussi. Chez OUP, les mots clés sont libres, et parfois anarchiques, à tel point que nous dû forger une propriété « fourre-tout » (hub:). En effet, parmi les mots-clés auteur, on trouve également des types d’articles.

Mais au milieu de ce bruit, en tamisant finement, on trouve des pépites, qui ont cette apparence : « J63 », « C24 », et qui mettent la puce à l’oreille. Très vite, on comprend que ces codes ne sont pas des scories, mais des indices du système de classification du Journal of Economic Literature (JEL). Et quelques instants après, on découvre que cette classification a été portée en RDF par la bibliothèque nationale allemande d’économie (ZBW).

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [4a] Nature en VOSTFR

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Nature est un des rares éditeurs à ouvrir ses métadonnées sur le web sémantique. Après avoir provisoirement offert un service SPARQL, Nature propose désormais des dumps RDF. Ils ont fait le choix de découper leurs données en lots : un dump pour les articles, un dump pour les contributeurs, un dump pour chacun de leur vocabulaire contrôlé (les revues, les types d’articles, un thésaurus des sujets fait maison), et un dump par type d’alignement. Parmi ces alignements, la correspondance entre le thésaurus Nature et MeSH est particulièrement précieux.

« Donnez-moi un ID, et un lien, je soulèverai le monde »

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [3] Suivez le guide ! Le modèle de données

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

De quoi parle-t-on ?

Les corpus présents dans le démonstrateur, et ceux qui n’y sont pas ou pas encore, ne nous ont pas (à une exception près) été fournis directement en RDF. Il s’agissait en général de fichiers XML respectant (plus ou moins) des DTD ou modèles de données hétérogènes, qu’il nous a fallu convertir, en concevant nous-même un modèle général suffisamment souple pour les accueillir tous, et suffisamment bien structuré pour favoriser les manipulations de données ultérieures.

En effet, les données fournies sont généralement “à plat” : un fichier par article de revue ou chapitre de livre, regroupant des informations relevant de différents niveaux :

  • Certaines informations (titres, contributeurs, sujets, et relations d’appartenance) se répartissent entre article/chapitre, le livre, le numéro, le volume de la revue qui les contiennent, la revue elle-même ou la collection ;
  • D’autres sont, en plus, spécifiques à l’édition, soit imprimée, soit électronique (ISBN, ISSN, DOI)

Ces informations sont donc à la fois lacunaires et redondantes : redondantes car répétées sans nécessité dans tout ou partie des fichiers ; et lacunaires car ces informations peuvent manquer ou être corrompues dans certains d’entre eux.

Continuer la lecture

Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Pour les besoins de la démonstration, nous avons agrégé des données diverses et variées, mais finalement cette auberge espagnole n’est pas si anarchique : tout mène à tout, et on peut regrouper les jeux de données de différentes manières :

  • Données descriptives vs Référentiels
  • Données produites par les réseaux ABES vs Données de tiers
  • Données du monde des bibliothèques vs Données d’autres mondes (science, administration, etc.)
  • Données récupérées en RDF vs Données produites en RDF

Mais dans ABES, il y a B : notre réseau de données se déploie autour des données bibliographiques, qui décrivent des livres, des revues, mais également des chapitres et des articles.

Continuer la lecture

Synthèse de l’enquête sur la fonction de coordinateur thèses

20160115_163200

L’enquête auprès des coordinateurs thèses : raison d’être et accueil

Le dispositif de valorisation des thèses de doctorat s’est consolidé en 2011 avec la mise en production du moteur de recherche theses.fr et de l’application Step, venues compléter les services déjà apportés par l’application Star et le Sudoc. La fonction de coordinateur thèses a été mise en place au même moment. L’objectif de cette fonction est qu’un établissement dispose d’une vue globale sur la gestion des thèses et d’un interlocuteur assurant la transmission de l’information entre les différents intervenants dans les applications liées aux thèses. L’ABES a donc ressenti le besoin, 4 ans après la mise en place de ce dispositif, de faire un bilan sur les retours d’expérience des établissements et de recenser les suggestions sur les moyens de faciliter l’action des coordinateurs thèses.
L’enquête à destination des coordinateurs thèses a été lancée par l’ABES du 15 septembre au 31 octobre 2015. L’enquête comportait 21 questions.
71 réponses exploitables ont été obtenues soit un taux de participation à l’enquête de 63%. 112 coordinateurs thèses sont en effet comptabilisés en janvier 2016. Les coordinateurs thèses ayant répondu à l’enquête ont majoritairement été nommés en 2011 (30%) et 2013 (22%). Voici une synthèse des réponses obtenues :

Continuer la lecture

OpenRefine ou comment passer des listes aux applications ABES : illustration avec IdRef et theses.fr ?

Problématique de départ : Comment passer une liste de paramètres à IdRef en entrée afin d’obtenir en sortie un type d’informations recherchées ? Par exemple, comment obtenir les identifiants IdRef d’une liste de personnes pour lesquelles on dispose du nom et du prénom ?

Condition : Il va de soi qu’il est exclu pour résoudre ce problème de passer ces noms-prénoms un à un dans l’interface de recherche IdRef.

Hypothèse : IdRef dispose d’un service d’interrogation sous forme de web services Solr à l’adresse suivante : http://www.idref.fr/Sru/Solr

Résolution

import   La première étape consiste à importer les données de base.

 

 

 

 

 

 

import2

 

Un premier traitement,  simple mais essentiel, consiste, pour chacune des colonnes de départ, à « ôter tous les espaces en début et fin de chaine de caractères ». Ensuite, on construit une colonne NomComplet dans laquelle le nom et le prénom sont séparés par une virgule et un espace. Si  ce n’est déjà fait, il convient également de passer le tout en minuscule.

 

 

 

import3A partir de cette mise en forme – opération indispensable du fait que l’index Solr est construit ainsi – il sera possible de requêter l’index « Personne » d’IdRef avec la fonctionnalité « by fetching URL » et une expression rédigée dans le langage GREL propre à OpenRefine dans le menu « Apply » :

 

Exemple de code GREL :

{

« op »: « core/column-addition-by-fetching-urls »,

« description »: « Create column jsonidref at index 3 by fetching URLs based on column NomComplet using expression grel:\ »http://www.idref.fr/Sru/Solr?q=persname_s:\ »+replace(value, ‘ ‘, ‘\\\\%20’)+\n\n\ »*&sort=score%20desc&version=2.2&start=0&rows=30&indent=on&fl=id,ppn_z,recordtype_z,affcourt_z&wt=json\ » »,

« engineConfig »: {

« facets »: [],

« mode »: « row-based »

},

« newColumnName »: « jsonidref »,

« columnInsertIndex »: 3,

« baseColumnName »: « NomComplet »,

« urlExpression »: « grel:\ »http://www.idref.fr/Sru/Solr?q=persname_s:\ »+replace(value, ‘ ‘, ‘\\\\%20’)+\n\n\ »*&sort=score%20desc&version=2.2&start=0&rows=30&indent=on&fl=id,ppn_z,recordtype_z,affcourt_z&wt=json\ » »,

« onError »: « store-error »,

« delay »: 50

},

La réponse obtenue en format json contient (ou pas) les paramètres recherchés. Ici, par exemple, seule la troisième ligne contient l’identifiant souhaité. Cette dernière colonne est obtenue en « parsant » le json.

La question essentielle est celle de la fiabilité de la réponse obtenue. Pour répondre à cette question, il faut revenir au point de départ : de qui est constitué mon corpus de personnes au départ ? S’il est composé de directeurs de thèses, comme c’est le cas pour les données ADUM pour lesquels l’opération d’alignement est en cours (Voir Fil’ABES), alors le requêtage de theses.fr peut donner des résultats dont le taux d’erreur est presque nul.

Et la suite ???

Pour disposer de toute une gamme d’idées et de codes OpenRefine dédiés au requêtage des données mises à disposition par l’ABES, vous pouvez vous reporter à http://www.bibliopedia.fr/wiki/OpenRefine . Si vous avez besoin d’obtenir des identifiants pour des « Personnes » ou d’autres types d’autorité, adressez votre demande à idref@abes.fr. Nous pourrons élaborer ensemble la meilleure façon d’y répondre.

Notons enfin que si OpenRefine s’avère pratique, l’outil connait des limites. Sur la base de l’expérimentation SudocAd, l’ABES développe un outil plus sophistiqué en parallèle du projet de recherche Qualinca qu’elle mène avec le LIRMM. Cet outil, en cours de développement, est bien plus ambitieux en termes de quantité et de qualité des paramètres pris en entrée pour un niveau de fiabilité réhaussé. Pour creuser cette question, nous recommandons la lecture de l’article passionnant d’Aline Le Provost dans le numéro 77 d’Arabesque : https://fil.abes.fr/2015/01/05/arabesques-n77-dialogues-avec-la-machine/

Continuer la lecture

Satisfaction et besoins autour de l’application Step et de ses services : résultats de l’enquête 2015

Depuis son ouverture en 2011, en parallèle de celle de theses.fr, l’application Step a évolué avec l’apport de nouveaux services (export de données vers Star, programme d’import de données commun aux deux applications thèses, interconnexion avec des outils de gestion en local …) et son réseau s’est agrandi pour atteindre aujourd’hui 103 établissements habilités à délivrer le doctorat.

En 2015, l’activité de signalement des thèses en préparation semble avoir atteint sa vitesse de croisière. C’était l’occasion pour l’ABES  de recueillir auprès des correspondants Step leurs avis sur l’application et ses services associés, de connaître leurs éventuelles difficultés ainsi que les évolutions souhaitées. C’est à cette fin qu’une enquête a été menée du 3 mars au 15 avril 2015. En voici les principaux résultats.

Continuer la lecture

Être un service libéré, tu sais c’est pas si FACILE…

Synthèse de l’enquête sur les pdf de thèses valides pour un archivage au CINES

velo_facile

Dans le cadre d’un échange entre l’ABES et le CINES, une enquête a été menée auprès des correspondants STAR du 17 au 31 mars 2015. Celle-ci avait pour but de mieux connaître comment les établissements procèdent pour fournir des pdf valides de thèses soutenues pour un archivage au CINES.Le service FACILE mis en place par le CINES a pour objet de valider le format d’archivage du CINES par analyse et expertise et comprend 2 niveaux.
Les demandes d’analyse de niveau 2 de FACILE [https://www.cines.fr/archivage/des-expertises/expertise-formats/facile/] ayant connu ces derniers mois une forte augmentation,  le CINES a souhaité pouvoir réfléchir à un accès possible sur authentification pour ses utilisateurs. Cette piste d’un accès sur authentification a finalement été abandonnée par le CINES qui reste sur le même principe qu’auparavant c’est-à-dire un accès … libre, libéré…

En effet, des améliorations ont été constatées dans l’usage de FACILE suite aux dernières modifications du service (ajouts de tutoriels notamment). Le CINES reste toutefois attentif au nombre de sollicitations via FACILE2.

Continuer la lecture

IdRef : ORI-OAI, première application externe cliente

La plate-forme ORI-OAI, conçue pour gérer la production numérique institutionnelle d’établissements de l’Enseignement supérieur et de la recherche, propose une nouvelle version du module ORI-OAI-md-editor (version 1.8.3). L’une des nouvelles fonctionnalités de l’outil permet, tout en restant connecté à ORI-OAI, de rechercher, trouver ou créer dans IdRef les autorités Personnes, Collectivités, etc. nécessaires à la description catalographique des thèses.

Pour récupérer cette nouvelle version, il suffit de faire un checkout du module ORI-OAI-md-editor depuis la version 2.0 du projet ORI-OAI.

Continuer la lecture