Univ-Droit et IdRef : une coopération ambitieuse et réciproque

Retours sur une coopération fructueuse entre  l’équipe IdRef de l’Abes et l’équipe d’Univ-Droit dans le cadre de l’UNJF – Université Numérique Juridique Francophone, dont Gilles Dumont, professeur de droit public, est le directeur.

Le portail Univ-Droit

univ-droit_logoUniv-Droit, site dédié au Droit et aux Sciences Politiques, porté par la Conférence des doyens des Facultés de droit, est un outil incontournable pour aborder le champ juridique national. On y trouve des informations sur l’ensemble des formations juridiques universitaires, des structures de recherche et des instances professionnelles ainsi qu’une offre conséquente de ressources pédagogiques (cours en ligne).

Deux annuaires sont également disponibles, qui consacrent une page propre aux entrées de type :

enseignants

structure

Conçus pour la diffusion des informations autant que pour leur bonne gestion interne et relationnelle, ces annuaires s’appuient sur des listes contrôlées et des référentiels, une démarche indispensable pour assurer les liens entre ressources et acteurs. Initiée dès l’origine du portail, cette étape d’identification concerne les données de type  :

  • Structures : la quasi-totalité des entrées s’appuie sur un référentiel national (RNSR pour les laboratoires, UAI pour les structures d’enseignement, Numéro national pour les Ecoles doctorales). Ce travail d’identification a été effectué en coopération avec l’équipe ScanR, et est donc sécurisé.
  • Personnes : certaines pages d’enseignants-chercheurs comportent déjà des renvois vers leur notice d’autorité dans IdRef (exemple : https://univ-droit.fr/universitaires/24364-alain-supiot) sans toutefois que cette identification ne soit exhaustive.

noticeidref

Coopération avec l’Abes

A l’automne dernier, suite à une présentation d’IdRef dans le cadre du groupe de travail “Moteur de recherche” de  SupNumérique, initiative ministérielle destinée à la valorisation des Ressources Pédagogiques Numériques, l’Abes a été sollicitée par l’équipe d’Univ-Droit afin de généraliser l’identification fiable et pérenne des données de type Personnes. En effet, disposer d’identifiants fiables, pérennes et partagés pour l’ensemble des acteurs recensés – personnes physiques ou morales – est une garantie pour l’interopérabilité des données.

Alignement des enseignants-chercheurs

La première opération, similaire à celle détaillée ici, a consisté à identifier automatiquement plus de 90 % des 3 728 enseignants-chercheurs recensés dans Univ-Droit. Et cette fois encore, les alignements produits par l’algorithme se sont révélés très fiables. Enfin, pour les alignements considérés moins sûrs, les données inscrites dans les notices d’autorité sont venues valider les candidats.

Comme à l’accoutumée, cette opération d’alignement a mis en évidence bon nombre d’anomalies dans les données de type Personnes (coquille dans les noms, doublons…), ce qui a donné lieu à autant de corrections, étape importante pour l’amélioration qualitative des données.

Au final, c’est maintenant l’ensemble de la communauté des juristes et politologues français qui dispose désormais d’une identification fiable !

Enrichissements réciproques

Côté IdRef : seront intégrées au sein des notices IdRef, les URL des pages personnes d’Univ-Droit ainsi que des données disciplinaires ou d’affiliation qui en seront extraites pour enrichir et consolider le contenu des autorités. Concrètement, pour ceux qui « parlent Unimarc », le résultat sera l’ajout d’une zone 035 – numéro source dans Univ-Droit, ajout/modification d’une zone 340 – note sur la biographie et les activités.

Côté Univ-Droit : dans les pages Personnes d’Univ-Droit, les renvois vers les notices d’autorité IdRef ont été systématisés. Il en sera probablement de même avec les renvois vers les pages Personnes de theses.fr : https://www.theses.fr/027151808.

Cette démarche double permet à la fois de multiplier les rebonds web et le référencement réciproque, de désambiguïser les personnes d’Univ-droit et de consolider les notices autorités parce qu’elles sont maintenant reliées “physiquement” à Univ-Droit.

Récupération par Univ-Droit des données bibliographiques liées

L’affichage des publications dans les pages d’enseignants-chercheurs va pouvoir évoluer. Pour ce faire, Univ-Droit a l’intention d’exploiter le nouveau web service d’IRef – «References », disponible depuis la V2 d’IdRef (octobre 2017) : pour un identifiant IdRef donné, le webservice renvoie l’ensemble des documents associés dans les différents catalogues ou sources de données bibliographiques connus d’IdRef, à savoir le catalogue Sudoc bien entendu mais aussi theses.fr, Calames, Persée et d’autres.

Jusqu’à présent, dans Univ-Droit, les publications Sudoc proviennent d’une interrogation de HAL – le plus souvent suite à une requête forgée du nom-prénom croisé avec le labo de rattachement – pour aller chercher les rares ISBN dans les résultats de la recherche HAL de type “ouvrage”, qui sont ensuite croisés avec le web service “ISBNtoPPN” pour aboutir, enfin,  à la notice Sudoc.

Prenons l’exemple de Véronique Champeil-Desplats. Cette méthode permet de remonter comme résultats 3 monographies dotées d’un ISBN. En interrogeant le web service « references » d’IdRef avec comme seul paramètre l’identifiant IdRef de Véronique Champeil-Desplats – http://www.idref.fr/services/references/05505563X – on obtient 27 monographies ainsi que son rôle dans chacune. C’est plus simple et plus complet !

L’Abes espère que cette nouvelle exposition des données Sudoc dans Univ-Droit engendrera des retours des enseignants-chercheurs qui constateront que des intrus figurent parmi la liste de leurs ouvrages.

Une nouvelle rubrique pour les thèses

En plus des rubriques déjà présentes, une nouvelle rubrique Thèses va voir le jour puisque le web service “references” utilise theses.fr comme source.
thesesEn conclusion, parce qu’Univ-Droit connaît les identifiants IdRef, l’exposition et la moisson des publications des enseignants-chercheurs en droit et sciences politiques est sécurisée. Parce qu’IdRef connaît Univ-Droit, les notices de ces enseignants-chercheurs sont enrichies et les liens aux données bibliographiques des catalogues sources fiabilisées.

Cette coopération fructueuse entre l’Abes et Univ-Droit démontre, si besoin est, que les chantiers de mise en interopérabilité des données – ici l’identification fiable et pérenne des enseignants-chercheurs – constituent un moteur puissant pour l’amélioration concrète de leur qualité, et conforte l’ambition de construire progressivement un véritable “réseau numérique de confiance” au service  des ressources de l’ESR.

François Mistral, responsable IdRef

 

Publicités

Calames : les statistiques 2017

calamesEn ce début d’année, voici venu la traditionnelle épiphanie en chiffres du réseau Calames. Le présent billet se propose de fournir aux établissements déployés dans Calames des éléments complémentaires aux statistiques accessibles via Webstats : jauges quantitatives des données produites via l’outil de catalogage ; répartition actualisée des niveaux descriptifs indexés dans la base de données et exposées sur le web ; étiage du trafic sur le catalogue en ligne.

Mais au-delà de ces aspects quantitatifs, c’est la qualité des données qui est au cœur des préoccupations de l’équipe Calames. Si en 2017, les contrôles qualité ont été concentrés sur les inventaires dont l’encodage a été co-financé par l’Abes dans le cadre de sa mission d’encouragement aux rétroconversions, d’autres sondages, plus globaux, ont été effectués : une inspection des liens vers les numérisations (éléments <dao> et <daogrp>) a par exemple permis une correction générale de centaines de liens au cours de l’été 2017. La remise en place progressive d’une cellule nationale de l’EAD en bibliothèques, le (ré-)examen de diverses consignes de catalogage et la poursuite d’une homogénéisation des bonnes pratiques, laissent espérer que ce travail de monitoring et d’aide à une production de qualité s’amplifiera en 2018.

Nota bene : les termes « composants » et « niveaux descriptifs » se trouvent souvent assimilés dans la présentation de ces statistiques. Ils ne sont pourtant pas strictement synonymes, puisque les hauts niveaux d’inventaires (dont les identifiants Calames commencent par le préfixe « FileId-« , en reprenant le numéro interne de chaque instance EAD dans la base de données), qui ne correspondent donc pas à des composants <c>, représentent 1446 des 873 504 niveaux descriptifs comptabilisés.

État de la base publique Calames au 31 décembre 2017

Répartition  des niveaux descriptifs publiés dans Calames : par établissement

repartition-c-publies-fin-2017-par-RCR_png

Répartition des niveaux descriptifs publiés dans Calames : par tranches chronologiques de production

OriginesDonneesCalames2017_png

Répartition  des composants publiés dans Calames : par cercles de déploiement (1er cercle déployé en 2008, 10ème cercle début 2018)

repartition-c-publies-fin-2017-par-cercles_png

Nouvelles données publiées dans Calames

La catalogue public Calames a soufflé sa 10ème bougie en décembre 2017 en approchant des 875 000 niveaux descriptifs publiés :

evolution-c-publies-2007-2017_png

La quantité de données nouvellement publiées a connu un léger tassement en 2017. Elle est largement due à trois grands « publiants » : la BDIC, l’INHA et la BIU Sorbonne. Ces tendances viennent en écho direct aux travaux d’encodage de l’année (cf. infra).

surcroit-c-pub-2017-par-RCR_png

Travaux de catalogage dans l’outil Calames Prod

Pour la cinquième année consécutive, le nombre d’identifiants nouvellement attribués par l’outil Calames Prod au cours de l’année est resté au-dessus de la barre des 100 000 composants, quasiment tous créés en base de production (et non de formation, dont l’usage doit être cantonné à des tests techniques ou à des exercices pédagogiques).
Cependant la majorité de cette production n’est pas aussi également répartie que les années précédentes : la BDIC (qui sera rebaptisée « La Contemporaine » en mars 2018) tient très nettement le haut du pavé avec un tiers des niveaux descriptifs créés dans l’année. Situation dont le seul point de comparaison est 2010 (le Muséum ayant alors produit près de 45% des <c>), alors que le réseau Calames était moins développé.
Viennent ensuite six établissements ayant produit 6 à 7% des <c> de l’année 2017 : Muséum National d’Histoire Naturelle, École Centrale Supélec, BIU Sorbonne, Bibliothèque Littéraire Jacques Doucet, Bibliothèque Mazarine, et Institut National d’Histoire de l’Art.
Le palmarès des 5 établissements ayant créé la plus grande quantité (env. 60%) de niveaux descriptifs dans Calames depuis son origine reste inchangé par rapport à 2016 : Muséum National d’Histoire Naturelle (165 955 <c> créés dans l’outil depuis 2008), BDIC (146176), Institut de France (906 56), Bibliothèque Littéraire Jacques Doucet (73 151) et Académie de Médecine (640 870).

catalogage-dans-calames-2017_png

Pour compléter un peu ce paysage très métrique et brossé à grands traits, le graphique ci-dessous tente de nous en dire plus sur le temps et la fréquence d’usage de l’outil de catalogage Calames Prod. Ainsi, s’il est vrai que la BLJ Doucet a produit un peu plus de 7400 <c> en 2017, elle l’a fait au prix d’un recours plus important à l’outil d’encodage que les autres établissements, effectuant 698 interventions quotidiennes sur fichiers EAD unitaires (soit près de 700 « jours-fichiers »). L’École Centrale, qui est essentiellement intervenue sur deux à trois inventaires distincts au cours de l’année, présente logiquement ici des chiffres plus bas (127 « plages journalières d’interventions sur inventaire » en 2017, et ce quelque soit la durée ou la qualité de l’intervention en question). Au-delà de toute possibilité d’analyse plus précise des modifications effectuées sur des <c> déjà existants, de leur nature et de leur ampleur, un ratio se dégage depuis trois ans : pour une session quotidienne de catalogage sur fichier EAD, compter un vingtaine de <c> nouvellement créés et identifiés.

temps-frequence-catalogage-calames-2017_png

Ventilation des résultats de 10 années de catalogage dans Calames (en production et en publication/indexation)

c-publies-produits-2008-2017_png

Le décalage entre ces deux représentations des composants créés via l’outil Calames (<c> publiés / <c> créés) tient au fait qu’on dénombre en permanence dans la base, et ce depuis quelques années, environ 100 000 composants présents mais n’ayant jamais connu de première publication (fin 2017, en effet, on frôle le million de composants présents en base de production). L’étiage des chantiers d’encodage étant assez stable depuis 2012, on doit aussi lire ce double histogramme en se rappelant qu’une (petite) proportion de niveaux descriptifs sont soit ré-identifiés au fil du temps (ce qui peut se justifier en cas de restructuration des descriptions), soit créés pour en remplacer d’autres (versions multiples d’un même inventaire par exemple).

Statistiques de consultation 

De même qu’en 2015 et en 2016, la hausse continue de la quantité de données exposées, ainsi que plusieurs épisodes de popularité liés aux recherches ponctuelles de certains mots-clés sur les moteurs de recherche généralistes, se sont soldés par un nombre de visites sur le catalogue public en accroissement.

La moyenne du trafic se situe à environ 25 000 visites/mois (soit 8 000 de plus qu’en 2016, ce qui est lié notamment à un important épisode de popularité du site en mars 2017). Le phénomène de « zapping » des internautes reste cependant très sensible, les deux tiers de visites étant « courtes » voire « très courtes ».

Jean-Marie Feurtet, responsable Calames

Déploiement d’OATAO dans IdRef : une nouvelle visibilité sur le web

logo_oatao      idrefOSM

OATAO – l’archive institutionnelle et mutualisée des établissements Toulouse INP (Institut National Polytechnique de Toulouse), ENVT (École Nationale Vétérinaire de Toulouse), ISAE-SUPAERO (Institut Supérieur de l’Aéronautique et de l’Espace) et ENSFEA (École Nationale Supérieure de Formation de l’Enseignement Agricole) – et IdRef – application qui permet d’attribuer des identifiants fiables et pérennes, notamment aux membres de la sphère ESR – viennent de réussir leur connexion.  Autrement dit, les dépôts dans OATAO s’accompagnent désormais d’un liage des auteurs à leur autorité dans IdRef ; corrélativement, le cercle des contributeurs IdRef s’élargit pour accueillir en production une Archive Institutionnelle, une première !

Côté IdRef, les notices des quelques 500 auteurs de l’archive institutionnelle OATAO sont désormais enrichies d’un encart bibliographique supplémentaire. Deux modalités d’accès à leurs dépôts sont proposées dans les notices IdRef des auteurs concernés : accès par source dans la page dynamique et accès par rôle dans la page pérenne.

Ainsi, dans la notice « dynamique » d’IdRef (termes de recherche : « Merlina, Georges »), on peut consulter toutes les ressources émanant de l’archive pour cet auteur :

image1

De la même façon, dans la notice « pérenne » d’IdRef https://www.idref.fr/081940807, on accède à l’ensemble des ressources liées à cette personne en fonction de son rôle dans le dépôt, en l’occurrence auteur :image2

Dans les deux cas, on peut rebondir sur le full text des articles en cliquant sur l’identifiant numérique de la ressource. Toute la production de recherche des 4 établissements toulousains est ainsi propagée sur le web via IdRef.

De plus, dans l’application OATAO, il est désormais possible d’effectuer une recherche à l’aide d’un identifiant IdRef. On obtient ainsi pour résultat toutes les ressources liées à un auteur :

Image OATAO 1

La boucle est bouclée puisque sur la page d’une publication, le rebond est possible depuis les auteurs alignés vers leur notice IdRef correspondante via l’icone idoine.Image OATAO 2

Autre exposition, les identifiants IdRef seront poussés dans les exports notamment via le serveur OAI-PMH. Enfin, l’utilité de l’index des identifiants IdRef -index nouvellement créé et dédié aux gestionnaires OATAO, va au-delà puisqu’il permettra de proposer un index limité aux chercheurs des 4 établissements, demande récurrente des instances d’OATAO.

Workflow OATAO de connexion à IdRef

Pour initialiser l’interconnexion des bases, OATAO a eu recours au service d’identification des Personnes proposé par l’Abes. Les algorithmes d’identification ont une nouvelle fois rendu un fier service afin d’aligner les auteurs OATAO présents dans plus de 3 000 articles déjà en base.

  • Signalement des métadonnées d’un article : liste des auteurs

image5

  • Interrogation du moteur Solr d’IdRef :

image6

  • Si la requête SolR ne remonte pas de résultat, on bascule sur l’iframe d’IdRef :

image7

  • Dans IdRef, on retrouve alors la possibilité de « lier une notice » existante ou de créer une notice :

Image8

Retour dans l’interface de dépôt, l’identifiant Idref a été rapatrié dans la colonne « ppn » : les 2 auteurs sont alignés au sein des 2 applications.

image9

Éléments de politique documentaire

Côté politique documentaire, le recours aux autorités lors du dépôt d’un article est désormais une obligation pour les bibliothécaires-administrateurs de l’archive sur le périmètre des auteurs OATAO. Cette évolution, facilitée par la fluidité de l’interconnexion à IdRef, n’en représente pas moins une charge de travail supplémentaire. Si le jeu de l’interopérabilité en vaut la chandelle, il s’agira de mesurer plus finement dans les mois à venir l’impact sur le temps de traitement d’un dépôt dans l’archive, des nécessaires vérifications dans IdRef pour être sûr de lier à la bonne autorité ainsi que des éventuelles créations de notices d’autorité.

Par chance, l’équipe d’administrateurs OATAO peut compter sur l’aide du Correspondant Autorités de l’INP, qui œuvre depuis plusieurs années dans l’archive. Si le rappel des consignes et le traitement des anomalies (ex : doublons) ont augmenté sa charge de travail, sa « casquette » au sein de l’équipe est également plus affirmée et cette expertise est un plus au quotidien pour toute l’équipe. De plus, les cas d’investigation avancée sont l’occasion de « reprendre » contact avec les chercheurs afin d’assurer des attributions bibliographiques ou des informations dans l’autorité.

Autre heureuse perspective : IdRef offre une fonctionnalité de pré-remplissage des notices d’autorité dont OATAO peut escompter un gain important pour fluidifier son workflow. Déjà activée dans STAR pour la création des notices de docteurs, OATAO pourra ainsi pousser des données bibliographiques de l’article en traitement pour éviter aux administrateurs de ressaisir des informations déjà enregistrées dans l’archive.

Et plus loin encore, les chercheurs-déposants pourront-ils aussi se lier à leur notice ? Les auteurs extérieurs se verront-ils également liés ? A suivre !

D’ici là, un grand merci à Jean-Marie Le Bechec et à Yann Sérot, pour une coopération agréablement et rondement menée.

François Mistral, responsable IdRef

Si vous êtes intéressé par ce service pour votre Archive institutionnelle, n’hésitez pas à contacter : idref@abes.fr

 

 

 

Quand ScanR et IdRef s’associent pour identifier les acteurs de la recherche et de l’innovation

ScanR, moteur de la Recherche et de l’Innovation, outil désormais bien connu dans la sphère ESR, propose à la réutilisation de nombreux jeux de données sous licence ouverte. Ces données, également accessibles via la plateforme OpenData du MESRI sont synchronisées avec data.gouv.fr, plateforme des données publiques françaises mis à disposition par Etalab.

 

S’inscrivant dans la logique d’ouverture portée par ScanR, l’Abes a utilisé les données IdRef et ses algorithmes d’identification afin de lier 3 jeux de données exposés et utilisés dans ScanR via son référentiel auteurs.

 

Lauréat-e-s du trophée « Les Étoiles de l’Europe »

Sur 48 entrées, 42 personnes (soit 87, 5 %) ont été identifiées de façon certaine La recherche n’a pas été poussée plus avant pour les 6 personnes manquantes, les résultats fournis par l’algorithme étant estimés satisfaisant. Les identifiants sont disponibles dans le jeu de données.

Finalistes et lauréats du concours « Ma Thèse en 180 secondes »

Sur 71 entrées, seulement 13 (soit 18, 3%) ont été identifiés en tant que « thèses soutenues ». Un taux de rappel très faible qui s’explique  du fait du délai de signalement des thèses (360 jours en moyenne). En effet, vérification faite de la présence des données dans theses.fr,  la très grande majorité d’entre elles sont effectivement signalées mais en tant que « thèses en préparation ».

Membres de l’Institut Universitaire de France (IUF)

Ce corpus, dont l’historique remonte à 1991, possède le volume le plus conséquent : après dédoublonnage, les 2041 entrées renvoient à 1 700 personnes distinctes. Les opérations d’alignement comportent 2 dimensions complémentaires :

  • la couverture (ou taux de rappel) : toutes les personnes ont été identifiées, avec une fourniture de 1 700 identifiants IdRef distincts. La couverture pour ce corpus est donc totale. Les membres de l’IUF figurent bien tous dans IdRef.
  • la fiabilité  (ou taux de précision) : l’identification se doit d’être évaluée, notre parti pris étant de fournir des identifications à la fiabilité très élevée, ce que dénote le choix des algorithmes utilisés.

D’un point de vue méthodologique, le programme de liage a confronté les données du jeu de données en entrée avec le contenu des notices d’autorité IdRef, enrichies du contenu des notices bibliographiques Sudoc liées. Plusieurs heuristiques ont été exploitées :

  • cocontrib : si deux personnes ont des noms très proches et des co-contributeurs aux noms très proches
  • collectivités + Dewey : si deux personnes ont des noms identiques et sont associées à une même collectivité (laboratoire ou université) et que la thématique de recherche correspond à un indice Dewey connu pour la personne
  • laboratoire : si deux personnes ont des noms identiques et sont associés à un même laboratoire
  • université : si deux personnes ont des noms identiques et sont associées à une même université

Précisions que, bien qu’absente de cette fourniture,  l’heuristique Unica est également régulièrement utilisée : si deux personnes ont des noms identiques et qu’il n’y a aucune autre autorité candidate dont le nom est approchant, on peut conclure qu’il s’agit de la même personne.

Tableau de ventilation des matchs par heuristique

Heuristique                     Nombre de match
 Cocontrib                           782
 Collectivé+Dewey                    184
 Laboratoire                         248
 Université                          381
 Vérifié                             446
 Total général                      2041

A l’aune des évaluations précédemment réalisées, on sait que Cocontrib possède un taux de précision moyen de 98% (estimé supérieur à un catalogage « pressé »). Pour les heuristiques associant des collectivités, le corpus IUF a servi de premier test. A défaut d’une évaluation systématique, les sondages réalisés – dont témoignent les matchs en statut « vérifié », nous permettent d’accorder une confiance de niveau « très élevé » à Collectivités + Dewey et Laboratoire, et une confiance de niveau « élevée » à Université.

Au vu de ces règles, chaque réutilisateur peut déterminer son propre seuil de confiance. Si le risque d’erreur existe, dans le cas présent avec le corpus IUF, de façon très concrète, les données fournies sont considérées comme fiables par l’Abes. Elles seront donc intégrées au jeu de données sur les IUF lors de sa prochaine actualisation.

Pour conclure la relation de cette fructueuse coopération associant l’équipe du Département des outils d’aide à la décision du MESRI et l’Abes, il nous semble important de mettre en exergue deux bénéfices en particulier :

  • l’enrichissement des données publiques
  • la démonstration que l’ouverture des données à tous contribue à améliorer leur qualité – ici leur interopérabilité – grâce à une identification fiable et pérenne !

François Mistral, pour l’équipe IdRef

Remerciements à l’équipe du Département des outils d’aide à la décision du MESRI

Autorités vs référentiels : 3 questions aux experts de l’Abes

arabesques85Autorités, identifiants, entités : L’expansion des référentiels. Tel est le titre du dossier de la revue Arabesques n°85 consacré aux référentiels d’autorités.

Le volume et la diversité des métadonnées en circulation dans les systèmes d’information – de l’enseignement supérieur, de la recherche, de la culture-  exigent de repenser le rôle des référentiels d’autorité. Considérés comme données de confiance au service du développement de l’open data et du web sémantique, ils constituent un capital précieux, une garantie d’indépendance, tout en interrogeant en profondeur les pratiques catalographiques classiques.

Le comité de rédaction  a souhaité apporter un éclairage terminologique en posant 3 questions aux experts de l’Abes en ce domaine : François Mistral, responsable IdRef, Yann Nicolas, expert Métadonnées, Philippe Le Pape, mission Normalisation, Olivier Rousseaux, chef du service Métadonnées. Voici  leurs réponses in extenso.

1 – En tant que professionnel de la documentation, quelles distinctions faites-vous entre « référentiel » et « base d’autorités » ?

François Mistral : Afin d’éviter toute confusion par omission, ajoutons un troisième terme dans ce jeu des distinctions : celui de « nomenclature ». En catalogage, ce seront les données codées – comme par exemple les codes de pays, nomenclature internationale maintenue officiellement par l’ISO 3166 Maintenance Agency (ISO 3166/MA).

Par « référentiel », je retiens surtout l’idée de données de référence et de repère. Cela signifie qu’un référentiel est un jeu de données,  suffisamment vraies, justes, certaines pour être utilisées en confiance afin d’en produire ou d’en agréger d’autres. De fait, ces données de référence sont des points de repère à partir desquelles en situer d’autres avec économie.

Par  « données d’autorité », je retiens la double dimension de contrôle et de légitimité à assurer ce contrôle : ces données font autorité en ce qu’elles contrôlent des données bibliographiques, ce qui met en évidence la nécessaire qualité des données d’autorité, la pratique des sources constituant une de leur plus-value essentielle.

Cependant, outre les différences entre ces termes, je voudrais mettre en évidence l’horizon de leur convergence.  Que les bibliothécaires se persuadent qu’eux-mêmes et les données qu’ils produisent ont la légitimité de coloniser de nouveaux espaces de l’information au profit d’un intérêt tant professionnel que général.

Yann Nicolas :  Selon moi, quand on parle référentiel à l’Abes, on entend « des données qui permettent de décrire nos documents en minimisant le recours à du texte libre », de type listes fermées de « termes » (ex : code pays…) ou listes d’entités (ex :  entité de type Pays)

Décrire les entités de type « Document » étant notre cœur de métier, les entités qui gravitent autour sont considérées comme des entités secondaires « pour nous », comme des moyens et non des fins. Ce qui est tout relatif : un système de gestion des chercheurs français prendra nos documents pour entités secondaires, le Sudoc ou theses.fr devenant un référentiel « pour eux ». Bref, les référentiels des uns peuvent être les données centrales des autres. Ce qui ne veut pas dire que tout peut devenir référentiel.

La tendance actuelle est de transformer les référentiels « liste de termes ou de codes » en référentiels d’entités clairement identifiées : autrement dit, en langage Web sémantique, on passe de « littéraux » (chaînes de caractères simples, ou bien typées) à des « ressources », possédant une URI pour identifiant,  ces ressources pouvant elles-mêmes avoir des attributs, être décrites, succinctement ou longuement, ici ou ailleurs. Connecter nos données à ces référentiels, c’est indirectement enrichir nos données des attributs de ces entités secondaires, et, par transitivité, de proche en proche, à beaucoup d’autres informations.

Traditionnellement, une notice d’autorité remplit ces deux fonctions : identifier clairement une entité grâce à un identifiant précis ; mais également associer à cette entité un nom, un libellé, une étiquette linguistique, un « littéral », un nom propre à retenir comme son nom de référence. En effet, les autorités, de plus en plus ouvertes, vivent dans différents contextes (langues, cultures, types d’application, etc.) et le « bon » terme à afficher peut ne pas être toujours le même. De ce fait, la fonction « terme retenu » est de moins en moins centrale … même s’il faut bien de la chair attachée au squelette de l’entité : des attributs, et parmi eux, des libellés, multiples, qualifiés.

Bref, nos autorités traditionnelles se normalisent : rejoignent d’autres référentiels en tant que liste d’entités clairement identifiées, possédant des attributs et des relations (qualifiées) avec d’autres d’entités (de même type ou non, de même référentiel ou non). Cette normalisation est à la fois intellectuelle et technique. Le paradigme « web sémantique » constitue le vecteur principal de cette normalisation : tout devient Ressource, identifiée de manière univoque à l’échelle universelle grâce à sa (ou ses !) URIs, et ce sont les triplets RDF qui en parlent le mieux…

Philippe Le Pape : Les deux termes s’appliquent à des jeux de données « de référence », statut consacré soit par une labellisation (ex : norme ISO 3166 Codes des noms de pays ; norme ISO 80000-3 Système international de grandeurs, espace et temps ; standard RDA ; standard Unimarc) soit par l’usage (ex : données de theses.fr, de la Bibliographie nationale française). Il s’agit selon moi avant tout d’une distinction d’ordre technique, opérante dans le cadre d’un système de production et d’administration d’un ensemble de métadonnées complexes et organisées.

On nommera « référentiel », l’ensemble de données « outils » auquel on recourt pour garantir la qualité des métadonnées administrées, leur interopérabilité et leur conformité à un standard partagé. Dans cette catégorie entrent les modèles de données, les règles de catalogage, les formats, les nomenclatures (noms et codes de pays, de langue, unités de mesure, coordonnées géographiques..).

Dans un système bibliographique classique, fondé sur le modèle du fichier de notices descriptives dont certains  points d’accès sont contrôlés, les données d’autorité servent à normaliser, unifier et documenter certains de ces points d’accès.  Les données d’autorité ont donc vocation à faire référence pour des tiers, ce qui revient à dire que, dans le cadre d’un système de production de métadonnées, on utilise des référentiels pour produire des données d’autorité.

On remarque que les modèles conceptuels FRBR, FRAD et FRSAD – qui ont ouvert la voie à une conception nouvelle des systèmes bibliographiques, utilisent encore cette terminologie. En revanche, pour le modèle LRM, l’ancienne distinction entre données bibliographiques et  données d’autorité n’existe plus : le modèle ne reconnaît que des entités fonctionnelles en relation les unes avec les autres.

Olivier Rousseaux : « Référentiel : Ensemble auquel doivent appartenir les éléments, les solutions d’un problème posé » (dictionnaire Larousse).

Dans le contexte de l’Abes, les fichiers d’autorités, de même que les listes de données codées, servent à contrôler la cohérence des métadonnées bibliographiques. Ils participent à un ensemble plus vaste qui organise et contraint les métadonnées produites et qui comprend les modèles de données, les formats de saisie, les règles normatives de description, le tout s’inscrivant dans un cadre international – Principes internationaux de catalogage, modèle IFLA LRM (successeur des modèles conceptuels FRBR, FRAD et FRSAD) ou code de catalogage RDA. Des éléments de référence qui s’ajoutent comme autant de « briques », indispensables pour rendre des services tels que le partage de données entre applications, la fourniture à des tiers ou l’exposition.

J’appliquerais donc plutôt le terme de référentiel à cet ensemble qui fonctionne comme un tout avec des règles d’interdépendance et d’interopérabilité de ses constituants. Il permet tout à la fois la cohérence des métadonnées produites, la communication entres les applications documentaires de l’Abes mais également les services de fourniture et d’exposition associés à ces métadonnées.

2 – Ces dernières années, on assiste à la montée en puissance du rôle des référentiels. Comment cela impacte-t-il concrètement votre travail auprès des réseaux de l’Abes / les pratiques de catalogage des professionnels des réseaux ?

François Mistral : En tant que responsable IdRef depuis mon arrivée à l’Abes en 2014, mon activité consiste à encourager cette montée en puissance et à accompagner les professionnels des réseaux en ayant une démarche systémique reposant sur 3 piliers :

  • l’animation du réseau des catalogueurs et notamment des Correspondants autorité, interlocuteurs experts ;
  • l’amélioration de l’outillage professionnel visant à accroître la maîtrise de la production par les producteurs ;
  •  la dissémination multi-canaux et multi-formats des données d’autorité dans et « hors les murs ».

Il reste  encore beaucoup à faire pour informer sur le rôle des référentiels et convaincre des considérables bénéfices attendus et plus encore constatés de leur utilisation dans les Systèmes d’Information, documentaires, de recherche ou autres. Valoriser les données produites par nos réseaux depuis plus de vingt ans et de convaincre de leur capacité à rendre service, sont une source de motivation quotidienne. Nous avons pu étoffer l’offre de service d’IdRef – notamment en matière d’alignements –  afin de la rendre plus attractive. Cette offre est un levier pour démarcher des nouveaux partenaires et intégrer des nouveaux projets, dans lesquels l’un de nos apports spécifiquement «ABES» consiste à promouvoir l’idée centrale et précieuse de « mutualisation ».

Yann Nicolas : Je ne pense qu’à ça !  Ces dernières années, certains collègues et moi avons travaillé sur deux projets : Qualinca et le Hub de métadonnées.
Qualinca est un projet de recherche ANR qui vient de se terminer. L’idée était de produire des algorithmes qui auscultent et améliorent la qualité des liens entre notices bibliographiques et notices d’autorité. Entre Sudoc et IdRef, par exemple. Mais il faut penser plus générique, moins nombriliste : au-delà des données bibliographiques Sudoc et au-delà des autorités IdRef.

Côté hub de métadonnées, on récupère des données hétérogènes en provenance des éditeurs. Notre boulot est d’homogénéiser tout ça, mais aussi de l’enrichir, notamment grâce aux référentiels de toutes sortes : langues, auteurs, sujets, types de document… Il s’agit bien de remplacer (ou compléter) des mots par des identifiants : remplacer un nom d’auteur par un lien vers une URI (IdRef, ISNI, ORCID…) ou remplacer le code « J63 », non pas par le terme « Turnover » du thésaurus JEL (Journal of Economic Literature), mais par un lien vers l’URI de ce concept dans la version Web sémantique de ce thésaurus multilingue – voir : https://punktokomo.abes.fr/2016/05/16/mettre-nos-donnees-en-reseau-un-demonstrateur-4b-les-revues-doxford-up-et-la-classification-jel-economie/
Dans les deux cas, il s’agit de connecter l’information bibliographique à des référentiels, pour mieux la structurer et mieux la connecter, non seulement à l’échelle d’un catalogue, -même collectif ou national, mais à l’échelle du Web !

Philippe Le Pape : On assiste plutôt à une prise de conscience du rôle des référentiels. Dans des systèmes de production partagée de métadonnées tels que le Sudoc, le rôle de la normalisation – qui intègre l’emploi de référentiels – a toujours été crucial. Mais avec la mise en application de RDA, le recours à des vocabulaires contrôlés s’accroît encore – « type de contenu », « type de médiation », « type de support » en sont des exemples.

Olivier Rousseaux : L’Abes est confrontée à ces questions pour avoir posé comme principe, lors de la mise en place même du Sudoc, la réutilisation de référentiels existants : RAMEAU ou FMeSH pour les accès matière, fichiers d’autorités « personnes, collectivités, titres » de la BnF pour les accès auteur ou titre uniforme ; listes de codes ISO (langues, pays) ou Unimarc (codes fonctions pour les auteurs).

Les évolutions les plus importantes : l’accès – foisonnant dans le contexte du web de données – aux métadonnées d’autres référentiels bibliographiques, administratifs ou autres de type  VIAF , base SIRENE de l’INSEE ou Répertoire des structures de recherche au niveau national  (RNSR)  ainsi que les évolutions techniques qui permettent de se projeter dans leur exploitation (solutions d’alignement et/ou d’enrichissement des métadonnées).

A l’Abes, la réflexion porte donc sur les manières d’appréhender les métadonnées de référentiels tiers pour bénéficier de leurs apports potentiels. A minima, il s’agit d’une opportunité d’améliorer, dans nos bases de production, les méthodes de liage automatique  entre notices bibliographiques et autorités de manière à diminuer cette activité pour les catalogueurs. En ce qui concerne le travail de catalogage au quotidien, les perspectives sont également d’exploiter les référentiels afin de développer des outils d’aide à la décision (ex : projet de recherche Qualinca)

3 – Comment envisagez-vous/imaginez-vous le rôle des référentiels dans le paysage de l’IST / au-delà ?

François Mistral : Selon moi, les référentiels actuels laissent entrevoir certaines des évolutions à venir du métier de catalogueur. Les données produites par les bibliothécaires sont promises à un grand avenir, tout l’enjeu étant dans leur structuration. A ce titre, les référentiels vont continuer de croître en importance. En conséquence, le rôle et l’expertise des producteurs de données structurées et structurantes doivent être au centre de nos préoccupations prospectives.

Un point délicat réside dans le fait que « nous autres catalogueurs » devons prendre conscience que nous sommes, aux premières loges, à la fois spectateurs et acteurs de ce phénomène qui dépasse largement notre secteur professionnel. Avec ou malgré nous, les choses se jouent dans notre communauté.

A ce titre, on pourrait imaginer que les référentiels jouent, comme pour les données, un rôle structurant pour l’IST. Ils pourraient amener une reconfiguration plus rationnelle des missions de ses opérateurs, reconfiguration façonnée à leur image : toute entière de spécialisation et de coopération pour un service rendu de haut niveau.

Yann Nicolas  : Vu de l’Abes, en caressant du regard le paysage un peu cacophonique de l’IST en France, j’espère encore une politique publique des référentiels claire. Que chacun joue sa partition, c’est-à dire maintienne et mette à disposition les référentiels qui sont de son ressort. Qu’on évite les doublons où plusieurs font plus ou moins correctement la même chose. Mieux vaudrait qu’un seul le fasse, et de manière excellente ! Par exemple, que le Référentiel national des structures de recherche (RNSR) administré par le MENESR soit, de droit et de fait, reconnu comme LE service public national qui fournit identifiants et attributs de référence pour les laboratoires français. Ce qui n’empêche en rien des clients – comme STAR ou theses.fr – de gérer leurs propres attributs complémentaires, en sus des attributs RNSR, à des fins propres, bibliographiques ou pas. Si possible, gérons nos propres attributs de laboratoires, mais pas nos propres identifiants : accrochons nos attributs aux identifiants RNSR. Même chose pour les autorités de type Entreprise : le référentiel SIRENE de l’INSEE est désormais ouvert !
L’Abes doit être un bon client des référentiels des autres, en même temps qu’un bon fournisseur de référentiels pour les autres, dès lors que son positionnement, son organisation et son capital de données la rendent légitime. C’est le cas, sans conteste, du référentiel des thèses françaises ou celui des chercheurs français.

Philippe Le Pape : On va vers une importance grandissante des identifiants de confiance dans lesquels le « nom », la « forme d’autorité », les données elles-mêmes se trouvent de plus en plus ramassés : le passage des métadonnées bibliographiques de systèmes fermés au Web renforce la nécessité de les normaliser et de les étiqueter en fonction des standards du Web, selon des systèmes d’identification qui pour être efficaces doivent jouir d’une large reconnaissance.

Olivier Rousseaux : Je ne vois pas leur rôle évoluer radicalement dans l’immédiat car leur nature et leurs fonctions perdurent sans être remises en question. J’envisage plutôt une tendance à des rapprochements – entre alignements et fusion- de référentiels existants.
Cependant, pour chaque rapprochement envisagé, les mêmes questions devront être examinées, tout référentiel tiers visé fonctionnant dans un contexte défini et circonscrit qui lui est propre : à quels objectifs répond-il ? à quelles contraintes ? sur quel modèle de données est-il fondé ? quelles en sont les règles d’alimentation ? nos besoins sont-ils couverts par ce référentiel en termes de granularité des données, d’évolutivité et de traçabilité des évolutions apportées ? quels risques et quels avantages y aurait-il à fusionner avec ce référentiel tiers? quelle gouvernance en résultera (technique comme scientifique) et sera-t-elle adaptée à notre contexte ?

Un référentiel tiers est donc à aborder avec prudence afin de mesurer le degré de rapprochement optimal qu’on peut en espérer. De ce point de vue, le projet de « Fichier national des entités » amorcé en mars 2017 entre la BnF et l’Abes répond à ces questions en se positionnant résolument dans la recherche d’une solution de fusion des « traditionnels » fichiers d’autorités existants de part et d’autre au profit d’un fichier national unique géré en co-production.

 

 

Mettre nos données en réseau – un démonstrateur. [4h] La fédération a de l’avenir

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Une des forces de SPARQL est d’être non seulement un langage de requêtes, comme SQL, mais aussi un protocole, s’appuyant sur des requêtes http. Un sparql endpoint fonctionne donc comme un web service. Mais il y a mieux : comme il est standard, il permet à un endpoint d’en interroger n’importe quel autre, distant. A condition, bien entendu, que chacun d’eux ait été configuré pour cela. Cet appel distant est introduit par une sous requête SERVICE {…}

Ainsi que la requête suivante interrogera la BNF : http://data.bnf.fr/sparql, qui nous renverra les métadonnées du document identifié par l’ISBN 978-3-540-38409-0

PREFIX bnf-onto: <http://data.bnf.fr/ontology/bnf-onto/>
SELECT DISTINCT *
WHERE {
  SERVICE <http://data.bnf.fr/sparql> {?bookbnf bnf-onto:isbn "978-3-540-38409-0" ; ?p ?o}
}

Évidemment, jusqu’ici cela ne présente qu’un intérêt limité : mieux vaut interroger directement data.bnf.fr.

Ce qui est plus intéressant, c’est de croiser des données locales et distantes :

PREFIX rdaw: <http://rdaregistry.info/Elements/w/>
PREFIX rdarelationships: <http://rdvocab.info/RDARelationshipsWEMI/>
PREFIX bnf-onto: <http://data.bnf.fr/ontology/bnf-onto/>
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX owl: <http://www.w3.org/2002/07/owl#>

SELECT *
FROM <http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC>
FROM <http://hub.abes.fr/rameau_avril2015/ppns>
WHERE {
?bookspringer bibo:isbn ?isbn.
SERVICE <http://data.bnf.fr/sparql> {?bookbnf bnf-onto:isbn ?isbn ; dcterms:subject ?rameau}
?rameau owl:sameAs ?idref.
}
limit 5

Cette fois, on cherche les documents (plus précisément les manifestations) ayant le même ISBN que tel e-book du corpus Springer, et on récupère des identifiants Rameau, avec lesquels on rebondit sur IdRef via les alignements contenus dans le graphe <http://www.hub.abes.fr/rameau_avril2015/ppns > ayant le même ISBN que tel livre du corpus Springer. Magique, non ?
Voilà comment on peut obtenir une partie des triplets du graphe <http://www.hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/rameauppn > :

SELECT * 
FROM <http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/rameauppn>
WHERE {?s ?p ?o}
LIMIT 50

(En réalité on a procédé autrement pour descendre au niveau des chapitres)

… Attention, la requête prend du temps.

Voyons à présent un cas plus sophistiqué. Soit une base de données rencontrée au fil de nos errances sur le web de données : bio2rdf.org

Cette base agrège un grand nombre de thésaurus et bases de connaissances biomédicales anglophones, reliés entre eux dans un capharnaüm plus ou moins organisé. Après avoir dressé une cartographie sommaire des lieux, on découvre qu’elle contient notamment la quasi totalité des descripteurs Mesh, déjà mentionnés dans une précédente étude de cas. Et que certains d’entre eux (apparemment plutôt ceux décrivant des pathologies) ont été alignés avec d’autres vocabulaires, qui eux-mêmes sont associés à des références d’articles dans Pubmed, également sommairement chargé dans cette base.

Muni de ces informations, et de la présence, chez nous, de nos notices FMESH francophones, il est possible d’obtenir, à partir d’une notice IdRef ou de son libellé, une liste de références dans Pubmed.

PREFIX owl: <http://www.w3.org/2002/07/owl#>
PREFIX skos: <http://www.w3.org/2004/02/skos/core#>

SELECT  ?label ?citation ?uriPubmed
  {
    SELECT * where
    { <http://www.idref.fr/040671224/id> skos:prefLabel ?label ; owl:sameAs ?mesh.
      BIND (URI(REPLACE(str(?mesh), 'http://id.nlm.nih.gov/mesh/', 'http://bio2rdf.org/mesh:')) AS ?mesh2).
      SERVICE <http://pubmed.bio2rdf.org/sparql> 
      { ?concept <http://bio2rdf.org/ctd_vocabulary:disease> ?mesh2 ; <http://bio2rdf.org/ctd_vocabulary:article> [ <http://bio2rdf.org/clinicaltrials_vocabulary:citation> ?citation ; <http://bio2rdf.org/bio2rdf_vocabulary:x-identifiers.org> ?uriPubmed].
       }
     }  LIMIT 1000
}
GROUP BY ?label ?citation ?uriPubmed

Le résultat donne une idée du potentiel des requêtes fédérées, tout en pointant leurs limites actuelles : c’est long ! Et la fiabilité n’est pas absolue : on n’est pas à l’abri du « time out » ou d’une absence de résultat. En l’occurrence, ici, on rencontre une difficulté pour obtenir la liste des articles, les plus nombreux, pour lesquels on n’a que le lien et pas de citation bibliographique (?uripubmed sans ?citation). Voilà pourquoi, en attendant des lendemains qui chantent sur le web de données, on préfère généralement charger une copie (un « dump ») des données distantes, pour les manipuler à loisir dans sa propre cuisine.

Mettre nos données en réseau – un démonstrateur. [4g] Le Bouquet des ebooks dalloz

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Avec Bacon, le bestiaire ABES s’enrichit d’une nouvelle espèce : le bouquet. Un bouquet (package) n’est pas une collection de titres de périodique, mais une collection de TIPP : “Title Instance, Package, and Platform”. En effet, ce qu’on achète ou loue à travers un bouquet, en général, ce n’est pas une revue dans l’absolu, mais telle revue sur telle plateforme selon les conditions de telle offre commerciale. Ainsi, quand on achète les droits d’accès aux archives d’une revue, les dates de la revue ne coïncident pas avec les dates du TIPP correspondant : la revue peut être encore vivante alors que le TIPP s’arrête en 2014.

Pour modéliser KBART en RDF, il ne suffit donc pas d’exprimer en RDF la relation entre un bouquet et un titre. Il est nécessaire d’introduire la notion de TIPP. Le consortium GoKB est actuellement en train de concevoir un vocabulaire RDF pour modéliser le KBART (et les collègues allemands également, dans le cadre de http://www.dswarm.org/en/). Nous nous sommes contentés de reprendre a minima l’esquisse de vocabulaire RDF de GoKB pour dire des choses aussi simples que :


# ce tipp a telle url (sur cette plateforme)
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>    <http://www.loc.gov/standards/mods/modsrdf/v1/#locationUrl>    "http://dallozbndpro-pvgpsla5.dalloz-bibliotheque.fr/fr/pvpage2.asp?puc=4236&nu=36&selfsize=1" .

# ce tipp correspond à tel titre (tel ebook, en l’occurrence)
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>    <http://gokb.org/tipp/#hasTitle>    <http://www.sudoc.fr/191183768/id> .

# ce tipp appartient à tel bouquet
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>    <http://gokb.org/tipp/#belongsToPkg>    <https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .

Pour un bouquet de revues, il aurait été intéressant de préciser les dates : les dates du TIPP et les dates de la revue.

Mais c’est sur un autre point que nous voulons insister : comment “exemplariser” les titres de ce bouquet ? comment exprimer le fait que telle bibliothèque est abonnée à cette collection d’ebooks et donc à chacun des ebooks ?

Traditionnellement, dans le Sudoc comme dans d’autres catalogues, on ajoute un exemplaire sous chaque (notice d’) ebook.
En posant de manière explicite la notion de bouquet, c’est ce dernier qu’on exemplarise, et non plus l’ebook. Il suffit d’établir une relation entre la bibliothèque et le bouquet :

# la bibliothèque (identifiée par on UAI) est une organisation
<http://data.enseignementsup-recherche.gouv.fr/uai/0383075L>    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>    <http://schema.org/Organization> .

# la bibliothèque a acquis ce bouquet
<http://data.enseignementsup-recherche.gouv.fr/uai/0383075L>    <http://schema.org/owns>    <https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .

La gestion des changements devient plus facile :

  • Si la bibliothèque se désabonne, il suffit de supprimer le lien entre la bibliothèque et le bouquet : inutile de supprimer un exemplaire par ebook.
  • Si un ebook est ajouté au bouquet, il suffit de créer un lien entre le bouquet et le TIPP de cet ebook : inutile de lister toutes les bibliothèques qui sont abonnés à cet book.

Cette organisation plus souple des données aurait pu être implémentée dans une base de données rationnelle classique. Pas besoin de RDF pour ça. Mais comme toutes les données de ce démonstrateur sont gérées dans une base RDF, il était naturel de faire de même pour ces données de gestion, moins polymorphes que les données bibliographiques.

Il faut noter, par ailleurs, que les liens entre les bibliothèques et les bouquets nous ont été fournis par Couperin, sous la forme d’un fichier Excel que nous avons très simplement modélisé et converti en RDF. Ces données Couperin proviennent de l’application ERE (http://ere.couperin.org) qui fait l’inventaire des ressources électroniques des bibliothèques. Hélas, les équipes ABES et Couperin ont constaté que la notion de produit dans ERE et la notion de bouquet dans BACON ne coïncidaient pas souvent. Dans le cas contraire, via BACON, ERE aurait constitué pour le Sudoc une source d’exemplarisation en masse majeure.

Pour finir ce post, quelques requêtes très simple :

La liste des ebooks Dalloz possédés par Grenoble 2 :


PREFIX schema: <http://schema.org/>
PREFIX dc: <http://purl.org/dc/elements/1.1/>

select ?idsudoc ?titresudoc

where
{

<http://data.enseignementsup-recherche.gouv.fr/uai/0383075L> schema:owns ?bouquetdalloz.

?tipp    <http://gokb.org/tipp/#belongsToPkg>    ?bouquetdalloz.

?tipp    <http://gokb.org/tipp/#hasTitle>    ?idsudoc .

?idsudoc dc:title ?titresudoc

}

La liste des bibliothèques abonnées au bouquet Dalloz :

PREFIX schema: <http://schema.org/>
PREFIX dc: <http://purl.org/dc/elements/1.1/>

select ?bib

where
{

?bib schema:owns ?bouquetdalloz.

}

Comme l’identifiant des bibliothèques a été construit à partir de l’UAI de l’établissement d’appartenance, on devine qu’on pourrait croiser ces “données d’exemplaire” avec des données administratives (ou autres) se rattachant à l’établissement (budget, spécialités, nombre d’étudiants, UMR et leurs abonnements, etc.).