Quand ScanR et IdRef s’associent pour identifier les acteurs de la recherche et de l’innovation

ScanR, moteur de la Recherche et de l’Innovation, outil désormais bien connu dans la sphère ESR, propose à la réutilisation de nombreux jeux de données sous licence ouverte. Ces données, également accessibles via la plateforme OpenData du MESRI sont synchronisées avec data.gouv.fr, plateforme des données publiques françaises mis à disposition par Etalab.

 

S’inscrivant dans la logique d’ouverture portée par ScanR, l’Abes a utilisé les données IdRef et ses algorithmes d’identification afin de lier 3 jeux de données exposés et utilisés dans ScanR via son référentiel auteurs.

 

Lauréat-e-s du trophée « Les Étoiles de l’Europe »

Sur 48 entrées, 42 personnes (soit 87, 5 %) ont été identifiées de façon certaine La recherche n’a pas été poussée plus avant pour les 6 personnes manquantes, les résultats fournis par l’algorithme étant estimés satisfaisant. Les identifiants sont disponibles dans le jeu de données.

Finalistes et lauréats du concours « Ma Thèse en 180 secondes »

Sur 71 entrées, seulement 13 (soit 18, 3%) ont été identifiés en tant que « thèses soutenues ». Un taux de rappel très faible qui s’explique  du fait du délai de signalement des thèses (360 jours en moyenne). En effet, vérification faite de la présence des données dans theses.fr,  la très grande majorité d’entre elles sont effectivement signalées mais en tant que « thèses en préparation ».

Membres de l’Institut Universitaire de France (IUF)

Ce corpus, dont l’historique remonte à 1991, possède le volume le plus conséquent : après dédoublonnage, les 2041 entrées renvoient à 1 700 personnes distinctes. Les opérations d’alignement comportent 2 dimensions complémentaires :

  • la couverture (ou taux de rappel) : toutes les personnes ont été identifiées, avec une fourniture de 1 700 identifiants IdRef distincts. La couverture pour ce corpus est donc totale. Les membres de l’IUF figurent bien tous dans IdRef.
  • la fiabilité  (ou taux de précision) : l’identification se doit d’être évaluée, notre parti pris étant de fournir des identifications à la fiabilité très élevée, ce que dénote le choix des algorithmes utilisés.

D’un point de vue méthodologique, le programme de liage a confronté les données du jeu de données en entrée avec le contenu des notices d’autorité IdRef, enrichies du contenu des notices bibliographiques Sudoc liées. Plusieurs heuristiques ont été exploitées :

  • cocontrib : si deux personnes ont des noms très proches et des co-contributeurs aux noms très proches
  • collectivités + Dewey : si deux personnes ont des noms identiques et sont associées à une même collectivité (laboratoire ou université) et que la thématique de recherche correspond à un indice Dewey connu pour la personne
  • laboratoire : si deux personnes ont des noms identiques et sont associés à un même laboratoire
  • université : si deux personnes ont des noms identiques et sont associées à une même université

Précisions que, bien qu’absente de cette fourniture,  l’heuristique Unica est également régulièrement utilisée : si deux personnes ont des noms identiques et qu’il n’y a aucune autre autorité candidate dont le nom est approchant, on peut conclure qu’il s’agit de la même personne.

Tableau de ventilation des matchs par heuristique

Heuristique                     Nombre de match
 Cocontrib                           782
 Collectivé+Dewey                    184
 Laboratoire                         248
 Université                          381
 Vérifié                             446
 Total général                      2041

A l’aune des évaluations précédemment réalisées, on sait que Cocontrib possède un taux de précision moyen de 98% (estimé supérieur à un catalogage « pressé »). Pour les heuristiques associant des collectivités, le corpus IUF a servi de premier test. A défaut d’une évaluation systématique, les sondages réalisés – dont témoignent les matchs en statut « vérifié », nous permettent d’accorder une confiance de niveau « très élevé » à Collectivités + Dewey et Laboratoire, et une confiance de niveau « élevée » à Université.

Au vu de ces règles, chaque réutilisateur peut déterminer son propre seuil de confiance. Si le risque d’erreur existe, dans le cas présent avec le corpus IUF, de façon très concrète, les données fournies sont considérées comme fiables par l’Abes. Elles seront donc intégrées au jeu de données sur les IUF lors de sa prochaine actualisation.

Pour conclure la relation de cette fructueuse coopération associant l’équipe du Département des outils d’aide à la décision du MESRI et l’Abes, il nous semble important de mettre en exergue deux bénéfices en particulier :

  • l’enrichissement des données publiques
  • la démonstration que l’ouverture des données à tous contribue à améliorer leur qualité – ici leur interopérabilité – grâce à une identification fiable et pérenne !

François Mistral, pour l’équipe IdRef

Remerciements à l’équipe du Département des outils d’aide à la décision du MESRI

Publicités

Autorités vs référentiels : 3 questions aux experts de l’Abes

arabesques85Autorités, identifiants, entités : L’expansion des référentiels. Tel est le titre du dossier de la revue Arabesques n°85 consacré aux référentiels d’autorités.

Le volume et la diversité des métadonnées en circulation dans les systèmes d’information – de l’enseignement supérieur, de la recherche, de la culture-  exigent de repenser le rôle des référentiels d’autorité. Considérés comme données de confiance au service du développement de l’open data et du web sémantique, ils constituent un capital précieux, une garantie d’indépendance, tout en interrogeant en profondeur les pratiques catalographiques classiques.

Le comité de rédaction  a souhaité apporter un éclairage terminologique en posant 3 questions aux experts de l’Abes en ce domaine : François Mistral, responsable IdRef, Yann Nicolas, expert Métadonnées, Philippe Le Pape, mission Normalisation, Olivier Rousseaux, chef du service Métadonnées. Voici  leurs réponses in extenso.

1 – En tant que professionnel de la documentation, quelles distinctions faites-vous entre « référentiel » et « base d’autorités » ?

François Mistral : Afin d’éviter toute confusion par omission, ajoutons un troisième terme dans ce jeu des distinctions : celui de « nomenclature ». En catalogage, ce seront les données codées – comme par exemple les codes de pays, nomenclature internationale maintenue officiellement par l’ISO 3166 Maintenance Agency (ISO 3166/MA).

Par « référentiel », je retiens surtout l’idée de données de référence et de repère. Cela signifie qu’un référentiel est un jeu de données,  suffisamment vraies, justes, certaines pour être utilisées en confiance afin d’en produire ou d’en agréger d’autres. De fait, ces données de référence sont des points de repère à partir desquelles en situer d’autres avec économie.

Par  « données d’autorité », je retiens la double dimension de contrôle et de légitimité à assurer ce contrôle : ces données font autorité en ce qu’elles contrôlent des données bibliographiques, ce qui met en évidence la nécessaire qualité des données d’autorité, la pratique des sources constituant une de leur plus-value essentielle.

Cependant, outre les différences entre ces termes, je voudrais mettre en évidence l’horizon de leur convergence.  Que les bibliothécaires se persuadent qu’eux-mêmes et les données qu’ils produisent ont la légitimité de coloniser de nouveaux espaces de l’information au profit d’un intérêt tant professionnel que général.

Yann Nicolas :  Selon moi, quand on parle référentiel à l’Abes, on entend « des données qui permettent de décrire nos documents en minimisant le recours à du texte libre », de type listes fermées de « termes » (ex : code pays…) ou listes d’entités (ex :  entité de type Pays)

Décrire les entités de type « Document » étant notre cœur de métier, les entités qui gravitent autour sont considérées comme des entités secondaires « pour nous », comme des moyens et non des fins. Ce qui est tout relatif : un système de gestion des chercheurs français prendra nos documents pour entités secondaires, le Sudoc ou theses.fr devenant un référentiel « pour eux ». Bref, les référentiels des uns peuvent être les données centrales des autres. Ce qui ne veut pas dire que tout peut devenir référentiel.

La tendance actuelle est de transformer les référentiels « liste de termes ou de codes » en référentiels d’entités clairement identifiées : autrement dit, en langage Web sémantique, on passe de « littéraux » (chaînes de caractères simples, ou bien typées) à des « ressources », possédant une URI pour identifiant,  ces ressources pouvant elles-mêmes avoir des attributs, être décrites, succinctement ou longuement, ici ou ailleurs. Connecter nos données à ces référentiels, c’est indirectement enrichir nos données des attributs de ces entités secondaires, et, par transitivité, de proche en proche, à beaucoup d’autres informations.

Traditionnellement, une notice d’autorité remplit ces deux fonctions : identifier clairement une entité grâce à un identifiant précis ; mais également associer à cette entité un nom, un libellé, une étiquette linguistique, un « littéral », un nom propre à retenir comme son nom de référence. En effet, les autorités, de plus en plus ouvertes, vivent dans différents contextes (langues, cultures, types d’application, etc.) et le « bon » terme à afficher peut ne pas être toujours le même. De ce fait, la fonction « terme retenu » est de moins en moins centrale … même s’il faut bien de la chair attachée au squelette de l’entité : des attributs, et parmi eux, des libellés, multiples, qualifiés.

Bref, nos autorités traditionnelles se normalisent : rejoignent d’autres référentiels en tant que liste d’entités clairement identifiées, possédant des attributs et des relations (qualifiées) avec d’autres d’entités (de même type ou non, de même référentiel ou non). Cette normalisation est à la fois intellectuelle et technique. Le paradigme « web sémantique » constitue le vecteur principal de cette normalisation : tout devient Ressource, identifiée de manière univoque à l’échelle universelle grâce à sa (ou ses !) URIs, et ce sont les triplets RDF qui en parlent le mieux…

Philippe Le Pape : Les deux termes s’appliquent à des jeux de données « de référence », statut consacré soit par une labellisation (ex : norme ISO 3166 Codes des noms de pays ; norme ISO 80000-3 Système international de grandeurs, espace et temps ; standard RDA ; standard Unimarc) soit par l’usage (ex : données de theses.fr, de la Bibliographie nationale française). Il s’agit selon moi avant tout d’une distinction d’ordre technique, opérante dans le cadre d’un système de production et d’administration d’un ensemble de métadonnées complexes et organisées.

On nommera « référentiel », l’ensemble de données « outils » auquel on recourt pour garantir la qualité des métadonnées administrées, leur interopérabilité et leur conformité à un standard partagé. Dans cette catégorie entrent les modèles de données, les règles de catalogage, les formats, les nomenclatures (noms et codes de pays, de langue, unités de mesure, coordonnées géographiques..).

Dans un système bibliographique classique, fondé sur le modèle du fichier de notices descriptives dont certains  points d’accès sont contrôlés, les données d’autorité servent à normaliser, unifier et documenter certains de ces points d’accès.  Les données d’autorité ont donc vocation à faire référence pour des tiers, ce qui revient à dire que, dans le cadre d’un système de production de métadonnées, on utilise des référentiels pour produire des données d’autorité.

On remarque que les modèles conceptuels FRBR, FRAD et FRSAD – qui ont ouvert la voie à une conception nouvelle des systèmes bibliographiques, utilisent encore cette terminologie. En revanche, pour le modèle LRM, l’ancienne distinction entre données bibliographiques et  données d’autorité n’existe plus : le modèle ne reconnaît que des entités fonctionnelles en relation les unes avec les autres.

Olivier Rousseaux : « Référentiel : Ensemble auquel doivent appartenir les éléments, les solutions d’un problème posé » (dictionnaire Larousse).

Dans le contexte de l’Abes, les fichiers d’autorités, de même que les listes de données codées, servent à contrôler la cohérence des métadonnées bibliographiques. Ils participent à un ensemble plus vaste qui organise et contraint les métadonnées produites et qui comprend les modèles de données, les formats de saisie, les règles normatives de description, le tout s’inscrivant dans un cadre international – Principes internationaux de catalogage, modèle IFLA LRM (successeur des modèles conceptuels FRBR, FRAD et FRSAD) ou code de catalogage RDA. Des éléments de référence qui s’ajoutent comme autant de « briques », indispensables pour rendre des services tels que le partage de données entre applications, la fourniture à des tiers ou l’exposition.

J’appliquerais donc plutôt le terme de référentiel à cet ensemble qui fonctionne comme un tout avec des règles d’interdépendance et d’interopérabilité de ses constituants. Il permet tout à la fois la cohérence des métadonnées produites, la communication entres les applications documentaires de l’Abes mais également les services de fourniture et d’exposition associés à ces métadonnées.

2 – Ces dernières années, on assiste à la montée en puissance du rôle des référentiels. Comment cela impacte-t-il concrètement votre travail auprès des réseaux de l’Abes / les pratiques de catalogage des professionnels des réseaux ?

François Mistral : En tant que responsable IdRef depuis mon arrivée à l’Abes en 2014, mon activité consiste à encourager cette montée en puissance et à accompagner les professionnels des réseaux en ayant une démarche systémique reposant sur 3 piliers :

  • l’animation du réseau des catalogueurs et notamment des Correspondants autorité, interlocuteurs experts ;
  • l’amélioration de l’outillage professionnel visant à accroître la maîtrise de la production par les producteurs ;
  •  la dissémination multi-canaux et multi-formats des données d’autorité dans et « hors les murs ».

Il reste  encore beaucoup à faire pour informer sur le rôle des référentiels et convaincre des considérables bénéfices attendus et plus encore constatés de leur utilisation dans les Systèmes d’Information, documentaires, de recherche ou autres. Valoriser les données produites par nos réseaux depuis plus de vingt ans et de convaincre de leur capacité à rendre service, sont une source de motivation quotidienne. Nous avons pu étoffer l’offre de service d’IdRef – notamment en matière d’alignements –  afin de la rendre plus attractive. Cette offre est un levier pour démarcher des nouveaux partenaires et intégrer des nouveaux projets, dans lesquels l’un de nos apports spécifiquement «ABES» consiste à promouvoir l’idée centrale et précieuse de « mutualisation ».

Yann Nicolas : Je ne pense qu’à ça !  Ces dernières années, certains collègues et moi avons travaillé sur deux projets : Qualinca et le Hub de métadonnées.
Qualinca est un projet de recherche ANR qui vient de se terminer. L’idée était de produire des algorithmes qui auscultent et améliorent la qualité des liens entre notices bibliographiques et notices d’autorité. Entre Sudoc et IdRef, par exemple. Mais il faut penser plus générique, moins nombriliste : au-delà des données bibliographiques Sudoc et au-delà des autorités IdRef.

Côté hub de métadonnées, on récupère des données hétérogènes en provenance des éditeurs. Notre boulot est d’homogénéiser tout ça, mais aussi de l’enrichir, notamment grâce aux référentiels de toutes sortes : langues, auteurs, sujets, types de document… Il s’agit bien de remplacer (ou compléter) des mots par des identifiants : remplacer un nom d’auteur par un lien vers une URI (IdRef, ISNI, ORCID…) ou remplacer le code « J63 », non pas par le terme « Turnover » du thésaurus JEL (Journal of Economic Literature), mais par un lien vers l’URI de ce concept dans la version Web sémantique de ce thésaurus multilingue – voir : https://punktokomo.abes.fr/2016/05/16/mettre-nos-donnees-en-reseau-un-demonstrateur-4b-les-revues-doxford-up-et-la-classification-jel-economie/
Dans les deux cas, il s’agit de connecter l’information bibliographique à des référentiels, pour mieux la structurer et mieux la connecter, non seulement à l’échelle d’un catalogue, -même collectif ou national, mais à l’échelle du Web !

Philippe Le Pape : On assiste plutôt à une prise de conscience du rôle des référentiels. Dans des systèmes de production partagée de métadonnées tels que le Sudoc, le rôle de la normalisation – qui intègre l’emploi de référentiels – a toujours été crucial. Mais avec la mise en application de RDA, le recours à des vocabulaires contrôlés s’accroît encore – « type de contenu », « type de médiation », « type de support » en sont des exemples.

Olivier Rousseaux : L’Abes est confrontée à ces questions pour avoir posé comme principe, lors de la mise en place même du Sudoc, la réutilisation de référentiels existants : RAMEAU ou FMeSH pour les accès matière, fichiers d’autorités « personnes, collectivités, titres » de la BnF pour les accès auteur ou titre uniforme ; listes de codes ISO (langues, pays) ou Unimarc (codes fonctions pour les auteurs).

Les évolutions les plus importantes : l’accès – foisonnant dans le contexte du web de données – aux métadonnées d’autres référentiels bibliographiques, administratifs ou autres de type  VIAF , base SIRENE de l’INSEE ou Répertoire des structures de recherche au niveau national  (RNSR)  ainsi que les évolutions techniques qui permettent de se projeter dans leur exploitation (solutions d’alignement et/ou d’enrichissement des métadonnées).

A l’Abes, la réflexion porte donc sur les manières d’appréhender les métadonnées de référentiels tiers pour bénéficier de leurs apports potentiels. A minima, il s’agit d’une opportunité d’améliorer, dans nos bases de production, les méthodes de liage automatique  entre notices bibliographiques et autorités de manière à diminuer cette activité pour les catalogueurs. En ce qui concerne le travail de catalogage au quotidien, les perspectives sont également d’exploiter les référentiels afin de développer des outils d’aide à la décision (ex : projet de recherche Qualinca)

3 – Comment envisagez-vous/imaginez-vous le rôle des référentiels dans le paysage de l’IST / au-delà ?

François Mistral : Selon moi, les référentiels actuels laissent entrevoir certaines des évolutions à venir du métier de catalogueur. Les données produites par les bibliothécaires sont promises à un grand avenir, tout l’enjeu étant dans leur structuration. A ce titre, les référentiels vont continuer de croître en importance. En conséquence, le rôle et l’expertise des producteurs de données structurées et structurantes doivent être au centre de nos préoccupations prospectives.

Un point délicat réside dans le fait que « nous autres catalogueurs » devons prendre conscience que nous sommes, aux premières loges, à la fois spectateurs et acteurs de ce phénomène qui dépasse largement notre secteur professionnel. Avec ou malgré nous, les choses se jouent dans notre communauté.

A ce titre, on pourrait imaginer que les référentiels jouent, comme pour les données, un rôle structurant pour l’IST. Ils pourraient amener une reconfiguration plus rationnelle des missions de ses opérateurs, reconfiguration façonnée à leur image : toute entière de spécialisation et de coopération pour un service rendu de haut niveau.

Yann Nicolas  : Vu de l’Abes, en caressant du regard le paysage un peu cacophonique de l’IST en France, j’espère encore une politique publique des référentiels claire. Que chacun joue sa partition, c’est-à dire maintienne et mette à disposition les référentiels qui sont de son ressort. Qu’on évite les doublons où plusieurs font plus ou moins correctement la même chose. Mieux vaudrait qu’un seul le fasse, et de manière excellente ! Par exemple, que le Référentiel national des structures de recherche (RNSR) administré par le MENESR soit, de droit et de fait, reconnu comme LE service public national qui fournit identifiants et attributs de référence pour les laboratoires français. Ce qui n’empêche en rien des clients – comme STAR ou theses.fr – de gérer leurs propres attributs complémentaires, en sus des attributs RNSR, à des fins propres, bibliographiques ou pas. Si possible, gérons nos propres attributs de laboratoires, mais pas nos propres identifiants : accrochons nos attributs aux identifiants RNSR. Même chose pour les autorités de type Entreprise : le référentiel SIRENE de l’INSEE est désormais ouvert !
L’Abes doit être un bon client des référentiels des autres, en même temps qu’un bon fournisseur de référentiels pour les autres, dès lors que son positionnement, son organisation et son capital de données la rendent légitime. C’est le cas, sans conteste, du référentiel des thèses françaises ou celui des chercheurs français.

Philippe Le Pape : On va vers une importance grandissante des identifiants de confiance dans lesquels le « nom », la « forme d’autorité », les données elles-mêmes se trouvent de plus en plus ramassés : le passage des métadonnées bibliographiques de systèmes fermés au Web renforce la nécessité de les normaliser et de les étiqueter en fonction des standards du Web, selon des systèmes d’identification qui pour être efficaces doivent jouir d’une large reconnaissance.

Olivier Rousseaux : Je ne vois pas leur rôle évoluer radicalement dans l’immédiat car leur nature et leurs fonctions perdurent sans être remises en question. J’envisage plutôt une tendance à des rapprochements – entre alignements et fusion- de référentiels existants.
Cependant, pour chaque rapprochement envisagé, les mêmes questions devront être examinées, tout référentiel tiers visé fonctionnant dans un contexte défini et circonscrit qui lui est propre : à quels objectifs répond-il ? à quelles contraintes ? sur quel modèle de données est-il fondé ? quelles en sont les règles d’alimentation ? nos besoins sont-ils couverts par ce référentiel en termes de granularité des données, d’évolutivité et de traçabilité des évolutions apportées ? quels risques et quels avantages y aurait-il à fusionner avec ce référentiel tiers? quelle gouvernance en résultera (technique comme scientifique) et sera-t-elle adaptée à notre contexte ?

Un référentiel tiers est donc à aborder avec prudence afin de mesurer le degré de rapprochement optimal qu’on peut en espérer. De ce point de vue, le projet de « Fichier national des entités » amorcé en mars 2017 entre la BnF et l’Abes répond à ces questions en se positionnant résolument dans la recherche d’une solution de fusion des « traditionnels » fichiers d’autorités existants de part et d’autre au profit d’un fichier national unique géré en co-production.

 

 

Identifier les auteurs de HAL avec IdRef

logo-idref   C’est une histoire déjà ancienne à l’Abes que celle de l’identification automatique des Personnes impliquées dans des ressources documentaires. Du moins, est-ce un sujet qui, depuis plusieurs années, aiguillonne des études et aboutit progressivement à des réalisations intéressantes. En voici une illustration avec des corpus extraits de HAL.

Corpus SHS – 2011

Entre octobre 2010 et novembre 2011, dans le cadre du projet SudocAd, un premier prototype a été développé avec pour objectif l’enrichissement des métadonnées du moteur de recherche ISIDORE par l’ajout de lien aux autorités Sudoc (IdRef). Le prototype exploita un échantillon de 13 444 notices d’articles issues du portail Persée – domaine «Économie » – en identifiant, quand elle existait, l’autorité IdRef correspondant à chacun des auteurs. Une fois traitées, les notices furent livrées à ADONIS et à l’équipe Persée. Côté performance, le prototype SudocAD atteignait un très bon niveau : sur un échantillon vérifié de 150 notices Persée, 80% étaient estimées comme de « bonnes décisions » (liage ou non liage), et surtout, le taux d’erreur (création de liens erronés) était inférieur à 2%.

Corpus SHS – septembre 2015

Depuis, le projet Qualinca a repris le flambeau, avec une approche plus globale. En septembre 2015, une nouvelle expérimentation d’identification automatique est menée sur un corpus de HAL : 1 900 documents du domaine SHS sont puisés dans l’entrepôt OAI-PMH. Après traitement, 3 200 formes-auteurs sont extraites et passées à la moulinette du prototype. Lors du développement de l’outil, seuls 2 critères de matching -appelés également dans ce cadre « heuristiques »- sont utilisés (« co-auteur » et « unica »). Sur la base de ces critères,  1 100 entités – soit 34% des formes-auteurs – seront matchées, puis rattachées à une notice d’autorité dûment identifiée.

Corpus Astrophysique – avril 2016

Les disciplines ayant des pratiques de publication fort diverses, le choix s’est porté sur le traitement de 300 articles issus du domaine « Astrophysique » et leurs 1 242 formes-auteurs.  L’astrophysique étant un domaine dans lequel les publications sont hautement internationalisées, la proportion d’auteurs étrangers y est importante. De plus, l’interdisciplinarité y étant élevée, on trouvera parmi les auteurs des chercheurs physiciens, biologistes, ingénieurs, océanographes, chimistes, mathématiciens…

La qualité de l’identification finale dépendant largement de la qualité des données de départ, on notera que les données en entrée sont majoritairement de qualité basse, un aspect amplifié par l’absence de normalisation dans l’écriture des appellations. Quelle sera l’incidence de ces variantes orthographiques sur la couverture du corpus par IdRef ?

Le corpus comportait : 406 appellations d’auteur avec nom + prénom (soit 33%) et 836 appellations d’auteur avec nom + initiale du prénom (soit 66%). Les 1 242 formes-auteurs ont d’abord été ramenées à 1 156, suite à la suppression de 43 doublons évidents (avec accent vs. sans accent ; initiale du Prénom vs. Prénom développé).

Premier  constat : le prototype a appris à gérer de façon très satisfaisante ce paramètre de variabilité des graphies. Ainsi, 467 appellations (soit 37,6%) ont été identifiées avec les heuristiques «co-auteur», «titre» et «unica» – pour ce dernier critère, les appellations « Nom, P. » furent mises de côté. Second constat : sur les 775 appellations restantes, 57 -soit 4,6%- correspondaient à des auteurs dont des homonymes ont été correctement écartés par la machine. Afin de tester la couverture d’IdRef, une deuxième passe a ensuite été effectuée, sous forme d’une recherche manuelle rapide, qui a permis d’identifier 95 auteurs supplémentaires.
En valeur absolue,  autant d’auteurs avec « Nom, Prénom » qu’avec « Nom, P. » ont été identifiés. En valeur relative, le résultat est évidemment en faveur des auteurs avec « Nom, Prénom » – 66 % – contre 33% pour les auteurs avec « Nom, P. »  Dans ce cas également, le fait de disposer de notices d’autorité est très intéressant puisque dans la majorité des cas d’appellations avec « Nom, P. »,  le prénom développé a été retrouvé. Ces éléments permettent d’estimer le potentiel de clusterisation apportée par une notice d’autorité grâce aux variantes de formes.

Au final, ce sont 561 auteurs qui ont été identifiés, soit 45% d’identification des auteurs du corpus Astrophysique de HAL. A titre de comparaison, on remarquera que les requêtes lancées sur AuréHAL  sur les formes-auteurs présentes, en demandant pour chacune si elle correspondait à une forme présente dans un idHal, a donné un résultat de seulement 3,5 % des appellations du corpus « Astrophysique ».

Corpus idHal – janvier 2017

Le corpus idHal – identifiants uniques gérés dans HAL- en progression continue, constitue un nouvel enjeu majeur en termes d’alignement d’identifiants – notamment sur fond de projet Conditor. L’exploitation de ce service de HAL est importante à plusieurs égards : outre la sensibilisation auprès des chercheurs quant à la question de l’identification pérenne et unique, idHal permet de tirer parti du travail de validation d’attribution de publication réalisés par les chercheurs eux-mêmes.
Récemment,  un alignement vers IdRef des auteurs – publiant dans HAL et disposant d’un idHAL- a été tenté. En 5 étapes, cela a donné :
1)    identifier tous les auteurs HAL ayant un idHal
2)    récupérer les documents liés à ces idHal
3)    les convertir et les charger dans la base RDF de l’Abes
4)    lancer les heuristiques d’alignements
5)    extraire les premiers résultats : 11 000 auteurs à lier pour 6 400 alignés ( soit 58,2 %)

Ainsi, grâce aux puissants algorithmes d’alignement élaborés en interne, une bonne partie du chemin semble parcourue. Mais aller plus loin – beaucoup plus loin !-  est envisageable. En effet, il est désormais tout à fait possible de lancer les heuristiques sur l’intégralité de HAL.

De belles perspectives

Depuis 2010 à l’Abes, les avancées de la réflexion et des outils en matière de données d’autorité ont construit une approche intellectuellement et technologiquement performante, ce qui permet  de promouvoir, désormais preuves à l’appui, l’offre de service d’IdRef auprès des opérateurs de l’IST en France.
En effet, si le taux de couverture des auteurs de publications de recherche est proche de 50%, il est de l’ordre de 90% pour les auteurs français – ce qui confirme la portée réelle d’IdRef en termes de référentiel des auteurs de l’Enseignement Supérieur et de la Recherche.
Dans les mois à venir, le programme de travail ira en ce sens. La consolidation des process constitue l’axe prioritaire : il s’agira tout d’abord de les automatiser intégralement afin de moissonner de très gros volumes de données. La redistribution de ces alignements constitue le second axe.

Sur le même concept que le web service de récupération des alignements – idref2id,  le stock d’alignements disponibles va s’accroitre  pour mettre en vitrine tout ce que nous avons déjà en « arrière-boutique ». De belles perspectives donc.

François Mistral, responsable IdRef

Mettre nos données en réseau – un démonstrateur. [1] Introduction.

Ce démonstrateur est un plaidoyer en faveur d’une approche “web sémantique” de l’interopérabilité des données de l’IST. Mais, cette fois, il s’agit de montrer et non d’argumenter. Il s’agit de défendre, en illustrant cette approche par des études de cas. Alors, si vous fuyez les plaidoyers, si vous exigez du concret, de la donnée (RDF), de la requête (SPARQL), passez cette introduction et lisez l’un des billets suivants :

  1. Introduction (ce billet)
  2. Inventaire des données
  3. Suivez le guide ! Le modèle de données
  4. Études de cas

SPARQL endpoint : https://lod.abes.fr/sparql
Interface de recherche full text et de navigation : https://lod.abes.fr/fct

Pourquoi ce démonstrateur

Mettre nos données en réseau, c’est structurer et publier nos données conformément aux principes et aux bonnes pratiques du web sémantique.
Nos données, ce sont à la fois les données produites par les réseaux ABES (Sudoc, Sudoc PS, Thèses, Calames) mais également  toutes ces données voisines, complémentaires produites par les éditeurs, l’administration, les institutions culturelles, les institutions dédiées à l’information scientifique et technique (IST).
Ce périmètre est par définition extensible : par exemple, si nos données, ce sont d’abord les métadonnées de thèse électronique produites ou importées dans STAR, ce sont également les informations sur l’équipe de recherche (RNSR, HAL, IdRef), l’école doctorale (Ministère, IdRef), l’entreprise qui finance le contrat CIFRE (ANRT), les articles du doctorant (HAL et autres archives, éditeurs), la production du directeur de thèse (HAL, éditeurs), les vocabulaires contrôlés qui décrivent le contenu (RAMEAU, MeSH, tel vocabulaire spécialisé, etc.), les bibliothèques qui possèdent telle thèse, etc.
Second exemple : nos données, ce sont d’abord les métadonnées des articles acquis dans le cadre d’ISTEX (ISSN, Sudoc), mais ce sont également les métadonnées des revues, des fascicules et des volumes, les métadonnées des auteurs (IdRef, ISNI, VIAF, ORCID, HAL, Persée, Wikipedia, etc.), les affiliations, les vocabulaires contrôlés, les métadonnées sur le package commercial correspondant à l’acquisition (BACON, GoKB), la licence, les bibliothèques couvertes par la licence, etc.

lodcloud
Troisième et dernier exemple : pour savoir que tel auteur est affilié à l’université Paris 4, on a besoin de remonter le courant : de telle notice Sudoc à tel auteur IdRef, puis à tel auteur HAL, puis à tel document HAL, puis à telle équipe de recherche du référentiel HAL, puis à cette même équipe dans le référentiel RNSR, équipe rattachée à Paris 4. Il existe un chemin plus court, mais dans tous les cas, il faut être agile, rebondir d’une base à l’autre, d’un organisme à l’autre.
ist_organismes

L’information est par définition extensible. On ne peut définir a priori le périmètre des données qui correspond à nos besoins. La gestion de l’information doit être aussi extensible que l’information elle-même.
Et précisément, les technologies du web sémantique sont faites pour ça : établir des liens effectifs entre données complémentaires, sans fixer à l’avance ni le périmètre des données, ni la nature de ces liens.

Une base RDF + des requêtes SPARQL

Ce démonstrateur n’est rien d’autre que l’agrégation de données RDF brutes au sein d’une seule base de données. Si ce n’est préparer et documenter ces données, nous n’avons rien fait d’autre : ni construction d’index pour interroger les données, ni développement d’un web service de recherche, ni réalisation d’une interface graphique. Nous nous sommes contentés de charger ces données brutes dans une base RDF supportant le langage de requête SPARQL : ipso facto, nos données sont devenues interrogeables, consultables, navigables.

Pour interroger nos données, il suffit de se rendre à cette adresse : https://lod.abes.fr/sparql et de lancer une requête SPARQL. SPARQL est un langage très puissant, qui demande un apprentissage progressif. Mais tous les billets de cette série proposent des exemples de requête. Ce sont de bons points de départ. Si vous vous prenez au jeu, forgez vos propres requêtes et les jugez intéressantes, merci de les partager en commentaires.
SPARQL est un langage mais également un protocole web , c’est-à-dire un web service : https://lod.abes.fr/sparql n’est donc pas seulement une page web pour fans des données, mais également l’URL principale d’un web service de recherche qui permet à n’importe quel programme d’interroger une base RDF et d’en exploiter les résultats sous différents formats (HTML, XML, CSV, JSON, etc.). Grâce  à SPARQL, nous pourrons offrir une API standard pour interroger de manière sophistiquée les corpus ISTEX, par exemple, en complément de l’API de recherche développée par l’INIST. On a besoin des deux : une base de données ouverte et un moteur de recherche ouvert.
Si vous n’êtes ni un geek ni un programme, vous avez la possibilité de vous promener dans les données de notre base via cette interface, livrée avec le logiciel qui gère notre base de données : https://lod.abes.fr/fct. Chaque page de cette interface correspond à une entité de notre base (un article, une personne, un concept, etc.). Ainsi, la page https://lod.abes.fr/describe/?url=http://hub.abes.fr/springerB/ebook/3540183000/w décrit l’ebook identifié par : http://hub.abes.fr/springerB/ebook/3540183000/w. (Si vous activez cette URL, conformément aux principes des linked data (par TBL, il y a dix ans), vous serez redirigé vers une page qui décrit ce document : ne pas confondre la chose et sa description).
Cet ebook est caractérisé par des attributs (son titre, sa langue) et par des relations : relations vers les concepts dont parlent ce livre, relations vers l’éditeur, relations vers les auteurs (via le concept de contribution), etc. Ce sont ces relations qui permettent de naviguer d’entité en entité, comme on parcourt une encyclopédie. On croit naviguer d’une page à l’autre, mais en fait on navigue aussi d’une chose à l’autre : d’un laboratoire vers une personne, d’une personne vers un document, d’un document vers un concept, etc. De proche en proche, l’ensemble de ces relations constitue un réseau de données, un web de données.

Stratégie du coucou ? Pourquoi mettre tous ces données dans le même panier ?

Il sera naturel de soulever l’objection suivante : vous n’allez pas prétendre enfermer le web de données dans le monde clos de votre base ? Par définition, le web est décentralisé et il doit en être de même pour le web de données.
Cette objection est tout à fait légitime : il y a quelque chose d’artificiel à vouloir démontrer l’efficacité du web sémantique comme solution d’interopérabilité en rassemblant au sein d’une même base tous les jeux de données qu’on veut interconnecter et faire interagir. Nous justifions ainsi notre choix :
La plupart des données que nous voulions entrelacer n’existent pas (encore) sous forme RDF. On s’y est collé, à des fins pédagogiques.
Les solutions pour interroger un web de données décentralisé ne sont pas encore tout à fait mûres. SPARQL prévoit bien la recherche fédérée mais, quel que soit le type de technologies, ce type de recherche achoppe toujours sur les mêmes difficultés (disponibilités des bases à interroger, performances).
Il va de soi que ce n’est pas à l’ABES de produire, maintenir et publier en RDF les données du RNSR, de HAL, de Paris 4 ou d’ORCID, voire de Nature ou Springer (d’ailleurs, la plupart de ces initiatives sont précisément en train de construire leur offre de service RDF – disons, à notre connaissance, 4 sur 6 – nous vous laissons deviner). Ce qu’on espère c’est précisément un monde où les uns et les autres, sans concertation, sans négociation, sans plan quinquennal, font le pari du web sémantique et, comme par miracle, contribuent à construire un espace public de données, souvent complémentaires, parfois redondantes, parfois dissonantes.
Il ne s’agit pas de s’accorder entre nous (même si ça aide et fait plaisir), mais de s’accorder sur les mêmes bonnes pratiques internationales, sur l’état de l’art.

Affirmons à nouveau que chaque producteur est responsable de publier ses données et que le consommateur a le choix des moyens pour les exploiter : requête SPARQL fédérée, navigation à travers des browsers sémantiques, récupération de données en local (ne serait-ce que pour leur faire jouer le rôle d’un cache). Chaque solution a ses avantages et ses contextes d’utilisation privilégiés.

Caveat emptor

  • Ce démonstrateur est un démonstrateur.
  • Ce démonstrateur est vivant et donc périssable. Nous nous réservons le droit d’y ajouter des données, d’en retirer et même de le passer par pertes et profits.
  • Les URLs de ressources commençant par http://hub.abes.fr n’ont pas de durée de vie garantie. Encore moins les URLS pour les ressources de BACON,  HAL, de Persée ou du RNSR.
  • Certains jeux de données de la base sont complets (ORCID, Nature), d’autres ne sont que des échantillons (Annuaire Paris 4, Sudoc, IdRef, Oxford UP).
  • L’approche web sémantique n’est pas l’alpha et l’oméga de l’interopérabilité. A côté de la puissance de SPARQL, coûteuse et pas toujours performante, il y a de la place pour des API hyperspécialisées et hyperoptimisées, comme les micro web services du Sudoc ou d’IdRef.

Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Pour les besoins de la démonstration, nous avons agrégé des données diverses et variées, mais finalement cette auberge espagnole n’est pas si anarchique : tout mène à tout, et on peut regrouper les jeux de données de différentes manières :

  • Données descriptives vs Référentiels
  • Données produites par les réseaux ABES vs Données de tiers
  • Données du monde des bibliothèques vs Données d’autres mondes (science, administration, etc.)
  • Données récupérées en RDF vs Données produites en RDF

Mais dans ABES, il y a B : notre réseau de données se déploie autour des données bibliographiques, qui décrivent des livres, des revues, mais également des chapitres et des articles.

Un jeu de données = un graphe nommé dans la base

Chaque jeu de données chargé dans la base RDF demeure un sous-ensemble bien identifié, un « graphe nommé« . Les données se croisent mais conservent leur pedigree.

Dans une requête SPARQL, on peut préciser ne vouloir interroger que les données de tel graphe – ou de plusieurs graphes. La requête suivante va chercher des titres de document dans le seul graphe des documents HAL :


PREFIX dcterms: <http://purl.org/dc/terms/>
select ?titre
from <http://hub.abes.fr/ccsd/docs/paris4>
where {
?document dcterms:title ?titre.
} LIMIT 10

Pourtant, il n’est pas conseillé d’utiliser le graphe comme un filtre de recherche documentaire : une même base peut être partitionnée en graphes de mille manières différentes ; on pourrait même tout mettre dans un seul graphe. L’organisation par graphes obéit moins à une logique documentaire qu’à des contraintes prosaïques de gestion de la base (regrouper les données ayant la même origine, par exemple) . Cette organisation fera davantage penser aux magasins du CTLES qu’aux salles de bibliothèque en libres accès.

Attention : le nom d’un graphe est une URI, comme http://hub.abes.fr/ccsd/docs/paris4 par exemple, mais inutile de cliquer dessus : elle ne mènera rien, elle sert d’identifiant unique, pas d’adresse web.

Les documents ISTEX

Dans le cadre du projet hub de métadonnées, cette approche « web sémantique » a d’abord été appliquée aux métadonnées livrées dans le cadre d’ISTEX, programme d’acquisition massive de documentation électronique. Ce cadre se prêtait parfaitement à cette approche : les éditeurs nous livrent des données riches et hétérogènes. Notre travail est de conserver toute cette richesse, de l’enrichir encore et de redistribuer librement ces données.

Dans le démonstrateur on trouvera ces données ISTEX :

Revue OUP

Contenu : Métadonnées de la revue Oxford Economic Papers : articles (2112), fascicules, volumes, périodique.

Graphe : http://hub.abes.fr/oup/journals/oxecon

Modélisation : ABES

Exemple :

<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O33> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#F23> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O34> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://rdaregistry.info/Elements/w/P10072>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/m/web> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://purl.org/ontology/bibo/Article> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://vivoweb.org/ontology/core#relatedBy>  <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/authorship/1-1> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/isPartOf>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/w> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://hub.abes.fr/namespace/articleType>    <http://hub.abes.fr/oup/articletype/researcharticle> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#F13> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdaregistry.info/Elements/c/C10001> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://rdaregistry.info/Elements/w/P10072>   <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/m/print> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://vivoweb.org/ontology/core#relatedBy>  <http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/authorship/1-2> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/subject>    <http://zbw.eu/beta/external_identifiers/jel#O14> .
<http://hub.abes.fr/oup/periodical/oep/2009/volume_61/issue_3/101093/oep/gpn036/w>    <http://purl.org/dc/terms/title>  "On welfare reducing technological change in a North-South framework"^^<http://www.w3.org/1999/02/22-rdf-syntax-ns#XMLLiteral> .

 

Revues Nature (NPG)

Contenu : Tous les articles de toutes les revues Nature (NPG), dont la fameuse Nature.

Ce jeu de données a ceci de particulier qu’au lieu de convertir en RDF les métadonnées XML livrées par l’éditeur, nous avons privilégié les données RDF générées par l’éditeur lui-même. Ce sont des données d’assez bonne qualité, plus riches que les livraisons XML par certains côtés, moins par d’autres.

Côté plus, l’éditeur a fait un gros travail d’indexation des articles selon un thesaurus maison et un très précieux travail d’alignement de ce thesaurus vers les versions RDF de Wikipedia et MeSH. Ces alignements nous ont tout particulièrement intéressés, vous vous en doutez…

Côté moins, la version RDF est très pauvre en informations sur les auteurs, tandis que la version XML possède des données d’affiliation et des emails, par exemple.

Il s’agit donc d’un cas singulier, mais prometteur et appelé à se généraliser : l’éditeur ouvre lui-même ses données en RDF, mais ces données ne sont pas exhaustives. Il demeure pertinent d’exiger de lui une livraison de données brutes, XML dans ce cas, pour en extraire de informations précieuses et complémentaires. Selon les cas, on pourra redistribuer ces informations ou bien se contenter de les exploiter en interne, par exemple pour générer des alignements.

Graphes (nombreux) :
http://ns.nature.com/graphs/articles
http://ns.nature.com/graphs/contributors
http://ns.nature.com/graphs/map-article-types-dbpedia
http://ns.nature.com/datasets/npg-core-ontology
http://ns.nature.com/graphs/map-journals-dbpedia
http://ns.nature.com/graphs/map-journals-wikidata
http://ns.nature.com/graphs/map-subjects-dbpedia
http://ns.nature.com/graphs/map-subjects-mesh
http://ns.nature.com/graphs/map-subjects-wikidata
http://ns.nature.com/article-types
http://ns.nature.com/blogs
http://ns.nature.com/terms
http://ns.nature.com/journals
http://ns.nature.com/publish-states
http://ns.nature.com/relations
http://ns.nature.com/review-states
http://ns.nature.com/subjects
http://ns.nature.com/graphs/articles-dbpedia
http://ns.nature.com/summary-types

Modélisation : NPG

Exemple :

<http://ns.nature.com/articles/ajg20001205>	<http://ns.nature.com/terms/hasJournal>	<http://ns.nature.com/journals/ajg> .
<http://ns.nature.com/articles/ajg20001205>	<http://purl.org/ontology/bibo/doi>	"10.1111/j.1572-0241.2000.02953.x" .
<http://ns.nature.com/articles/ajg20001205>	<http://ns.nature.com/terms/hasContributor>	<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205> .
<http://ns.nature.com/articles/ajg20001205>	<http://purl.org/dc/elements/1.1/title>	"Urinary retention: a systemic complication of botulinum toxin injection therapy for achalasia" .

 

Ebooks Springer

Contenu : plus de mille livres Springer, composés de plus de 300 000 chapitres.

Graphe : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC

Modélisation : ABES

Exemple :

<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://purl.org/ontology/bibo/Book> .
<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://hub.abes.fr/namespace/subTitle>	"A Case Study in Pipelined Architecture and Vector Processing" .
<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	<http://purl.org/dc/terms/subject>	<http://www.idref.fr/027756688/id> .

 

Les documents HAL

Contenu : environ 8 500 documents ayant pour affiliation Paris 4.

Graphe : http://hub.abes.fr/ccsd/docs/paris4

Modélisation : ABES

Exemple :

<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://vivoweb.org/ontology/core#relatedBy>	<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/authorship/1> .
<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://purl.org/dc/terms/title>	"Diversité linguistique en Nouvelle-Calédonie"@fr .
<https://hal.archives-ouvertes.fr/resource/document/hal-00201077/w>	<http://purl.org/dc/terms/subject>	<https://hal.archives-ouvertes.fr/resource/domain/shs.anthro-se> .

 

Les documents Sudoc

Contenu :

  • Ebooks Dalloz (BND)
  • Livres papier et électroniques correspondant aux ebooks Springer
  • Documents liés aux auteurs IdRef mentionnés dans la base (description bibliographique succincte, non structurée)

Il faudra bien, plus tard, verser tout le Sudoc : toutes les notices ; tous les champs MARC de ces notices . Ce qui est une autre paire de manches. On y travaille…

Graphe :
http://www.sudoc.fr (Ebooks Dalloz)
http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/SUDOC/ELEC (Springer)
http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/SUDOC/PRINT (Springer)
http://www.idref.fr (entre autres, références des documents liés à une autorité chargée dans ce graphe)

Modélisation : ABES

Exemple :

<http://www.sudoc.fr/19116433X/id>	<http://id.loc.gov/vocabulary/relators/aut>	<http://www.idref.fr/060265310/id> .

 

Les référentiels de personnes

 

VIAF

Contenu : chaque mois, nous récupérons et traitons le dump VIAF des alignements entre fichiers d’autorité. Nous n’avons donc que les liens, et pas le contenu des autorités. (Et encore, nous ne gardons qu’une partie des liens, ceux qui relient des fichiers qui ont pignon sur rue. Mais cela fait tout de même près de 24 000 000 de liens.)

Graphe : http://hub.abes.fr/referentiel/linksviaf_03_2016

Modélisation : ABES

Exemple :

<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/05019321X/id> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://hub.abes.fr/frbn/13490714> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://id.loc.gov/authorities/names/n85098625> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.wikidata.org/entity/Q18911870> .
<http://viaf.org/viaf/10001226>	<http://www.w3.org/2002/07/owl#sameAs>	<http://isni.org/isni/0000000121203999> .

 

ORCID

Contenu : chaque année, nous récupérons et traitons le dump ORCID (nou$ aimerion$ bien pa$$er à un dump men$uel). Il s’agit d’un dump XML que nous convertissons en 111 000 000 triplets RDF.

ORCID annonce 1 500 000 profils ORCID dans leur base :


PREFIX foaf: &lt;http://xmlns.com/foaf/0.1/&gt;
select (count(?s) as ?nb)
from &lt;http://hub.abes.fr/referentiel/ORCID2015&gt;
where { ?s a foaf:PersonalProfileDocument }

mais beaucoup n’ont qu’un nom et un prénom, aucune référence de document, ce qui rend ces profils moins fiables et moins utiles.

Graphe : http://hub.abes.fr/referentiel/ORCID2015

Modélisation : ABES

Exemple :

<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/ns/org#hasMembership>	<http://orcid.org/0000-0002-0018-0588/affiliation/1> .
<http://orcid.org/0000-0002-0018-0588>	<http://xmlns.com/foaf/0.1/familyName>	"Cain" .
<http://orcid.org/0000-0002-0018-0588>	<http://xmlns.com/foaf/0.1/givenName>	"Jeff" .
<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://orcid.org/0000-0002-0018-0588>	<http://www.w3.org/2002/07/owl#sameAs>	<http://hub.abes.fr/referentiel/scopusAuthorID/9247844700> .

 

IdRef

Contenu : Nous aurions pu charger toutes les personnes IdRef, mais ces 2 000 000 d’entités auraient pu noyer le reste des données du démonstrateur. Nous avons seulement chargé les triplets RDF correspondant à un identifiant IdRef mentionné quelque part dans la base (en général, dans les alignements).

Graphe : http://www.idref.fr

Modélisation : ABES

Exemple :

<http://www.idref.fr/02670000X/id>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://www.idref.fr/02670000X/id>	<http://www.w3.org/2002/07/owl#sameAs>	<http://data.bnf.fr/ark:/12148/cb11889814d#foaf:Person> .
<http://www.idref.fr/02670000X/id>	<http://xmlns.com/foaf/0.1/name>	"Bacot, Jacques" .
<http://www.idref.fr/02670000X/id>	<http://www.w3.org/2002/07/owl#sameAs>	<http://isni.org/isni/0000000121400095> .

 

L’annuaire des chercheurs de trois laboratoires de Paris 4

Contenu : près de 800 chercheurs, rattachés à trois équipes de recherche de Paris 4. Dans ce graphe, on ne sait pas grand chose de chaque chercheur : son nom, son prénom, son laboratoire, trois informations glanées sur le site de l’université. Aucun LDAP n’a été maltraité pendant cette opération.

Graphe : http://hub.abes.fr/paris4/labos/auteurs

Modélisation : ABES

Exemple :

<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/givenName>	"Mahamane" .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/083406964/id> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://schema.org/memberOf>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812914A> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/familyName>	"DJOUDOU" .

 

Les référentiels d’organismes

 

Référentiel National des Structures de Recherche (RNSR)

Contenu : Paris 4 et ses structures

Nous avons converti en RDF un export partiel de la base RNSR.

Graphe : <http://hub.abes.fr/rnsr/structures/paris4&gt;

Modélisation : ABES

Exemple :

<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://schema.org/name>	"CENTRE D'ETUDE DE LA LANGUE ET DE LA LITTERATURE FRANCAISES DES XVIIEME ET XVIIIEME SIECLES" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://hub.abes.fr/namespace/sigle>	"UMR8599" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://schema.org/foundingDate>	"1998" .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/vocab/typStruct/UR> .
<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .

 

Référentiel des structures de HAL

Contenu : Paris 4 et ses structures

Nous avons récupéré les données via l’API de HAL et les avons converti en RDF.

Graphe : http://hub.abes.fr/ccsd/structures/paris4

Modélisation : ABES

Exemple :

<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://hub.abes.fr/namespace/sigle>	"CELLFXXS" .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<https://hal.archives-ouvertes.fr/resource/typStruct/laboratory> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/2002/07/owl#sameAs>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812927P> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://schema.org/name>	"Centre d'\u00E9tude de la langue et de la litt\u00E9rature fran\u00E7aises des\n                XVIIe et XVIIIe si\u00E8cles [CELLFXXS]" .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .
<https://hal.archives-ouvertes.fr/resource/structure/1349>	<http://hub.abes.fr/namespace/structCode>	"UMR8599" .

 

Les référentiels d’analyse du contenu

 

RAMEAU

Contenu : dump BnF (avril 2015)

Graphe : http://hub.abes.fr/rameau_avril2015

Modélisation : BnF

Exemple :

<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#related>	<http://data.bnf.fr/ark:/12148/cb120000024> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2000/01/rdf-schema#seeAlso>	<http://catalogue.bnf.fr/ark:/12148/cb12041722r> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/028618106/id> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2002/07/owl#sameAs>	<http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb12041722r> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://www.w3.org/2004/02/skos/core#Concept> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dewey.info/class/915/> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Portugal -- Colonies -- Afrique"@fr .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dewey.info/class/950/> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://data.bnf.fr/ontology/bnf-onto/FRBNF>	"12041722"^^<http://www.w3.org/2001/XMLSchema#integer> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#broader>	<http://data.bnf.fr/ark:/12148/cb11979529k> .
<http://data.bnf.fr/ark:/12148/cb12041722r>	<http://www.w3.org/2004/02/skos/core#narrower>	<http://data.bnf.fr/ark:/12148/cb16661249d> .

 

LCSH

Contenu : dump LCSH (octobre 2014)

Graphe : http://hub.abes.fr/lcsh_27oct2014

Modélisation : LoC

Exemple :

<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#broader>	<http://id.loc.gov/authorities/subjects/sh96010352> .
<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Businesswomen"@en .
<http://id.loc.gov/authorities/subjects/sh85147558>	<http://www.w3.org/2004/02/skos/core#narrower>	<http://id.loc.gov/authorities/subjects/sh86006258> .

 

MeSH

Contenu : dump NLM

Graphe : http://id.nlm.nih.gov/mesh

Modélisation : NLM

Exemple :

<http://id.nlm.nih.gov/mesh/D000035>	<http://id.nlm.nih.gov/mesh/vocab#nlmClassificationNumber>	"WM 420.5.A2" .
<http://id.nlm.nih.gov/mesh/D000035>	<http://id.nlm.nih.gov/mesh/vocab#broaderDescriptor>	<http://id.nlm.nih.gov/mesh/D013811> .
<http://id.nlm.nih.gov/mesh/D000035>	<http://www.w3.org/2000/01/rdf-schema#label>	"Abreaction"@en .

 

FMeSH (MeSH en français)

Contenu : Notices FMeSH chargées annuellement dans IdRef

Graphe : http://hub.abes.fr/referentiel/idref/mesh/14042016

Modélisation : ABES

Exemple :

<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#inScheme>	<http://id.nlm.nih.gov/mesh> .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"tendances (qualificatif)" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"trends" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#altLabel>	"TD" .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"tendances"@fr .
<http://www.idref.fr/038961830/id>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://www.w3.org/2004/02/skos/core#Concept> .

 

Thesaurus Nature (NPG)

Contenu : dump NPG

Graphe : http://ns.nature.com/subjects

Modélisation : NPG

Exemple : <http://ns.nature.com/subjects/enteric-nervous-system&gt; (description)

<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://id.nlm.nih.gov/mesh/D017615> .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://ns.nature.com/terms/hasRoot>	<http://ns.nature.com/subjects/biological-sciences> .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"Enteric nervous system"@en .
<http://ns.nature.com/subjects/enteric-nervous-system>	<http://www.w3.org/2004/02/skos/core#closeMatch>	<http://dbpedia.org/resource/Enteric_nervous_system> .

 

Journal of economic literature (JEL) classification system

Contenu : dump RDF de cette classification spécialisée

Graphe : http://hub.abes.fr/graph/jel

Modélisation : ZBW

Exemple :

<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Modèles de r"gression discrète et de choix qualitatif; Régresseurs discrets; Proportions; Probabilités"@fr .
<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Discrete Regression and Qualitative Choice Models; Discrete Regressors; Proportions; Probabilities"@en .
<http://zbw.eu/beta/external_identifiers/jel#C25>	<http://www.w3.org/2004/02/skos/core#prefLabel>	"C25 - Diskrete Regressionsmodelle und qualitative Auswahlmodelle; Diskrete Regressoren; Gr\u00F6\u00DFenverh\u00E4ltnisse; Wahrscheinlichkeiten"@de .

 

Les référentiels de bouquet

 

Bouquet Dalloz

Contenu : modélisation en KBART très light de la collection des ebooks Dalloz

Graphe : http://hub.abes.fr/dalloz/bn/kbart/lite

Modélisation : GoKB (modélisation non finalisée)

Exemple :

<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://www.loc.gov/standards/mods/modsrdf/v1/#locationUrl>	"http://dallozbndpro-pvgpsla5.dalloz-bibliotheque.fr/fr/pvpage2.asp?puc=4236&amp;amp;amp;nu=36&amp;amp;amp;selfsize=1" .
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://gokb.org/tipp/#hasTitle>	<http://www.sudoc.fr/191183768/id> .
<http://hub.abes.fr/bndalloz/ebook/9782247041091/m/web/tipp>	<http://gokb.org/tipp/#belongsToPkg>	<https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .

 

Les localisations

 

Bibliothèques possédant le bouquet Dalloz

Contenu : Liste des bibliothèques « possédant » le bouquet dalloz (d’après ERE).

Graphe : http://hub.abes.fr/dalloz/bn/who

Modélisation : ABES

Exemple :

<http://data.enseignementsup-recherche.gouv.fr/uai/0134031L>	<http://schema.org/owns>	<https://bacon.abes.fr/package2kbart/dalloz_global_bnd> .
<http://data.enseignementsup-recherche.gouv.fr/uai/0134031L>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://schema.org/Organization> .

 

Les alignements

Nous considérons que les alignements sont des jeux de données comme les autres, à côté des autres. On a intérêt à les gérer à part et à les diffuser à part : il est important de garder la traçabilité des données, de pouvoir faire le tri entre les données d’origine et les enrichissements ajoutés.
 

Alignements entre des auteurs NPG et ORCID

Contenu : quelques milliers d’alignements entre les identifiants locaux des auteurs NPG et les identifiants ORCID

Graphe : http://ns.nature.com/graphs/contributors/align/orcid

Exemple :

<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/givenName>	"Jamie" .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/name>	"Jamie Barkin S" .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://ns.nature.com/terms/Contributor> .
<http://ns.nature.com/contributors/jamie-barkin-s-ajg20001205>	<http://xmlns.com/foaf/0.1/familyName>	"Barkin S" .

 

Alignements entre des auteurs NPG et ISNI

Contenu : quelques milliers d’alignements entre les identifiants locaux des auteurs NPG et les identifiants ORCID, obtenus via Qualinca

Graphe : http://ns.nature.com/graphs/contributors/align/isni

Exemple :

<http://ns.nature.com/contributors/w-h-irwin-mclean-ng.276> owl:sameAs <http://isni.org/isni/0000000124496002> .

 

Alignements entre des auteurs HAL et IdRef

Contenu : quelques centaines d’alignements entre les auteurs HAL et les auteurs IdRef. Beaucoup d’autres sont prévus.

Graphe : http://hub.abes.fr/ccsd/docs/paris4/align/idref

Exemple :

<https://hal.archives-ouvertes.fr/resource/author/1087935>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/111217776/id> .

 

Alignements entre des chercheurs de Paris 4 et IdRef

Contenu : La grande majorité de nos chercheurs de Paris 4 alignés vers IdRef.

Graphe : http://hub.abes.fr/paris4/labos/auteurs/align/idref

Exemple :

<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/givenName>	"Mahamane" .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>	<http://xmlns.com/foaf/0.1/Person> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/083406964/id> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://schema.org/memberOf>	<http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/199812914A> .
<http://hub.abes.fr/paris4/person/qe_paris4_1004>	<http://xmlns.com/foaf/0.1/familyName>	"DJOUDOU" .

 

Alignements entre des auteurs de Persée et IdRef

Contenu : Plus de 10 000 alignements entre Persée et IdRef. Des milliers d’autres seront bientôt générés, dans le cadre d’une fructueuse collaboration avec Persée. Les URIs qui identifient les auteurs Persée sont pour l’instant fictives, mais nos collègues Lyonnais travaillent à l’exposition de leur base sur le web de données.

Graphe : http://hub.abes.fr/persee/auteurs/align/idref

Exemple :

<http://data.persee.fr/person/10004#Person>	<http://www.w3.org/2002/07/owl#sameAs>	<http://www.idref.fr/068894449/id> .

 

Alignements entre auteurs Nature (NPG)

Contenu : Plus de 10 000 alignements entre auteurs Nature. Dans le dump RDF de Nature, les auteurs ne sont pas identifiés : si un même auteur a publié deux articles, il apparaîtra avec deux URIs différentes. Pour l’identifier, on peut soit l’aligner sur un référentiel extérieur (ce qu’on fait par ailleurs, dans le cadre de notre projet de recherche Qualinca), soit, à défaut, aligner entre elles les URIs sous lesquelles il est nommé au sein du jeu de données. C’est ce qui a été fait en exploitant l’email, absent du dump RDF mais présent dans les données XML ISTEX : si deux personnes ont le même email et des noms très proches, alors on considère que c’est la même personne. A terme, nous créerons des URIs pivot vers lesquelles pointeront toutes les URIs rapprochées. Pour l’instant, on ajoute des relations owl:sameAs entre chaque paire d’URIs, ce qui est plus bavard.

Graphe : http://ns.nature.com/graphs/contributors/align/email

Exemple :

<http://ns.nature.com/contributors/aaron-f-straight-ncb1899>    owl:sameAs <http://ns.nature.com/contributors/ns1:aaron-f-straight-nature10379> .

 

Alignements entre les auteurs Springer et IdRef

Contenu : Près de 20 000 alignements entre des auteurs d’ebooks (voire de chapitres) et des auteurs IdRef. D’autres alignements seront générés, soit par programme, soit par les catalogueurs du réseau Sudoc, notamment dans le cadre du dispositif CERCLES.

Graphe : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/personnes/idref

Exemple :

<http://hub.abes.fr/springerB/ebook/10904251/caofrederic>  owl#sameAs  <http://www.idref.fr/094231737/id> .

 

Alignements entre les documents Springer et RAMEAU

Contenu : Plus de 70 000 liens entre les documents Springer et les identifiants IdRef de RAMEAU, obtenus grâce à l’alignement entre le thesaurus d’indexation matière de Springer, LCSH et RAMEAU.

Graphe :
Liens les documents et le RAMEAU IdRef : http://hub.abes.fr/springer/ebooksLN2011/SPR_EBOOK_ALL_25DEC/rameauppn
Alignements entre le RAMEAU officiel (BnF) et le RAMEAU Idref : http://hub.abes.fr/rameau_avril2015/ppns
Alignements entre le thesaurus d’indexation matière de Springer, LCSH et RAMEAU : http://hub.abes.fr/theses/referentiel/concepts/springer/8janvier2016

Exemple :

<http://hub.abes.fr/springerB/ebook/0-387-97089-4/w>	dcterms:subject	<http://www.idref.fr/027239519/id> .

 

Alignement entre les domaines HAL et Dewey

Contenu : Alignement manuel entre les domaines HAL et la classification Dewey. Ces alignements de concepts sont toujours délicats. Ils mériteraient d’être revus et amendés de manière collaborative, d’autant qu’ils peuvent être utiles à beaucoup de collègues dans les bibliothèques et les laboratoires.
Depuis la fermeture du site dewey.info par OCLC, les URI Dewey sont en déshérence.

Graphe :
http://hub.abes.fr/ccsd/domaines/align/dewey

Exemple :

<https://hal.archives-ouvertes.fr/resource/domain/info.info-ai>	 skos:closeMatch  <http://dewey.info/class/006.3/> .

 

Alignement entre les structures de recherche de Paris 4 dans les référentiels RNSR, HAL et IdRef

Contenu : Alignement manuel.

Graphe :
http://hub.abes.fr/alignements/structures/rnsr/idref/ccsd

Exemple :

<https://hal.archives-ouvertes.fr/resource/structure/74682>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .
<https://hal.archives-ouvertes.fr/resource/structure/107600>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .
<http://www.idref.fr/031896596/id>  owl:sameAs  <http://data.enseignementsup-recherche.gouv.fr/rnsr/structure/200615326M> .

Un chantier « qualité » sur les données d’autorités

C’est un chantier modeste par le volume des notices concernées, mais important par ses impacts, que nous mettons ici en lumière.

Dans les notices d’autorités de la base Sudoc, les zones Unimarc 5XX permettent de faire des liens vers d’autres notices (lien de type « Voir aussi »). Sur un affichage public, cela se matérialise ainsi :

Notice d'autorité avec zones 5XX

Le bloc 5XX du format Unimarc Autorités prévoit 8 étiquettes différentes, chacune devant contenir un lien vers une notice d’autorité spécifique : l’étiquette 500 doit pointer  vers une notice d’autorité « Personne physique » (Tp), l’étiquette 510 vers une notice d’autorité « Collectivité » (Td), l’étiquette 515 vers une notice d’autorité « Nom géographique » (Tg), etc.

Le chantier a donc consisté dans un premier temps à vérifier ces liens, dans un second temps à rectifier l’étiquette lorsqu’elle avait été utilisée à mauvais escient.

Par exemple, dans toutes les notices où un lien en 550 pointait vers une notice autre qu’une « Autorité nom commun » (Td), il a fallu intervenir pour rétablir un catalogage conforme aux préconisations de l’Unimarc A (dans la notice liante et parfois dans la notice liée).

De tels liens erronés peuvent avoir de multiples sources : erreur de catalogage, mais aussi non répercussion de mises à jour effectuées par la BnF dans son catalogue sous la forme d’un changement de typage dans l’autorité liée.

Un exemple concret :

L’autorité Td Symbolisme dans la Bible est devenue Tu Bible — Symbolisme.

Pour des raisons techniques, la notice liée Td Lumières et ténèbres dans la Bible, mise à jour côté BnF, n’a pas été refournie au Sudoc qui a conservé une étiquette de lien 550 vers Bible — Symbolisme, alors qu’une étiquette 530 s’imposait désormais.

Il en a résulté un défaut d’affichage dans le Sudoc d’une part ; des anomalies dans les exports, bloquantes pour certains SIGB, d’autre part.

Ce chantier a concerné quelques centaines de notices d’autorité.

À l’échelle du catalogue Sudoc, c’est heureusement peu.

Il fallait pourtant le faire, pour la raison évoquée ci-dessus et au moins pour 3 autres, au-delà de l’intérêt pour le travail bien fait :

  1. les notices d’autorités jouissent désormais d’une grande visibilité, via l’application web IdRef  : elles doivent être impeccables ;
  2. elles sont alignées avec d’autres référentiels nationaux ou internationaux : nous nous devons d’exposer des données fiables ;
  3. elles sont exportables vers d’autres applications, dans d’autres formats, dont l’ABES ne pourrait contrôler l’affichage, s’il s’avérait erroné.

 

Une zone 309 pour coordonner le travail collectif sur la qualité des données Sudoc

Au moment du chargement de nouvelles notices ou à l’occasion d’un chantier de contrôle qualité, l’ABES peut être amenée à effectuer des modifications de masse pour améliorer ou corriger des notices. Hélas, tout n’est pas automatisable – surtout si on tient à conserver un certain niveau de qualité bibliographique. Une fois que les algorithmes ont parlé et atteint leurs limites, l’ABES passe le relais au réseau, qui possède la force de frappe et l’expertise humaine pour continuer le travail, ne serait-ce qu’en se concentrant sur l’essentiel ou le prioritaire.

Mais, précisément, qu’est-ce qui est essentiel ? Qu’est-ce qui est prioritaire ? Sur quelles notices faut-il que le réseau se mobilise ? Et sur quels points précis dans les notices ? Étant donné la taille de la base, le volume des entrées et la richesse des règles, chaque catalogueur, chaque service de catalogage peut se sentir perdu devant l’ampleur de la tâche. C’est pourquoi l’ABES souhaite structurer d’avantage l’organisation de cet immense travail collectif. Cette volonté se traduit aujourd’hui sous une forme très concrète : la zone 309…

309_en_chantier
Cette « note d’information interne au Sudoc » existait déjà, mais elle ne possédait qu’une sous-zone ($a) :

309 ##$aCORRIGER LE(S) CODE(S) DE FONCTION = 000 EN 7XX, L7XX et/ou E7XX. SUPPRIMER LA PRESENTE NOTE 309 UNE FOIS LA (LES) CORRECTION(S) EFFECTUEE(S)

Elle est désormais structurée, ce qui permet une meilleure exploitation.

309 et ToDoList

Ainsi, dans le cadre des travaux du hub de métadonnées sur les ebooks de droit international achetés dans le cadre d’ISTEX, certains traitements automatiques ont permis d’enrichir les données, notamment en ajoutant des liens aux autorités auteur. Quand le programme n’a pas su identifier la bonne autorité, une zone 309 a été injectée dans la notice bibliographique concernée, pour inciter les catalogueurs à poursuivre le travail et les guider.

309 ##$aLE(S) LIEN(S) AUTORITE AUTEUR RESTE(NT) A CREER. SUPPRIMER LA PRESENTE NOTE 309 UNE FOIS LA (LES) CORRECTION(S) EFFECTUEE(S)$bBRILL-RADI-LN$d2014-04-09 11:15:01.894

Dans la sous-zone $b, on trouvera l’identifiant du chantier ou du corpus auquel correspond cette zone de note. Grâce à cet identifiant précis, il est aisé d’effectuer des statistiques plus fines sur les chantiers qualité en cours, mais surtout de fournir aux catalogueurs la liste toujours à jour des notices à traiter. Pour accéder à cette liste, il suffit de se rendre à une adresse web ainsi construite :

http://www.sudoc.fr/services/chantier/ + {contenu de la $b}.

Ce qui donne, pour l’exemple précédent :

http://www.sudoc.fr/services/chantier/BRILL-RADI-LN.

A cette adresse, on récupère un fichier à ouvrir dans Excel : il s’agit d’un tableau qui liste toutes les notices à corriger, en précisant la correction à effectuer. En entête du tableau, quelques chiffres et pourcentages permettent de mesurer la progression du chantier, pour voir si on tient le bon bout… Pour des raisons de fond ou des raisons techniques, ces tableaux ne seront pas disponibles quand les 309 concerneront des chantiers qui touchent à des notices importées ou à un trop grand nombre de notices.

L’ABES propose. Le réseau dispose.

Enfin, dans certains cas, le programme a travaillé mais n’ose pas trancher. Pour reprendre l’exemple précédent, son cœur peut balancer entre deux autorités. Voire considérer que, même si une seule autorité est en lice, il serait imprudent de conclure aveuglément qu’il s’agit de la bonne. On trouvera alors en $c le(s) PPN que le programme suggère sans oser le(s) retenir. Cette liste de PPN se présente sous la forme d’une requête WinIBW :

309 ##$aLE(S) LIEN(S) AUTORITE AUTEUR RESTE(NT) A CREER. A TITRE INDICATIF, LE SYSTEME DE DETECTION AUTOMATIQUE SUGGERE PLUSIEURS PPN A DEPARTAGER. SUPPRIMER LA PRESENTE NOTE 309 UNE FOIS LA (LES) CORRECTION(S) EFFECTUEE(S)$bBRILL-RADI-LN$cche PPN1 ou PPN2$d2014-04-09 11:15:01.894

Il s’agit d’une aide à la décision pour le catalogueur, qui, s’il le souhaite, peut se contenter d’examiner les PPN proposés, sans s’attarder sur les autres PPN qu’une recherche sur le nom pourrait renvoyer.
Qu’il suive les suggestions du programme ou non, le catalogueur crée le lien manquant puis n’oublie pas de supprimer la 309 correspondante. La notice disparaît alors du tableau des notices à traiter pour tel chantier (sauf si cette notice contient une autre 309 pour ce même chantier).

Aller plus loin

Ce nouveau dispositif se veut très pragmatique. Il s’agit d’améliorer l’efficacité collective du réseau sans compliquer la vie des catalogueurs. On pourrait imaginer d’autres dispositifs et l’ABES n’exclut pas de proposer au réseau d’autres manières d’intervenir sur les données. D’avance, merci pour vos retours, vos suggestions et … votre chasse aux 309.

NB : les chantiers en cours sont listés dans la page du guide méthodologique qui documente la zone 309 : http://documentation.abes.fr/sudoc/formats/unmb/zones/309.htm.

Y. Nicolas