Déploiement d’OATAO dans IdRef : une nouvelle visibilité sur le web

logo_oatao      idrefOSM

OATAO – l’archive institutionnelle et mutualisée des établissements Toulouse INP (Institut National Polytechnique de Toulouse), ENVT (École Nationale Vétérinaire de Toulouse), ISAE-SUPAERO (Institut Supérieur de l’Aéronautique et de l’Espace) et ENSFEA (École Nationale Supérieure de Formation de l’Enseignement Agricole) – et IdRef – application qui permet d’attribuer des identifiants fiables et pérennes, notamment aux membres de la sphère ESR – viennent de réussir leur connexion.  Autrement dit, les dépôts dans OATAO s’accompagnent désormais d’un liage des auteurs à leur autorité dans IdRef ; corrélativement, le cercle des contributeurs IdRef s’élargit pour accueillir en production une Archive Institutionnelle, une première !

Côté IdRef, les notices des quelques 500 auteurs de l’archive institutionnelle OATAO sont désormais enrichies d’un encart bibliographique supplémentaire. Deux modalités d’accès à leurs dépôts sont proposées dans les notices IdRef des auteurs concernés : accès par source dans la page dynamique et accès par rôle dans la page pérenne.

Ainsi, dans la notice « dynamique » d’IdRef (termes de recherche : « Merlina, Georges »), on peut consulter toutes les ressources émanant de l’archive pour cet auteur :

image1

De la même façon, dans la notice « pérenne » d’IdRef https://www.idref.fr/081940807, on accède à l’ensemble des ressources liées à cette personne en fonction de son rôle dans le dépôt, en l’occurrence auteur :image2

Dans les deux cas, on peut rebondir sur le full text des articles en cliquant sur l’identifiant numérique de la ressource. Toute la production de recherche des 4 établissements toulousains est ainsi propagée sur le web via IdRef.

De plus, dans l’application OATAO, il est désormais possible d’effectuer une recherche à l’aide d’un identifiant IdRef. On obtient ainsi pour résultat toutes les ressources liées à un auteur :

Image OATAO 1

La boucle est bouclée puisque sur la page d’une publication, le rebond est possible depuis les auteurs alignés vers leur notice IdRef correspondante via l’icone idoine.Image OATAO 2

Autre exposition, les identifiants IdRef seront poussés dans les exports notamment via le serveur OAI-PMH. Enfin, l’utilité de l’index des identifiants IdRef -index nouvellement créé et dédié aux gestionnaires OATAO, va au-delà puisqu’il permettra de proposer un index limité aux chercheurs des 4 établissements, demande récurrente des instances d’OATAO.

Workflow OATAO de connexion à IdRef

Pour initialiser l’interconnexion des bases, OATAO a eu recours au service d’identification des Personnes proposé par l’Abes. Les algorithmes d’identification ont une nouvelle fois rendu un fier service afin d’aligner les auteurs OATAO présents dans plus de 3 000 articles déjà en base.

  • Signalement des métadonnées d’un article : liste des auteurs

image5

  • Interrogation du moteur Solr d’IdRef :

image6

  • Si la requête SolR ne remonte pas de résultat, on bascule sur l’iframe d’IdRef :

image7

  • Dans IdRef, on retrouve alors la possibilité de « lier une notice » existante ou de créer une notice :

Image8

Retour dans l’interface de dépôt, l’identifiant Idref a été rapatrié dans la colonne « ppn » : les 2 auteurs sont alignés au sein des 2 applications.

image9

Éléments de politique documentaire

Côté politique documentaire, le recours aux autorités lors du dépôt d’un article est désormais une obligation pour les bibliothécaires-administrateurs de l’archive sur le périmètre des auteurs OATAO. Cette évolution, facilitée par la fluidité de l’interconnexion à IdRef, n’en représente pas moins une charge de travail supplémentaire. Si le jeu de l’interopérabilité en vaut la chandelle, il s’agira de mesurer plus finement dans les mois à venir l’impact sur le temps de traitement d’un dépôt dans l’archive, des nécessaires vérifications dans IdRef pour être sûr de lier à la bonne autorité ainsi que des éventuelles créations de notices d’autorité.

Par chance, l’équipe d’administrateurs OATAO peut compter sur l’aide du Correspondant Autorités de l’INP, qui œuvre depuis plusieurs années dans l’archive. Si le rappel des consignes et le traitement des anomalies (ex : doublons) ont augmenté sa charge de travail, sa « casquette » au sein de l’équipe est également plus affirmée et cette expertise est un plus au quotidien pour toute l’équipe. De plus, les cas d’investigation avancée sont l’occasion de « reprendre » contact avec les chercheurs afin d’assurer des attributions bibliographiques ou des informations dans l’autorité.

Autre heureuse perspective : IdRef offre une fonctionnalité de pré-remplissage des notices d’autorité dont OATAO peut escompter un gain important pour fluidifier son workflow. Déjà activée dans STAR pour la création des notices de docteurs, OATAO pourra ainsi pousser des données bibliographiques de l’article en traitement pour éviter aux administrateurs de ressaisir des informations déjà enregistrées dans l’archive.

Et plus loin encore, les chercheurs-déposants pourront-ils aussi se lier à leur notice ? Les auteurs extérieurs se verront-ils également liés ? A suivre !

D’ici là, un grand merci à Jean-Marie Le Bechec et à Yann Sérot, pour une coopération agréablement et rondement menée.

François Mistral, responsable IdRef

Si vous êtes intéressé par ce service pour votre Archive institutionnelle, n’hésitez pas à contacter : idref@abes.fr

 

 

 

Publicités

Quand ScanR et IdRef s’associent pour identifier les acteurs de la recherche et de l’innovation

ScanR, moteur de la Recherche et de l’Innovation, outil désormais bien connu dans la sphère ESR, propose à la réutilisation de nombreux jeux de données sous licence ouverte. Ces données, également accessibles via la plateforme OpenData du MESRI sont synchronisées avec data.gouv.fr, plateforme des données publiques françaises mis à disposition par Etalab.

 

S’inscrivant dans la logique d’ouverture portée par ScanR, l’Abes a utilisé les données IdRef et ses algorithmes d’identification afin de lier 3 jeux de données exposés et utilisés dans ScanR via son référentiel auteurs.

 

Lauréat-e-s du trophée « Les Étoiles de l’Europe »

Sur 48 entrées, 42 personnes (soit 87, 5 %) ont été identifiées de façon certaine La recherche n’a pas été poussée plus avant pour les 6 personnes manquantes, les résultats fournis par l’algorithme étant estimés satisfaisant. Les identifiants sont disponibles dans le jeu de données.

Finalistes et lauréats du concours « Ma Thèse en 180 secondes »

Sur 71 entrées, seulement 13 (soit 18, 3%) ont été identifiés en tant que « thèses soutenues ». Un taux de rappel très faible qui s’explique  du fait du délai de signalement des thèses (360 jours en moyenne). En effet, vérification faite de la présence des données dans theses.fr,  la très grande majorité d’entre elles sont effectivement signalées mais en tant que « thèses en préparation ».

Membres de l’Institut Universitaire de France (IUF)

Ce corpus, dont l’historique remonte à 1991, possède le volume le plus conséquent : après dédoublonnage, les 2041 entrées renvoient à 1 700 personnes distinctes. Les opérations d’alignement comportent 2 dimensions complémentaires :

  • la couverture (ou taux de rappel) : toutes les personnes ont été identifiées, avec une fourniture de 1 700 identifiants IdRef distincts. La couverture pour ce corpus est donc totale. Les membres de l’IUF figurent bien tous dans IdRef.
  • la fiabilité  (ou taux de précision) : l’identification se doit d’être évaluée, notre parti pris étant de fournir des identifications à la fiabilité très élevée, ce que dénote le choix des algorithmes utilisés.

D’un point de vue méthodologique, le programme de liage a confronté les données du jeu de données en entrée avec le contenu des notices d’autorité IdRef, enrichies du contenu des notices bibliographiques Sudoc liées. Plusieurs heuristiques ont été exploitées :

  • cocontrib : si deux personnes ont des noms très proches et des co-contributeurs aux noms très proches
  • collectivités + Dewey : si deux personnes ont des noms identiques et sont associées à une même collectivité (laboratoire ou université) et que la thématique de recherche correspond à un indice Dewey connu pour la personne
  • laboratoire : si deux personnes ont des noms identiques et sont associés à un même laboratoire
  • université : si deux personnes ont des noms identiques et sont associées à une même université

Précisions que, bien qu’absente de cette fourniture,  l’heuristique Unica est également régulièrement utilisée : si deux personnes ont des noms identiques et qu’il n’y a aucune autre autorité candidate dont le nom est approchant, on peut conclure qu’il s’agit de la même personne.

Tableau de ventilation des matchs par heuristique

Heuristique                     Nombre de match
 Cocontrib                           782
 Collectivé+Dewey                    184
 Laboratoire                         248
 Université                          381
 Vérifié                             446
 Total général                      2041

A l’aune des évaluations précédemment réalisées, on sait que Cocontrib possède un taux de précision moyen de 98% (estimé supérieur à un catalogage « pressé »). Pour les heuristiques associant des collectivités, le corpus IUF a servi de premier test. A défaut d’une évaluation systématique, les sondages réalisés – dont témoignent les matchs en statut « vérifié », nous permettent d’accorder une confiance de niveau « très élevé » à Collectivités + Dewey et Laboratoire, et une confiance de niveau « élevée » à Université.

Au vu de ces règles, chaque réutilisateur peut déterminer son propre seuil de confiance. Si le risque d’erreur existe, dans le cas présent avec le corpus IUF, de façon très concrète, les données fournies sont considérées comme fiables par l’Abes. Elles seront donc intégrées au jeu de données sur les IUF lors de sa prochaine actualisation.

Pour conclure la relation de cette fructueuse coopération associant l’équipe du Département des outils d’aide à la décision du MESRI et l’Abes, il nous semble important de mettre en exergue deux bénéfices en particulier :

  • l’enrichissement des données publiques
  • la démonstration que l’ouverture des données à tous contribue à améliorer leur qualité – ici leur interopérabilité – grâce à une identification fiable et pérenne !

François Mistral, pour l’équipe IdRef

Remerciements à l’équipe du Département des outils d’aide à la décision du MESRI