Alignement dans IdRef des contributeurs du catalogue éditeur de l’IFAO – Institut Français d‘Archéologie Orientale

Sous la tutelle du MESRI – Ministère de l’enseignement supérieur, de la recherche et de l’innovation, l’École française d’Athènes, l’École française de Rome, l’Institut français d‘archéologie orientale du Caire, l’École française d’Extrême Orient et la Casa de Velázquez sont régis par un décret commun depuis 2011. Dans les aires géographiques et les domaines scientifiques propres à chaque école, les cinq EFE – Écoles Françaises à l’Étranger ont pour mission de développer la recherche fondamentale sur le terrain et la formation à la recherche. Elles sont également maisons d’édition. C’est sous l’angle de ce pan d’activité qu’a été menée l’opération d’identification fiable et pérenne d’auteurs relatée dans ce billet.

Depuis 2015, les 5 Écoles françaises à l’étranger (EFE) ont lancé un projet de catalogue commun de leurs publications afin de favoriser leur visibilité à partir du site web des EFE et de répondre à des besoins communs de distribution. Pour construire ce catalogue commun, fédérant les 5 catalogues sous ONIX V3 et qui rassemblerait au total environ 10 000 contributeurs, il est apparu essentiel d’identifier de manière univoque et pérenne les personnes sous les mentions d’auteurs, et par là même aussi de désambigüiser les appellations homonymes – cas particulièrement courant dans les pays arabes.

Avec l’idée d’une méthodologie réplicable aux 4 autres EFE, il a été convenu que l’IFAO du Caire initie cette tâche en s’adressant à l’Abes pour l’aider à aligner les contributeurs IFAO avec le référentiel IdRef.

Une perspective plus globale encore est de pouvoir disposer à terme d’une identification pérenne de l’ensemble des acteurs de la recherche dans les EFE, qu’ils aient contribué aux publications (papier ou électroniques), aux bases de données documentaires en ligne, aux archives scientifiques ou aux travaux en cours.

Pourquoi IdRef ?

  • Parce que la majorité des contributeurs aux publications des EFE sont français et qu’IdRef est le réservoir de notices autorités noms de personnes qui propose la couverture la plus étendue relativement aux auteurs français.
  • Parce que les données présentes dans IdRef sont le fruit du travail des professionnels du signalement documentaire de niveau universitaire et par conséquent de très bonne qualité.
  • Parce qu’IdRef est un fichier ouvert, collaboratif et mutualisé dans lequel les bibliothèques des EFE produisent à la source, et que cela a pour corollaire d’assurer à l’opération sa participation à l’enrichissement du « pot commun ».
  • Parce que l’Abes propose un service dédié d’identification des personnes en faisant tourner un algorithme spécifique : développé en marge de Qualinca, cet outil d’identification automatisée à l’aide d’heuristiques prend appui sur les données d’autorité et bibliographiques liées du Sudoc.
  • Parce que l’Abes propose un service d’alignements inter-référentiels à travers le webservice idref2id, à partir d’un identifiant IdRef (ORCID, ISNI, VIAF, IdHAL, etc.).

Tests et ajustements : fourniture des données d’entrée à l’Abes

Chaque année, environ trente publications scientifiques – aussi bien revues que monographies –  sortent des presses de la maison d’édition de l’IFAO créée en 1889.

Dans un premier temps, le service informatique de l’IFAO a fourni à l’Abes à partir de son catalogue (MySQL/PHP) un corpus de près de 400 fichiers au format XML (schéma XML fourni par l’Abes) correspondant aux contributeurs des monographies de l’IFAO encore disponibles. Ce schéma comporte notamment la liste des collections dans lesquelles chaque auteur a contribué, ainsi que sa fourchette chronologique et ses co-contributeurs. Ces données sont extraites et consolidées depuis le catalogue général par des requêtes SQL.

Cet envoi a été précédé d’un nettoyage et dédoublonnage de la base de données locale, d’un enrichissement des métadonnées pour optimiser le fonctionnement du programme de l’Abes (notamment l’ajout des codes rôles UNIMARC), puis d’un test réalisé à partir de trois auteurs : un prolixe ; un moins prolixe et un troisième, égyptien, au nom translittéré- selon la norme DIN-31635 dite «Arabica» utilisée par le pôle éditorial de l’IFAO.

Le test a permis de souligner la nécessité d’un nettoyage de la zone « titre » dans le fichier XML, de résoudre un léger problème de mapping avec la norme ISO 233-2 de translittération pour les caractères arabes utilisée à la BnF et dans le Sudoc et, pour favoriser le dédoublonnage des titres non effectué sous XML, d’un envoi parallèle des contributions de chaque auteur sous .csv (une ligne par contribution).

Corpus « auteurs de monographies » : retour des données  enrichies de candidats IdRef

L’Abes limitant volontairement la fourniture d’alignements à ceux répondant à un taux de précision très élevé (résultats d’heuristiques fortes, seules ou combinées), le taux de couverture de 94 % obtenu a été une excellente nouvelle, sans pour autant être une surprise dans la mesure où la plupart des publications de l’IFAO sont déjà présentes dans le catalogue Sudoc.

L’Abes a renvoyé les résultats sous forme de fichier .xls enrichi de colonnes contenant des commentaires ou des informations pour aider l’IFAO à mieux identifier les auteurs, à créer une nouvelle autorité le cas échéant, et à intervenir de façon ciblée dans les notices pour les enrichir.

Les 6 % d’entrées non identifiées résultent soit d’informations non concordantes entre la source (catalogue IFAO) et la cible (IdRef), soit de l’absence pure et simple de notice dans IdRef :

  • 5% des notices ont été recherchées dans IdRef et Sudoc (recherche de notices bibliographiques sans lien à l’autorité dans WinIBW : exemple entrée Gomaa, Ahmed) 
  • 1% n’ont pas donné lieu à une proposition car absentes d’IdRef et du Sudoc 
  • quelques notices IdRef ont été enrichies d’informations complémentaires pour conforter une identification estimée seulement comme « probable »

Traitement manuel du reliquat

Cette phase de recherche manuelle prend le relais de la phase « machine » et le traitement du reliquat a pour objectif d’aboutir à l’aiguillage, sans doute possible, des auteurs dans l’une ou l’autre des catégories :

  • auteur présent dans IdRef : l’identification est menée à bien 
  • auteur absent dans IdRef : l’identification est assurée par création de la notice manquante.

Ce travail a été mené conjointement par le responsable informatique et le Correspondant Autorités IFAO auprès de l’Abes. Après vérifications, les 6 % du reliquat étaient bien dans le Sudoc. Au final, les 411 auteurs du corpus ont ainsi été intégralement identifiés et leurs identifiants intégrés au catalogue éditeur de l’IFAO, ce qui permet d’établir un rebond à partir du site vers la notice IdRef correspondante et de regrouper l’ensemble des publications  de chacun des auteurs

Parallèlement, le catalogue des publications IFAO a été modifié et affiche désormais l’IdRef des auteurs, ce qui permet de rebondir vers leur notice :

Corpus « auteurs d’articles »

En parallèle, le service informatique a préparé un second corpus constitué uniquement d’articles des deux principaux périodiques de l’IFAO, le Bulletin de l’IFAO et les Annales Islamologiques, généralement absents du Sudoc du fait de la rareté des dépouillements de périodiques et d’ouvrages collectifs.

Ce second envoi, effectué fin septembre 2019, comportait cette fois 982 auteurs d’articles d’égyptologie, d’archéologie égyptienne ou d’études arabes, parmi lesquels un nombre important d’auteurs égyptiens ayant écrit un article en arabe.

Comme prévisible, le taux de recouvrement est moins élevé que pour le premier envoi. Il faut distinguer cependant le taux de recouvrement des personnes « uniques », qui atteint 50,5 %, de celui des mentions d’auteurs (certains auteurs étant auteurs de plusieurs publications) qui s’élève à 64 %, ce qui apparait comme très satisfaisant. Le taux de fiabilité des alignements demeure donc élevé pour la quasi-totalité des alignements fournis bien que, dans quelques cas, il a été volontairement relâché pour donner lieu à des « propositions » dès lors que des facteurs de rapprochement existent sans pour autant constituer des éléments probants.

Pour 2% des entrées, les « non réponses » résultent de la non reconnaissance par l’algorithme de certains caractères (caractères non latins) et, comme pour le premier envoi, la recherche manuelle prend le relais de la machine. Une des sources d’identification utilisée alors par l’IFAO est le Who’s Who Egyptology, complété de Worldcat et du catalogue de la bibliothèque, enfin des informations disponibles au sein du pôle éditorial et dans différents services.

Création semi-automatisée dans IdRef

Une fois que l’IFAO aura déterminé, après recherches manuelles dans IdRef, le corpus définitif des entrées non identifiées (probablement plus de 400 auteurs), l’Abes se propose de les créer par lot plutôt qu’individuellement par le Correspondant Autorités. Si les champs extraits du catalogue sont suffisants pour la création des notices d’autorité manquantes, l‘IFAO s’engage à fournir des informations biographiques succinctes pour les auteurs ayant été en poste au Caire, et a minima de préciser le champ disciplinaire des autres auteurs : autant de données précieuses pour établir des notices d’autorité de qualité supérieure.

Suites immédiates et perspectives prochaines

Il a été convenu en interne que le responsable du pôle éditorial crée la fiche auteur dans la base de données locale gérant le catalogue des publications IFAO, et signale au Correspondant Autorités tout contributeur absent d’IdRef afin que celui-ci crée la notice dans le Sudoc (via IdRef ou WinIBW peu importe) et fournisse au pôle éditorial l’identifiant IdRef tant attendu. En retour, le Correspondant Autorités a accès à cette base Auteurs afin d’en récupérer des éléments biographiques l’assistant à désambiguïser les auteurs sur IdRef.

Avec l’avancée du déploiement aux autres catalogues, le flux ONIX du catalogue IFAO contenant les IdRef permettra de désambiguïser les auteurs communs (élément ONIX : Contributor/NameIdentifier/IDValue) et cette vérification sera implémentée dans l’agrégateur développé pour le portail des EFE. 

Les prochaines phases prévues devraient étendre le travail de prospection en 2020 aux revues Bulletin de la céramologie égyptienne et Bulletin critique des Annales islamologiques, à l’occasion de leur versement dans Persée, pour un total de près 1 000 auteurs.

En parallèle, l’IFAO a débuté l’identification des auteurs d’archives scientifiques, essentiellement depuis 1971, date de création du service archives et collections à l’IFAO : carnets de fouilles manuscrits, photographies, plans (…), soit un corpus d’environ 350 auteurs dont, jusqu’à présent 160 n’ont pas été identifiés dans IdRef. En amont, il procède également à l’identification des chercheurs contribuant à ses opérations scientifiques dès leur phase de démarrage, et donc auteurs futurs d’articles ou de monographies.

Enfin, est à l’étude l’interfaçage de la base d’auteurs de l’IFAO avec IdRef (création de notices, contrôles d’intégrité) grâce aux APIs IdRef. A suivre donc !

Agnès Macquin, directrice de la bibliothèque de l’IFAO

Christian Gaubert, responsable du service informatique de l’IFAO

Anna-Maria Papanikitas, correspondante Autorités IFAO

 

 

Continuer la lecture Alignement dans IdRef des contributeurs du catalogue éditeur de l’IFAO – Institut Français d‘Archéologie Orientale

De l’accord au contrat : le groupement de commandes Elsevier à la loupe

En complément du billet Fil’Abes au sujet de l’accord Elsevier 2019-2022 (Complete Freedom Collection (CFC), Bibliothèque médicale française (BMF) et Cell Press), les équipes de l’Abes proposent une analyse plus poussée de certains aspects techniques du contrat.

Tout d’abord, comme pour les autres groupements portés par l’Agence, le rôle de l’Abes en tant que coordonnateur du groupement de commandes Elsevier, inclut plusieurs volets. Côté établissements, le plus visible reste le volet financier – rédaction des conventions, calendrier de facturation, relances… – mais il s’agit là seulement de la pointe de l’iceberg.

En effet, les équipes de l’Abes participent, en collaboration avec le consortium Couperin.org, aux discussions menées avec l’éditeur ; en véritable cheville ouvrière, elles gèrent de nombreux aspects de la relation avec l’éditeur, notamment pour retranscrire en clauses contractuelles les principes sur lesquels les négociateurs et l’éditeur sont tombés d’accord et pour assurer, sur toute la durée du groupement, l’exécution du marché.

Continuer la lecture De l’accord au contrat : le groupement de commandes Elsevier à la loupe

SudocToolkit, une application pour faciliter l’utilisation des web services de l’Abes

Cet article est proposé par Géraldine Geoffroy (SCD Université Nice Sophia Antipolis) en tant que porteuse de l’application SudocToolkit,  première contribution partagée via la toute récente communauté Github « abes-esr« . Qu’elle en soit ici vivement remerciée !

Lors d’une session parallèle des dernières Journées Abes (2019), l’équipe informatique de l’Abes a présenté son projet de co-construction d’applications, basé sur l’ouverture des codes sources et le respect des méthodes de l’open source pour le développement et la diffusion des applications, web services, prototypes etc… C’est un changement de braquet notable sur le chemin de la collaboration intra-réseau… et maintenant que l’Abes a fait le premier pas, c’est à nous, membres des réseaux – “bibliothécaires-systèmes” des BU (pour reprendre la terminologie de l’Abes) – d’emprunter le même chemin en partageant, autant que faire se peut, dans un espace commun les codes des applications que nous développons autour des données du Sudoc (et d’Idref, et de theses.fr…), dans et pour nos établissements respectifs.

C’est chose faite pour le SCD de Nice avec la création d’une team azur-scd dans l’espace Github abes-esr, et le transfert d’une première application répondant au nom de SudocToolkit.

Continuer la lecture SudocToolkit, une application pour faciliter l’utilisation des web services de l’Abes

L’Abes soutient la recherche en humanités numériques (2) : retours sur une coopération fructueuse avec le LARHRA

NB – Ce billet prolonge et détaille le billet FilAbes publié à la même date.

Le 1er juillet 2019, le conseil d’administration de l’Abes a validé la convention de coopération entre l’Abes et le LARHRA – Laboratoire de Recherche Historique Rhône-Alpes (UMR CNRS 5190) situé à Lyon et à Grenoble.

Cette convention formalise une coopération déjà ancienne qui, depuis 2014, vise à promouvoir la réflexion et les actions en faveur de l’interopérabilité des données. Ainsi du projet  Siprojuris – Système d’information des professeurs de Droit (1804-1950), dans lequel les éléments descriptifs des professeurs de droit référencés ont été nativement enrichis par un identifiant IdRef, ce qui permet d’accéder, par rebond, aux références bibliographiques associées dans le Sudoc, comme l’illustre la page ci-dessous

 

Continuer la lecture L’Abes soutient la recherche en humanités numériques (2) : retours sur une coopération fructueuse avec le LARHRA

Paprika, une interface pour des liens aux autorités de qualité

Lors des Journées Abes 2018, certains participants ont pu assister à une démonstration de Paprika, interface dédiée à la visualisation, la création et la correction de liens d’autorité. Cette interface reprend les principes du démonstrateur présenté lors des Journées 2017.

.Pour que chacun puisse prendre connaissance de ce nouvel outil, l’équipe a produit deux petites vidéos qui donnent un aperçu rapide des fonctionnalités de Paprika. Précisons qu’elles ont été présentées lors du dernier congrès ELAG.

Continuer la lecture Paprika, une interface pour des liens aux autorités de qualité

Univ-Droit et IdRef : une coopération ambitieuse et réciproque

Retours sur une coopération fructueuse entre  l’équipe IdRef de l’Abes et l’équipe d’Univ-Droit dans le cadre de l’UNJF – Université Numérique Juridique Francophone, dont Gilles Dumont, professeur de droit public, est le directeur.

Le portail Univ-Droit

univ-droit_logoUniv-Droit, site dédié au Droit et aux Sciences Politiques, porté par la Conférence des doyens des Facultés de droit, est un outil incontournable pour aborder le champ juridique national. On y trouve des informations sur l’ensemble des formations juridiques universitaires, des structures de recherche et des instances professionnelles ainsi qu’une offre conséquente de ressources pédagogiques (cours en ligne).

Continuer la lecture Univ-Droit et IdRef : une coopération ambitieuse et réciproque

Déploiement d’OATAO dans IdRef : une nouvelle visibilité sur le web

logo_oatao      idrefOSM

OATAO – l’archive institutionnelle et mutualisée des établissements Toulouse INP (Institut National Polytechnique de Toulouse), ENVT (École Nationale Vétérinaire de Toulouse), ISAE-SUPAERO (Institut Supérieur de l’Aéronautique et de l’Espace) et ENSFEA (École Nationale Supérieure de Formation de l’Enseignement Agricole) – et IdRef – application qui permet d’attribuer des identifiants fiables et pérennes, notamment aux membres de la sphère ESR – viennent de réussir leur connexion.  Autrement dit, les dépôts dans OATAO s’accompagnent désormais d’un liage des auteurs à leur autorité dans IdRef ; corrélativement, le cercle des contributeurs IdRef s’élargit pour accueillir en production une Archive Institutionnelle, une première !

Continuer la lecture Déploiement d’OATAO dans IdRef : une nouvelle visibilité sur le web

Quand ScanR et IdRef s’associent pour identifier les acteurs de la recherche et de l’innovation

ScanR, moteur de la Recherche et de l’Innovation, outil désormais bien connu dans la sphère ESR, propose à la réutilisation de nombreux jeux de données sous licence ouverte. Ces données, également accessibles via la plateforme OpenData du MESRI sont synchronisées avec data.gouv.fr, plateforme des données publiques françaises mis à disposition par Etalab.

S’inscrivant dans la logique d’ouverture portée par ScanR, l’Abes a utilisé les données IdRef et ses algorithmes d’identification afin de lier 3 jeux de données exposés et utilisés dans ScanR via son référentiel auteurs.

Continuer la lecture Quand ScanR et IdRef s’associent pour identifier les acteurs de la recherche et de l’innovation

Autorités vs référentiels : 3 questions aux experts de l’Abes

arabesques85Autorités, identifiants, entités : L’expansion des référentiels. Tel est le titre du dossier de la revue Arabesques n°85 consacré aux référentiels d’autorités.

Le volume et la diversité des métadonnées en circulation dans les systèmes d’information – de l’enseignement supérieur, de la recherche, de la culture-  exigent de repenser le rôle des référentiels d’autorité. Considérés comme données de confiance au service du développement de l’open data et du web sémantique, ils constituent un capital précieux, une garantie d’indépendance, tout en interrogeant en profondeur les pratiques catalographiques classiques.

Continuer la lecture Autorités vs référentiels : 3 questions aux experts de l’Abes

Mettre nos données en réseau – un démonstrateur. [4h] La fédération a de l’avenir

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Une des forces de SPARQL est d’être non seulement un langage de requêtes, comme SQL, mais aussi un protocole, s’appuyant sur des requêtes http. Un sparql endpoint fonctionne donc comme un web service. Mais il y a mieux : comme il est standard, il permet à un endpoint d’en interroger n’importe quel autre, distant. A condition, bien entendu, que chacun d’eux ait été configuré pour cela. Cet appel distant est introduit par une sous requête SERVICE {…}

Continuer la lecture Mettre nos données en réseau – un démonstrateur. [4h] La fédération a de l’avenir
Aller au contenu principal