Alignement dans IdRef des contributeurs du catalogue éditeur de l’IFAO – Institut Français d‘Archéologie Orientale

Sous la tutelle du MESRI – Ministère de l’enseignement supérieur, de la recherche et de l’innovation, l’École française d’Athènes, l’École française de Rome, l’Institut français d‘archéologie orientale du Caire, l’École française d’Extrême Orient et la Casa de Velázquez sont régis par un décret commun depuis 2011. Dans les aires géographiques et les domaines scientifiques propres à chaque école, les cinq EFE – Écoles Françaises à l’Étranger ont pour mission de développer la recherche fondamentale sur le terrain et la formation à la recherche. Elles sont également maisons d’édition. C’est sous l’angle de ce pan d’activité qu’a été menée l’opération d’identification fiable et pérenne d’auteurs relatée dans ce billet.

Depuis 2015, les 5 Écoles françaises à l’étranger (EFE) ont lancé un projet de catalogue commun de leurs publications afin de favoriser leur visibilité à partir du site web des EFE et de répondre à des besoins communs de distribution. Pour construire ce catalogue commun, fédérant les 5 catalogues sous ONIX V3 et qui rassemblerait au total environ 10 000 contributeurs, il est apparu essentiel d’identifier de manière univoque et pérenne les personnes sous les mentions d’auteurs, et par là même aussi de désambigüiser les appellations homonymes – cas particulièrement courant dans les pays arabes.

Avec l’idée d’une méthodologie réplicable aux 4 autres EFE, il a été convenu que l’IFAO du Caire initie cette tâche en s’adressant à l’Abes pour l’aider à aligner les contributeurs IFAO avec le référentiel IdRef.

Une perspective plus globale encore est de pouvoir disposer à terme d’une identification pérenne de l’ensemble des acteurs de la recherche dans les EFE, qu’ils aient contribué aux publications (papier ou électroniques), aux bases de données documentaires en ligne, aux archives scientifiques ou aux travaux en cours.

Pourquoi IdRef ?

  • Parce que la majorité des contributeurs aux publications des EFE sont français et qu’IdRef est le réservoir de notices autorités noms de personnes qui propose la couverture la plus étendue relativement aux auteurs français.
  • Parce que les données présentes dans IdRef sont le fruit du travail des professionnels du signalement documentaire de niveau universitaire et par conséquent de très bonne qualité.
  • Parce qu’IdRef est un fichier ouvert, collaboratif et mutualisé dans lequel les bibliothèques des EFE produisent à la source, et que cela a pour corollaire d’assurer à l’opération sa participation à l’enrichissement du « pot commun ».
  • Parce que l’Abes propose un service dédié d’identification des personnes en faisant tourner un algorithme spécifique : développé en marge de Qualinca, cet outil d’identification automatisée à l’aide d’heuristiques prend appui sur les données d’autorité et bibliographiques liées du Sudoc.
  • Parce que l’Abes propose un service d’alignements inter-référentiels à travers le webservice idref2id, à partir d’un identifiant IdRef (ORCID, ISNI, VIAF, IdHAL, etc.).

Tests et ajustements : fourniture des données d’entrée à l’Abes

Chaque année, environ trente publications scientifiques – aussi bien revues que monographies –  sortent des presses de la maison d’édition de l’IFAO créée en 1889.

Dans un premier temps, le service informatique de l’IFAO a fourni à l’Abes à partir de son catalogue (MySQL/PHP) un corpus de près de 400 fichiers au format XML (schéma XML fourni par l’Abes) correspondant aux contributeurs des monographies de l’IFAO encore disponibles. Ce schéma comporte notamment la liste des collections dans lesquelles chaque auteur a contribué, ainsi que sa fourchette chronologique et ses co-contributeurs. Ces données sont extraites et consolidées depuis le catalogue général par des requêtes SQL.

Cet envoi a été précédé d’un nettoyage et dédoublonnage de la base de données locale, d’un enrichissement des métadonnées pour optimiser le fonctionnement du programme de l’Abes (notamment l’ajout des codes rôles UNIMARC), puis d’un test réalisé à partir de trois auteurs : un prolixe ; un moins prolixe et un troisième, égyptien, au nom translittéré- selon la norme DIN-31635 dite «Arabica» utilisée par le pôle éditorial de l’IFAO.

Le test a permis de souligner la nécessité d’un nettoyage de la zone « titre » dans le fichier XML, de résoudre un léger problème de mapping avec la norme ISO 233-2 de translittération pour les caractères arabes utilisée à la BnF et dans le Sudoc et, pour favoriser le dédoublonnage des titres non effectué sous XML, d’un envoi parallèle des contributions de chaque auteur sous .csv (une ligne par contribution).

Corpus « auteurs de monographies » : retour des données  enrichies de candidats IdRef

L’Abes limitant volontairement la fourniture d’alignements à ceux répondant à un taux de précision très élevé (résultats d’heuristiques fortes, seules ou combinées), le taux de couverture de 94 % obtenu a été une excellente nouvelle, sans pour autant être une surprise dans la mesure où la plupart des publications de l’IFAO sont déjà présentes dans le catalogue Sudoc.

L’Abes a renvoyé les résultats sous forme de fichier .xls enrichi de colonnes contenant des commentaires ou des informations pour aider l’IFAO à mieux identifier les auteurs, à créer une nouvelle autorité le cas échéant, et à intervenir de façon ciblée dans les notices pour les enrichir.

Les 6 % d’entrées non identifiées résultent soit d’informations non concordantes entre la source (catalogue IFAO) et la cible (IdRef), soit de l’absence pure et simple de notice dans IdRef :

  • 5% des notices ont été recherchées dans IdRef et Sudoc (recherche de notices bibliographiques sans lien à l’autorité dans WinIBW : exemple entrée Gomaa, Ahmed) 
  • 1% n’ont pas donné lieu à une proposition car absentes d’IdRef et du Sudoc 
  • quelques notices IdRef ont été enrichies d’informations complémentaires pour conforter une identification estimée seulement comme « probable »

Traitement manuel du reliquat

Cette phase de recherche manuelle prend le relais de la phase « machine » et le traitement du reliquat a pour objectif d’aboutir à l’aiguillage, sans doute possible, des auteurs dans l’une ou l’autre des catégories :

  • auteur présent dans IdRef : l’identification est menée à bien 
  • auteur absent dans IdRef : l’identification est assurée par création de la notice manquante.

Ce travail a été mené conjointement par le responsable informatique et le Correspondant Autorités IFAO auprès de l’Abes. Après vérifications, les 6 % du reliquat étaient bien dans le Sudoc. Au final, les 411 auteurs du corpus ont ainsi été intégralement identifiés et leurs identifiants intégrés au catalogue éditeur de l’IFAO, ce qui permet d’établir un rebond à partir du site vers la notice IdRef correspondante et de regrouper l’ensemble des publications  de chacun des auteurs

Parallèlement, le catalogue des publications IFAO a été modifié et affiche désormais l’IdRef des auteurs, ce qui permet de rebondir vers leur notice :

Corpus « auteurs d’articles »

En parallèle, le service informatique a préparé un second corpus constitué uniquement d’articles des deux principaux périodiques de l’IFAO, le Bulletin de l’IFAO et les Annales Islamologiques, généralement absents du Sudoc du fait de la rareté des dépouillements de périodiques et d’ouvrages collectifs.

Ce second envoi, effectué fin septembre 2019, comportait cette fois 982 auteurs d’articles d’égyptologie, d’archéologie égyptienne ou d’études arabes, parmi lesquels un nombre important d’auteurs égyptiens ayant écrit un article en arabe.

Comme prévisible, le taux de recouvrement est moins élevé que pour le premier envoi. Il faut distinguer cependant le taux de recouvrement des personnes « uniques », qui atteint 50,5 %, de celui des mentions d’auteurs (certains auteurs étant auteurs de plusieurs publications) qui s’élève à 64 %, ce qui apparait comme très satisfaisant. Le taux de fiabilité des alignements demeure donc élevé pour la quasi-totalité des alignements fournis bien que, dans quelques cas, il a été volontairement relâché pour donner lieu à des « propositions » dès lors que des facteurs de rapprochement existent sans pour autant constituer des éléments probants.

Pour 2% des entrées, les « non réponses » résultent de la non reconnaissance par l’algorithme de certains caractères (caractères non latins) et, comme pour le premier envoi, la recherche manuelle prend le relais de la machine. Une des sources d’identification utilisée alors par l’IFAO est le Who’s Who Egyptology, complété de Worldcat et du catalogue de la bibliothèque, enfin des informations disponibles au sein du pôle éditorial et dans différents services.

Création semi-automatisée dans IdRef

Une fois que l’IFAO aura déterminé, après recherches manuelles dans IdRef, le corpus définitif des entrées non identifiées (probablement plus de 400 auteurs), l’Abes se propose de les créer par lot plutôt qu’individuellement par le Correspondant Autorités. Si les champs extraits du catalogue sont suffisants pour la création des notices d’autorité manquantes, l‘IFAO s’engage à fournir des informations biographiques succinctes pour les auteurs ayant été en poste au Caire, et a minima de préciser le champ disciplinaire des autres auteurs : autant de données précieuses pour établir des notices d’autorité de qualité supérieure.

Suites immédiates et perspectives prochaines

Il a été convenu en interne que le responsable du pôle éditorial crée la fiche auteur dans la base de données locale gérant le catalogue des publications IFAO, et signale au Correspondant Autorités tout contributeur absent d’IdRef afin que celui-ci crée la notice dans le Sudoc (via IdRef ou WinIBW peu importe) et fournisse au pôle éditorial l’identifiant IdRef tant attendu. En retour, le Correspondant Autorités a accès à cette base Auteurs afin d’en récupérer des éléments biographiques l’assistant à désambiguïser les auteurs sur IdRef.

Avec l’avancée du déploiement aux autres catalogues, le flux ONIX du catalogue IFAO contenant les IdRef permettra de désambiguïser les auteurs communs (élément ONIX : Contributor/NameIdentifier/IDValue) et cette vérification sera implémentée dans l’agrégateur développé pour le portail des EFE. 

Les prochaines phases prévues devraient étendre le travail de prospection en 2020 aux revues Bulletin de la céramologie égyptienne et Bulletin critique des Annales islamologiques, à l’occasion de leur versement dans Persée, pour un total de près 1 000 auteurs.

En parallèle, l’IFAO a débuté l’identification des auteurs d’archives scientifiques, essentiellement depuis 1971, date de création du service archives et collections à l’IFAO : carnets de fouilles manuscrits, photographies, plans (…), soit un corpus d’environ 350 auteurs dont, jusqu’à présent 160 n’ont pas été identifiés dans IdRef. En amont, il procède également à l’identification des chercheurs contribuant à ses opérations scientifiques dès leur phase de démarrage, et donc auteurs futurs d’articles ou de monographies.

Enfin, est à l’étude l’interfaçage de la base d’auteurs de l’IFAO avec IdRef (création de notices, contrôles d’intégrité) grâce aux APIs IdRef. A suivre donc !

Agnès Macquin, directrice de la bibliothèque de l’IFAO

Christian Gaubert, responsable du service informatique de l’IFAO

Anna-Maria Papanikitas, correspondante Autorités IFAO

 

 

Continuer la lecture

De l’accord au contrat : le groupement de commandes Elsevier à la loupe

En complément du billet Fil’Abes au sujet de l’accord Elsevier 2019-2022 (Complete Freedom Collection (CFC), Bibliothèque médicale française (BMF) et Cell Press), les équipes de l’Abes proposent une analyse plus poussée de certains aspects techniques du contrat.

Tout d’abord, comme pour les autres groupements portés par l’Agence, le rôle de l’Abes en tant que coordonnateur du groupement de commandes Elsevier, inclut plusieurs volets. Côté établissements, le plus visible reste le volet financier – rédaction des conventions, calendrier de facturation, relances… – mais il s’agit là seulement de la pointe de l’iceberg.

En effet, les équipes de l’Abes participent, en collaboration avec le consortium Couperin.org, aux discussions menées avec l’éditeur ; en véritable cheville ouvrière, elles gèrent de nombreux aspects de la relation avec l’éditeur, notamment pour retranscrire en clauses contractuelles les principes sur lesquels les négociateurs et l’éditeur sont tombés d’accord et pour assurer, sur toute la durée du groupement, l’exécution du marché.

Continuer la lecture

SudocToolkit, une application pour faciliter l’utilisation des web services de l’Abes

Cet article est proposé par Géraldine Geoffroy (SCD Université Nice Sophia Antipolis) en tant que porteuse de l’application SudocToolkit,  première contribution partagée via la toute récente communauté Github « abes-esr« . Qu’elle en soit ici vivement remerciée !

Lors d’une session parallèle des dernières Journées Abes (2019), l’équipe informatique de l’Abes a présenté son projet de co-construction d’applications, basé sur l’ouverture des codes sources et le respect des méthodes de l’open source pour le développement et la diffusion des applications, web services, prototypes etc… C’est un changement de braquet notable sur le chemin de la collaboration intra-réseau… et maintenant que l’Abes a fait le premier pas, c’est à nous, membres des réseaux – “bibliothécaires-systèmes” des BU (pour reprendre la terminologie de l’Abes) – d’emprunter le même chemin en partageant, autant que faire se peut, dans un espace commun les codes des applications que nous développons autour des données du Sudoc (et d’Idref, et de theses.fr…), dans et pour nos établissements respectifs.

C’est chose faite pour le SCD de Nice avec la création d’une team azur-scd dans l’espace Github abes-esr, et le transfert d’une première application répondant au nom de SudocToolkit.

Continuer la lecture

L’Abes soutient la recherche en humanités numériques (2) : retours sur une coopération fructueuse avec le LARHRA

NB – Ce billet prolonge et détaille le billet FilAbes publié à la même date.

Le 1er juillet 2019, le conseil d’administration de l’Abes a validé la convention de coopération entre l’Abes et le LARHRA – Laboratoire de Recherche Historique Rhône-Alpes (UMR CNRS 5190) situé à Lyon et à Grenoble.

Cette convention formalise une coopération déjà ancienne qui, depuis 2014, vise à promouvoir la réflexion et les actions en faveur de l’interopérabilité des données. Ainsi du projet  Siprojuris – Système d’information des professeurs de Droit (1804-1950), dans lequel les éléments descriptifs des professeurs de droit référencés ont été nativement enrichis par un identifiant IdRef, ce qui permet d’accéder, par rebond, aux références bibliographiques associées dans le Sudoc, comme l’illustre la page ci-dessous

 

Continuer la lecture

Comment favoriser la co-construction d’applications au sein des réseaux de l’Abes ?

Crédits Pixabay

Lors des Journées Abes 2019, la session parallèle  intitulée “Comment faciliter la co-construction d’applications au sein des réseaux de l’Abes ?” a donné l’occasion de riches échanges avec la centaine de participants présents.

 

Retours d’expérience

ezPAARSE

Dans un premier temps, l’équipe ezPAARSE a montré comment les principes de contribution au logiciel libre ont été exploités – au sein de la communauté de l’ESR et au-delà – lors de la co-construction d’ezPAARSE,  logiciel destiné à l’analyse des logs d’accès aux ressources électroniques des bibliothèques. – voir la présentation

 

Continuer la lecture

Une politique informatique ouverte pour l’Abes

En ce mois de juin 2019, le schéma directeur informatique est en cours de définition à l’Abes. Venant en soutien au projet d’établissement 2018-2022, ce schéma, entre autre thèmes abordés, promeut l’ouverture des codes sources des applications développées pour les réseaux de l’Abes. Voici les principaux gains attendus  :

  • faciliter les échanges et les partages
  • faciliter les innovations collaboratives qui peuvent se traduire par la co-construction d’applications au sein des réseaux de l’Abes
  • améliorer la qualité et la sécurité logicielle par la transparence
  • valoriser les réalisations techniques

Un Git Hub pour l’Abes et les établissements

L’Abes décide d’ouvrir les codes sources de toutes les applications qu’elle développera à partir de maintenant pour les réseaux de l’Abes. Ces codes sont et seront versés sur la très populaire plateforme GitHub pour en maximiser la visibilité et faciliter la collaboration. L’organisation Github se nomme « abes-esr », elle est accessible ici :

https://github.com/abes-esr/

Continuer la lecture

CERCLES : bilan du chantier AMS

Le chantier CERCLE « AMS – American Mathematical Society »

Description du corpus

Crédit image : David Stewart

Plusieurs bibliothèques membres du RNBM acquérant des collections d’ebooks publiées par l’American Mathematical Society (AMS), trois d’entre elles ont choisi de participer à un chantier commun CERCLES AMS. Ce travail de correction et d’enrichissement de notices concernait un total de 2760 notices d’ebooks, et presque autant de monographies imprimées.

Le chantier a été circonscrit aux 13 collections disponibles en ebooks au moment de l’ouverture du chantier (l’éditeur a publié depuis de nouvelles collections)

  1. Mathematical Surveys and Monographs (1943 – 2015) : ​SURV​ 215 notices
  2. Graduate Studies in Mathematics (1993-2013) : ​GSM​ 127 notices
  3. Student Mathematical Library (1999-2015) : ​STML​ 73 notices
  4. University Lecture Series (1989-2015) : ​ULECT​ 63 notices
  5. Memoirs of the AMS (1950-2015) : ​MEMO​ 1141 notices
  6. Proceedings of Symposia in pure Mathematics (1959-2015) : ​PSPUM ​117 notices
  7. Proceedings of Symposia in Applied Mathematics (1949-2014) : ​PSAPM​ 73 notices
  8. Contemporary Mathematics (1980-2015) : ​CONM​ 665 notices
  9. CBMS Regional Conference Series in Mathematics (1970-2015) : ​CBMS​ 129 notices
  10. Colloquium Publications (vol.1(1905)-vol.62(2016)) : COLL 63 notices
  11. AMS non-series monographs (2007-2015) :​ MBK​ 53 notices
  12. CBMS Issues in Mathematics Education (1990-2012) : ​CBMATH ​18 notices
  13. Mathematical World (1991-2013) : ​MAWRLD​ 23 notices

Il a également été nécessaire de définir un état de collection précis, notamment pour les collections vivantes ayant un accroissement annuel. L’année 2015 a dans la plupart des cas été choisie comme année de clôture : il s’agissait en effet de la dernière année complète au moment du démarrage du chantier et de l’import des notices de l’éditeur.

Description du chantier

Les 3 établissements ayant participé au projet

Continuer la lecture

Nouveau workflow d’import automatisé dans le Sudoc : première évaluation


Licence : Paternité. Pas de modification. Certains droits réservés par mbtphoto (away a lot). Source Flickr

Ce billet s’inscrit dans la continuité de l’article Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press.

Suite aux retours des d’établissements ayant répondu à l’appel lancé le 4 février dernier via la liste Corcat  “Votre avis sur la qualité des notices Oxford University Press – import courant”, l’Abes a pu dresser un premier bilan et adapter ce workflow.

Continuer la lecture

Un nouveau web service pour les Plans de Conservation Partagée des périodiques


Un nouveau webservice PCP2RCR développé par les équipes de l’Abes est à la disposition des utilisateurs pour obtenir la liste – et la géolocalisation – des bibliothèques (RCR) participant à un Plan de Conservation Partagée (PCP) de Périodiques.

Pour fonctionner, ce webservice utilise la présence, dans les données d’exemplaires, de la sous-zone 930$z [code PCP], ce qui permet de faire remonter les bibliothèques concernées par un PCP ainsi que les informations les concernant : n° ILN, n° RCR, identifiant IdRef de la notice RCR, Nom de l’établissement, Intitulé court de l’établissement, Adresse, Téléphone, Email, Site web, Type de bibliothèque, Latitude, Longitude.

De plus, ce webservice facilite la détection d’erreurs manifestes, comme par exemple les données de latitude/longitude ou la présence d’un code PCP erroné dans un exemplaire.

Continuer la lecture

CERCLES : le premier chantier dédié aux autorités


En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner, aider et valoriser un établissement souhaitant s’investir sur l’enrichissement des données d’un corpus de documents spécifique. Initiée avec 4 établissements, l’expérimentation fut concluante : très vite, d’autres établissements ont rejoint le dispositif puisque 3 ans après, on dénombre 17 chantiers CERCLES d’enrichissements de données bibliographiques.

Dès sa mise en place, l’Abes annonçait son intention d’étendre le dispositif d’accompagnement à d’autres types de données afin de créer un cercle vertueux. Le dispositif a en effet été pensé afin de s’adapter à tous les corpus, puisqu’il s’agit :

    • pour l’établissement : d’enrichir des données
  • pour l’Abes : de conseiller, de faciliter par des traitements automatiques et de rendre compte

Continuer la lecture
Aller au contenu principal