PUNKTOKOMO

Alignement dans IdRef des contributeurs du catalogue éditeur de l’IFAO – Institut Français d‘Archéologie Orientale

Sous la tutelle du MESRI – Ministère de l’enseignement supérieur, de la recherche et de l’innovation, les 5 Écoles Françaises à l’Étranger (EFE) – l’École française d’Athènes, l’École française de Rome, l’Institut français d‘archéologie orientale du Caire, l’École française d’Extrême Orient et la Casa de Velázquez – sont régies par un décret commun depuis 2011. Dans des aires géographiques et des domaines scientifiques propres à chaque école, les EFE ont pour mission de développer la recherche fondamentale sur le terrain et la formation à la recherche. Elles ont également une activité importante en tant que maison d’édition. C’est sous l’angle de ce pan d’activité qu’a été menée l’opération d’identification fiable et pérenne d’auteurs, objet de ce billet.

Depuis 2015, les 5 EFE ont lancé un projet de catalogue commun de leurs publications afin de favoriser leur visibilité à partir du site web commun aux EFE et de répondre à des besoins similaires de distribution. Pour construire ce catalogue commun, fédérant les 5 catalogues sous ONIX V3 et rassemblant au total environ 10 000 contributeurs, il est apparu essentiel d’identifier de manière univoque et pérenne les personnes sous les mentions d’auteurs, et par là même de désambigüiser les appellations homonymes – cas particulièrement courant dans les pays arabes.

Avec l’idée d’une méthodologie réplicable aux 4 autres EFE, il a été convenu que l’IFAO du Caire initie cette tâche en s’adressant à l’Abes pour l’aider à aligner les contributeurs IFAO avec le référentiel IdRef.

Une perspective plus globale encore est de disposer à terme d’une identification pérenne de l’ensemble des acteurs de la recherche dans les EFE, qu’ils aient contribué aux publications (imprimées ou électroniques), aux bases de données documentaires en ligne, aux archives scientifiques ou aux travaux en cours.

Pourquoi IdRef ?

Voici les principaux éléments de réponses :

  • la majorité des contributeurs aux publications des EFE sont français et IdRef constitue le réservoir de notices autorités noms de personnes proposant la couverture la plus étendue relativement aux auteurs français
  • les données présentées dans IdRef sont le fruit du travail des professionnels du signalement documentaire de niveau universitaire et par conséquent de très bonne qualité
  • IdRef est un fichier ouvert, collaboratif et mutualisé dans lequel les bibliothèques des EFE produisent à la source ; cela a pour corollaire d’assurer à l’opération sa participation à l’enrichissement du « pot commun »
  • l’Abes propose un service dédié d’identification des personnes en faisant tourner un algorithme spécifique développé en marge de Qualinca ;  à l’aide d’heuristiques, cet outil d’identification automatisée prend appui sur les données d’autorité et bibliographiques liées du Sudoc
  • à l’aide du webservice idref2id, l’Abes fournit un service d’alignements inter-référentiels à partir d’un identifiant IdRef (ORCID, ISNI, VIAF, IdHAL, etc.).

Tests et ajustements : fourniture des données d’entrée à l’Abes

Chaque année, environ trente publications scientifiques – aussi bien revues que monographies –  sortent des presses de la maison d’édition de l’IFAO créée en 1889.

Dans un premier temps, le service informatique de l’IFAO,  à partir de son catalogue (MySQL/PHP), a fourni à l’Abes un corpus de près de 400 fichiers au format XML (schéma XML fourni par l’Abes) correspondant aux contributeurs des monographies de l’IFAO encore disponibles. Ce schéma comporte notamment la liste des collections dans lesquelles chaque auteur a contribué, ainsi que sa fourchette chronologique et ses co-contributeurs. Ces données sont extraites et consolidées depuis le catalogue général par des requêtes SQL.

Cet envoi a été précédé du nettoyage et dédoublonnage de la base de données locale, d’un enrichissement des métadonnées afin d’optimiser le fonctionnement du programme de l’Abes (notamment l’ajout des codes rôles UNIMARC), puis d’un test réalisé à partir de trois auteurs : un prolixe ; un moins prolixe et un troisième, égyptien, au nom translittéré selon la norme DIN-31635 dite «Arabica» utilisée par le pôle éditorial de l’IFAO.

Le test a permis de souligner la nécessité d’un nettoyage de la zone « titre » dans le fichier XML, de résoudre un léger problème de mapping avec la norme ISO 233-2 de translittération pour les caractères arabes utilisée à la BnF et dans le Sudoc et, pour favoriser le dédoublonnage des titres non effectué sous XML, d’un envoi parallèle des contributions de chaque auteur sous .csv (une ligne par contribution).

Corpus « auteurs de monographies » : retour des données  enrichies de candidats IdRef

L’Abes limitant volontairement la fourniture d’alignements à ceux répondant à un taux de précision très élevé (résultats d’heuristiques fortes, seules ou combinées), le taux de couverture de 94 % obtenu a été une excellente nouvelle, sans pour autant être une surprise dans la mesure où la plupart des publications de l’IFAO sont déjà présentes dans le catalogue Sudoc.

L’Abes a renvoyé les résultats sous forme de fichier .xls enrichi de colonnes contenant des commentaires ou des informations pour aider l’IFAO à mieux identifier les auteurs, à créer une nouvelle autorité le cas échéant, et à intervenir de façon ciblée dans les notices pour les enrichir.

Les 6 % d’entrées non identifiées résultent soit d’informations non concordantes entre la source (catalogue IFAO) et la cible (IdRef), soit de l’absence pure et simple de notice dans IdRef :

  • 5% des notices ont été recherchées dans IdRef et Sudoc : recherche de notices bibliographiques sans lien à l’autorité dans WinIBW (exemple entrée « Gomaa, Ahmed »)
  • 1% des notices n’ont donné lieu à aucune proposition du fait qu’elles étaient absentes d’IdRef et du Sudoc 
  • quelques notices IdRef ont été enrichies d’informations complémentaires pour conforter une identification estimée seulement comme « probable »

Traitement manuel du reliquat

Cette phase de recherche manuelle prend le relais de la phase « machine » et le traitement du reliquat a pour objectif d’aboutir à l’aiguillage, sans doute possible, des auteurs dans l’une ou l’autre des catégories :

  • auteur présent dans IdRef : l’identification est menée à bien 
  • auteur absent dans IdRef : l’identification est assurée par création de la notice manquante.

Ce travail a été mené conjointement par le responsable informatique et le Correspondant Autorités IFAO auprès de l’Abes. Après vérifications, les 6 % du reliquat étaient bien dans le Sudoc. Au final, les 411 auteurs du corpus ont ainsi été intégralement identifiés et leurs identifiants intégrés au catalogue éditeur de l’IFAO, ce qui permet d’établir un rebond à partir du site vers la notice IdRef correspondante et de regrouper l’ensemble des publications  de chacun des auteurs

Parallèlement, le catalogue des publications IFAO a été modifié et affiche désormais l’IdRef des auteurs, ce qui permet de rebondir vers leur notice :

Corpus « auteurs d’articles »

En parallèle, le service informatique a préparé un second corpus constitué uniquement d’articles des deux principaux périodiques de l’IFAO, le Bulletin de l’IFAO et les Annales Islamologiques, généralement absents du Sudoc du fait de la rareté des dépouillements de périodiques et d’ouvrages collectifs.

Ce second envoi, effectué fin septembre 2019, comportait cette fois 982 auteurs d’articles d’égyptologie, d’archéologie égyptienne ou d’études arabes, parmi lesquels un nombre important d’auteurs égyptiens ayant écrit un article en arabe.

Comme prévisible, le taux de recouvrement est moins élevé que pour le premier envoi. Il faut distinguer cependant le taux de recouvrement des personnes « uniques », qui atteint 50,5 %, de celui des mentions d’auteurs (certains auteurs étant auteurs de plusieurs publications) qui s’élève à 64 %, ce qui apparait comme très satisfaisant. Le taux de fiabilité des alignements demeure donc élevé pour la quasi-totalité des alignements fournis bien que, dans quelques cas, il a été volontairement relâché pour donner lieu à des « propositions » dès lors que des facteurs de rapprochement existent sans pour autant constituer des éléments probants.

Pour 2% des entrées, les « non réponses » résultent de la non reconnaissance par l’algorithme de certains caractères (caractères non latins) et, comme pour le premier envoi, la recherche manuelle prend le relais de la machine. Une des sources d’identification utilisée alors par l’IFAO est le Who’s Who Egyptology, complété de Worldcat et du catalogue de la bibliothèque, enfin des informations disponibles au sein du pôle éditorial et dans différents services.

Création semi-automatisée dans IdRef

Une fois que l’IFAO aura déterminé, après recherches manuelles dans IdRef, le corpus définitif des entrées non identifiées (probablement plus de 400 auteurs), l’Abes se propose de les créer par lot plutôt qu’individuellement par le Correspondant Autorités. Si les champs extraits du catalogue sont suffisants pour la création des notices d’autorité manquantes, l‘IFAO s’engage à fournir des informations biographiques succinctes pour les auteurs ayant été en poste au Caire, et a minima de préciser le champ disciplinaire des autres auteurs : autant de données précieuses pour établir des notices d’autorité de qualité supérieure.

Suites immédiates et perspectives prochaines

Il a été convenu en interne que le responsable du pôle éditorial crée la fiche auteur dans la base de données locale gérant le catalogue des publications IFAO, et signale au Correspondant Autorités tout contributeur absent d’IdRef afin que celui-ci crée la notice dans le Sudoc (via IdRef ou WinIBW peu importe) et fournisse au pôle éditorial l’identifiant IdRef tant attendu. En retour, le Correspondant Autorités a accès à cette base Auteurs afin d’en récupérer des éléments biographiques l’assistant à désambiguïser les auteurs sur IdRef.

Avec l’avancée du déploiement aux autres catalogues, le flux ONIX du catalogue IFAO contenant les IdRef permettra de désambiguïser les auteurs communs (élément ONIX : Contributor/NameIdentifier/IDValue) et cette vérification sera implémentée dans l’agrégateur développé pour le portail des EFE. 

Les prochaines phases prévues devraient étendre le travail de prospection en 2020 aux revues Bulletin de la céramologie égyptienne et Bulletin critique des Annales islamologiques, à l’occasion de leur versement dans Persée, pour un total de près 1 000 auteurs.

En parallèle, l’IFAO a débuté l’identification des auteurs d’archives scientifiques, essentiellement depuis 1971, date de création du service archives et collections à l’IFAO : carnets de fouilles manuscrits, photographies, plans (…), soit un corpus d’environ 350 auteurs dont, jusqu’à présent 160 n’ont pas été identifiés dans IdRef. En amont, il procède également à l’identification des chercheurs contribuant à ses opérations scientifiques dès leur phase de démarrage, et donc auteurs futurs d’articles ou de monographies.

Enfin, est à l’étude l’interfaçage de la base d’auteurs de l’IFAO avec IdRef (création de notices, contrôles d’intégrité) grâce aux APIs IdRef. A suivre donc !

Agnès Macquin, directrice de la bibliothèque de l’IFAO

Christian Gaubert, responsable du service informatique de l’IFAO

Anna-Maria Papanikitas, correspondante Autorités IFAO

 

 

Quitter la version mobile