Identifier les auteurs de HAL avec IdRef

logo-idref   C’est une histoire déjà ancienne à l’Abes que celle de l’identification automatique des Personnes impliquées dans des ressources documentaires. Du moins, est-ce un sujet qui, depuis plusieurs années, aiguillonne des études et aboutit progressivement à des réalisations intéressantes. En voici une illustration avec des corpus extraits de HAL.

Corpus SHS – 2011

Entre octobre 2010 et novembre 2011, dans le cadre du projet SudocAd, un premier prototype a été développé avec pour objectif l’enrichissement des métadonnées du moteur de recherche ISIDORE par l’ajout de lien aux autorités Sudoc (IdRef). Le prototype exploita un échantillon de 13 444 notices d’articles issues du portail Persée – domaine «Économie » – en identifiant, quand elle existait, l’autorité IdRef correspondant à chacun des auteurs. Une fois traitées, les notices furent livrées à ADONIS et à l’équipe Persée. Côté performance, le prototype SudocAD atteignait un très bon niveau : sur un échantillon vérifié de 150 notices Persée, 80% étaient estimées comme de « bonnes décisions » (liage ou non liage), et surtout, le taux d’erreur (création de liens erronés) était inférieur à 2%.

Corpus SHS – septembre 2015

Depuis, le projet Qualinca a repris le flambeau, avec une approche plus globale. En septembre 2015, une nouvelle expérimentation d’identification automatique est menée sur un corpus de HAL : 1 900 documents du domaine SHS sont puisés dans l’entrepôt OAI-PMH. Après traitement, 3 200 formes-auteurs sont extraites et passées à la moulinette du prototype. Lors du développement de l’outil, seuls 2 critères de matching -appelés également dans ce cadre « heuristiques »- sont utilisés (« co-auteur » et « unica »). Sur la base de ces critères,  1 100 entités – soit 34% des formes-auteurs – seront matchées, puis rattachées à une notice d’autorité dûment identifiée.

Corpus Astrophysique – avril 2016

Les disciplines ayant des pratiques de publication fort diverses, le choix s’est porté sur le traitement de 300 articles issus du domaine « Astrophysique » et leurs 1 242 formes-auteurs.  L’astrophysique étant un domaine dans lequel les publications sont hautement internationalisées, la proportion d’auteurs étrangers y est importante. De plus, l’interdisciplinarité y étant élevée, on trouvera parmi les auteurs des chercheurs physiciens, biologistes, ingénieurs, océanographes, chimistes, mathématiciens…

La qualité de l’identification finale dépendant largement de la qualité des données de départ, on notera que les données en entrée sont majoritairement de qualité basse, un aspect amplifié par l’absence de normalisation dans l’écriture des appellations. Quelle sera l’incidence de ces variantes orthographiques sur la couverture du corpus par IdRef ?

Le corpus comportait : 406 appellations d’auteur avec nom + prénom (soit 33%) et 836 appellations d’auteur avec nom + initiale du prénom (soit 66%). Les 1 242 formes-auteurs ont d’abord été ramenées à 1 156, suite à la suppression de 43 doublons évidents (avec accent vs. sans accent ; initiale du Prénom vs. Prénom développé).

Premier  constat : le prototype a appris à gérer de façon très satisfaisante ce paramètre de variabilité des graphies. Ainsi, 467 appellations (soit 37,6%) ont été identifiées avec les heuristiques «co-auteur», «titre» et «unica» – pour ce dernier critère, les appellations « Nom, P. » furent mises de côté. Second constat : sur les 775 appellations restantes, 57 -soit 4,6%- correspondaient à des auteurs dont des homonymes ont été correctement écartés par la machine. Afin de tester la couverture d’IdRef, une deuxième passe a ensuite été effectuée, sous forme d’une recherche manuelle rapide, qui a permis d’identifier 95 auteurs supplémentaires.
En valeur absolue,  autant d’auteurs avec « Nom, Prénom » qu’avec « Nom, P. » ont été identifiés. En valeur relative, le résultat est évidemment en faveur des auteurs avec « Nom, Prénom » – 66 % – contre 33% pour les auteurs avec « Nom, P. »  Dans ce cas également, le fait de disposer de notices d’autorité est très intéressant puisque dans la majorité des cas d’appellations avec « Nom, P. »,  le prénom développé a été retrouvé. Ces éléments permettent d’estimer le potentiel de clusterisation apportée par une notice d’autorité grâce aux variantes de formes.

Au final, ce sont 561 auteurs qui ont été identifiés, soit 45% d’identification des auteurs du corpus Astrophysique de HAL. A titre de comparaison, on remarquera que les requêtes lancées sur AuréHAL  sur les formes-auteurs présentes, en demandant pour chacune si elle correspondait à une forme présente dans un idHal, a donné un résultat de seulement 3,5 % des appellations du corpus « Astrophysique ».

Corpus idHal – janvier 2017

Le corpus idHal – identifiants uniques gérés dans HAL- en progression continue, constitue un nouvel enjeu majeur en termes d’alignement d’identifiants – notamment sur fond de projet Conditor. L’exploitation de ce service de HAL est importante à plusieurs égards : outre la sensibilisation auprès des chercheurs quant à la question de l’identification pérenne et unique, idHal permet de tirer parti du travail de validation d’attribution de publication réalisés par les chercheurs eux-mêmes.
Récemment,  un alignement vers IdRef des auteurs – publiant dans HAL et disposant d’un idHAL- a été tenté. En 5 étapes, cela a donné :
1)    identifier tous les auteurs HAL ayant un idHal
2)    récupérer les documents liés à ces idHal
3)    les convertir et les charger dans la base RDF de l’Abes
4)    lancer les heuristiques d’alignements
5)    extraire les premiers résultats : 11 000 auteurs à lier pour 6 400 alignés ( soit 58,2 %)

Ainsi, grâce aux puissants algorithmes d’alignement élaborés en interne, une bonne partie du chemin semble parcourue. Mais aller plus loin – beaucoup plus loin !-  est envisageable. En effet, il est désormais tout à fait possible de lancer les heuristiques sur l’intégralité de HAL.

De belles perspectives

Depuis 2010 à l’Abes, les avancées de la réflexion et des outils en matière de données d’autorité ont construit une approche intellectuellement et technologiquement performante, ce qui permet  de promouvoir, désormais preuves à l’appui, l’offre de service d’IdRef auprès des opérateurs de l’IST en France.
En effet, si le taux de couverture des auteurs de publications de recherche est proche de 50%, il est de l’ordre de 90% pour les auteurs français – ce qui confirme la portée réelle d’IdRef en termes de référentiel des auteurs de l’Enseignement Supérieur et de la Recherche.
Dans les mois à venir, le programme de travail ira en ce sens. La consolidation des process constitue l’axe prioritaire : il s’agira tout d’abord de les automatiser intégralement afin de moissonner de très gros volumes de données. La redistribution de ces alignements constitue le second axe.

Sur le même concept que le web service de récupération des alignements – idref2id,  le stock d’alignements disponibles va s’accroitre  pour mettre en vitrine tout ce que nous avons déjà en « arrière-boutique ». De belles perspectives donc.

François Mistral, responsable IdRef

Publicités