Identifier les auteurs de HAL avec IdRef

  • Auteur/autrice de la publication :
  • Post category:IdRef

logo-idref   C’est une histoire déjà ancienne à l’Abes que celle de l’identification automatique des Personnes impliquées dans des ressources documentaires. Du moins, est-ce un sujet qui, depuis plusieurs années, aiguillonne des études et aboutit progressivement à des réalisations intéressantes. En voici une illustration avec des corpus extraits de HAL.

Continuer la lectureIdentifier les auteurs de HAL avec IdRef

Mettre nos données en réseau – un démonstrateur. [1] Introduction.

Ce démonstrateur est un plaidoyer en faveur d’une approche “web sémantique” de l’interopérabilité des données de l’IST. Mais, cette fois, il s’agit de montrer et non d’argumenter. Il s’agit de défendre, en illustrant cette approche par des études de cas. Alors, si vous fuyez les plaidoyers, si vous exigez du concret, de la donnée (RDF), de la requête (SPARQL), passez cette introduction et lisez l’un des billets suivants :

  1. Introduction (ce billet)
  2. Inventaire des données
  3. Suivez le guide ! Le modèle de données
  4. Études de cas

SPARQL endpoint : https://lod.abes.fr/sparql
Interface de recherche full text et de navigation : https://lod.abes.fr/fct

Continuer la lectureMettre nos données en réseau – un démonstrateur. [1] Introduction.

Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Pour les besoins de la démonstration, nous avons agrégé des données diverses et variées, mais finalement cette auberge espagnole n’est pas si anarchique : tout mène à tout, et on peut regrouper les jeux de données de différentes manières :

  • Données descriptives vs Référentiels
  • Données produites par les réseaux ABES vs Données de tiers
  • Données du monde des bibliothèques vs Données d’autres mondes (science, administration, etc.)
  • Données récupérées en RDF vs Données produites en RDF

Mais dans ABES, il y a B : notre réseau de données se déploie autour des données bibliographiques, qui décrivent des livres, des revues, mais également des chapitres et des articles.

Continuer la lectureMettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

Un chantier « qualité » sur les données d’autorités

  • Auteur/autrice de la publication :
  • Post category:IdRefSudoc

C’est un chantier modeste par le volume des notices concernées, mais important par ses impacts, que nous mettons ici en lumière.

Dans les notices d’autorités de la base Sudoc, les zones Unimarc 5XX permettent de faire des liens vers d’autres notices (lien de type « Voir aussi »). Sur un affichage public, cela se matérialise ainsi :

Continuer la lectureUn chantier « qualité » sur les données d’autorités

Une zone 309 pour coordonner le travail collectif sur la qualité des données Sudoc

Au moment du chargement de nouvelles notices ou à l’occasion d’un chantier de contrôle qualité, l’ABES peut être amenée à effectuer des modifications de masse pour améliorer ou corriger des notices. Hélas, tout n’est pas automatisable – surtout si on tient à conserver un certain niveau de qualité bibliographique. Une fois que les algorithmes ont parlé et atteint leurs limites, l’ABES passe le relais au réseau, qui possède la force de frappe et l’expertise humaine pour continuer le travail, ne serait-ce qu’en se concentrant sur l’essentiel ou le prioritaire.

Mais, précisément, qu’est-ce qui est essentiel ? Qu’est-ce qui est prioritaire ? Sur quelles notices faut-il que le réseau se mobilise ? Et sur quels points précis dans les notices ? Étant donné la taille de la base, le volume des entrées et la richesse des règles, chaque catalogueur, chaque service de catalogage peut se sentir perdu devant l’ampleur de la tâche. C’est pourquoi l’ABES souhaite structurer d’avantage l’organisation de cet immense travail collectif. Cette volonté se traduit aujourd’hui sous une forme très concrète : la zone 309…

Continuer la lectureUne zone 309 pour coordonner le travail collectif sur la qualité des données Sudoc

IdRef dans VIAF et après … #3 Des données et des liens sous licence ouverte

  • Auteur/autrice de la publication :
  • Post category:IdRefSudoc

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la troisième.


Comme en témoigne cette courte biographie, VIAF est né comme un projet de recherche porté par OCLC et les bibliothèques nationales allemande, américaine et française. En 2012, VIAF est devenu un service OCLC. C’est un changement important, notamment du point de vue de la gouvernance.

Continuer la lectureIdRef dans VIAF et après … #3 Des données et des liens sous licence ouverte

IdRef dans VIAF et après … #2 Faciliter et améliorer le catalogage par dérivation

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la deuxième.

Grâce à MARC et Z39.50, le catalogage est d’ores et déjà une pratique professionnelle locale qui fonctionne dans un cadre global. L’idéal visé est le suivant : pour chaque livre, sa notice bibliographique est créée une fois, par quelqu’un, quelque part, puis échangée, reprise, exemplarisée autant de fois que nécessaire, partout, par tous.

Dans le cadre du Sudoc, plutôt que de créer ex nihilo une notice qui manque, le catalogueur interroge d’autres catalogues à la recherche de cette notice. S’il la trouve, il la récupère dans l’outil de catalogage du Sudoc et l’intègre telle quelle, … à beaucoup de détails près… C’est ce qu’on appelle du catalogage par dérivation. En voici un tutoriel, propre au contexte du Sudoc :

Continuer la lectureIdRef dans VIAF et après … #2 Faciliter et améliorer le catalogage par dérivation

IdRef dans VIAF et après … #1 Passer d’un identifiant à l’autre (VIAF, IdRef, LC, BnF, Wikipedia, …)

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la première.

Tout l’intérêt de VIAF repose dans son travail d’interconnexion entre des notices d’autorité d’origines différentes. En effet, les algorithmes de VIAF cherchent à identifier toutes les notices d’autorité qui « parlent’ de la même chose, qu’il s’agisse d’une personne, d’une collectivité ou d’une oeuvre. Ils génèrent alors des grappes (clusters) d’autorités. Ces grappes VIAF possèdent elles-même un identifiant unique, en bijection avec chacun des identifiants des autorités membres de la grappe.

Continuer la lectureIdRef dans VIAF et après … #1 Passer d’un identifiant à l’autre (VIAF, IdRef, LC, BnF, Wikipedia, …)

Sudoc, IdRef : de nouveaux Micro Web Services

De nouveaux Micro Web Services Sudoc et IdRef ont été développés :

  • merged : à partir d’un PPN de notice Sudoc ou IdRef fusionnée, trouver le PPN actif (notice valide)
  • multiwhere : localiser (RCR de localisation) un ou plusieurs document(s) à partir de leur identifiant Sudoc (PPN)

A noter : un service where a été précédemment développé pour permettre la localisation d’un seul document à partir de son identifiant (PPN). Il est dorénavant conseillé d’utiliser le multiwhere qui est plus riche que le where : non seulement il permet de traiter plusieurs notices à la fois, mais il contient également les coordonnées géographiques de chaque bibliothèque.

  • frbn2ppn, ocn2ppn, etc. : connaitre l’identifiant Sudoc à partir d’un identifiant externe (BnF, WorldCat, etc.)
  • iln2rcr : connaître la liste des RCR rattachés à un ILN

Pour  retrouver l’ensemble de la documentation technique :

Continuer la lectureSudoc, IdRef : de nouveaux Micro Web Services

SudocAD : résumé du projet

Voici le résumé du rapport final (+ annexes) du projet SudocAD, mené par l’ABES et le LIRMM en 2010-2011 et co-financé par le TGE ADONIS :

Mené par l’ABES et l’équipe de recherche GraphIK du LIRMM, co-financé par le TGE ADONIS dans le cadre de son appel à projets 2009-2010, le projet SudocAD vise à interconnecter entre eux différents corpus de métadonnées agrégés par la plateforme de recherche ISIDORE, en les reliant au référentiel IdRef. Ce qui est en jeu, ce n’est pas seulement l’efficacité de la recherche dans Isidore, mais l’intégration des données SHS françaises au web de données, auquel IdRef est déjà connecté.

L’objectif opérationnel du projet était d’enrichir automatiquement des notices d’articles du portail Persée, en identifiant (quand elle existe) l’autorité IdRef correspondant à chacun des auteurs de l’article. 13 444 notices ont ainsi été traitées et livrées à ADONIS et à l’équipe Persée.

Pour identifier la notice d’autorité IdRef qui correspond à l’auteur Persée, SudocAD ne se contente pas d’utiliser les informations contenues dans la notice d’autorité mais exploite les connaissances enfouies dans les notices bibliographiques Sudoc liées. Toutes ces connaissances sont exprimées en RDF, selon le vocabulaire FRBROO. Il devient possible alors de raisonner à propos de ces connaissances, grâce aux outils sémantiques conçus et développés par GraphIk.

Les principales étapes du traitement opéré par SudocAD sont les suivantes : le nom et le prénom de l’auteur Persée sont utilisés pour sélectionner une liste parfois longue d’autorités IdRef candidates ; le raisonneur du LIRMM charge un ensemble de données RDF composées de la notice Persée, des autorités candidates et des notices bibliographiques Sudoc liées à ces autorités ; enfin, après avoir analysé ces données au moyen de règles logiques, le raisonneur répartit les autorités candidates en sept catégories de liage, de Strong à Impossible.

SudocAD ne donne donc pas directement un verdict sur la bonne autorité à lier. Mais, à partir du rapport d’analyse en XML et des sept catégories, il est facile de définir un algorithme qui détermine automatiquement l’autorité à lier. Mais il existe plusieurs manières de construire un tel algorithme. Ce rapport distingue les algorithmes de liage automatique qui paraissent les plus pertinents.

A côté du liage automatique, le rapport d’analyse généré par SudocAD peut également être utilisé dans une perspective d’aide à la décision. Il s’agirait d’utiliser ce rapport pour présenter les autorités candidates d’une manière qui facilite et fiabilise le travail manuel du catalogueur qui cherche à lier une notice bibliographique à une autorité.

Afin d’évaluer l’approche de SudocAD, un protocole a été établi pour comparer les résultats d’un traitement automatique aux décisions de liage prises par un catalogueur. Sur un échantillon de 150 notices Persée, elle montre que SudocAD atteint un très bon taux de bonnes décisions (liage ou non liage), autour de 80%, et surtout un taux d’erreur (création de liens erronés) inférieur à  2%.

Au-delà du projet SudocAD, l’ABES et l’équipe GraphIK ont la volonté d’éprouver la validité de cette approche sur d’autres corpus de métadonnées et d’améliorer encore son efficacité en corrigeant les défauts actuels et surtout en élargissant le spectre des informations prises en compte, notamment en exploitant de manière sémantique les co-auteurs et le vocabulaire Rameau.

Continuer la lectureSudocAD : résumé du projet
Aller au contenu principal