Un chantier qualité sur les n° FRBNF multiples

Dans un catalogue de bibliothèque, quel qu’il soit, chaque notice dispose de son propre identifiant. Dans le Sudoc, c’est un numéro appelé « PPN ». Il identifie les notices bibliographiques et les notices d’autorités.

Ces dernières, dans l’environnement BnF, disposent de leurs propres identifiants : les numéros FRBNF, visibles en zone 001 des notices BnF.

Lorsqu’un catalogueur Sudoc ne trouve pas une notice pour le point d’accès qu’il veut normaliser, il a l’opportunité de chercher si une notice pour cette autorité existe dans la base d’appui (=DIS CHE de WinIBW) où l’on trouve les notices d’autorité de la BNF, laquelle nous les offre gracieusement depuis l’origine du Sudoc.

Sinon, il devra la créer nativement dans le Sudoc.

Dans le cas où il la trouve dans la base d’appui, la commande F5 lui permet de dériver la notice : celle-ci se voit alors dotée d’un PPN et l’identifiant FRBNF passe de la 001 notice BNF à la 035 notice Sudoc. Au moment de dériver, la question de conserver ou pas le numéro FRBNF se pose.

Faut-il conserver le n° FRBNF ?

Cas n° 1 : S’il s’agit de décrire la même personne, la même entité, le même concept dans l’environnement « Sudoc » que dans l’environnement « BnF », il est logique de le conserver. En conservant ce numéro, on indique à tout système qui viendrait « lire » la notice Sudoc : « cette notice a une jumelle dans l’environnement BnF, c’est ce n° FRBNF qui te permettra au besoin de l’identifier et de reconstituer la paire« .

Cas n° 1

Cas n° 1 : dériver pour décrire une même personne

Cas n° 2 : S’il s’agit de dériver la notice BnF pour s’en servir, dans l’environnement Sudoc, comme d’un modèle pour la création d’une personne, d’une entité, d’un concept qui, au final, sera différent, il est logique de ne pas conserver ce n° FRBNF. Après sa validation dans le Sudoc, la notice d’autorité produite s’avèrera différente de celle qui, par commodité, aura servie de modèle. Elles ne sont pas jumelles, il n’y aura jamais lieu de les apparier.

Cas n° 2

Cas n° 2 : dériver un modèle pour décrire une autre personne

Il arrive cependant que des catalogueurs, dans cas n° 2, négligent de supprimer la zone 035 de la notice utilisée comme modèle. Et après validation, il est délicat de revenir en arrière (seuls les logins de type TA disposent désormais de cette habilitation). La notice d’autorité Sudoc hérite alors d’un numéro identifiant BnF  :

  • qui n’a rien à voir avec l’entité qu’elle décrit,
  • qui peut se trouver ailleurs, dans une autre notice d’autorité Sudoc  créée dans le cas n° 1 où sa présence est justifié.

On se retrouve alors en présence de notices qui ne sont pas des doublons (elles décrivent bien des entités différentes) mais qui, pour être distinctes l’une de l’autre, conservent néanmoins un n° FRBNF identique. Ce sont des « doublons de FRBNF ».

2 notices distinctes avec un FRBNF commun

2 notices distinctes avec un FRBNF commun

Combien de notices étaient dans ce cas ?

En septembre 2014, l’ABES en a dénombré quelques centaines (auxquelles il convient d’ajouter des « vraies » notices doublons, créées par copies intempestives ou suite à une recherche négligée).  Pourtant, en décembre 2013, l’ABES avait déjà procédé à un nettoyage. Ces centaines de « doublons FRBNF » avaient été créés au cours des 8 derniers mois !  Il y avait une certaine urgence à alerter le réseau, pour éviter l’hémorragie et pour sensibiliser à la question des identifiants.

Une prise de conscience sur l’importance des identifiants.

La question des identifiants (PPN, FRBNF, etc.) est de plus en plus présente dans les priorités de l’ABES car ils interviennent dans les alignements de « nos » données avec celles d’autres catalogues, à commencer par nos applications STAR, STEP ou Calames et plus loin BNF, VIAF, ISNI. En effet, les identifiants contenus dans les notices sont bien souvent l’unique clé permettant à une application extérieure de venir retrouver les informations des autorités du Sudoc.

En octobre 2014, 74 correspondants Autorités d’établissements identifiés comme ayant créé une ou plusieurs notices d’autorité « avec FRBNF multiples » ont été invités à rectifier ces anomalies, à l’aide d’un fichier listant les n° PPN des notices concernées et de consignes de résolution :

  • s’il s’agit d’un vrai doublon : signalement sur le guichet ABESstp pour traitement par l’ABES
  • s’il s’agit d’une notice avec un FRBNF qui n’a pas lieu d’être présent : suppression de l’intrus en zone 035

Un réseau très réactif !

Il faut ici saluer la promptitude, voire l’enthousiasme avec lesquels les établissements concernés se sont empressés de répondre à notre invitation. Seulement 3 jours après le lancement du chantier, déjà 33 % des notices concernées avaient été vérifiées. Cet élan a été freiné par l’impossibilité technique de supprimer la zone 035 pour les détenteurs d’un login de type TA (groupe des « tcatalogueurs », soit les correspondants Autorités). Elle a été levée, en élargissant les habilitations liées à ce login, et le travail a pu alors reprendre.

Pour ce chantier, le risque ne résidait pas dans le nombre de notices à traiter, mais dans le mode de traitement. Contrairement aux précédents chantiers qualités (voir ici et ), le travail de correction ne reposait pas uniquement sur l’ABES : le réseau devait participer. Il a répondu présent ! Cette réactivité atteste non seulement de l’intérêt des correspondants Autorités et de leurs équipes pour les questions liées à la qualité des données, mais plus globalement de la vitalité du réseau, ainsi que de sa modernité. L’enjeu majeur de ce chantier a bien été perçu : il s’agit de ne plus concevoir nos données dans un contexte isolé, mais comme appartenant à un écosystème où elles vivent, s’échangent et interagissent.

IdRef dans VIAF et après … #1 Passer d’un identifiant à l’autre (VIAF, IdRef, LC, BnF, Wikipedia, …)

Ce post de fil.abes.fr annonce l’intégration du référentiel IdRef à VIAF et en présente les enjeux stratégiques. Punktokomo prend le relais pour détailler quelques implications pratiques. En voici la première.

Tout l’intérêt de VIAF repose dans son travail d’interconnexion entre des notices d’autorité d’origines différentes. En effet, les algorithmes de VIAF cherchent à identifier toutes les notices d’autorité qui « parlent’ de la même chose, qu’il s’agisse d’une personne, d’une collectivité ou d’une oeuvre. Ils génèrent alors des grappes (clusters) d’autorités. Ces grappes VIAF possèdent elles-même un identifiant unique, en bijection avec chacun des identifiants des autorités membres de la grappe.

Par exemple, l’historien Alain Boureau correspond à la grappe 52358786, qui regroupe l’identifiant IdRef, l’identifiant BnF, l’identifiant de la BN allemande, l’identifiant de la Bibliothèque du Congrès ou encore celui de la Bibliothèque Vaticane. VIAF publie les informations de cette grappe pour qu’elles puissent être lues par un humain (HTML) ou exploitées par un programme (RDF, JSON, MARCXML). Chacune de ces pages  intègre les liens vers les notices d’autorité d’origine, ce qui permet de facilement naviguer de VIAF vers IdRef et les autres bases : connaissant l’identifiant VIAF, un humain ou un programme pourra découvrir l’identifiant IdRef et, en déroulant la bobine de notre web service Biblio, la liste des documents Sudoc liés à cette autorité.

Mais le chemin inverse est tout aussi utile à parcourir : connaissant l’identifiant IdRef, découvrir la grappe VIAF. A terme, cette opération sera possible grâce à l’injection de l’identifiant VIAF à l’intérieur même de chaque autorité IdRef (chantier en cours). En attendant, ce parcours est possible au moyen de l’astuce suivante : connaissant l’identifiant IdRef (ex : PPN = 028270282), on peut accéder à cette page de VIAF http://viaf.org/viaf/sourceID/SUDOC|028270282 qui redirige automatiquement vers l’URL de la grappe : http://viaf.org/viaf/52358786/. Cette redirection peut être exploitée à la fois par un humain et par un programme.

Il est donc possible de faire le chemin aller et le le chemin retour entre VIAF et n’importe quelle autorité d’origine, telle celle d’IdRef. Mais, par transitivité, VIAF peut aussi servir à passer d’une autorité d’origine à une autre, d’une notice de la BN allemande à une notice de la BN espagnole ou d’IdRef à la BnF (et vice versa). Certes, les liens entre les autorités IdRef et les autorités BnF existent déjà, puisque beaucoup de notices IdRef sont créées à partir des notices BnF et en conservent le numéro source. Mais chacun de ces fichiers d’autorité ayant sa propre autonomie, il est probable que VIAF permette de découvrir de nouveaux liens IdRef/BnF, ce qui est une excellente chose pour tout le monde.

Enfin, VIAF contient parfois un lien vers DBpedia, version RDF de Wikipedia versée sur le web de données. Par exemple, en RDF, la grappe Paul Veyne pointe vers cette entrée de DBpedia, et donc de Wikipedia. Là, encore, par transivité, on peut aller de l’autorité IdRef à la page de Wikipedia.

Toutes ces interconnexions contribuent à densifier le maillage de l’information au sein du web de données, et donc à en multiplier les possibilités d’exploitation. Mais en-deçà de cet enjeu global et de long terme, VIAF peut ici et maintenant aider le catalogueur au quotidien.

Y. Nicolas