Un chantier qualité sur les n° FRBNF multiples

Dans un catalogue de bibliothèque, quel qu’il soit, chaque notice dispose de son propre identifiant. Dans le Sudoc, c’est un numéro appelé « PPN ». Il identifie les notices bibliographiques et les notices d’autorités.

Ces dernières, dans l’environnement BnF, disposent de leurs propres identifiants : les numéros FRBNF, visibles en zone 001 des notices BnF.

Lorsqu’un catalogueur Sudoc ne trouve pas une notice pour le point d’accès qu’il veut normaliser, il a l’opportunité de chercher si une notice pour cette autorité existe dans la base d’appui (=DIS CHE de WinIBW) où l’on trouve les notices d’autorité de la BNF, laquelle nous les offre gracieusement depuis l’origine du Sudoc.

Sinon, il devra la créer nativement dans le Sudoc.

Dans le cas où il la trouve dans la base d’appui, la commande F5 lui permet de dériver la notice : celle-ci se voit alors dotée d’un PPN et l’identifiant FRBNF passe de la 001 notice BNF à la 035 notice Sudoc. Au moment de dériver, la question de conserver ou pas le numéro FRBNF se pose.

Faut-il conserver le n° FRBNF ?

Cas n° 1 : S’il s’agit de décrire la même personne, la même entité, le même concept dans l’environnement « Sudoc » que dans l’environnement « BnF », il est logique de le conserver. En conservant ce numéro, on indique à tout système qui viendrait « lire » la notice Sudoc : « cette notice a une jumelle dans l’environnement BnF, c’est ce n° FRBNF qui te permettra au besoin de l’identifier et de reconstituer la paire« .

Cas n° 1

Cas n° 1 : dériver pour décrire une même personne

Cas n° 2 : S’il s’agit de dériver la notice BnF pour s’en servir, dans l’environnement Sudoc, comme d’un modèle pour la création d’une personne, d’une entité, d’un concept qui, au final, sera différent, il est logique de ne pas conserver ce n° FRBNF. Après sa validation dans le Sudoc, la notice d’autorité produite s’avèrera différente de celle qui, par commodité, aura servie de modèle. Elles ne sont pas jumelles, il n’y aura jamais lieu de les apparier.

Cas n° 2

Cas n° 2 : dériver un modèle pour décrire une autre personne

Il arrive cependant que des catalogueurs, dans cas n° 2, négligent de supprimer la zone 035 de la notice utilisée comme modèle. Et après validation, il est délicat de revenir en arrière (seuls les logins de type TA disposent désormais de cette habilitation). La notice d’autorité Sudoc hérite alors d’un numéro identifiant BnF  :

  • qui n’a rien à voir avec l’entité qu’elle décrit,
  • qui peut se trouver ailleurs, dans une autre notice d’autorité Sudoc  créée dans le cas n° 1 où sa présence est justifié.

On se retrouve alors en présence de notices qui ne sont pas des doublons (elles décrivent bien des entités différentes) mais qui, pour être distinctes l’une de l’autre, conservent néanmoins un n° FRBNF identique. Ce sont des « doublons de FRBNF ».

2 notices distinctes avec un FRBNF commun

2 notices distinctes avec un FRBNF commun

Combien de notices étaient dans ce cas ?

En septembre 2014, l’ABES en a dénombré quelques centaines (auxquelles il convient d’ajouter des « vraies » notices doublons, créées par copies intempestives ou suite à une recherche négligée).  Pourtant, en décembre 2013, l’ABES avait déjà procédé à un nettoyage. Ces centaines de « doublons FRBNF » avaient été créés au cours des 8 derniers mois !  Il y avait une certaine urgence à alerter le réseau, pour éviter l’hémorragie et pour sensibiliser à la question des identifiants.

Une prise de conscience sur l’importance des identifiants.

La question des identifiants (PPN, FRBNF, etc.) est de plus en plus présente dans les priorités de l’ABES car ils interviennent dans les alignements de « nos » données avec celles d’autres catalogues, à commencer par nos applications STAR, STEP ou Calames et plus loin BNF, VIAF, ISNI. En effet, les identifiants contenus dans les notices sont bien souvent l’unique clé permettant à une application extérieure de venir retrouver les informations des autorités du Sudoc.

En octobre 2014, 74 correspondants Autorités d’établissements identifiés comme ayant créé une ou plusieurs notices d’autorité « avec FRBNF multiples » ont été invités à rectifier ces anomalies, à l’aide d’un fichier listant les n° PPN des notices concernées et de consignes de résolution :

  • s’il s’agit d’un vrai doublon : signalement sur le guichet ABESstp pour traitement par l’ABES
  • s’il s’agit d’une notice avec un FRBNF qui n’a pas lieu d’être présent : suppression de l’intrus en zone 035

Un réseau très réactif !

Il faut ici saluer la promptitude, voire l’enthousiasme avec lesquels les établissements concernés se sont empressés de répondre à notre invitation. Seulement 3 jours après le lancement du chantier, déjà 33 % des notices concernées avaient été vérifiées. Cet élan a été freiné par l’impossibilité technique de supprimer la zone 035 pour les détenteurs d’un login de type TA (groupe des « tcatalogueurs », soit les correspondants Autorités). Elle a été levée, en élargissant les habilitations liées à ce login, et le travail a pu alors reprendre.

Pour ce chantier, le risque ne résidait pas dans le nombre de notices à traiter, mais dans le mode de traitement. Contrairement aux précédents chantiers qualités (voir ici et ), le travail de correction ne reposait pas uniquement sur l’ABES : le réseau devait participer. Il a répondu présent ! Cette réactivité atteste non seulement de l’intérêt des correspondants Autorités et de leurs équipes pour les questions liées à la qualité des données, mais plus globalement de la vitalité du réseau, ainsi que de sa modernité. L’enjeu majeur de ce chantier a bien été perçu : il s’agit de ne plus concevoir nos données dans un contexte isolé, mais comme appartenant à un écosystème où elles vivent, s’échangent et interagissent.

Publicités

Un chantier « qualité » sur les données d’autorités

C’est un chantier modeste par le volume des notices concernées, mais important par ses impacts, que nous mettons ici en lumière.

Dans les notices d’autorités de la base Sudoc, les zones Unimarc 5XX permettent de faire des liens vers d’autres notices (lien de type « Voir aussi »). Sur un affichage public, cela se matérialise ainsi :

Notice d'autorité avec zones 5XX

Le bloc 5XX du format Unimarc Autorités prévoit 8 étiquettes différentes, chacune devant contenir un lien vers une notice d’autorité spécifique : l’étiquette 500 doit pointer  vers une notice d’autorité « Personne physique » (Tp), l’étiquette 510 vers une notice d’autorité « Collectivité » (Td), l’étiquette 515 vers une notice d’autorité « Nom géographique » (Tg), etc.

Le chantier a donc consisté dans un premier temps à vérifier ces liens, dans un second temps à rectifier l’étiquette lorsqu’elle avait été utilisée à mauvais escient.

Par exemple, dans toutes les notices où un lien en 550 pointait vers une notice autre qu’une « Autorité nom commun » (Td), il a fallu intervenir pour rétablir un catalogage conforme aux préconisations de l’Unimarc A (dans la notice liante et parfois dans la notice liée).

De tels liens erronés peuvent avoir de multiples sources : erreur de catalogage, mais aussi non répercussion de mises à jour effectuées par la BnF dans son catalogue sous la forme d’un changement de typage dans l’autorité liée.

Un exemple concret :

L’autorité Td Symbolisme dans la Bible est devenue Tu Bible — Symbolisme.

Pour des raisons techniques, la notice liée Td Lumières et ténèbres dans la Bible, mise à jour côté BnF, n’a pas été refournie au Sudoc qui a conservé une étiquette de lien 550 vers Bible — Symbolisme, alors qu’une étiquette 530 s’imposait désormais.

Il en a résulté un défaut d’affichage dans le Sudoc d’une part ; des anomalies dans les exports, bloquantes pour certains SIGB, d’autre part.

Ce chantier a concerné quelques centaines de notices d’autorité.

À l’échelle du catalogue Sudoc, c’est heureusement peu.

Il fallait pourtant le faire, pour la raison évoquée ci-dessus et au moins pour 3 autres, au-delà de l’intérêt pour le travail bien fait :

  1. les notices d’autorités jouissent désormais d’une grande visibilité, via l’application web IdRef  : elles doivent être impeccables ;
  2. elles sont alignées avec d’autres référentiels nationaux ou internationaux : nous nous devons d’exposer des données fiables ;
  3. elles sont exportables vers d’autres applications, dans d’autres formats, dont l’ABES ne pourrait contrôler l’affichage, s’il s’avérait erroné.

 

Un chantier « qualité » sur le 200$b

Avant (mars 2014), dans le Sudoc,  8 700 000 notices avaient une sous-zone 200 $b.

Sauf que celle-ci, qu’un catalogueur peut saisir à la main (même si, rappelons-le, un script « Ajout Texte imprimé » est disponible), contenait des valeurs très … différentes et hétéroclites.

Quelques exemples d’occurrences trouvées, pour la seule valeur « Texte imprimé » :

  • texte imprimé (dans 48.116 notices)
  • Texte imprimée (dans 1.051 notices)
  • TEXTE IMPRIME (dans 785 notices)
  • Texte imprimét (dans 515 notices)
  • Texte imrimé (dans 477 notices)
  • Texte imprimé. (dans 230 notices)
  • Texteimprimé (dans 136 notices)
  • Texte impriméé (dans 28 notices)
  • Etc.

Quelques exemples d’occurrences trouvées, pour la seule valeur « Document cartographique » :

  • Document cartographiquee (dans 6 notices)
  • Document cartographiques (dans 6 notices)
  • Documents cartographiques (dans 6 notices)
  • Document cartograpgique (dans  4 notices)
  •  Document carthographique (dans  4 notices)
  •  bDocument cartographique (dans  4 notices)
  •  Document cartopographique (dans  4 notices)
  •  documents cartographiques (dans  4 notices)
  • Etc.

D’autres valeurs ont été trouvées, telles que :

  • Images animées] : Préparation aux agrégations d’EPS et à la maîtrise STAPS  » Education et motricité
  • Texte impriméA documentary history of Tibet’s international status, the great rebellion and its aftermath

… dans des notices où l’oubli de saisie du « $ » de la sous-zone suivante enregistrait la chaine de caractères entière comme une « valeur » du 200$b !

Au total, près de 8400 valeurs incorrectes différentes de 200 $b ont été trouvées, pour plus de 126 000 notices bibliographiques.

Les multiples valeurs du 200$b

Les multiples valeurs du 200$b (image par Teillas, CC-BY-NC-ND via Flickr)

Aujourd’hui, après recensement et corrections de masse : 9 086 557 notices ont une sous-zone 200 $b.

Elles se répartissent ainsi :

Valeur Nombre d’occurrences
Texte imprimé 7760910
Ressource électronique 764481
Enregistrement sonore 180184
Images animées 152571
Document cartographique 68521
Microforme 65488
Musique imprimée 44882
Multimédia multisupport 37878
Image fixe 9849
Texte manuscrit 1388
Musique manuscrite 287
Braille 71
Objet 54
Document cartographique manuscrit 3

La table de validation du Sudoc contrôle désormais qu’aucune autre valeur ne peut être saisie.

Ce chantier « qualité » permettra d’appréhender sereinement les modifications de masse à envisager lorsque les zones Unimarc 181 et 182 apparaîtront, qui conduiront à la suppression définitive de ce 200$b.