En janvier 2022, la bibliothèque Sainte-Geneviève a débuté un projet pluriannuel (2022-2024) de refonte de ses outils de politique documentaire, par la mise à jour du plan de développement des collections et de la charte documentaire.
Dans ce cadre, une analyse quantitative et qualitative de ses collections a été lancée, afin d’identifier et de caractériser plus finement ses pôles d’excellence et ses gisements documentaires rares et remarquables.
Ce billet retrace la méthodologie employée pour une des étapes de cette analyse qui consiste en la catégorisation thématique de l’ensemble des unicas. Pour mémoire, les unicas sont, dans le contexte du Sudoc, des notices bibliographiques sous lesquelles un seul établissement du réseau est localisé.
L’équipe actuelle en charge de ces opérations se compose de trois personnes, dont deux catalogueuses, pour un total d’environ 30 heures de travail hebdomadaire. Ce chantier est réalisé avec l’appui de la monitrice étudiante et des magasiniers du département des Services aux publics pour les vérifications en magasin.
– Chef de projet “unica” : Emilie Trompille
– Chef de projet du plan de développement des collections : Timothée Rony
– Expertes catalogueuses : Marie Barbier, Clara Dauber
– Soutien informatique : Clément Croquet, Pauline Rivière et le service informatique de la bibliothèque.
Vrais ou faux unicas ?
Ce chantier résulte d’un constat effectué il y a plusieurs années : sur les 261 560 unicas (données extraites en octobre 2022) que posséderait, d’après l’outil SELF Sudoc, le Fonds général de la bibliothèque, un certain nombre de notices correspondent en fait à de faux unicas générés lors d’opérations de rétroconversion menées dans les années 1980-1990. Cette situation ne nous permettait donc pas de mesurer réellement la rareté de nos collections.
L’objectif était donc d’identifier les notices des véritables unicas parmi les doublons de notices qui avaient été créés par erreur.
Après avoir sollicité l’aide de l’Abes, il nous a été proposé d’exploiter – de manière un peu détournée – les possibilités offertes par l’outil d’alignement des données Bibliostratus (BBS), de façon à repérer pour une liste de PPN donnés d’éventuels faux unicas sur la base de divers numéros de contrôle (EAN, ISBN) et à défaut d’une requête “titre + auteur”, en choisissant d’aligner de préférence avec le Sudoc, et dans un second temps avec la BnF.
L’aide apportée par Bibliostratus
À l’aide de la liste des PPN unicas de monographies exportée via SELF Sudoc, nous avons demandé l’extraction des données nécessaires à la structuration du fichier d’entrée pour le module alignements de BBS (PPN/FRBNF, ARK, ISBN, EAN, titre, auteur, date, volume-tome et éditeur). Néanmoins, le format d’export initial nous a posé des problèmes lors de la conversion en UTF-8 sans BOM : des caractères spéciaux apparaissaient à la place des caractères accentués. Il a donc fallu procéder à un nettoyage préalable, ainsi qu’à un tri des données d’autorité, de façon à ne conserver que le premier auteur (par choix, BBS permettant de traiter plusieurs auteurs d’une même ressource en multipliant le nombre de lignes correspondant à cette ressource autant de fois qu’il y a d’auteurs.)
Les fichiers divisés par année de publication sont ensuite chargés dans BBS, qui recherche les correspondances possibles dans le catalogue Sudoc et identifie ainsi les notices en doublons. Au départ, une vérification de chaque doublon était réalisée dans WiniBW car BBS n’était alors pas en mesure de comparer certaines informations comme l’éditeur, la pagination, la mention ou non d’une collection. Grâce à nos remarques communiquées au développeur, BBS permet désormais un contrôle sur les éditeurs depuis la version 1.35. Il s’active dans les préférences avec la possibilité de demander un niveau de contrôle plus ou moins fort sur les données “Éditeur” pour les monographies imprimées (voir la copie d’écran ci-dessous).
- Pour plus de détails : consulter la documentation.
La BSG a choisi de conserver pour le moment la valeur 0.
Un travail de dédoublonnage classique pour retrouver ses unicas
Plus la date de publication est ancienne, plus les doublons apparaissent et les notices sont lacunaires, ce qui nécessite de procéder à des vérifications livre en main, en magasin. Cela nous a également permis de découvrir d’autres anomalies de catalogage, comme la création, pour les ouvrages en plusieurs volumes, d’une notice globale en plus des notices par volumes. Quand le doublon est avéré, la fusion des notices est lancée dans WinIBW. En cas de doute, nous sollicitons les bibliothèques possédant un ouvrage similaire pour déterminer s’il s’agit ou non d’un unica.
Au 12 janvier 2024, environ 53 495 notices ont été analysées, 4 380 doublons ont été détectés et 2 055 ont été effectivement supprimés (ou sont en attente de suppression).
Nous tenons à remercier vivement les collègues de l’Abes et Étienne Cavalié (développeur de Bibliostratus) pour l’accompagnement de ce projet via BBS, qui nous permettra à terme une meilleure compréhension de l’unicité de nos collections tout en procédant à un important travail de nettoyage de notre catalogue local et des notices WinIBW correspondantes. Il améliorera également pour les lecteurs la recherche et la sélection des résultats dans le Sudoc.
Emilie Trompille
coordinatrice Sudoc et correspondante catalogage, Bibliothèque Sainte-Geneviève