BACON et la labellisation des données : à quelle aune mesure-t-on la qualité d’un fichier KBART ?

rvb-sloganLa recommandation KBART, portée par la NISO, a entre autre qualité, sa grande simplicité.  Un fichier KBART doit répondre à des exigences peu contraignantes, du type : intitulés de colonnes normalisés et parlants (ex : ‘publication_title’, ‘first_author’ …) ; sortie sous  forme d’un fichier .txt ; encodage en UTF-8 …

La première vérification réalisée à l’Abes consiste donc à vérifier que le fichier fourni par un éditeur remplit bien  les obligations de conformité à la recommandation KBART. Voici les principaux points de vigilance :

Continuer la lecture

CheckSUDOC, un nouvel outil de contrôle qualité des notices du SUDOC

CheckSUDOC est une nouvelle application en ligne développé en PHP  permettant d’effectuer un contrôle qualité sur les notices du SUDOC. Ce contrôle peut être effectué chaque jour une fois vos notices bibliographiques importées dans votre SIGB local.

Le fonctionnement est simple. Il s’agit de saisir une liste de PPN (identifiants des notices du SUDOC), un par ligne, et de lancer le traitement. Il existe deux modes d’affichage des résultats : simple et avancé.

Continuer la lecture

Un chantier qualité sur les n° FRBNF multiples

Dans un catalogue de bibliothèque, quel qu’il soit, chaque notice dispose de son propre identifiant. Dans le Sudoc, c’est un numéro appelé « PPN ». Il identifie les notices bibliographiques et les notices d’autorités.

Ces dernières, dans l’environnement BnF, disposent de leurs propres identifiants : les numéros FRBNF, visibles en zone 001 des notices BnF.

Lorsqu’un catalogueur Sudoc ne trouve pas une notice pour le point d’accès qu’il veut normaliser, il a l’opportunité de chercher si une notice pour cette autorité existe dans la base d’appui (=DIS CHE de WinIBW) où l’on trouve les notices d’autorité de la BNF, laquelle nous les offre gracieusement depuis l’origine du Sudoc.

Continuer la lecture

Un chantier « qualité » sur le 200$b

Avant (mars 2014), dans le Sudoc,  8 700 000 notices avaient une sous-zone 200 $b.

Sauf que celle-ci, qu’un catalogueur peut saisir à la main (même si, rappelons-le, un script « Ajout Texte imprimé » est disponible), contenait des valeurs très … différentes et hétéroclites.

Quelques exemples d’occurrences trouvées, pour la seule valeur « Texte imprimé » :

Continuer la lecture

Une zone 309 pour coordonner le travail collectif sur la qualité des données Sudoc

Au moment du chargement de nouvelles notices ou à l’occasion d’un chantier de contrôle qualité, l’ABES peut être amenée à effectuer des modifications de masse pour améliorer ou corriger des notices. Hélas, tout n’est pas automatisable – surtout si on tient à conserver un certain niveau de qualité bibliographique. Une fois que les algorithmes ont parlé et atteint leurs limites, l’ABES passe le relais au réseau, qui possède la force de frappe et l’expertise humaine pour continuer le travail, ne serait-ce qu’en se concentrant sur l’essentiel ou le prioritaire.

Mais, précisément, qu’est-ce qui est essentiel ? Qu’est-ce qui est prioritaire ? Sur quelles notices faut-il que le réseau se mobilise ? Et sur quels points précis dans les notices ? Étant donné la taille de la base, le volume des entrées et la richesse des règles, chaque catalogueur, chaque service de catalogage peut se sentir perdu devant l’ampleur de la tâche. C’est pourquoi l’ABES souhaite structurer d’avantage l’organisation de cet immense travail collectif. Cette volonté se traduit aujourd’hui sous une forme très concrète : la zone 309…

Continuer la lecture

Colodus : coup de projecteur sur les données des exemplaires

COLODUS-03Par rapport à WinIBW, Colodus a des fonctionnalités très limitées. Colodus  propose « seulement » un habillage du format de catalogage  avec des libellés en clair pour faciliter la saisie de l’information. Mais ce « seulement » est l’occasion de se pencher sur les spécificités des données d’exemplaires.

Liés à des impératifs du système central du Sudoc, l’ABES distingue  depuis l’origine  deux formats de catalogage des exemplaires :

1/ un format spécifique aux établissements non déployés et rattachés à un centre régional du réseau Sudoc-PS,

2/ un format propre aux établissements déployés dans le Sudoc.

Aussi, Colodus applique à la lettre les règles de description et les formats de catalogage des exemplaires pratiquées dans le Sudoc depuis plus de 10 ans.

Continuer la lecture

Comment isoler les thèses de doctorat soutenues en France au sein des données Sudoc ?

Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr
Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Ce billet entame une série sur le chargement des données du Sudoc dans theses.fr

theses.fr a ouvert en juillet 2011 avec les données en provenance de STAR (les thèses déposées au format électronique au sens de l’arrêté du 26 août 2006), soit une infime partie des thèses de doctorat soutenues en France. Pour que theses.fr puisse prétendre à l’exhaustivité du signalement des thèses de doctorat soutenues en France, il fallait charger dans theses.fr les données du Sudoc concernant les thèses de doctorat.

Continuer la lecture

Le cercle vertueux de theses.fr : mise en relation de l’utilisateur et du producteur de données

L. Par J.G. Park. CC BY-NC 2.0. Source : Flickr

Depuis début avril, le bouton « signaler un problème » de theses.fr présent sur les pages de thèses en préparation et de thèses soutenues permet à un utilisateur lambda d’entrer en contact avec l’établissement de soutenance responsable des données. Le Fil ABES expose le contexte de la mise en place du feedback dans theses.fr.

Continuer la lecture