PUNKTOKOMO

Nouveau workflow d’import automatisé dans le Sudoc : première évaluation


Licence : Paternité. Pas de modification. Certains droits réservés par mbtphoto (away a lot). Source Flickr

Ce billet s’inscrit dans la continuité de l’article Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press.

Suite aux retours des d’établissements ayant répondu à l’appel lancé le 4 février dernier via la liste Corcat  “Votre avis sur la qualité des notices Oxford University Press – import courant”, l’Abes a pu dresser un premier bilan et adapter ce workflow.

Le cadre 

Depuis le 3 octobre 2018, dans le cadre de la mission Signalement total, le département Métadonnées et Service aux Réseaux importe chaque semaine   les métadonnées des monographies imprimées et électroniques de l’éditeur Oxford University Press (OUP), dont les métadonnées, parmi les corpus analysés et retenus, ont été estimés les plus riches pour expérimenter la mise en place d’un circuit d’import (workflow) automatisé.

Pourquoi ce workflow ?

L’Abes rappelle que ce nouveau type d’import constitue un dispositif d’aide destiné aux catalogueurs produisant dans le Sudoc. Comme il a été précisé dans le billet de présentation de la mission Signalement Total : “Le réseau Sudoc est loin d’être uniforme : alors que certains établissements comptent simplement sur la solidité des procédures actuelles – de type transferts réguliers ou exemplarisations en masse, d’autres ne souhaitent plus se contenter des moyens proposés par l’Abes. Pour satisfaire ces niveaux d’exigence diversifiés, de nouveaux moyens – dont certains sont en cours de conception voire de test- seront déclinés.”

Constat

Lors du lancement du nouvel import courant OUP, il est vrai que l’Abes n’a pas suffisamment alerté les réseaux sur le fait que, en plus des notices de ressources électroniques, le périmètre du corpus couvrait également des notices de documents imprimés. Jusqu’alors, les imports courants portaient uniquement sur des corpus électroniques et l’arrivée de corpus de documents imprimés bouscule les habitudes. De plus, les imports courants se font habituellement à partir de notices MARC fournies par les éditeurs, cette façon de procéder exigeant parfois de nombreux échanges avec ces derniers afin d’obtenir des notices de qualité minimale pour alimenter le Sudoc. Dans cette expérimentation, l’Abes se base sur les données natives de l’éditeur pour créer les notices MARC via un circuit de traitement entièrement automatisé.

Évaluation et actions entreprises

S’agissant d’une première expérience, l’évaluation par les établissements est très importante. C’est pourquoi les équipes de l’Abes remercient à nouveau les établissements ayant répondu à l’enquête sur la qualité des notices importées. Ces retours ont permis d’engager plusieurs actions :

  • corriger des anomalies et améliorer la qualité des notices générées
  • continuer les améliorations du circuit des enrichissements automatiques pour répondre dans un second temps aux besoins exprimés, soit en faisant remonter les demandes à l’éditeur, soit en adaptant nos propres traitements
  • mieux comprendre les pratiques et les habitudes des catalogueurs

Voici les premières réponses que l’Abes peut apporter aux diverses remarques recueillies. Afin de faciliter la lecture de cette partie du document, les réponses suivent le déroulé des zones Unimarc ayant fait l’objet de commentaires.

  • zone 073 : elle n’apparaissait pas dans les premières notices générées. Cette absence était due à une coquille dans le circuit de traitement. Depuis le 19/02/2019, l’erreur est corrigée : cette zone apparaît bien dans les notices chargées
  • les données de l’éditeur ne permettant pas de discriminer les manuels scolaires des autres ouvrages, l’Abes a choisi de créer une zone 104 générique. Elle reste à vérifier et à adapter selon les besoins
  • zone 105 : absente. A l’heure actuelle, les données issues de l’éditeur ne permettent pas de générer automatiquement cette zone facultative
  • zone 200 : certains catalogueurs ont constaté dans cette zone la présence de titres en majuscules. Après vérification, ces rares cas ne proviennent pas des notices importées par l’Abes mais de notices dérivées de Worldcat, comme en témoigne la capture d’écran ci-joint datée du 26/03/2019
  • sous-zone 200 $a : un autre problème récurrent  concerne les majuscules en début de substantif. Sur ce point, l’Abes comprend que la retranscription du titre tel qu’on le voit sur la ressource ou dans les métadonnées déroge à la règle RDA-FR (section 1, § 1.7.2) qui stipule : “l’utilisation des majuscules doit suivre les règles grammaticales de la langue dans laquelle l’information est donnée, sans tenir compte de la typographie de la source d’information« . Dans les titres en langue anglaise, l’usage typographique veut que -en dehors des articles,  conjonctions et prépositions- tous les mots prennent une majuscule initiale. Les notices étant créées à partir des données de l’éditeur, il est très délicat pour l’Abes d’intervenir de façon automatique sur ces choix éditoriaux (présence de sigles, noms propres…). La consigne de catalogage courant reste de ne pas mettre une majuscule à tous les mots pour les titres en anglais. Les catalogueurs sont donc invités à corriger la zone de titre lorsque cela est nécessaire.
  • sous-zone 200$e parfois absente : pour rappel, sur 6876 notices d’imprimés, 3392 possèdent une sous-zone $e (03/04/2019). Par ailleurs, après vérification, environ 580 notices ont un $e qui pourrait être une sous-zone $h. Les équipes de l’Abes entendent ce problème mais ne peuvent les anticiper par la structuration actuelle des métadonnées de l’éditeur. Ces remarques lui seront communiquées.
  • dernier retour sur la zone 200 : la retranscription infidèle de l’ordre d’apparition des auteurs figurant sur la page de titre. Rappelons que les notices sont créées à partir des métadonnées fournies par l’éditeur. L’Abes n’ayant pas le livre en main, il n’est pas possible de reproduire exactement la présentation de la page telle que la voit le catalogueur. Les fonctions des contributeurs sont retranscrites en point d’accès 7XX $4.
  • zone 215 : la description matérielle est souvent lacunaire ou trop approximative (utilisation d’abréviations, nombre de pages ou taille du document ne respectant pas les règles de retranscription). L’Abes ne peut corriger cette zone pour l’instant, car les métadonnées de  l’éditeur ne contiennent que le nombre total de pages et non pas le détail de la pagination. Cette demande des établissements va être transmise à l’éditeur.
  • zone 219 :  les établissements ont fait remonter que les informations transcrites n’étaient pas tout à fait conformes aux documents. Le problème a été corrigé, et le sigle OUP en $c automatiquement développé en Oxford University Press
  • zone 225 : dans la mention de collection, la valeur de l’indicateur 1 est le 0 par défaut (forme du titre différente de la forme d’autorité). Dans le doute, l’Abes a initialement choisi cette valeur. Après discussion en interne, la valeur de l’indicateur 1 sera “1” (pas de forme établie du titre) et non plus “0”. De plus, certains retours ont pointé l’absence de lien dans la zone 410. Les notices étant créées automatiquement à partir des données fournies par l’éditeur, elles ne contiennent pas toutes les informations de numérotation. Le lien vers la collection ne peut être fait automatiquement car il n’est pas possible de savoir à l’avance si la notice de collection existe ou non. De plus, l’ISSN, quand il existe, n’apparait pas dans les métadonnées fournies et la plupart des notices de collection correspondantes -et déjà présentes dans le Sudoc-  n’en ont également pas
  • zone 304 : certains catalogueurs ont  été surpris par la présence de cette zone dans une notice de monographie imprimée. Or, la zone 304, obligatoire pour les ressources électroniques, peut aussi être utilisée pour les autres types de documents. De plus, l’intitulé  $aTitre provenant des métadonnées n’a pas été bien compris par le réseau. Il a donc été décidé de modifier le contenu de cette zone qui sera retranscrite ainsi : 304 ##$aTitre provenant des métadonnées fournies par l’éditeur. Les catalogueurs qui interviendront dans la zone de titre d’une notice ayant une zone 304 devront donc la supprimer.
  • zone 320 : absente des notices importées,  les données récupérées auprès de l’éditeur ne contenant pas ces informations. Les catalogueurs devront compléter le signalement avec ces données si nécessaire.
  • zone 330 : la présence d’un point final, qui pouvait générer une confusion avec l’affichage ISBD, a été supprimé dans toutes les notices.
  • bloc des zones 60X : elles vont être automatiquement créées et enrichies par des liens. Cependant, ces liens ne seront ni systématiques, ni toujours suffisants : ils pourront, et devront parfois être complétés. L’équipe de l’Abes en charge de ce travail reviendra vers le réseau, une fois cette évolution du circuit de traitement en place.
  • zone 610 : désormais, elle n’apparaît plus dans les nouvelles notices chargées. Si cette zone est encore présente, les catalogueurs peuvent remplacer l’indexation en vocabulaire libre dans les zones 60X par des points d’accès « sujet » conforme au langage Rameau
  • bloc des zones 7XX : certains catalogueurs ont été surpris de constater que certains liens n’étaient pas faits, alors que les notices d’autorité de ces personnes existent dans le Sudoc. Les liens étant générés automatiquement par un programme de liage aux notices d’autorité « Noms de personne »,  par prudence et pour éviter de mauvais liages, les paramétrages sont volontairement contraints et peuvent ne pas lier une autorité existante par manque d’informations connexes et sûres. Le but est bien de faciliter le travail des catalogueurs et de créer automatiquement uniquement des liens sûrs .

Le processus est le même que celui appliqué pour l’import d’Open Edition dans le cadre du chantier CERCLES au SCD de l’université François Rabelais de Tours. De plus, concernant l’absence systématique des accès secondaires dans les notices, l’Abes ne peut pallier le fait que les données de l’éditeur ne contiennent pas forcément les noms de tous les contributeurs.

Pour finir, rappelons que les notices des documents électroniques sont générées à partir des métadonnées communes aux documents imprimés et aux données du fichier KBART de l’éditeur.

De façon générale, l’Abes souhaite attirer l’attention sur le fait que les notices issues de ce circuit ont pour vocation à être enrichies et améliorées, notamment pour les zones de lien 4XX, 6XX et 7XX.

En conclusion

Ce premier bilan d’étape permet de rappeler certains principes et d’initier de nouvelles interactions avec les réseaux desservis par l’Abes. Il encourage l’Abes à poursuivre le travail d’adaptation et d’amélioration des nouveaux circuits automatisés. Conscients que ces types de traitement, inédits pour des documents imprimés, ont des répercussions sur le travail quotidien des établissements, il semble indispensable de continuer ces échanges, afin de mieux comprendre les contraintes des uns et des autres et de trouver les bons compromis. En effet, il est primordial de poursuivre cet effort de concert pour assurer la pleine réussite de cette autre transition.


Plus de détails

  • relire le billet Punktokomo à ce sujet, et plus particulièrement le paragraphe “Et les notices de ressources électroniques ?”
Quitter la version mobile