Une politique de développement au service de l’ouverture et de la qualité des codes source

Dès 2015, le service Conception et Développement s’est doté d’une politique de développement reposant sur une philosophie open source. Depuis lors, celle-ci cadre les réalisations portées par le département Systèmes d’Information et du Numérique (DSIN) de l’Abes,

Partage de bonnes pratiques

Lors de la mise en place de cette démarche, les nombreux bénéfices attendus avaient en commun le fait de renforcer le travail en équipe en favorisant des pratiques communes de développement. Il s’agissait principalement de :

  • faciliter la maintenance des applications en évitant l’éparpillement dans le choix des technologies et architectures utilisées
  • coder selon des standards communs afin que chacun puisse se repérer dans les applications
  • faciliter l’intégration de nouveaux développeurs en leur fournissant un guide de bonnes pratiques
  • faciliter le respect des principes et règles en termes de sécurité en spécifiant les procédures à suivre

Aujourd’hui, ces bonnes pratiques sont largement partagées par les développeurs de l’Abes : respect des règles de codage, utilisation de branches, versionnage du code source, programmation de tests unitaires, documentation du code….

Pour consolider l’appropriation de ces pratiques, des séances de travail de type coding dojo ou pair programming sont régulièrement organisées.

Architecture et choix techniques

L’ensemble des nouvelles applications développées à l’Abes découplent les « interfaces utilisateurs » des parties « serveur », construites sous forme d’API REST sécurisées (différents types d’authentification peuvent être utilisés : LDAP, service web, base interne) et documentées (au format OpenApi).

En ce qui concerne la programmation côté serveur, des frameworks bien définis, notamment Spring, sont utilisés aussi bien pour les API REST (Spring web security) que pour les programmes batch (Spring Batch). Par ailleurs, pour l’accès aux données depuis les bases relationnelles, Spring JPA et Spring data sont mis en œuvre.

En ce qui concerne la conception des interfaces utilisateurs, c’est VueJS qui a été choisi, couplé à Vuetify pour les composants graphiques. Les développeurs codent désormais en typescript.  Une application (nommée « abes-hello ») sert de modèle et de référence : les développeurs peuvent s’y référer pour se former ou pour réutiliser le code.

Une intégration en continu

Un ensemble de briques logicielles (Github /Gitlab, Jenkins, Artifactory, Sonarqube) a été installé afin de mettre en place une plateforme d’intégration continue. Ainsi, la production de code est industrialisée, que ce soit pour construire les applications ou pour les déployer.

Cette gamme d’outils a pour intérêt de centraliser les dépôts de code (Github pour les codes opensource ; Gitlab interne pour les codes historiques ; Artifactory pour le code compilé) ce qui facilite amplement  le suivi  des versions et garantit la maitrise de la compilation et du déploiement (via Jenkins).

Bien entendu, la politique de développement est évolutive. Elle est mise à jour régulièrement pour suivre l’état de l’art. En revanche, les évolutions potentielles sont présentées et discutées collectivement : il s’agit en effet d’obtenir l’adhésion des équipes de développeurs lors de l’adoption de nouveaux choix techniques.

Julien Gibert, chef du Service Conception et Développements, Abes

En savoir plus

Continuer la lecture Une politique de développement au service de l’ouverture et de la qualité des codes source

Identifiants : les bibliothèques ne sont pas en reste

Les identifiants forment notre pain quotidien de bibliothécaires. Tous ces sigles si opaques pour les non-initiés (IdRef, ORCID, ISSN, ISBN, DOI…), ces clés numériques cherchent à identifier, de manière unique et si possible pérenne, quelqu’un ou quelque chose, pour pouvoir échanger des informations à son propos.

Il parait donc naturel que les bibliothèques elles-mêmes, qui en sont si friandes à la fois comme productrices et consommatrices, aient leur propre identifiant. Une norme (ISO 15511, dernière mise à jour en 2019) le définit depuis 2003 : c’est l’ISIL, pour International Standard Identifier Libraries and related organisations. Et – le saviez-vous ? – en France, c’est l’Abes qui est chargée d’attribuer ces identifiants, comme agence de numérotation, et ce pour l’ensemble des bibliothèques, bien au-delà du périmètre de l’enseignement supérieur. Si les bibliothécaires seraient bien en peine de réciter de tête leur ISIL, c’est parce qu’elles et ils ignorent que ce numéro est tout simplement basé sur un autre, bien connu dans les réseaux Sudoc et Sudoc-PS : le RCR (Répertoire des Centres de Ressources).

ISIL = FR-RCR ! 

Le RCR : cette élégante suite de neuf caractères, qui permet, par sa conception, d’identifier presque au premier coup d’œil l’origine, au moins géographique, d’une action dans le Sudoc. Les RCR sont en effet des identifiants signifiants : ils réutilisent des codes. Le premier d’entre eux, le numéro de département, est le plus familier, au moins à ceux d’entre nous qui furent habitués aux longs trajets en voiture. Le second est présent sur toutes nos cartes Vitale, car il est aussi utilisé dans une portion du numéro de sécurité sociale.

Exemple du RCR de la Bibliothèque Lettres, Arts et Sciences Humaines « Henri Bosco » du SCD Université Côte d’Azur : 

Signification du n° RCR

Les numéros RCR sont les identifiants de toutes les bibliothèques qui composent nos réseaux, et dont vous pouvez retrouver l’annuaire jumelé au catalogue Sudoc. Les RCR servent déjà de pivot entre le Sudoc et le Répertoire du Catalogue Collectif de France (CCFr) orchestré par la BnF. Et ils ont fait leur apparition dans l’enquête ESGBU menée par le Ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation. À chaque RCR des bibliothèques Sudoc et Sudoc-PS est attaché un descriptif ! Son format ad hoc, calqué sur le MARC,  permet de renseigner des informations pratiques (coordonnées GPS, adresse postale, téléphone, horaires..) et des précisions sur les collections (domaines, labellisation Collex…) utiles aux lecteurs.

Deux micro-webservices pour l’identification des bibliothèques

Vous vous demandez maintenant quels sont tous les établissements auxquels l’Abes a attribué un identifiant ? Ou quelle bibliothèque se cache derrière ce RCR ?

Vous serez ravis d’apprendre que l’Abes a mis en route en 2020 deux nouveaux micro-webservices :

  • ListrcrIsil qui donne la liste des établissements disposant d’un n°ISIL attribués par l’Abes. Le fichier de sortie comporte : l’ISIL, l’ILN de rattachement, l’intitulé court, et le PPN de la notice descriptive (quand elle existe).
  • Listrcr qui établit les correspondances entre les numéros RCR et les intitulés des établissements des réseaux Sudoc et Sudoc PS. Le fichier de sortie comporte : le RCR, l’ILN de rattachement, l’intitulé court, et le PPN de la notice descriptive (quand elle existe).

Les bibliothèques (et institutions assimilées) qui sont dans la première liste mais pas dans la seconde ne sont pas présentes dans le Répertoire. L’activité de numérotation ISIL hors des réseaux traditionnels de l’Abes vient principalement de deux sources : les bibliothèques qui sont répertoriées par le CCFr (la demande transite alors par le service dédié de la BnF) et les bibliothèques des collectivités territoriales qui équipent leurs collections en puces RFID : cet identifiant est en effet nécessaire à leurs prestataires pour configurer les automates.

Si vous êtes curieux de la manière dont procèdent les autres pays pour construire leurs ISIL, le centre ISIL international est hébergé au Danemark et recense, pour chaque pays, l’organisation chargée de la numérotation ainsi que le lien vers le répertoire des institutions. Une invitation au bibliotourisme !

Bibliothèque Royale du Danemark
« Le diamant noir » est le surnom de la Bibliothèque Royale du Danemark. Elle héberge le service de coordination internationale de l’enregistrement ISIL.
Continuer la lecture Identifiants : les bibliothèques ne sont pas en reste

Eplouribousse, une application web pour dédoublonner les périodiques

Qu’il s’agisse des nombreuses fusions d’établissements, des regroupements ou  des intégrations de bibliothèques, ces opérations, souvent réalisées dans un délai restreint et avec les moyens du bord, ont généré et génèrent encore d’importantes opérations de dédoublonnages des collections. En effet,  ces opérations, qui ne reposent généralement pas sur une infrastructure déterminée, font l’objet de protocoles maisons ingénieux et plus ou moins complexes utilisant une batterie d’outils disparates (tableurs, messagerie, dépôts de fichiers…), ce qui implique des manipulations fastidieuses et potentiellement génératrices d’erreurs.

C’est dans l’objectif de faciliter ce type d’opérations que le Service des Bibliothèques de l’Université de Strasbourg a mis au point une application inédite  dédiée au dédoublonnement des périodiques : nommée Eplouribousse – du latin «e pluribus unum» ou «de plusieurs un seul», expression forgée par Virgile dans le poème «Moretum», cette application a été développée en interne par un personnel de la filière bibliothèques, en relation avec le le pôle Communication de l’établissement qui s’est chargé de son ergonomie et son habillage graphique.

Eplouribousse est actuellement utilisée dans le cadre de 3 projets de conservation partagée impliquant 8 bibliothèques de l’université de Strasbourg et d’établissements partenaires (École Nationale du Génie de l’Eau et de l’Environnement et Institut National des Sciences Appliquées de Strasbourg).

à noter : le code source d’Eplouribousse est disponible sous licence GPLv3 à partir du GitHub de l’Abes. Chacun est invité à l’adapter, le modifier, y contribuer …

Une application web sécurisée

Application web sécurisée, Eplouribousse intègre toutes les fonctionnalités de base attendues d’un tel outil : calcul des candidats, positionnement, instruction et édition de rapports. Elle embarque son propre workflow, un outil de suivi, un module complet d’administration et d’authentification (Framework Django) et divers utilitaires, comme la recherche croisée par PPN et par bibliothèque.

Fonctionnant sur toutes les plateformes (Linux, BSD, MacOS, Windows etc.) et tous les types d’appareils (PC, tablettes, smartphones …), Eplouribousse ne nécessite aucune installation spéciale sur le poste de l’utilisateur. L’application est gratuite et aucune autorisation n’est requise pour la déployer et s’en servir.

Différentes fonctionnalités complémentaires sont disponibles, comme :

  • la gestion autonome du mot de passe,
  • le workflow intégré avec l’envoi d’une alerte aux personnes concernées en temps voulu,
  • la recherche croisée « revue x / bibliothèque » pour vérifier à tout moment où en est le traitement d’un PPN,
  • la gestion dynamique des utilisateurs grâce au module d’administration de Django,
  • la possibilité d’administrer les enregistrements sans avoir à manipuler la base de données elle-même, 
  • la présence d’indicateurs de supervision,
  • la possibilité d’éditer, exporter et imprimer des rapports de résultantes soignés au format PDF, soit à l’unité soit en globalité.

à noter :  L’utilisation d’Eplouribousse est facilitée par la mise à disposition d’un manuel de l’utilisateur complet, accessible depuis l’application elle-même.

Déterminer la collection résultante : le workflow d’Eplouribousse

Avant tout conçue pour les établissements membres des réseaux de l’Abes. Eplouribousse fonctionne sur la base des deux identifiants uniques -bien connus du réseau Sudoc – que sont le n°PPN des notices et le n°RCR des bibliothèques, tous deux fournis par l’Abes. De plus, Eplouribousse propose un renvoi vers l’outil Périscope, développé par l’Abes pour faciliter la gestion des collections de périodiques.

A l’aide d’Eplouribousse, une collection dite «collection résultante» est recomposée grâce aux fragments de collections présents dans les différentes bibliothèques participantes. Cette collection, la plus étendue possible, résulte de l’agrégation des éléments présentant le meilleur état physique au sein de la collection la plus complète, dite «collection mère»,

Après que l’ensemble des bibliothèques rattachées se sont positionnées sur une revue, l’instruction de la « collection résultante » peut commencer. Elle se déroule en deux cycles : les éléments reliés d’abord, les éléments non reliés ensuite. Le principe est de  porter à chacune de ces phases uniquement les éléments qui améliorent la collection résultante en cours d’instruction. Celle-ci est parfois déjà complète après le premier cycle d’instruction. Dans ce cas, le cycle d’instruction des éléments non reliés est de pure forme.

Déroulé en images de l’utilisation d’Eplouribousse

La page d’accueil du site présente les quatre fonctionnalités disponibles :

  • Positionnement
  • Arbitrage
  • Instruction
  • Résultantes

La fonctionnalité « positionnement » permet à chaque bibliothèque participante de prendre rang dans l’ordre d’instruction de la collection résultante :

La fonctionnalité « instruction » – des éléments reliés d’abord, des éléments non reliés ensuite- permet de créer la collection résultante :

La fonctionnalité « édition » permet d’obtenir une vue de la collection résultante :

Recherche croisée PPN / RCR : présentation des résultats

Récapitulatif du workflow général 

Appel à participation : deux sessions de présentation d’Eplouribousse et une offre aux établissements

L’application Eplouribousse a été conçue pour être utilisée bien au-delà des Bibliothèques de l’Université de Strasbourg. C’est pourquoi le Service des Bibliothèques a décidé d’offrir, pour une durée d’un an, au premier établissement intéressé par le déploiement de l’application un certain nombre de prestations telles que l’aide au paramétrage complet de la base de données, la formation, l’assistance.

Consulter la proposition  : https://github.com/GGre/promo/blob/master/reglement_offre_Eplouribousse.pdf

 

Afin que les établissements s’engagent en toute connaissance, deux visioconférences de présentation leur sont proposées les jeudi 11 et lundi 15 mars (14:00-16:30). Pour s’inscrire à l’une de ces sessions, merci d’utiliser l’adresse mail indiquée sur les dépôts :

à noter : La clôture des inscriptions est prévue 7 jours avant la session. Le nombre de participants est limité à 20 par session et à deux agents par établissement.

En savoir plus : note technique

  Georges Gressot, Conservation et valorisation des collections, 

Service des Bibliothèques  de l’Université de Strasbourg

 

Continuer la lecture Eplouribousse, une application web pour dédoublonner les périodiques

Nouvel import Sudoc : les notices du catalogue Général de la BnF par son service SRU

en résumé : les nouvelles notices du Catalogue Général de la Bibliothèque nationale de France (BnF) sont dorénavant importées de façon hebdomadaire. Le workflow mis en place par l’Abes permet leur récupération en interrogeant le service SRU (Search Retrieval via URL) de la BnF, leur traitement et leur enrichissement. Le périmètre de l’import de notices BnF s’élargit puisque les notices descriptives des documents cartographiques, les pré-notices et les notices multimédias multisupports sont également chargées en base de production. 

Jusqu’à présent, l’import des notices issues de la BnF était effectuée lors de chargements bimensuels par la récupération des fichiers déposés sur leur serveur. Depuis janvier 2021, ce chargement est remplacé par un import automatique hebdomadaire programmé chaque  mardi qui s’appuie sur  le service SRU de la BnF.

Périodicité et périmètre de l’import

Périodicité

Grâce aux workflows mis en place, les notices issues de la BnF sont versées, enrichies et mises à jour chaque semaine dans la base de production du Sudoc.

Périmètre de l’import

Ce flux conserve le périmètre de l’import bimensuel initial (monographies imprimées, ebooks, enregistrements sonores musicaux et non musicaux, documents audiovisuels). En outre, ce chargement concerne de nouvelles données : les notices des documents cartographiques et des documents multimédias multisupports ; les pré-notices.

à noter : cet import ne concerne pas les notices de périodiques, récupérées grâce à l’import ISSN ni  les autorités qui ne sont pas chargées par ce flux. 

Les pré-notices

Les pré-notices émanent du service du dépôt légal. Bien qu’elles possèdent un identifiant ARK en zone B033, elles sont produites par les éditeurs et n’ont donc pas été contrôlées « document en main » par un bibliothécaire.  Relativement sommaires, elles sont reçues par la BnF au format ONIX puis transformées et diffusées au format MARC. 

Les pré-notices sont signalées dans WinIBW par un statut particulier – en position 3 de la zone B008 (valeur “c”) – pour alerter le catalogueur sur la qualité des données enregistrées : celles-ci doivent en effet impérativement être vérifiées et complétées (indexation, liage aux autorités, etc.) ;  le statut en B008 doit être modifié de “c” en “x” afin que la notice puisse être exemplarisée et rendue visible dans le Sudoc public. 

Par ailleurs, la zone B309 avertit qu’il s’agit d’une pré-notice :

  • 309 ##$aPré-notice ne contenant que des informations minimales, à compléter impérativement avant localisation. Supprimer la présente note 309 une fois la (les) correction (s) effectuée (s)

En outre, certaines notices bibliographiques, considérées comme trop pauvres selon les critères de sélection établis pour effectuer ce premier tri, sont récupérées via le SRU mais exclues de l’import. Ces zones ont été choisies du fait de leur importance pour qualifier et identifier une ressource :

  • notice sans ISBN (zone B010)
  • notice sans date de publication (zone B100)
  • notice sans aucune mention de publication, production, diffusion, fabrication (zone B214)
  • notice sans aucune mention de responsabilité (zones B7XX)

Précisons enfin que les notices en base de production Sudoc qui n’auront été ni corrigées ni localisées seront remplacées  au fur et à mesure de la mise à disposition des notices corrigées via le service SRU de la BnF.

à noter :  tous les éditeurs n’envoyant pas leurs données à la BnF, les pré-notices ne sont pas représentatives de l’ensemble de la production éditoriale française.

Les cartes (hors manuscrits)

Le périmètre des imports s’élargit également aux notices des documents cartographiques qui sont dorénavant versées en base de production avec les statuts « x » et « c » en B008 (position 3).

Toutefois, des écarts de signalement existent entre les deux agences, notamment dans le traitement des séries cartographiques (à ne pas confondre avec les séries éditoriales, dont les notices sont importées d’ISSN). Ainsi, dans le Sudoc, afin d’éviter le catalogage à niveau selon les consignes élaborés dans le cadre des GT dédiés aux cartes (réunis en 2003 puis 2010), le titre de la série et le titre de la carte sont tous deux enregistrés dans la zone de transcription du titre : B200 $a[titre de la série] $h[n° de la carte en feuille dans la série] $i[titre de la feuille]).

Pour sa part, la BnF distribue ces données dans plusieurs zones distinctes : le titre propre de la feuille est enregistré en B200 $a et le titre de la série est enregistré en B225 $a et B461 $t, à l’instar d’une suite fermée. 

L’exemple ci-dessous illustre cette différence de catalogage. Dans la première colonne, une notice de carte produite par la BnF, dans la seconde, la même notice cataloguée dans le Sudoc : le contenu de la zone B225$a est retranscrit en B200$a et $h, créant une différence dans le titre propre.

Tableau comparatif notice NBnF et Sudoc

Bien que l’Abes ait conscience des problèmes que peut engendrer ce changement de pratiques et d’habitudes en matière de catalogage, force est de constater que cet import de cartes comporte de nombreux avantages pour le réseau : les zones de données codées sont déjà remplies dont les zones les plus fastidieuses (zones B12X avec toutes les données géographiques, latitude, longitude, etc.), les formats dans la zone B215 sont traités avec plus de précision, l’indexation géographique est en partie réalisée, etc. 

Afin de les rendre conformes au catalogage des documents cartographiques dans le Sudoc, les catalogueurs sont invités à modifier les zones B200 / B225 et B461 issues de la BnF. 

à noter : ce nouvel import permet de récupérer de la BnF toutes les cartes de l’IGN – Institut national de l’information géographique et forestière, évitant ainsi au réseau de les dériver une à une.

Les documents multimédias multisupports

En dehors de quelques différences de catalogage (ex : cas de notices signalant l’usage de matériel désormais obsolète/désuet, par exemple des transparents pour rétroprojecteur) qui ne concernent qu’un nombre trés restreint de notices, les pratiques de catalogage de ce type de documents se sont harmonisées entre les deux agences. L’ import de ces notices dans le Sudoc ne pose donc pas de problème particulier. 

Le workflow de traitement

Le service SRU proposé par la BnF permet d’interroger son Catalogue Général soit via des requêtes http soit à l’aide du formulaire disponible à cette adresse.

La requête mise en place par l’Abes a été construite afin de récupérer  :

  • les monographies imprimées
  • les monographies électroniques
  • la musique notée hors manuscrits
  • l’audiovisuel
  • les documents cartographiques (hors manuscrits)
  • les documents multimédias multisupports

La requête est la suivante :

http://catalogue.bnf.fr/api/SRU?version=1.2&operation=searchRetrieve&query=bib.doctype%20any%20%22a%20c%20g%20h%20r%20s%20e%22%20and%20bib.lastmodificationdate%20all%20%2220191001%22&recordSchema=unimarcxchange&maximumRecords=500&startRecord=1

Toutes les notices récupérées sont stockées dans une table au sein d’une base Oracle puis sont triées à l’aide d’un statut particulier. Seules les notices ayant un statut “in” sont traitées au cours de la prochaine étape : il s’agit soit de nouvelles notices à créer soit des mises à jour de pré-notices :

Import SRU BnF : répartition des notices par imports
Notices non traitées : périodiques et/ou notices avec des zones manquantes (B010 et/ou B100 et/ou B214 et/ou B7XX)

 

 

 

 

 

 

 

En sortie, les fichiers sont au format XML puis convertis au format ISO 2709. Les notices sont ensuite stockées dans une base interne de travail à partir de laquelle est lancé un programme de transformation configuré spécialement pour cet import. 

En effet, rappelons que les notices de la BnF ne sont pas au format ‘UNIMARC Sudoc’. Il convient donc de les ajuster afin de les rendre conformes au catalogue Sudoc. Sans rentrer dans les détails dans ce billet, voici quelques-unes des transformations effectuées : 

  • ajout de la zone B183 (type de support)
  • modifications des zones de points d’accès auteur dans la perspective des futures entités LRM : par exemple, le directeur de publication et l’éditeur scientifique sont désormais enregistrés dans le Sudoc comme agents associés au niveau œuvre/expression (donc en B700/B701 et non plus B702) …

Même si, bien entendu, les programmes ne remplaceront jamais la vigilance des catalogueurs, certaines corrections sont également effectuées sur les pré-notices afin de faciliter leur travail  : correction de(s) zone(s) B214, contrôle sur la zone de titre en B200, ajout d’une note en B309 lorsqu’il n’y aucun code de fonction en B7XX, etc. 

Lors d’une dernière étape, le programme vérifie si les notices candidates ne sont pas déjà présentes dans la base de production en scannant différentes zones clés (numéro source, ISBN, etc). Pour chaque type de notice, le programme effectue deux passages : 

  • premier traitement : en base de production, le programme interroge sur l’index « numéro source » les notices ayant un statut « c » en zone B008. Si dans le lot chargé, la BnF fournit la notice complète et corrigée avec un statut « x », celle-ci écrase la notice Sudoc en appliquant toutes les mises à jour nécessaires, notamment le changement de statut dans la zone B008. On considère en effet qu’une pré-notice importée de la BnF une première fois avec un statut “c”, dans la mesure où elle aura été corrigée par le catalogueur, aura été dotée du nouveau statut « x ». Ainsi, les corrections et enrichissements apportés par le réseau sont conservés.  
  • second traitement : en base de production, le programme analyse  toutes les autres notices ayant un autre statut que « c » en zone B008 : statut « v » (notice verrouillée), « x » (notice complète), « r » (ancienne notice de rétroconversion), « a » (notice d’acquisition) et « y » (notice provisoire). Pour cette étape de fusion, le programme interroge les index « numéro source » (zone B033), « ISBN » (B010) et « titre clé » (B200). 

Si la notice n’existe pas dans le Sudoc ou qu’il y a moins de 58% de ressemblance avec des notices déjà présentes, des nouvelles notices sont créées. Précisons que les notices n’ayant pu être importées en base de production, sont intégrées en base d’appui (base de données servant de réservoir à la base de production Sudoc à la disposition des catalogueurs pour un rapatriement rapide des notices). Ce reliquat est constitué de notices ayant un taux de ressemblance supérieur à 59% et, jusqu’à présent, de notices multimédias multisupports (Za). De même qu’en base de production, le programme interroge l’index « numéro source » (B033) et opère une fusion en cas de similitude. Les notices déjà présentes en base d’appui sont donc remplacées par les notices entrantes. Dans le cas contraire, de nouvelles notices sont également créées.

La suite ?

À la fin d’une période d’essai de 6 mois, l’Abes reviendra vers les catalogueurs du réseau Sudoc afin de recueillir leur avis sur ce nouveau flux, et notamment ce qui concerne leur utilisation des pré-notices et des notices de documents cartographiques. Il conviendra alors de décider de la pertinence de maintenir ces données dans l’import automatisé. 

En savoir plus 

 

Continuer la lecture Nouvel import Sudoc : les notices du catalogue Général de la BnF par son service SRU

Le signalement des corpus acquis sous Licence Nationale évolue !

Dans le cadre des programmes d’acquisition de corpus documentaires sous licence nationale lancés il y a 10 ans, les contrats signés avec les éditeurs prévoyaient initialement, que ceux-ci donnent accès aux ressources acquises via leurs plateformes respectives, pour une durée minimale de 5 ans, renouvelable ou non.

En parallèle, les équipes de l’Inist ont développé et alimentent la plateforme nationale ISTEX, infrastructure documentaire indépendante des plateformes commerciales. Pour leur part, les équipes de l’Abes ont signalé – dans le Sudoc ou dans les fichiers KBart mis à disposition via BACON, la base de connaissance nationale – principalement les accès aux ressources via les plateformes des éditeurs. En effet, au début, l’accès direct à un titre de revue ou d’ebook sur la plateforme ISTEX était impossible pour des raisons techniques. En cause, une différence de granularité : alors que le Sudoc et les KBart BACON signalent des titres de revues ou d’ebooks, ISTEX donne très massivement accès aux articles de revues et aux chapitres de monographies.

Or, depuis 2019, l’Inist a mis à disposition un nouveau service : la ‘revue de sommaire’. Grâce à ce dispositif, chaque ebook et chaque revue intégrés à la plateforme ISTEX disposent désormais d’une URL d’accès ‘générique’, basée sur un identifiant de type ARK, unique et pérenne.

Pour construire ce service, conçu dans le cadre d’un cercle vertueux de signalement des données, ce sont les fichiers KBart générés par l’Abes, après amélioration intégrale des livraisons des éditeurs, qui servent de point de repère pour la génération de la revue de sommaire ISTEX. Il est donc possible, dans les fichiers KBart comme dans les exemplaires Sudoc, de mettre en regard le titre de la publication et l’URL d’accès à la page de cette revue ou de cet ebook sur la plateforme ISTEX. A partir de cette page, l’utilisateur peut naviguer dans les différents chapitres ou articles (classés par années) et accéder aux contenus.

Une fois cette fonctionnalité en place, il a été envisagé, dans un premier temps, que le signalement via la plateforme ISTEX prendrait le relais au moment où les 5 ou 10 ans d’accès via la plateforme éditeur seraient passés. Cette décision impliquait :

  • dans BACON : suppression de tous les fichiers KBart ‘Licence Nationale’ avec URLs d’accès sur une plateforme commerciale et  remplacement par les fichiers KBart renvoyant vers la plateforme ISTEX.
  • dans le Sudoc :  remplacement des exemplaires Abes-Licence Nationale (avec URL d’accès et, le cas échéant, état de collection – correspondant à ce qui est disponible sur une plateforme commerciale) par des données ISTEX (URL ‘revue de sommaire’ et état de collection qui reflète ce qui a été chargé sur la plateforme).

Or, de nombreux établissements du réseau Sudoc, notamment ceux abonnés à titre individuel, ayant manifesté le désir de conserver les accès aux Licences Nationales sur les plateformes des éditeurs en même temps que l’accès sur la plateforme ISTEX, il a semblé pertinent pour l’Abes de laisser le choix aux bibliothèques, en procédant à un signalement ‘double’. Celui-ci reflète, d’une part, ce qui est accessible sur la plateforme ISTEX et, d’autre part, ce qui est disponible sur les plateformes des éditeurs.

En effet, ces données peuvent différer tout en étant complémentaires : certains articles ou chapitres n’ayant pu, pour des raisons techniques, être chargés sur ISTEX peuvent cependant être accessibles sur une plateforme commerciale. Par ailleurs, les titres cédés par un éditeur à un autre, donc parfois disparus d’une plateforme, mais restent accessibles sur ISTEX. Enfin, d’autres publications peuvent être mises à disposition en accès libre sur les plateformes des éditeurs et il serait dommage de ne pas signaler cet accès aux usagers.

De plus, ce dispositif présente un grand intérêt pour les corpus acquis dans le cadre du plan de soutien à l’édition française ou des négociations courantes en complément des archives acquises dans le cadre du projet ISTEX et accessibles à tous les bénéficiaires des licences nationales. Il s’agit notamment des années récentes de certaines publications de l’éditeur EDP Sciences, ainsi que des archives 2002-2012 de la Complete Freedom Collection (Elsevier).

Concrètement, qu’est-ce qui change à partir de janvier 2021 ? 

Pour la récupération des fichiers KBart dans BACON

Afin de laisser le temps nécessaire aux utilisateurs de BACON (membres des réseaux Abes et fournisseurs d’outils de gestion de la documentation électronique) de prendre en main cette nouvelle pratique, un triple signalement des fichiers KBart des corpus achetés en licences nationales sera disponible via BACON jusqu’au 1er septembre 2021

En plus des deux « nouveaux » fichiers pointant explicitement vers les plateformes ISTEX et éditeur, le fichier initial de chaque corpus -qui correspond à l’accès via la plateforme éditeur- continuera d’être proposé temporairement et, si besoin, mis à jour.

Pour la gestion des exemplaires dans le Sudoc

Deux exemplaires Abes-Licence Nationale seront créés dans le Sudoc, décrivant chacun la ressource sur la plateforme respective et fournissant les accès correspondants. Pour plus de clarté, un texte explicite remplace le lien “brut” dans chaque exemplaire.

Pour le signalement local

Les listes à disposition des usagers du Sudoc pour le signalement local seront également ‘doublées’. La création de nouveaux web-services permettra de générer automatiquement et dynamiquement deux listes de ressources, chacune avec ses spécificités : l’une correspondant au corpus sur la plateforme ISTEX, l’autre correspondant au corpus sur la plateforme de l’éditeur.

Quel calendrier ?

Le corpus Wiley sera le premier à bénéficier de ces évolutions. Les corpus seront ensuite mis à jour progressivement. Un message sera envoyé systématiquement afin de prévenir les établissements quand les modifications seront effectives.

Continuer la lecture Le signalement des corpus acquis sous Licence Nationale évolue !

Signalement dans le Sudoc des microfiches de thèses produites par l’ANRT

Pendant près de quarante ans, l’Atelier National de Reproduction des Thèses (ANRT), intégré depuis 2018 à l’Université de Lille, a constitué le maillon central de la reproduction et de la diffusion des thèses de doctorat au niveau national. L’opération consistait à microficher l’exemplaire de thèse imprimée reçue à l’atelier, à dupliquer les microfiches obtenues puis à les expédier aux bibliothèques de l’ESR afin de permettre la consultation sur place. Aujourd’hui, la collection complète des « microfiches-mères » est conservée à l’Université de Lille.

De 1972 à 2017, plus de 240 000 documents ont ainsi été microfichés, reproduisant aussi bien des thèses de doctorat d’État, de 3ème cycle, d’université, des mémoires de DEA ou de DESS, que des thèses «nouveau régime» (i.e. soutenues après la réforme du doctorat de 1984), ce qui constitue un vaste patrimoine scientifique, présent dans de nombreuses bibliothèques et encore largement utilisé.

Malheureusement, et bien que plusieurs établissements aient exprimé le besoin d’exhaustivité du signalement des microfiches dans le Sudoc, celui-ci est resté jusqu’ici très lacunaire : à peine une microfiche sur 3 était signalée. Lorsque la production de microfiches était en cours, cela aurait supposé pour y parvenir de construire des passerelles automatisées entre la base de données de l’ANRT et le Sudoc. Sur une collection circonscrite, le signalement exhaustif est bien entendu plus simple à mettre en oeuvre. Ainsi, lorsque la production de microfiche a cessé en 2017-2018, c’est donc assez naturellement que l’idée de ce chantier a émergé.

En amont : On fait place nette !

Pour débuter, deux chantiers de reprises de données ont été lancés par l’Abes sur les notices Sudoc :

  • l’insertion, dans des notices de thèses originelles, de 34 000 liens à une d’autorité « Personne », au sein des notices de thèses originelles réalisée à l’aide d’un outil de liage automatique développé par l’Abes, selon la même méthodologie que dans le cadre d’autres chantiers qualités (CERCLES, AlgoLiens…)
  • l’enrichissement de 80 000 notices de microfiches pré-existantes, par l’ajout, pour celles qui en  étaient dépourvues, d’un lien vers la notice originelle (zones B455B456 du format de catalogage Sudoc), d’un identifiant Numéro National de Thèses – NNT (zone B029), d’informations de collection (zones B225B410) ou de type de support (zone B183)…

Ces deux chantiers ont permis, d’une part, d’élever le niveau de qualité de ces notices et, d’autre part, d’en faciliter le repérage et l’identification afin d’éviter la création de doublons dans la suite des opérations…

À la source : les données de l’ANRT

Les 3 bases de données, héritage de l’histoire de l’ANRT, ont été réceptionnées et dénommées respectivement «ANRT_GRENOBLE», «ANRT_SCIENCES» et «ANRT_SHS». Rappelons en effet que, jusqu’en 2011, cette mission nationale était répartie sur 2 sites selon les disciplines : Grenoble (sciences, techniques, médecine) et Lille (sciences humaines et sociales, droit, économie, gestion). Lors de la fermeture de l’atelier de Grenoble, les microfiches avaient ainsi été transférées à Lille.

Dès lors, l’analyse des données a montré que, si les informations clés relatives à la ressource étaient bien présentes, elles étaient insuffisantes pour un import « tel quel » dans le Sudoc.

Prenons un exemple (fictif !) de données disponibles à partir des bases de l’ANRT :

Numéro d’ordre

Auteur

Date d’insertion dans la base Anrt

NNT

Titre

Nb de microfiches

154

NASIER Alcofribas

03/02/2020

2020MONT3233

Des pois au lard, cum commento

9

On distingue facilement :

  • l’absence de structuration fine titre/sous-titre
  • l’absence d’une distinction nom/prénom
  • l’absence de liens aux autorités
  • l’absence de lien vers la thèse originelle
  • des informations parfois datées : le NNT ANRT, par exemple, ne coïncide pas toujours avec le NNT spécifié sur la notice de thèse originelle, certains NNT ont été modifiés a posteriori par les établissements

Le recouvrement : une étape cruciale

Pour signaler les microfiches, la solution retenue a donc été de recourir à un recouvrement des bases ANRT à lide des notices de theses.fr et, lorsqu’elles existaient, d’utiliser les données consolidées des notices originelles pour créer, par duplication et transformation, les notices de microfiches correspondantes.

Le choix de theses.fr – et non du Sudoc – comme périmètre initial de recouvrement a été dicté par le souhait de bénéficier des procédures de contrôle qualité qui régissent l’alimentation du portail. Toute notice originelle de thèse s’affichant sur theses.fr dispose en effet d’une zone B328 structurée, d’un libellé de diplôme « acceptable », d’un directeur de thèse, d’une indexation en B686 $2TEF, etc.

Le périmètre de theses.fr assurait donc que les notices de microfiches générées par duplication répondraient à un niveau de qualité suffisant pour une réelle utilisation de ces notices : la présence, dans toutes les notices de theses.fr, d’un code discipline [TEF Oaiset, en zone B686 du format], par exemple, ouvre la possibilité d’exemplariser les notices par lots, en fonction de la discipline des thèses.

De cette façon, sur les 245 240 microfiches produites par l’ANRT, 221 818 (91%) ont pu être alignées avec les données de theses.fr.

Un second billet sera publié prochainement pour expliciter cette étape de recouvrement plus en détail, et présenter les outils développés et utilisés pour la mettre en œuvre.

La création et l’enrichissement des notices de microfiches

Une fois les notices originelles de thèses repérées grâce à cette étape de recouvrement, deux sous-ensembles ont été définis :

  • les notices originelles pour lesquelles une notice de microfiche existait déjà dans le Sudoc, soit 28% (68 217) des microfiches présentes dans la base de l’ANRT
  • les notices originelles pour lesquelles une création de notice de microfiche était nécessaire, soit 63 % (153 601) des microfiches présentes dans la base de l’ANRT

microfiches ANRT

Dans le cas des créations de notices, une copie des notices originelles a été extraite du Sudoc à l’aide d’un export standard en ISO2709 puis transformée via un script MarcEdit : les zones spécifiques à l’édition originelle ont été supprimées et les zones propres aux microfiches (données codées) ont été ajoutées. Les notices de microfiches ainsi générées ont alors été importées dans le Sudoc.

Cet étape d’import a permis, d’une part, un contrôle supplémentaire sur la cohérence d’ensemble, l’uniformité des traitements ayant conduit à la création de ces notices de microfiches et, d’autre part, une vigilance accrue sur la présence d’éventuels doublons non détectés dans la phase précédente.

Les notices de microfiches ainsi créées comportent deux zones B035 :

  • Une première préfixée « ANRT ABES2020» et s’appuyant sur le PPN de la notice de thèse originelle.
    Exemple : 035 ##‎$aANRT-ABES2020-192444638 (PPN de la notice de thèse originelle).
    L’ajout de ce PPN permet de garder une trace de la notice mère ayant servi à créer la notice de microfiche. Cette information est utile en cas de fusion de notices ou de changement de NNT
  • Une seconde préfixée « ANRT_[+ nom d’une des 3 bases de l’ANRT] et complétée par le numéro d’ordre dans cette base.
    Exemple : 035 ##‎$aANRT_BASE_SCIENCES_33330.
    Cette information permet de conserver une trace des alignements effectués (et de ceux qu’ils restent à faire pour les numéros ANRT qui n’ont pas encore été intégrés dans le Sudoc).

Les notices de microfiches qui existaient déjà dans le Sudoc avant le chantier ne comportent que la seconde de ces deux zones B035, celle permettant l’identification de la microfiche dans la base de l’ANRT correspondante. 

Le traitement du reliquat

Sur l’ensemble des données présentes dans les bases de données de l’ANRT, seules 22 983 microfiches référencées (soit 9%) n’ont pu faire l’objet d’un alignement ou d’une création :

  • soit la notice originelle ne figure pas dans theses.fr 
  • soit il reste un doute sur l’existence, d’une –et une seule– notice de microfiche  dans le Sudoc
  • soit aucune concordance n’a été trouvée avec des notices du Sudoc à partir des informations fournies par l’ANRT.

Sur ces 9% de microfiches encore orphelines, un chantier va être mené en relation avec les établissements de soutenance, afin que les notices originelles soient complétées/corrigées, ou qu’un repérage manuel des thèses dans le Sudoc soit effectué, le recouvrement automatique ayant atteint ses limites. À cette fin, des fichiers de vérifications vont être envoyés aux établissements, l’objectif étant qu’à terme l’ensemble des microfiches produites par l’ANRT retrouve sa notice originelle.

Et maintenant ?

Ces notices sont disponibles pour exemplarisation. Les microfiches-mères de l’Université de Lille ont d’ores et déjà été localisées sous les 150 000 notices créées par l’Abes : elles ne sont ni consultables, ni disponibles pour le PEB. Les établissements peuvent se localiser sous l’ensemble des notices, ou sous certains sous-ensembles, constitués autour d’un établissement de soutenance ou d’un code disciplinaire (zone B686 $2TEF) en particulier. L’Abes se tient à la disposition des établissements pour les accompagner, le cas échéant, dans cette démarche.

Précisons enfin que ces chantiers (procédure de recouvrement, signalement de l’ensemble des microfiches, reprise de données par les établissements), seront d’une grande utilité dans le cadre d’un éventuel projet de numérisation des thèses de doctorat.

Continuer la lecture Signalement dans le Sudoc des microfiches de thèses produites par l’ANRT

Divinités et héros du monde méditerranéen antique : retour sur le projet RefDivinités

Dyonisos – Source : Européana

Il y a un an, un billet publié sur le blog Fil’Abes proposait un coup de projecteur sur le projet RefDivinités, lauréat de la 2e vague de l’appel à projets CollEx-Persée, visant à faciliter l’indexation des documents et bases de données relatifs à l’Antiquité et à rapprocher IdRef, référentiel généraliste de PACTOLS, thésaurus spécialisé en archéologie.

Sans attendre la fin du projet, ce billet présente un premier bilan des opérations menées par la Bibliothèque interuniversitaire de la Sorbonne (BIS), le traitement des données dans IdRef étant finalisé depuis fin juillet 2020.

 

Une collaboration fructueuse entre chercheurs et bibliothécaires

Au lancement du projet, 23 chercheurs/ses en Sciences de l’Antiquité, plus particulièrement spécialistes des religions du monde méditerranéen antique et de ses marges, ont été sollicités pour définir le corpus. Au-delà des divinités et héros du monde méditerranéen antique, le comité scientifique a décidé d’élargir ce corpus aux entités celtiques ou germaniques connues par des sources romaines. Par ailleurs, certaines aires civilisationnelles, sous-représentées jusqu’à présent, ont fait l’objet d’un enrichissement important comme par exemple les corpus hittite ou étrusque.

 Le comité scientifique a par ailleurs été consulté à plusieurs reprises au cours du projet pour lever des ambiguïtés au sein des deux référentiels, comme, par exemple, lorsqu’il n’existait qu’une seule notice d’autorité décrivant à tort deux personnages distincts.

Des questions de vocabulaire ont également été débattues. En effet, jusqu’à présent – et sauf éventuelles évolutions normatives, les  divinités et les héros du monde antique sont traités par les catalogueurs en tant que notices d’autorité de type  «personne» alors que les chercheurs s’accordent plus volontiers sur les termes de «puissances suprahumaines» ou de «figures». Pour autant, le cap du projet n’a pas varié. En effet, RefDivinités ne se veut pas un projet encyclopédique mais bien un projet à visée catalographique destiné à mettre à disposition des professionnels de l’information des données de référence pour une indexation fine des documents, et à optimiser leur signalement dans le Catalogue Sudoc et le Catalogue Collectif Indexé (CCI) du réseau FRANTIQ.

Un projet bien outillé

Pour mener à bien le projet RefDivinités, l’équipe de la BIS – et notamment Alyx Taounza-Jeminet, recrutée par la BIS pour la durée du projet – s’est appuyée sur une méthodologie et une gamme d’outils dédiés au traitement des données d’autorité :

  • au début du projet pour définir le corpus :
    • côté Abes : data.idref.fr pour explorer les données présentes dans IdRef, modélisées en RDF, et les extraire via des requêtes SPARQL
    • côté FRANTIQ : OpenTheso [1] pour explorer les données présentes dans PACTOLS et les extraire
  • tout au long du projet :
    • OpenRefine pour rassembler ces données en provenance de sources distinctes, les comparer, les manipuler et les enrichir des alignements entre IdRef, PACTOLS et Wikidata
  • à la fin du projet pour mettre à niveau chacun des référentiels :
    • OpenTheso pour créer manuellement de nouvelles entités dans PACTOLS
    • WinIBW pour créer manuellement de nouvelles notices d’autorité dans IdRef, en ayant recours à des scripts utilisateurs pour s’assurer de l’homogénéité des données et se prémunir d’oublis d’intervention sur telle ou telle zone. Pour accompagner ces interventions manuelles exigées par l’évolution régulière du corpus,  il a été fait appel à la correspondante RAMEAU de la BIS pour effectuer les inévitables corrections ainsi que les  traitements en masse ponctuels
    • via OpenRefine et API pour le chargement en masse des identifiants IdRef et PACTOLS dans Wikidata

Focus sur le traitement documentaire dans IdRef

Le corpus est constitué de 663 notices d’autorité IdRef, soit 661 notices de type « personnes physiques » et 2 notices de type « familles« . Toutes les notices ont été taguées par l’ajout d’une zone UNIMARC A686 [2] comportant $aRefDivinités$cAppel à projets 2019$2Collex-Persée.

Dans le cadre de ce projet, toutes les notices du corpus déjà présentes dans IdRef ont été enrichies et 135 notices d’autorité ont été créées.

L’enrichissement des notices d’autorité

  • Usage systématique des qualificatifs (UNIMARC A200$c) et révisions des données codées

Afin de typer ce corpus qui se trouvait noyé au milieu de 3,2 millions de personnes physiques, un qualificatif a systématiquement été utilisé pour préciser la qualité divine ou héroïque de l’entité décrite ainsi que l’aire civilisationnelle à laquelle elle appartient. De même, les données codées ont été revues et systématiquement reprises : langue, pays et dates ont été laissées vide, et le genre défini comme non applicable pour ces entités fictives.

L’usage d’un qualificatif dans le point d’accès autorisé de la notice d’autorité a un impact sur les notices bibliographiques. Il est visible dans les notices bibliographiques soit dans le bloc des responsabilités (UNIMARC B7XX) soit dans le bloc de l’indexation matière (UNIMARC B6XX), ce qui était le cas le plus fréquent pour ce corpus particulier. L’usager final bénéficie ainsi directement dans la notice bibliographique de ce point d’accès autorisé enrichi par l’ajout systématique du qualificatif.

Mais quel qualificatif saisir ? Le choix a été fait de ne pas bousculer les pratiques de saisie mais de parvenir, en s’appuyant sur les avis du conseil scientifique, à une certaine homogénéisation dans l’usage des qualificatifs comme le montre le graphique ci-dessous.

Les qualificatifs « divinité(s) grecque(s) / romaine(s) / égyptienne / étrusque(s) / mésopotamienne (…) » ainsi que « mythologie grecque / romaine / étrusque / mésopotamienne (…) » ont été privilégiés. Bien que le comité scientifique aurait souhaité les modifier par un qualificatif plus général de type «religion et mythologie xxx» ou «religion xxx», cette modification n’a pas été possible dans le cadre du projet.Cependant, cette proposition sera à prendre en compte dans le cadre du chantier de la Transition bibliographique.

  • La mention des sources (UNIMARC A810)

Une attention particulière a été apportée à la zone des sources, en particulier lors de la création de notices ex nihilo. Du fait que PACTOLS comporte des liens vers les notices bibliographiques référencées dans le catalogue de FRANTIQ, ce référentiel a été considéré comme une source d’information suffisante pour la création d’une notice d’autorité dans IdRef. Cependant, de manière générale, l’Abes a encouragé la BIS à enrichir les sources. Ainsi, il n’est pas rare qu’une notice du corpus ait plusieurs zones de sources, pour justifier l’ensemble des informations présentes dans la notice.

  • La désambiguïsation (UNIMARC A330)

Grâce à l’ajout de la zone de note A330 destinée tant à l’usager qu’au catalogueur, plusieurs dizaines de notices qui mêlaient auparavant deux entités (voire plus) ont été désambiguïsées. Par exemple, les deux Ajax héros de la Guerre de Troie sont désormais clairement distingués.

  • l’ajout de variante de noms et de formes parallèles (UNIMARC A400 et A700)

On constate que 537 notices sur 663 comportent des variantes de noms (A400) et/ou des formes parallèles (A700).

Comme près de la moitié du corpus concerne la mythologie ou la religion grecque, la translittération a constitué un point de vigilance particulier du projet, en cohérence avec les recommandations du Guide de catalogage de la BnF (Kitcat) et celles du Guide Méthodologique Sudoc. Précisons qu’une note accompagne certaines translittérations – comme ALA-LC, par exemple- qui présentent certaines divergences par rapport à ces règles .

Les alignements (UNIMARC A0XX)

Un des objectifs de ce projet était d’offrir un basculement simplifié d’un référentiel à l’autre grâce à l’alignement des notices d’autorité IdRef vers les entités correspondantes issues de PACTOLS et Wikidata. Cet objectif a été atteint. Ainsi, à l’issue du projet :

  • toutes les notices du corpus disposent d’un lien vers le référentiel PACTOLS (UNIMARC A035), cet alignement ayant été réalisé dans les deux sens, ces entités dans PACTOLS ont désormais un lien vers IdRef
  • 98% des notices du corpus disposent d’un lien vers Wikidata, l’alignement étant également réciproque

 

De même, et selon la même logique :

  • 84% des notices d’IdRef disposent d’un lien vers l’identifiant VIAF
  • 64% des notices disposent d’un lien vers l’identifiant ARK BnF (UNIMARC A033) : ce taux est plus faible du fait que plus de la création pour les besoins du projet d’une centaine de notices n’ayant pas d’équivalent dans le catalogue de la BnF

Usage du corpus RefDivinités dans le Sudoc : photographie fin septembre 2020

Le graphique ci-dessous donne à voir l’usage des notices d’autorité du corpus appliqué au catalogue Sudoc : l’axe des abscisses correspond aux notices d’autorité du corpus et l’axe des ordonnées au nombre de points d’accès correspondant dans les notices bibliographiques du catalogue Sudoc. Il est important de garder à l’esprit que le catalogue Sudoc n’est qu’un des contextes d’utilisation des notices d’autorité IdRef. Sans surprise, on constate un effet de longue traîne :

  • 3% des notices du corpus alimentent entre 100 et 429 points d’accès dans les notices bibliographiques du Sudoc
  • 4% entre 50 et 99 points d’accès
  • 16% entre 10 et 49 points d’accès
  • 51% entre 2 et 9 points d’accès
  • 18% alimentent un seul point d’accès
  • 34% n’alimentent aucun point d’accès dans les notices bibliographiques Sudoc

Notons qu’avec 429 points d’accès provenant de 380 notices bibliographiques distinctes, la notice d’autorité du corpus qui remporte la palme du nombre de liens à des notices bibliographiques du Sudoc est celle de Dionysos – http://www.idref.fr/02739560X

Il sera intéressant de mesurer au fil du temps l’évolution de l’usage de ces notices dans le Sudoc.

Chantiers annexes

Un chantier de réindexation des notices bibliographiques est envisagé afin de faire basculer certaines références, par exemple suite à la création ou la désambiguïsation d’entités, vers les entités correspondantes dans IdRef comme dans PACTOLS.

Il restera également à poursuivre la réflexion en ce qui concerne les notices d’autorité RAMEAU n’ayant pas été directement traitées lors de cette mission. Il est prévu pour cela de s’appuyer sur les suggestions du comité notamment ce qui concerne classification, terminologie, risque confusion autour des entités plurielles. Cette réflexion se poursuivra dans le cadre du programme Transition bibliographique et du potentiel changement de statut de l’ensemble des entités du projet RefDivinités.

Par ailleurs, la BIS, FRANTIQ et l’Abes sont partenaires d’un nouveau projet Collex-Persée, financé dans le cadre de l’appel à projets 2020 : ArchéoRef Alignement (ArchéoAL) piloté par l’Institut français d’archéologie orientale (IFAO) du Caire, auquel participent les Écoles Françaises à l’Étranger, se propose d’opérer des alignements et des enrichissements similaires entre IdRef et PACTOLS, cette fois pour les données d’autorité géographiques correspondant aux sites archéologiques.

ArchéoAL s’appuiera sur la documentation produite dans le cadre du projet RefDivinités, dans une logique de réplicabilité.

Avantages pour les catalogueurs Sudoc et les utilisateurs d’IdRef

En termes d’interopérabilité entre référentiels, le résultat des alignements réalisés à l’occasion du projet RefDivinités est déjà opérationnel : depuis l’interface IdRef, l’usager peut rebondir facilement sur la page PACTOLS ou Wikidata liée. Il reste pour l’Abes à exploiter cette interopérabilité afin d’enrichir IdRef – et à terme data.idref.fr – de liens vers le catalogue du réseau FRANTIQ. Dans les prochains mois, l’Abes implémentera dans les pages IdRef concernées par le projet un encart FRANTIQ : l’affichage des références bibliographiques du catalogue FRANTIQ sera ainsi généré à la volée grâce à l’alignement des identifiants IdRef et PACTOLS. L’export Zotero d’IdRef gagnera ainsi en complétude.

Quant aux catalogueurs du réseau Sudoc, tous bénéficient du travail effectué par la BIS et chacun peut intervenir si besoin sur  les notices d’autorité elles-mêmes, en conformité bien entendu avec la philosophie du catalogage partagé : respect du travail déjà fait ; conservation des informations existantes notamment les alignements et la zone A686 ; modification éventuelle justifiée dans une zone de source ad hoc

En termes d’usages, les catalogueurs Sudoc ont désormais à disposition des notices permettant une indexation plus fine des documents. Il est donc conseillé de les utiliser, y compris celles n’ayant pas encore de lien dans le Sudoc … dans ce cas, il conviendra simplement de créer une zone A810 ad hoc.

Isabelle Mauger Perez (Abes) & Sébastien Dalmon (BIS)

[1] OpenTheso est un logiciel libre et normé de gestion de thésaurus  développé à l’origine pour la Maison de l’Orient et de la Méditerranée

[2] depuis quelques années, la zone A686 du format UNIMARC Autorité (classification autre que la classification décimale Dewey) est utilisée pour repérer des notices appartenant à un corpus particulier. Dans l’interface professionnelle WinIBW, les sous-zones $a et $c, zones de la A686 alimentent l’index CLA (« classification » en dehors de Dewey)

 

Continuer la lecture Divinités et héros du monde méditerranéen antique : retour sur le projet RefDivinités

Bilan des chantiers « qualité » menés dans les établissements pendant le confinement (printemps 2020)

De mars à juin 2020, la situation sanitaire liée à la pandémie de coronavirus a contraint les bibliothèques à fermer leurs portes, à généraliser le télétravail et à ré-organiser leurs services.
Cette période de confinement a placé des catalogueurs dans une situation paradoxale, avec des outils à disposition (WinIBW, Calames Prod, IdRef, Paprika…), une gamme de webservices mais peu ou pas de nouveautés à cataloguer.
L’Abes a donc proposé aux membres des réseaux Autorités, Calames et Sudoc des chantiers d’enrichissement et de correction de données existantes, en fournissant, en plus de l’accès aux outils, des conseils méthodologiques pour encadrer, coordonner et réaliser ces chantiers réalisés sur la base du volontariat.

Plus que de lutter contre le désœuvrement, il s’agissait sans doute, pour ces établissements,  volontaires et convaincus de l’intérêt de proposer un catalogue aux données de qualité, de consacrer enfin du temps à un travail d’enrichissement nécessaire, prévu de longue date mais sans cesse repoussé par manque de disponibilité.

Certains établissements se sont fait connaître sur ces chantiers : demandes de précisions, présentation de leur organisation ou de leur méthodologie, communication d’un bilan. D’autres ont œuvré dans l’ombre*.
Nous ne citons ici que quelques-uns d’entre eux, pour illustrer le travail qui s’est fait, mais l’Abes remercie et félicite tous ceux qui ont œuvré à améliorer la qualité et la structuration des données.

Voici les initiatives connues de l’Abes réalisées pendant le confinement.

Continuer la lecture Bilan des chantiers « qualité » menés dans les établissements pendant le confinement (printemps 2020)

Convertisseur IdRef : toute la richesse des services Zotero au service des utilisateurs

Dorénavant, que les données proviennent du Sudoc, de theses.fr, de Persée, de la BnF, de HAL, de OATAO ou d’ORCID, l’ensemble des références bibliographiques fédérées sur les pages IdRef sont récupérables par Zotero.

Comment ça marche ?

Lors d’une navigation dans une notice d’IdRef,  les connaisseurs auront identifié au premier coup d’œil dans la barre des tâches de leur navigateur, la présence de l’icône « dossier jaune » – qui ouvre tant de possibilités à l’utilisateur de Zotero au vu de l’étendue sans cesse croissante de cet outil formidable.

Continuer la lecture Convertisseur IdRef : toute la richesse des services Zotero au service des utilisateurs

L’alignement des identifiants auteurs entre IdRef & HAL : un état des lieux

Certaines questions récurrentes au sujet de l’alignement des identifiants auteurs – IdRef et IdHal en tête ; ORCID non loin  – dénotent, à tout le moins, un certain flou dans le paysage des identifiants au niveau national.

Pour y répondre, il faudrait rappeler et approfondir les finalités de chacun des identifiants, expliciter les orientations institutionnelles et clarifier certains ressorts techniques sous-jacents. Plus modestement, ce billet vise à actualiser les actions au long court menées par l’Abes dans le domaine des  identifiants et référentiels, actions précédemment détaillées dans un billet Punktokomo (2017).

De quelques questions récurrentes

  • Comment fonctionne l’alignement entre IdRef et HAL ?
  • Sur quels critères de correspondance se fait l’alignement entre les identifiants IdRef et IdHAL ?
  • Cet alignement génère-t-il un enrichissement automatique d’IdHAL par IdRef ?
  • Que faire s’il n’existe pas d’IdHAL ?
  • Quels sont les bénéfices attendus des alignements d’identifiants, dans HAL en particulier ?
  • Est-il prévu des transferts automatiques de références bibliographiques d’IdRef vers HAL ?
  • Quelles recommandations pour les chercheurs publiants ?

Telles sont les questions qui sont posées régulièrement à l’équipe IdRef et voici quelques éléments de réponses.

Continuer la lecture L’alignement des identifiants auteurs entre IdRef & HAL : un état des lieux
Aller au contenu principal