IdRef : chantier qualité autour des notices d’autorité Personnes physiques de statut 1

  • Auteur/autrice de la publication :
  • Post category:IdRefSudoc

Logo Chantier Qualité IdRefL’Abes sollicite la participation des Correspondants Autorités pour enrichir des notices d’autorités beaucoup trop succintes,

Le problème et la finalité du chantier

Le chantier concerne des notices de personnes physiques Tp1, issues de chargements de notices élémentaires d’origine BnF faits il y a quelques années. Le plus souvent, elles sont réduites à un point d’accès, sans données codées, sans mention de source, liées à peu de notices bibliographiques (voire mal liées).

Notice exemple
Notice PPN 057140057 en format professionnel, sans données codées, ni 340, ni 810.

 

L’existence de ces notices d’autorité pauvres est un problème pour la qualité globale du catalogue :
– elles génèrent du bruit pour le catalogueur qui souvent, faute d’élément discriminant, ne les traite pas ;
– elles perturbent le fonctionnement des programmes automatisés, notamment d’alignement, que l’Abes a développé depuis quelques années.
L’Abes souhaite aboutir à la disparition de ces notices au profit de notices enrichies et fiabilisées, basculées en statut 5 pour acter ces améliorations.
La finalité du chantier est de faire disparaitre le statut 1 dans les notices d’autorité Personnes physiques.

Continuer la lectureIdRef : chantier qualité autour des notices d’autorité Personnes physiques de statut 1

« Épatant : ça nous bouge ! » : les ressources continues, en direct de la BnF et d’ISSN France

  • Auteur/autrice de la publication :
  • Post category:Non classé

Épatant : ça nous bouge !

Tel est le titre de la première notice en provenance d’ISSN France importée directement dans le Sudoc (PPN 260627062 ; ISSN 2804-715X). En l’occurrence, il s’agit d’un site web, occasion de rappeler que les ressources continues ne se limitent pas aux publications en série et aux collections, mais incluent aussi les « ressources intégratrices », c’est-à-dire des ressources dont le contenu peut être augmenté ou modifié par des mises à jour.

Cette intégration directe constitue une évolution fondamentale, la première de cette importance depuis la mise en place du Catalogue collectif national des publications en série (CCN-PS), ancêtre du Sudoc en matière de signalement et de localisation des ressources continues dans les bibliothèques françaises.

copie de la notice dans winibwi
Copie de la notice dans WinIBW : on remarque le lien vers le site, mais aussi vers sa version archivée via Internet Archive. A noter : la notice ne sera disponible dans le Sudoc public qu’une fois « localisée ».

Continuer la lecture« Épatant : ça nous bouge ! » : les ressources continues, en direct de la BnF et d’ISSN France

L’association KohaLa et l’Abes : une coopération sous le signe de la qualité des données

  • Auteur/autrice de la publication :
  • Post category:Non classé

KohaLa est une association professionnelle francophone qui a pour objet le développement, la documentation, la protection, la promotion, et la diffusion du logiciel libre de gestion de bibliothèque Koha. Elle regroupe des utilisateurs et des développeurs et organise plusieurs événements afin de favoriser les partages d’expérience et de participer à l’évolution de Koha.

Lors de l’assemblée générale 2020 de l’association, nos adhérents membres du réseau Sudoc ont émis le souhait de voir KohaLa collaborer avec l’Abes pour réfléchir aux évolutions possibles dans les échanges entre Koha et les outils de l’Abes. Nous avons donc contacté l’Abes pour faire part de notre souhait de travailler ensemble selon des modalités à définir.

Les webservices de l’Abes à la rescousse

Au printemps 2021, KohaLa s’est lancé dans l’organisation d’un hackaton dont l’une des thématiques était l’amélioration des échanges entre Koha et l’Abes. Des bibliothécaires (dont des correspondants Sudoc) et prestataires Koha ont participé ainsi que des collègues de l’Abes. Les discussions se sont orientées vers l’exploitation possible des webservices mis à disposition par l’Abes et sur la question de l’usage qui pourrait en être fait dans Koha. Un besoin partagé est apparu : avoir un contrôle qualité de son catalogue et par là même du catalogue Sudoc.

Continuer la lectureL’association KohaLa et l’Abes : une coopération sous le signe de la qualité des données

IdRef : chantier qualité autour des notices d’autorité Collectivités pour les besoins de Mir@bel

Logo Chantier Qualité IdRef

 

L’Abes et le réseau Mir@bel s’associent pour améliorer, avec l’aide des professionnels des réseaux Sudoc et Sudoc-PS, le signalement et les métadonnées descriptives des ressources continues publiées par l’édition scientifique française.

Le contexte du chantier

L’Abes est partenaire du réseau Mir@bel dans le projet MIRABEL2022 : « Favoriser la circulation ouverte des données d’identification et de référencement des revues et éditeurs scientifiques français et leur donner une visibilité internationale (DOAJ, Sherpa/Romeo) grâce à la coopération des acteurs impliqués dans l’écosystème de l’édition », financé par le Fonds national pour la science ouverte (FNSO) pour la publication et l’édition scientifiques ouvertes.

Pour l’Abes, l’objectif du projet est d’améliorer le taux de liage entre IdRef et les données éditeurs de Mir@bel, taux qui s’élève actuellement à environ 70% pour les éditeurs français, de façon à obtenir une couverture complète pour le corpus considéré.

Continuer la lectureIdRef : chantier qualité autour des notices d’autorité Collectivités pour les besoins de Mir@bel

Un bilan enthousiasmant du premier chantier CERCLES consacré aux autorités

Ce billet fait suite à un 1er billet, paru en 2018, consacré à ce chantier lors de son lancement.

La Bibliothèque Henri-Piéron, référence pour la psychologie universitaire

Bibliothèque Henri-Piéron
BU Henri-Piéron (Bibliothèques Université de Paris)

Aujourd’hui rattachée à la Direction Générale des Bibliothèques et Musées d’Université de Paris (qui résulte de la fusion des Universités Paris Descartes et Paris Diderot), la Bibliothèque Henri-Piéron a été fondée en 1889, en Sorbonne, au sein du premier laboratoire français de psychologie. Elle est ensuite devenue celle de l’Institut de psychologie de Paris lorsqu’il fut créé par Henri Piéron en 1921.

Ainsi la bibliothèque a mis ses collections au service de la psychologie scientifique depuis la naissance même de cette discipline universitaire. En 2017,  elle est nommée “délégataire” CollEx- Persée pour les domaines de la psychologie, de la psychanalyse, des sciences cognitives et des neurosciences, sur un programme qui comprend, entre autres, la création d’un plan national de conservation partagée des périodiques (“PCPsy”) et son prolongement numérique dans Persée, ainsi qu’une campagne d’enrichissement systématique des notices d’autorité des psychologues et de leurs institutions.Savante alliance de deux dispositifs

Soucieuse de “faciliter l’accès et de favoriser l’usage des collections de bibliothèques par les chercheurs”, ce qui est l’objectif premier de CollEx-Persée, la bibliothèque Henri-Piéron souhaite avant tout travailler sur les notices d’autorité afin de renforcer la visibilité dans l’écosystème IdRef de la production scientifique en psychologie et dans les disciplines connexes. Il s’agit de corriger, d’enrichir ou de créer, le cas échéant, les notices décrivant des personnes (les chercheurs en psychologie) et des collectivités (les universités, les congrès, les laboratoires), de relier à ces autorités les notices décrivant les ressources documentaires et enfin d’enrichir d’une indexation matière de qualité les titres de périodiques en psychologie.
Pour mener ce travail dans les meilleures conditions, la bibliothèque bénéficie, dès 2018, de deux dispositifs qui vont se compléter :

Continuer la lectureUn bilan enthousiasmant du premier chantier CERCLES consacré aux autorités

Retour sur un an de partenariat entre Mir@bel et l’Abes

Logo de Mir@belEn septembre 2020 et entre deux confinements, l’Abes devenait partenaire-veilleur au sein du réseau Mir@bel. Si la situation sanitaire n’a pas encore permis de donner la réciproque à la semaine d’immersion réalisée à l’Abes par l’un des membres pilotes de Mir@bel en mars 2020, le partenariat entre les deux structures n’a cessé depuis de prendre de l’essor. Ce billet est l’occasion de faire un bilan de cette année, riche de coopération mutuelle. Il fait suite aux deux précédents, qui en retracent la genèse :

Un partenariat orienté vers la curation des données

En devenant partenaire-veilleur du réseau Mir@bel, l’Abes s’est engagée à suivre trois ressources – la revue Arabesques, le blog technique Punktokomo et Didak’TIC, magazine réalisé par les étudiants de l’université Paul Valéry de Montpellier – pour lesquelles elle vérifie périodiquement la complétude et l’exactitude des données, informations et accès en ligne renseignés. Un suivi somme toute peu contraignant en comparaison de certains partenaires veilleurs, qui suivent plus d’une centaine de revues, mais qui s’explique par le fait que l’Abes s’implique activement dans ce partenariat sous l’angle de la curation et de la valorisation des données et des contenus.

Mir@bel met à disposition de ses membres partenaires une interface de vérification des données, où des requêtes habillées permettent de repérer un certain nombre d’éléments à vérifier et à corriger, parmi lesquels des liens erronés, des titres pour lesquels la mention d’édition est manquante ou des titres indexés dans ROAD  (Répertoire des ressources scientifiques et universitaires en accès libre, développé par le Registre de l’ISSN en collaboration avec la division Information et Communication de l’UNESCO) ou dans le DOAJ  (Directory of Open Access Journals) sans qu’un accès en ligne soit signalé.

Mir@bel propose également des points de vérification développés spécifiquement à l’attention des membres du service des Ressources Continues (SRCO), en charge à l’Abes de la gestion et du développement des données descriptives des ressources continues et de leurs accès. Ainsi, en un an, le SRCO a effectué plus de 700 interventions (modifications ou ajouts) directement sur des données du portail Mir@bel, dont une partie seulement est issue de la consultation de l’interface de vérification des données de Mir@bel : en effet, la mise en place de nombreux alignements et flux d’échanges de données a permis de développer en parallèle un circuit automatisé de vérification et d’amélioration réciproque de ces données.

Continuer la lectureRetour sur un an de partenariat entre Mir@bel et l’Abes

KaliDoS, un outil de vérification des règles de catalogage bibliographique – partie 2

  • Auteur/autrice de la publication :
  • Post category:Sudoc

Ce billet est le second d’une série de deux :
1. la partie 1 détaille la modélisation des règles de vérification
2. la partie 2 détaille l’architecture de l’application et ses interfaces

Afin d’améliorer la qualité de son catalogue et de rendre le contrôle qualité des notices bibliographiques plus efficace, le SCD de l’UCBL a souhaité se doter d’un outil de diagnostic, KaliDoS (Qualité des Données du Sudoc). Après une présentation sur la modélisation des règles, nous décrivons dans ce second billet l’architecture de KaliDoS ainsi que les fonctionnalités et les interfaces de l’application.

Architecture de KaliDoS

L’application suit une architecture client-serveur : sur la figure suivante, le serveur stocke les jeux de règles et les résultats dans des fichiers JSON. En plus de la présentation des interfaces, le côté client est en charge d’exécuter le contrôle qualité, après avoir récupéré les notices auprès de deux fournisseurs (IdRef et Sudoc) ainsi que le jeu de règles depuis le serveur. La dockerisation facilite le déploiement de l’application ainsi que son redémarrage en cas d’arrêt critique.

Architecture de KaliDoS

Continuer la lectureKaliDoS, un outil de vérification des règles de catalogage bibliographique – partie 2

KaliDoS, un outil de vérification des règles de catalogage bibliographique – partie 1

  • Auteur/autrice de la publication :
  • Post category:Sudoc

Ce billet est le premier d’une série de deux articles :
1. la partie 1 détaille la modélisation des règles de vérification
2. la partie 2 détaille l’architecture de l’application et ses interfaces

Chaque année, l’Université Claude Bernard Lyon 1 (UCBL) signale, en moyenne, 23 000 nouveaux titres dans le Sudoc, dont environ 5 000 qui nécessitent la création d’une notice bibliographique et sont, pour la plupart, des ‘unicas’ (documents possédés uniquement par le SCD de l’UCBL, par exemple des thèses, des mémoires, des fonds anciens numérisés).
La qualité de ces notices bibliographiques est primordiale pour garantir l’accès aux ressources. Pourtant, peu d’applications existent pour faciliter le contrôle qualité. De plus, elles sont non exhaustives voire obsolètes du fait de l’évolution des règles de catalogage.
En collaboration avec le SCD, un groupe de six étudiant.e.s du Master 2 « Technologies de l’information et du web » de l’UCBL a donc été chargé de développer une application, nommée KaliDoS (Qualité des Données du Sudoc), permettant de détecter, parmi un lot de notices, celles qui ne respectent pas un ensemble de règles.
La modélisation des règles à appliquer pour valider (ou non) les notices constituait un des enjeux majeurs de ce projet.

Modèles de règles

L’un des défis pour l’implémentation de KaliDoS réside dans la gestion des règles, que ce soit pour leur représentation ou leur utilisation. Différents types de règles ont été identifiés. Cette catégorisation permet de rendre générique la définition de ces règles, et donc d’en ajouter plus facilement.

Continuer la lectureKaliDoS, un outil de vérification des règles de catalogage bibliographique – partie 1

Projet Sudoc21 : retours sur l’exploration des solutions informatiques

  • Auteur/autrice de la publication :
  • Post category:Sudoc21

Dans ce dernier billet consacré au projet Sudoc21, sont abordées les solutions informatiques choisies pour tester l’implémentation du modèle de données (format pivot) conçu par les experts de la modélisation bibliographique.

  1. Nom de code Sudoc21
  2. Les données en diptyque
  3. Retours sur l’exploration des solutions informatiques

A partir des différentes solutions logicielles permettant de stocker, interroger et mettre à jour les données structurées selon le format pivot, il s’agissait d’évaluer l’aptitude à traduire en terme de système d’information les différents cas d’usages, et notamment d’évaluer leur complexité technique et leur facilité d’implémentation. De manière générale, le volet « expérimentation des solutions informatiques » a constitué un espace d’échanges et de réflexion entre les membres de l’équipe Sudoc21, indépendamment du domaine de compétences de chacun, ce qui a renforcé la diffusion et le partage d’expertises.

Un projet tourné vers l’avenir

L’équipe informatique du projet Sudoc21 a conservé à l’esprit le fait que le système d’information va être amené à gérer des volumes de plus en plus conséquents : si, en l’état actuel, l’éclatement des données Sudoc en entités s’évalue en milliards, l’objectif est d’atteindre une granularité plus fine encore, comme en témoigne le « en deçà » (ie. chapitres, articles, numéros et volumes) évoqué dans le précédent billet Punktokomo à ce sujet : Les données en diptyque : exercice d’apagogie négative:

Ce modèle a mis en exergue l’importance de la notion de “granularité” : en deçà, granularité de description documentaire – livres et revues, mais aussi leurs parties composantes -chapitres, articles, numéros et volumes” 

Il s’agissait également de tenir compte des assouplissements à prévoir lors de la conception et de l’évolution des schémas de données.

Pour prendre en charge ces contraintes, l’équipe a envisagé, en complément des solutions relationnelles classiques, d’autres solutions de stockage et d’interrogation, qui intègrent des mécanismes plus flexibles. Il existe en effet différentes possibilités techniques permettant :

  • soit d’«éclater» des données dans une granularité très fine (« atomique ») – chaque instance pouvant avoir des relations différentes –  et de les lier entre elles
  • soit d’obtenir un compromis entre de la donnée « tabulée » – classique, relationnelle – et de la donnée « orientée » – composite et faiblement structurée-  qui bénéficie peu ou pas des avantages d’un stockage en tables

Dans le cadre du projet Sudoc21, les explorations techniques ont donc été réalisées selon trois approches : une approche relationnelle classique, une approche « graphe »  et une approche « mixte »

Continuer la lectureProjet Sudoc21 : retours sur l’exploration des solutions informatiques

Les données en diptyque : exercice d’apagogie négative [2-2]

  • Auteur/autrice de la publication :
  • Post category:Sudoc21

Ces billets sont la seconde partie d’une trilogie consacrée au projet Sudoc21. Ils reviennent sur les enjeux de la modélisation des données posés dans le premier billet, et sur la manière dont l’équipe en charge du projet s’y est confrontée.

Tout en cherchant à conceptualiser ce modèle cible, nous avons parallèlement exploré certaines logiques de modélisation, pour en évaluer l’intérêt, ou les écueils. Ces expérimentations nous ont conduits à des choix de modélisations parfois hétérodoxes, parfois même pas totalement cohérents, et ce volontairement. Voici quelques exemples de ces choix, des réflexions qui nous y ont menés et des leçons que nous en avons tirées.

Être ou ne pas être… un Nomen

Nous avons ainsi beaucoup joué avec les Nomens, qui dans le modèle LRM portent les appellations des autres entités, quelles qu’elles soient : titres, noms, libellés. Nous avons pris parti de les considérer comme des entités à part entière, ils sont donc vite devenus omniprésents. Seule entorse au principe, nous n’avons pas poussé cette logique jusqu’à faire des identifiants eux-mêmes des Nomens, comme ils sont censés l’être. Excepté, à titre expérimental, pour l’ISSN-L (ISSN de lien, attribué par le Registre ISSN, commun aux différents supports de publication d’une ressource continue).
Notre retour d’expérience sur ce point, après avoir travaillé sur les cas d’usages en écrivant des requêtes au cours de nos tests des différentes solutions, est mitigé. L’intérêt du Nomen comme entité, est de pouvoir en “dire quelque chose” en plus de sa valeur via des propriétés : langue, écriture, parfois sous-éléments (comme le nom et le prénom pour les personnes), données de gestion…
A contrario, les requêtes portant bien souvent sur la valeur littérale de ces entités, leur présence en « bout de chaîne » alourdit considérablement, à la fois l’écriture de la requête et le parcours des données.
Si c’était à refaire, nous reconsidérerions ce choix : il serait plus économique et efficace de les repenser comme propriété de leur entité mère, à condition de disposer d’un mécanisme permettant de qualifier cette propriété, comme nous l’avons fait pour les affiliations.

Continuer la lectureLes données en diptyque : exercice d’apagogie négative [2-2]
Aller au contenu principal