Les données en diptyque : exercice d’apagogie négative [2-2]

Ces billets sont la seconde partie d’une trilogie consacrée au projet dit Sudoc21. Ils reviennent sur les enjeux de la modélisation des données posés dans le premier billet, et sur la manière dont l’équipe en charge du projet s’y est confrontée.

 

Tout en cherchant à conceptualiser ce modèle cible, nous avons parallèlement exploré certaines logiques de modélisation, pour en évaluer l’intérêt, ou les écueils. Ces expérimentations nous ont conduits à des choix de modélisations parfois hétérodoxes, parfois même pas totalement cohérents, et ce volontairement. Voici quelques exemples de ces choix, des réflexions qui nous y ont menés et des leçons que nous en avons tirées.

Être ou ne pas être… un Nomen

Nous avons ainsi beaucoup joué avec les Nomens, qui dans le modèle LRM portent les appellations des autres entités, quelles qu’elles soient : titres, noms, libellés. Nous avons pris parti de les considérer comme des entités à part entière, ils sont donc vite devenus omniprésents. Seule entorse au principe, nous n’avons pas poussé cette logique jusqu’à faire des identifiants eux-mêmes des Nomens, comme ils sont censés l’être. Excepté, à titre expérimental, pour l’ISSN-L (ISSN de lien, attribué par le Registre ISSN, commun aux différents supports de publication d’une ressource continue).
Notre retour d’expérience sur ce point, après avoir travaillé sur les cas d’usages en écrivant des requêtes au cours de nos tests des différentes solutions, est mitigé. L’intérêt du Nomen comme entité, est de pouvoir en “dire quelque chose” en plus de sa valeur via des propriétés : langue, écriture, parfois sous-éléments (comme le nom et le prénom pour les personnes), données de gestion…
A contrario, les requêtes portant bien souvent sur la valeur littérale de ces entités, leur présence en « bout de chaîne » alourdit considérablement, à la fois l’écriture de la requête et le parcours des données.
Si c’était à refaire, nous reconsidérerons ce choix : il serait plus économique et efficace de les repenser comme propriété de leur entité mère, à condition de disposer d’un mécanisme permettant de qualifier cette propriété, comme nous l’avons fait pour les affiliations.

Continuer la lectureLes données en diptyque : exercice d’apagogie négative [2-2]

Les données en diptyque : le noyau de la cerise ou la culture du pivot [2-1]

Ces billets sont la seconde partie d’une trilogie consacrée au projet dit Sudoc21. Ils reviennent sur les enjeux de la modélisation des données posés dans le premier billet, et sur la manière dont l’équipe en charge du projet s’y est confrontée.

 

Façonner un top-modèle…

Des silos au modèle commun

Pour rappel, les enjeux du projet Sudoc21 étaient d’expérimenter à la fois comment :

  • “Désiloter” les différents types de données, aujourd’hui dispersés dans des environnements et formats qui ont du mal à se parler.
  • Ouvrir la voie à leur migration vers le modèle IFLA-LRM en faisant le choix d’une instanciation commune de ce modèle à tous les types de données traitées. C’est ce modèle cible que nous évoquerons plus loin sous le raccourci “pot commun”.

Dans cette première partie consacrée aux données il sera question des choix opérés par l’équipe pour l’instanciation du modèle et le passage par un format pivot pour leur conversion.

Pour ce faire, nous avons constitué des jeux de données représentatifs de chaque source. Et, afin de rendre tangible l’articulation qui existe entre ces données et qui n’est aujourd’hui pas exploitable, nous avons sélectionné un sous-ensemble de ressources présentes à la fois dans le Sudoc, dans BACON et en base RDF auquel est venu s’ajouter un échantillon de métadonnées TEF pour les thèses.

Continuer la lectureLes données en diptyque : le noyau de la cerise ou la culture du pivot [2-1]

Nom de code Sudoc21

Ce billet est le premier d’une trilogie consacrée au projet dit Sudoc21. Il revient sur les enjeux de la modélisation des données, et sur la manière dont l’équipe en charge du projet s’y est confrontée.

 

Flash-back

Les JABES 2019, une présentation en plénière sur l’avenir du Sudoc, la refonte du SI de l’Abes, enthousiasme et anxiété de venir dire où nous voulions aller. Depuis ? Ce que nous ne pouvions pas prévoir : le monde mis sens dessus dessous les mois suivants, où le sens de la mesure allait s’inverser – jamais assez loin des autres, toujours trop proche de chez soi. Ce que nous pouvions encore moins imaginer : que Stéphane Rey, responsable informatique du projet, meure brutalement en avril 2020. Et après. Et pourtant. Et malgré. Nous voici au bout de ce projet de deux années, nom de code Sudoc21. Vingt-et-un comme XXIème siècle davantage que 2021, si c’est d’échéance qu’il s’agit. Car au risque de vous décevoir, l’irruption du nouveau système ne sera pas immédiate. Mais au moins avons-nous pu prendre le temps, dans un travail très étroit entre bibliothécaires et informaticiens, de poser correctement les questions pour mesurer le chemin qui nous reste à parcourir.

Continuer la lectureNom de code Sudoc21

Le Sudoc PS est dans le graphe !

A la disposition des membres du réseau Sudoc PS, l’application présentée ci-dessous a été conçue par Géraldine Geoffroy (SCD Université Côte d’Azur) et Emmanuelle Rauzy (responsable CR Sudoc PS  PACA/Nice ). Qu’elles en soient ici remerciées !

Cette réalisation s’inscrit tout naturellement dans l’esprit d’ouverture des codes sources et de collaborations applicatives porté par l’Abes avec la mise à disposition du code documenté et des consignes d’installation d’une instance locale via le GitHub de l’Abes.

Le contexte

Dans le cadre de sa précédente convention sur objectifs (2018-2020) avec l’Abes, le Centre du Réseau Sudoc PS PACA/Nice s’est concocté un programme ambitieux, basé sur les activités «classiques» d’un CR en terme d’animation de son réseau (visites, formation, communication, prospection), mais également sur un projet de valorisation de deux corpus issus des collections de son périmètre et considérés comme prioritaires :

  • le corpus des unicas du CR : il s’agit des titres de périodiques pour lesquels un seul exemplaire est disponible (et localisé dans le Sudoc) dans une des bibliothèques du CR, ce qui confère à celui-ci une responsabilité particulière quant à la qualité des métadonnées signalées
  • le corpus des titres de presse locale ancienne : il s’agit des titres de périodiques identifiés par la BnF sur son site dédié de référencement de la presse locale ancienne (ex : BIPFPIG), et qui revêtent, d’un point de vue local, un intérêt scientifique et patrimonial certain.

L’ambition de ce projet était de se doter d’un outil (idéalement d’une application web) d’exploration multi-scalaire, qui permette,  au niveau global du CR ainsi que pour chacune des bibliothèques du réseau, de réaliser les opérations suivantes :

  • visualiser tout ou partie des 2 ensembles de notices
  • croiser les données des corpus afin de :
    • visualiser les éventuels recoupements entre corpus et collections conservées (du point de vue d’une ou plusieurs bibliothèques, et d’un point de vue territorial)
    • proposer des vues agrégatives où les métadonnées issues de l’environnement Sudoc enrichissent et complètent celles provenant de l’écosystème BnF, et vice-versa
  • analyser les métadonnées sur le plan de leur qualité et de leur complétude
  • exporter tout ou partie des métadonnées pour constituer des listes de travail ou pouvoir les exposer dans d’autres environnements ou interfaces tierces.
Continuer la lectureLe Sudoc PS est dans le graphe !

Accès national aux thèses de doctorat de l’UGA : réalisations et mise en œuvre

A l’université Grenoble Alpes (UGA), l’élargissement du périmètre a minima de diffusion des thèses de doctorat, prévu par l’arrêté du 25 mai 2016, a nécessité la refonte de l’outil de gestion des dépôts et des accès aux thèses intranet. L’application développée en interne pour répondre à ce nouvel impératif a été déployée au sein du SID (Service Interétablissement de la Documentation) en 2018. Pour autant, la mise en œuvre effective de ces accès à l’ensemble de la communauté universitaire n’a été effective qu’au premier semestre 2020.

Aujourd’hui, sur les quelques 900 « thèses intranet » (sur environ 7 000 thèses électroniques) des 13 écoles doctorales du site, seules les thèses soutenues à partir du 1er septembre 2016 (environ la moitié) sont concernées par l’élargissement du périmètre de diffusion à l’ensemble de l’enseignement supérieur et de la recherche. En 2020, celles-ci totalisaient 74 % des 1 128 consultations effectives des « thèses intranet ».

Mise en place d’un accès national aux thèses électroniques grenobloises

De Thares 1.0 à Thares 2.0

Développée dès 2009 – soit avant l’ouverture de theses.fr – en vue du passage au dépôt électronique des thèses à Grenoble, l’application pour la gestion des dépôts et des accès aux thèses intranet grenobloises, Thares, était alors liée à Absysnet, l’un des SIGB du site. Complexe à maintenir, il est apparu, au moment de penser la mise en œuvre de l’accès élargi aux thèses intranet, que cette solution était impossible à faire évoluer pour répondre à cet attendu.

Le choix a donc été fait de développer un nouveau Thares. Cette nouvelle mouture devait se démarquer de la précédente par une conception simple et robuste. Nous avions décidé d’éliminer tout lien avec le SIGB, de ne pas utiliser de base de données et de stocker les fichiers de thèse de façon simple et sécurisée sur les serveurs de l’université pour qu’un administrateur puisse, le cas échéant, y accéder.

Continuer la lectureAccès national aux thèses de doctorat de l’UGA : réalisations et mise en œuvre

STAR : des affiliations protégées lors des dépôts de thèses sur la plateforme TEL

Ce billet s’adresse aux établissements diffusant les thèses de doctorat de STAR vers la plateforme TEL.

Nouvelles consignes du CCSD pour le référentiel AuréHAL

À l’été 2020, le CCSD a diffusé de nouvelles consignes concernant le signalement des structures dans le référentiel AuréHAL. En tant que référentiel reposant sur la hiérarchie des structures, chaque structure, de même que les équipes de recherche et les laboratoires, est subordonnées à une structure de rattachement (université, ComUE, regroupement expérimental). Or, avec les nouvelles consignes du CCSD, lorsqu’une structure de rattachement disparaît ou évolue, sa fiche AuréHAL doit être clôturée, ainsi que celles de l’ensemble des structures qui lui sont subordonnées. De nouvelles fiches structures doivent ensuite être créées afin de décrire la nouvelle structure de rattachement et celles qui lui sont subordonnées.

Cette pratique diffère radicalement de celle mise en place dans IdRef, qui consiste à l’inverse à n’avoir qu’une seule notice d’autorité pour les laboratoires ou les équipes de recherche : si la tutelle évolue, cette information est  être saisie dans la notice IdRef. On se trouve donc aujourd’hui avec la situation suivante : pour un laboratoire décrit dans IdRef, il peut exister plusieurs laboratoires dans AuréHAL….

Continuer la lectureSTAR : des affiliations protégées lors des dépôts de thèses sur la plateforme TEL

Cidemis version 3.0.0 : des améliorations à l’écoute des besoins des utilisateurs


logo CidemisEn production depuis 2015, l’application professionnelle CIDEMIS – Circuit des Demandes ISSN est un outil de workflow dédié aux demandes de correction/numérotation ISSN des ressources continues signalées dans le Sudoc. Il a été conçu afin de fluidifier les échanges entre les bibliothèques membres des réseaux Sudoc/Sudoc-PS, le CIEPS et les différents Centres ISSN, notamment le Centre ISSN France. Les modalités de collaboration entre le CIEPS et l’Abes, de fait antérieures à la création de l’Abes, ayant été détaillées dans un précédent billet Punktokomo, il n’en sera donc pas question dans le présent billet.

Rappelons que Cidemis a été conçue initialement comme une application « one shot » – c’est-à-dire non susceptible d’évolutions majeures mais pour laquelle des améliorations peuvent être apportées pour répondre aux besoins exprimés par ses utilisateurs professionnels. Dans cet esprit, au cours de l’hiver 2018, certaines évolutions ont été réalisées principalement en vue d’améliorer le confort d’usage des catalogueurs de la BnF et du centre ISSN France, qui traitent à eux seuls plus de la moitié des demandes.

Il restait cependant à développer certaines améliorations demandées à plusieurs reprises par les responsables des Centres du Réseau Sudoc-PS, principaux utilisateurs de Cidemis en dehors du CIEPS et des centres qu’il coordonne. De plus, victime de son succès, et du nombre de demandes enregistrées, il fallait songer à «apurer» la base en archivant un certain nombre de demandes, un archivage prévu dès l’origine par les concepteurs de Cidemis comme devant être régulièrement pratiqué.

Enfin, même si l’opération est a priori transparente pour les utilisateurs, Cidemis devait bénéficier de la réécriture d’une large partie de son code, en vue d’en améliorer la portabilité et de la rendre conforme aux principes du schéma directeur informatique de l’Abes.

Continuer la lectureCidemis version 3.0.0 : des améliorations à l’écoute des besoins des utilisateurs

Une politique de développement au service de l’ouverture et de la qualité des codes source

Dès 2015, le service Conception et Développement s’est doté d’une politique de développement reposant sur une philosophie open source. Depuis lors, celle-ci cadre les réalisations portées par le département Systèmes d’Information et du Numérique (DSIN) de l’Abes,

Partage de bonnes pratiques

Lors de la mise en place de cette démarche, les nombreux bénéfices attendus avaient en commun le fait de renforcer le travail en équipe en favorisant des pratiques communes de développement. Il s’agissait principalement de :

  • faciliter la maintenance des applications en évitant l’éparpillement dans le choix des technologies et architectures utilisées
  • coder selon des standards communs afin que chacun puisse se repérer dans les applications
  • faciliter l’intégration de nouveaux développeurs en leur fournissant un guide de bonnes pratiques
  • faciliter le respect des principes et règles en termes de sécurité en spécifiant les procédures à suivre

Aujourd’hui, ces bonnes pratiques sont largement partagées par les développeurs de l’Abes : respect des règles de codage, utilisation de branches, versionnage du code source, programmation de tests unitaires, documentation du code….

Pour consolider l’appropriation de ces pratiques, des séances de travail de type coding dojo ou pair programming sont régulièrement organisées.

Continuer la lectureUne politique de développement au service de l’ouverture et de la qualité des codes source

Identifiants : les bibliothèques ne sont pas en reste

Les identifiants forment notre pain quotidien de bibliothécaires. Tous ces sigles si opaques pour les non-initiés (IdRef, ORCID, ISSN, ISBN, DOI…), ces clés numériques cherchent à identifier, de manière unique et si possible pérenne, quelqu’un ou quelque chose, pour pouvoir échanger des informations à son propos.

Il parait donc naturel que les bibliothèques elles-mêmes, qui en sont si friandes à la fois comme productrices et consommatrices, aient leur propre identifiant. Une norme (ISO 15511, dernière mise à jour en 2019) le définit depuis 2003 : c’est l’ISIL, pour International Standard Identifier Libraries and related organisations. Et – le saviez-vous ? – en France, c’est l’Abes qui est chargée d’attribuer ces identifiants, comme agence de numérotation, et ce pour l’ensemble des bibliothèques, bien au-delà du périmètre de l’enseignement supérieur. Si les bibliothécaires seraient bien en peine de réciter de tête leur ISIL, c’est parce qu’elles et ils ignorent que ce numéro est tout simplement basé sur un autre, bien connu dans les réseaux Sudoc et Sudoc-PS : le RCR (Répertoire des Centres de Ressources).

ISIL = FR-RCR ! 

Le RCR : cette élégante suite de neuf caractères, qui permet, par sa conception, d’identifier presque au premier coup d’œil l’origine, au moins géographique, d’une action dans le Sudoc. Les RCR sont en effet des identifiants signifiants : ils réutilisent des codes. Le premier d’entre eux, le numéro de département, est le plus familier, au moins à ceux d’entre nous qui furent habitués aux longs trajets en voiture. Le second est présent sur toutes nos cartes Vitale, car il est aussi utilisé dans une portion du numéro de sécurité sociale.

Continuer la lectureIdentifiants : les bibliothèques ne sont pas en reste

Eplouribousse, une application web pour dédoublonner les périodiques

Qu’il s’agisse des nombreuses fusions d’établissements, des regroupements ou  des intégrations de bibliothèques, ces opérations, souvent réalisées dans un délai restreint et avec les moyens du bord, ont généré et génèrent encore d’importantes opérations de dédoublonnages des collections. En effet,  ces opérations, qui ne reposent généralement pas sur une infrastructure déterminée, font l’objet de protocoles maisons ingénieux et plus ou moins complexes utilisant une batterie d’outils disparates (tableurs, messagerie, dépôts de fichiers…), ce qui implique des manipulations fastidieuses et potentiellement génératrices d’erreurs.

C’est dans l’objectif de faciliter ce type d’opérations que le Service des Bibliothèques de l’Université de Strasbourg a mis au point une application inédite  dédiée au dédoublonnement des périodiques : nommée Eplouribousse – du latin «e pluribus unum» ou «de plusieurs un seul», expression forgée par Virgile dans le poème «Moretum», cette application a été développée en interne par un personnel de la filière bibliothèques, en relation avec le le pôle Communication de l’établissement qui s’est chargé de son ergonomie et son habillage graphique.

Eplouribousse est actuellement utilisée dans le cadre de 3 projets de conservation partagée impliquant 8 bibliothèques de l’université de Strasbourg et d’établissements partenaires (École Nationale du Génie de l’Eau et de l’Environnement et Institut National des Sciences Appliquées de Strasbourg).

à noter : le code source d’Eplouribousse est disponible sous licence GPLv3 à partir du GitHub de l’Abes. Chacun est invité à l’adapter, le modifier, y contribuer …

Une application web sécurisée

Application web sécurisée, Eplouribousse intègre toutes les fonctionnalités de base attendues d’un tel outil : calcul des candidats, positionnement, instruction et édition de rapports. Elle embarque son propre workflow, un outil de suivi, un module complet d’administration et d’authentification (Framework Django) et divers utilitaires, comme la recherche croisée par PPN et par bibliothèque.

Continuer la lectureEplouribousse, une application web pour dédoublonner les périodiques
Aller au contenu principal