Projet Sudoc21 : retours sur l’exploration des solutions informatiques

  • Auteur/autrice de la publication :
  • Post category:Sudoc21

Dans ce dernier billet consacré au projet Sudoc21, sont abordées les solutions informatiques choisies pour tester l’implémentation du modèle de données (format pivot) conçu par les experts de la modélisation bibliographique.

  1. Nom de code Sudoc21
  2. Les données en diptyque
  3. Retours sur l’exploration des solutions informatiques

A partir des différentes solutions logicielles permettant de stocker, interroger et mettre à jour les données structurées selon le format pivot, il s’agissait d’évaluer l’aptitude à traduire en terme de système d’information les différents cas d’usages, et notamment d’évaluer leur complexité technique et leur facilité d’implémentation. De manière générale, le volet « expérimentation des solutions informatiques » a constitué un espace d’échanges et de réflexion entre les membres de l’équipe Sudoc21, indépendamment du domaine de compétences de chacun, ce qui a renforcé la diffusion et le partage d’expertises.

Un projet tourné vers l’avenir

L’équipe informatique du projet Sudoc21 a conservé à l’esprit le fait que le système d’information va être amené à gérer des volumes de plus en plus conséquents : si, en l’état actuel, l’éclatement des données Sudoc en entités s’évalue en milliards, l’objectif est d’atteindre une granularité plus fine encore, comme en témoigne le « en deçà » (ie. chapitres, articles, numéros et volumes) évoqué dans le précédent billet Punktokomo à ce sujet : Les données en diptyque : exercice d’apagogie négative:

Ce modèle a mis en exergue l’importance de la notion de “granularité” : en deçà, granularité de description documentaire – livres et revues, mais aussi leurs parties composantes -chapitres, articles, numéros et volumes” 

Il s’agissait également de tenir compte des assouplissements à prévoir lors de la conception et de l’évolution des schémas de données.

Pour prendre en charge ces contraintes, l’équipe a envisagé, en complément des solutions relationnelles classiques, d’autres solutions de stockage et d’interrogation, qui intègrent des mécanismes plus flexibles. Il existe en effet différentes possibilités techniques permettant :

  • soit d’«éclater» des données dans une granularité très fine (« atomique ») – chaque instance pouvant avoir des relations différentes –  et de les lier entre elles
  • soit d’obtenir un compromis entre de la donnée « tabulée » – classique, relationnelle – et de la donnée « orientée » – composite et faiblement structurée-  qui bénéficie peu ou pas des avantages d’un stockage en tables

Dans le cadre du projet Sudoc21, les explorations techniques ont donc été réalisées selon trois approches : une approche relationnelle classique, une approche « graphe »  et une approche « mixte »

Continuer la lectureProjet Sudoc21 : retours sur l’exploration des solutions informatiques

Les données en diptyque : exercice d’apagogie négative [2-2]

  • Auteur/autrice de la publication :
  • Post category:Sudoc21

Ces billets sont la seconde partie d’une trilogie consacrée au projet Sudoc21. Ils reviennent sur les enjeux de la modélisation des données posés dans le premier billet, et sur la manière dont l’équipe en charge du projet s’y est confrontée.

Tout en cherchant à conceptualiser ce modèle cible, nous avons parallèlement exploré certaines logiques de modélisation, pour en évaluer l’intérêt, ou les écueils. Ces expérimentations nous ont conduits à des choix de modélisations parfois hétérodoxes, parfois même pas totalement cohérents, et ce volontairement. Voici quelques exemples de ces choix, des réflexions qui nous y ont menés et des leçons que nous en avons tirées.

Être ou ne pas être… un Nomen

Nous avons ainsi beaucoup joué avec les Nomens, qui dans le modèle LRM portent les appellations des autres entités, quelles qu’elles soient : titres, noms, libellés. Nous avons pris parti de les considérer comme des entités à part entière, ils sont donc vite devenus omniprésents. Seule entorse au principe, nous n’avons pas poussé cette logique jusqu’à faire des identifiants eux-mêmes des Nomens, comme ils sont censés l’être. Excepté, à titre expérimental, pour l’ISSN-L (ISSN de lien, attribué par le Registre ISSN, commun aux différents supports de publication d’une ressource continue).
Notre retour d’expérience sur ce point, après avoir travaillé sur les cas d’usages en écrivant des requêtes au cours de nos tests des différentes solutions, est mitigé. L’intérêt du Nomen comme entité, est de pouvoir en “dire quelque chose” en plus de sa valeur via des propriétés : langue, écriture, parfois sous-éléments (comme le nom et le prénom pour les personnes), données de gestion…
A contrario, les requêtes portant bien souvent sur la valeur littérale de ces entités, leur présence en « bout de chaîne » alourdit considérablement, à la fois l’écriture de la requête et le parcours des données.
Si c’était à refaire, nous reconsidérerions ce choix : il serait plus économique et efficace de les repenser comme propriété de leur entité mère, à condition de disposer d’un mécanisme permettant de qualifier cette propriété, comme nous l’avons fait pour les affiliations.

Continuer la lectureLes données en diptyque : exercice d’apagogie négative [2-2]

Les données en diptyque : le noyau de la cerise ou la culture du pivot [2-1]

  • Auteur/autrice de la publication :
  • Post category:Sudoc21

Ces billets sont la seconde partie d’une trilogie consacrée au projet Sudoc21. Ils reviennent sur les enjeux de la modélisation des données posés dans le premier billet, et sur la manière dont l’équipe en charge du projet s’y est confrontée.

Façonner un top-modèle…

Des silos au modèle commun

Pour rappel, les enjeux du projet Sudoc21 étaient d’expérimenter à la fois comment :

  • “Désiloter” les différents types de données, aujourd’hui dispersés dans des environnements et formats qui ont du mal à se parler.
  • Ouvrir la voie à leur migration vers le modèle IFLA-LRM en faisant le choix d’une instanciation commune de ce modèle à tous les types de données traitées. C’est ce modèle cible que nous évoquerons plus loin sous le raccourci “pot commun”.

Dans cette première partie consacrée aux données, il sera question des choix opérés par l’équipe pour l’instanciation du modèle et le passage par un format pivot pour leur conversion.

Pour ce faire, nous avons constitué des jeux de données représentatifs de chaque source. Puis, afin de rendre tangible l’articulation qui existe entre ces données et qui n’est aujourd’hui pas exploitable, nous avons sélectionné un sous-ensemble de ressources présentes à la fois dans le Sudoc, dans BACON et en base RDF auquel est venu s’ajouter un échantillon de métadonnées TEF pour les thèses.

Continuer la lectureLes données en diptyque : le noyau de la cerise ou la culture du pivot [2-1]

Nom de code Sudoc21

  • Auteur/autrice de la publication :
  • Post category:Sudoc21

Ce billet est le premier d’une trilogie consacrée au projet dit Sudoc21. Il revient sur les enjeux de la modélisation des données, et sur la manière dont l’équipe en charge du projet s’y est confrontée.

Flash-back

Les JABES 2019, une présentation en plénière sur l’avenir du Sudoc, la refonte du SI de l’Abes, enthousiasme et anxiété de venir dire où nous voulions aller. Depuis ? Ce que nous ne pouvions pas prévoir : le monde mis sens dessus dessous les mois suivants, où le sens de la mesure allait s’inverser – jamais assez loin des autres, toujours trop proche de chez soi. Ce que nous pouvions encore moins imaginer : que Stéphane Rey, responsable informatique du projet, meure brutalement en avril 2020. Et après. Et pourtant. Et malgré. Nous voici au bout de ce projet de deux années, nom de code Sudoc21. Vingt-et-un comme XXIème siècle davantage que 2021, si c’est d’échéance qu’il s’agit. Car au risque de vous décevoir, l’irruption du nouveau système ne sera pas immédiate. Mais au moins avons-nous pu prendre le temps, dans un travail très étroit entre bibliothécaires et informaticiens, de poser correctement les questions pour mesurer le chemin qui nous reste à parcourir.

Continuer la lectureNom de code Sudoc21

Le Sudoc PS est dans le graphe !

  • Auteur/autrice de la publication :
  • Post category:Sudoc PS

A la disposition des membres du réseau Sudoc PS, l’application présentée ci-dessous a été conçue par Géraldine Geoffroy (SCD Université Côte d’Azur) et Emmanuelle Rauzy (responsable CR Sudoc PS  PACA/Nice ). Qu’elles en soient ici remerciées !

Cette réalisation s’inscrit tout naturellement dans l’esprit d’ouverture des codes sources et de collaborations applicatives porté par l’Abes avec la mise à disposition du code documenté et des consignes d’installation d’une instance locale via le GitHub de l’Abes.

Le contexte

Dans le cadre de sa précédente convention sur objectifs (2018-2020) avec l’Abes, le Centre du Réseau Sudoc PS PACA/Nice s’est concocté un programme ambitieux, basé sur les activités «classiques» d’un CR en terme d’animation de son réseau (visites, formation, communication, prospection), mais également sur un projet de valorisation de deux corpus issus des collections de son périmètre et considérés comme prioritaires :

  • le corpus des unicas du CR : il s’agit des titres de périodiques pour lesquels un seul exemplaire est disponible (et localisé dans le Sudoc) dans une des bibliothèques du CR, ce qui confère à celui-ci une responsabilité particulière quant à la qualité des métadonnées signalées
  • le corpus des titres de presse locale ancienne : il s’agit des titres de périodiques identifiés par la BnF sur son site dédié de référencement de la presse locale ancienne (ex : BIPFPIG), et qui revêtent, d’un point de vue local, un intérêt scientifique et patrimonial certain.

L’ambition de ce projet était de se doter d’un outil (idéalement d’une application web) d’exploration multi-scalaire, qui permette,  au niveau global du CR ainsi que pour chacune des bibliothèques du réseau, de réaliser les opérations suivantes :

  • visualiser tout ou partie des 2 ensembles de notices
  • croiser les données des corpus afin de :
    • visualiser les éventuels recoupements entre corpus et collections conservées (du point de vue d’une ou plusieurs bibliothèques, et d’un point de vue territorial)
    • proposer des vues agrégatives où les métadonnées issues de l’environnement Sudoc enrichissent et complètent celles provenant de l’écosystème BnF, et vice-versa
  • analyser les métadonnées sur le plan de leur qualité et de leur complétude
  • exporter tout ou partie des métadonnées pour constituer des listes de travail ou pouvoir les exposer dans d’autres environnements ou interfaces tierces.
Continuer la lectureLe Sudoc PS est dans le graphe !

Accès national aux thèses de doctorat de l’UGA : réalisations et mise en œuvre

A l’université Grenoble Alpes (UGA), l’élargissement du périmètre a minima de diffusion des thèses de doctorat, prévu par l’arrêté du 25 mai 2016, a nécessité la refonte de l’outil de gestion des dépôts et des accès aux thèses intranet. L’application développée en interne pour répondre à ce nouvel impératif a été déployée au sein du SID (Service Interétablissement de la Documentation) en 2018. Pour autant, la mise en œuvre effective de ces accès à l’ensemble de la communauté universitaire n’a été effective qu’au premier semestre 2020.

Aujourd’hui, sur les quelques 900 « thèses intranet » (sur environ 7 000 thèses électroniques) des 13 écoles doctorales du site, seules les thèses soutenues à partir du 1er septembre 2016 (environ la moitié) sont concernées par l’élargissement du périmètre de diffusion à l’ensemble de l’enseignement supérieur et de la recherche. En 2020, celles-ci totalisaient 74 % des 1 128 consultations effectives des « thèses intranet ».

Mise en place d’un accès national aux thèses électroniques grenobloises

De Thares 1.0 à Thares 2.0

Développée dès 2009 – soit avant l’ouverture de theses.fr – en vue du passage au dépôt électronique des thèses à Grenoble, l’application pour la gestion des dépôts et des accès aux thèses intranet grenobloises, Thares, était alors liée à Absysnet, l’un des SIGB du site. Complexe à maintenir, il est apparu, au moment de penser la mise en œuvre de l’accès élargi aux thèses intranet, que cette solution était impossible à faire évoluer pour répondre à cet attendu.

Le choix a donc été fait de développer un nouveau Thares. Cette nouvelle mouture devait se démarquer de la précédente par une conception simple et robuste. Nous avions décidé d’éliminer tout lien avec le SIGB, de ne pas utiliser de base de données et de stocker les fichiers de thèse de façon simple et sécurisée sur les serveurs de l’université pour qu’un administrateur puisse, le cas échéant, y accéder.

Continuer la lectureAccès national aux thèses de doctorat de l’UGA : réalisations et mise en œuvre

STAR : des affiliations protégées lors des dépôts de thèses sur la plateforme TEL

Ce billet s’adresse aux établissements diffusant les thèses de doctorat de STAR vers la plateforme TEL.

Nouvelles consignes du CCSD pour le référentiel AuréHAL

À l’été 2020, le CCSD a diffusé de nouvelles consignes concernant le signalement des structures dans le référentiel AuréHAL. En tant que référentiel reposant sur la hiérarchie des structures, chaque structure, de même que les équipes de recherche et les laboratoires, est subordonnées à une structure de rattachement (université, ComUE, regroupement expérimental). Or, avec les nouvelles consignes du CCSD, lorsqu’une structure de rattachement disparaît ou évolue, sa fiche AuréHAL doit être clôturée, ainsi que celles de l’ensemble des structures qui lui sont subordonnées. De nouvelles fiches structures doivent ensuite être créées afin de décrire la nouvelle structure de rattachement et celles qui lui sont subordonnées.

Cette pratique diffère radicalement de celle mise en place dans IdRef, qui consiste à l’inverse à n’avoir qu’une seule notice d’autorité pour les laboratoires ou les équipes de recherche : si la tutelle évolue, cette information est  être saisie dans la notice IdRef. On se trouve donc aujourd’hui avec la situation suivante : pour un laboratoire décrit dans IdRef, il peut exister plusieurs laboratoires dans AuréHAL….

Continuer la lectureSTAR : des affiliations protégées lors des dépôts de thèses sur la plateforme TEL

Cidemis version 3.0.0 : des améliorations à l’écoute des besoins des utilisateurs


logo CidemisEn production depuis 2015, l’application professionnelle CIDEMIS – Circuit des Demandes ISSN est un outil de workflow dédié aux demandes de correction/numérotation ISSN des ressources continues signalées dans le Sudoc. Il a été conçu afin de fluidifier les échanges entre les bibliothèques membres des réseaux Sudoc/Sudoc-PS, le CIEPS et les différents Centres ISSN, notamment le Centre ISSN France. Les modalités de collaboration entre le CIEPS et l’Abes, de fait antérieures à la création de l’Abes, ayant été détaillées dans un précédent billet Punktokomo, il n’en sera donc pas question dans le présent billet.

Rappelons que Cidemis a été conçue initialement comme une application « one shot » – c’est-à-dire non susceptible d’évolutions majeures mais pour laquelle des améliorations peuvent être apportées pour répondre aux besoins exprimés par ses utilisateurs professionnels. Dans cet esprit, au cours de l’hiver 2018, certaines évolutions ont été réalisées principalement en vue d’améliorer le confort d’usage des catalogueurs de la BnF et du centre ISSN France, qui traitent à eux seuls plus de la moitié des demandes.

Il restait cependant à développer certaines améliorations demandées à plusieurs reprises par les responsables des Centres du Réseau Sudoc-PS, principaux utilisateurs de Cidemis en dehors du CIEPS et des centres qu’il coordonne. De plus, victime de son succès, et du nombre de demandes enregistrées, il fallait songer à «apurer» la base en archivant un certain nombre de demandes, un archivage prévu dès l’origine par les concepteurs de Cidemis comme devant être régulièrement pratiqué.

Enfin, même si l’opération est a priori transparente pour les utilisateurs, Cidemis devait bénéficier de la réécriture d’une large partie de son code, en vue d’en améliorer la portabilité et de la rendre conforme aux principes du schéma directeur informatique de l’Abes.

Continuer la lectureCidemis version 3.0.0 : des améliorations à l’écoute des besoins des utilisateurs

Une politique de développement au service de l’ouverture et de la qualité des codes source

  • Auteur/autrice de la publication :
  • Post category:techno

Dès 2015, le service Conception et Développement s’est doté d’une politique de développement reposant sur une philosophie open source. Depuis lors, celle-ci cadre les réalisations portées par le département Systèmes d’Information et du Numérique (DSIN) de l’Abes,

Partage de bonnes pratiques

Lors de la mise en place de cette démarche, les nombreux bénéfices attendus avaient en commun le fait de renforcer le travail en équipe en favorisant des pratiques communes de développement. Il s’agissait principalement de :

  • faciliter la maintenance des applications en évitant l’éparpillement dans le choix des technologies et architectures utilisées
  • coder selon des standards communs afin que chacun puisse se repérer dans les applications
  • faciliter l’intégration de nouveaux développeurs en leur fournissant un guide de bonnes pratiques
  • faciliter le respect des principes et règles en termes de sécurité en spécifiant les procédures à suivre

Aujourd’hui, ces bonnes pratiques sont largement partagées par les développeurs de l’Abes : respect des règles de codage, utilisation de branches, versionnage du code source, programmation de tests unitaires, documentation du code….

Pour consolider l’appropriation de ces pratiques, des séances de travail de type coding dojo ou pair programming sont régulièrement organisées.

Continuer la lectureUne politique de développement au service de l’ouverture et de la qualité des codes source

Identifiants : les bibliothèques ne sont pas en reste

  • Auteur/autrice de la publication :
  • Post category:webservice

Les identifiants forment notre pain quotidien de bibliothécaires. Tous ces sigles si opaques pour les non-initiés (IdRef, ORCID, ISSN, ISBN, DOI…), ces clés numériques cherchent à identifier, de manière unique et si possible pérenne, quelqu’un ou quelque chose, pour pouvoir échanger des informations à son propos.

Il parait donc naturel que les bibliothèques elles-mêmes, qui en sont si friandes à la fois comme productrices et consommatrices, aient leur propre identifiant. Une norme (ISO 15511, dernière mise à jour en 2019) le définit depuis 2003 : c’est l’ISIL, pour International Standard Identifier Libraries and related organisations. Et – le saviez-vous ? – en France, c’est l’Abes qui est chargée d’attribuer ces identifiants, comme agence de numérotation, et ce pour l’ensemble des bibliothèques, bien au-delà du périmètre de l’enseignement supérieur. Si les bibliothécaires seraient bien en peine de réciter de tête leur ISIL, c’est parce qu’elles et ils ignorent que ce numéro est tout simplement basé sur un autre, bien connu dans les réseaux Sudoc et Sudoc-PS : le RCR (Répertoire des Centres de Ressources).

ISIL = FR-RCR ! 

Le RCR : cette élégante suite de neuf caractères, qui permet, par sa conception, d’identifier presque au premier coup d’œil l’origine, au moins géographique, d’une action dans le Sudoc. Les RCR sont en effet des identifiants signifiants : ils réutilisent des codes. Le premier d’entre eux, le numéro de département, est le plus familier, au moins à ceux d’entre nous qui furent habitués aux longs trajets en voiture. Le second est présent sur toutes nos cartes Vitale, car il est aussi utilisé dans une portion du numéro de sécurité sociale.

Continuer la lectureIdentifiants : les bibliothèques ne sont pas en reste
Aller au contenu principal