Refonte de theses.fr : éclairage sur les choix informatiques

  • Auteur/autrice de la publication :
  • Post category:Non classé

La nouvelle version de theses.fr a été mise en ligne jeudi 14 mars 2024. Consulter le billet Fil’Abes

Conduit selon la méthode SCRUM, le projet de refonte de theses.fr illustre parfaitement les concepts de la politique de développement de l’Abes. Il est l’aboutissement de 19 mois de travail pour l’équipe constituée d’une Product Owner, de cinq développeurs – dont un en prestation externe – et d’un devops.

Fidèle à la résolution de l’Abes qui, depuis 2019, publie les codes sources de ses applications sur Github, le projet est entièrement open source. Ses différents modules sont répartis dans plusieurs dépôts, tous hébergés dans l’organisation Github de l’Abes.

L’interface du site

Un premier dépôt contient le code de l’interface de l’application réalisée avec le framework Nuxt, surcouche au framework VueJs. VueJs a été choisi par les développeurs de l’Abes pour sa courbe d’apprentissage jugée plus rapide que pour ses concurrents React ou Angular.

La surcouche Nuxt assure une meilleure indexation du site par les moteurs de recherche du web, notamment grâce au Server Side Rendering, qui permet de préparer, côté serveur, une partie du code client qui sera exécuté dans le navigateur et ainsi le rendre immédiatement lisible par les moteurs d’indexation. De plus, Nuxt propose et préconfigure par défaut un certain nombre de fonctionnalités indispensables, comme le routage qui fournit les URLs de l’application, la gestion des erreurs ou encore la récupération des données depuis les API.

L’accès à l’interface via différents types de terminaux est également facilité par le framework VueJS : une navigation aisée sur mobile est une des nouveautés du site.

Une attention toute particulière a été portée par les développeurs sur l’accessibilité de l’interface, qui respecte les règles édictées dans le Référentiel général d’amélioration de l’accessibilité (RGAA) : polices appropriées, choix des couleurs, contraste, mise en forme de la page et utilisation de balises ARIA pour introduire la sémantique des éléments dans le code HTML.

Une intégration continue

L’intégration continue du projet est assurée par des actions Github, programmes qui se déclenchent à chaque fois qu’un développeur pousse (publie) du code sur une branche (qui propose une fonctionnalité) du projet : le code est alors compilé et, si la compilation et les tests réussissent, la branche en question peut alors être publiée comme image sur la plateforme Dockerhub. Ces images sont alors disponibles pour déploiement sur nos machines de développement, test ou production. A noter que le code de l’intégration continue est versionné sur le même dépôt que le projet, au plus près de ce dernier pour en faciliter la maintenance.

Les API

Côté back-office, theses.fr est composé de trois API, ensemble de services utilisés par l’interface VueJs mais qui peuvent également être appelés depuis des programmes externes.  Ces API, programmées en Java Spring et documentées selon la norme OpenAPI, sont publiées à cette adresse : https://api.gouv.fr/les-api/api-export-donnees-these

Ces services recouvrent trois thématiques :

  • La recherche dans les métadonnées : il est possible d’interroger les données en passant directement une chaine de recherche du langage de requête du moteur d’indexation Elastic Search via l’URL. Les réponses sont renvoyées au format JSON.
  • La diffusion des documents : cette API fournit à la fois les boutons à afficher dans l’interface pour chacune des thèses et les liens avers les documents eux-mêmes, ou des liens vers des ressources externes décrivant les documents, comme les notices du catalogue Sudoc. Les accès aux documents sont contrôlés : il n’est pas possible de visualiser une thèse confidentielle et la récupération d’une thèse sous embargo est soumis à authentification.
  • L’export des métadonnées : les métadonnées des thèses sont fournies dans des formats BIBTEX et RIS qui permettent d’échanger ou d’intégrer facilement la thèse comme référence bibliographique. Elles sont aussi disponibles en RDF, format du web sémantique qui facilite leur intégration dans le Linked Open Data cloud

Le moteur Elastic Search

Les données sont indexées dans le moteur Elastic Search, le choix s’étant porté sur cet outil à la fois pour sa popularité et sa présence dans la pile logicielle Elastic Search – LogStash – Kibana, déjà installée dans  le système d’information de l’Abes.

Elastic Search assure les fonctionnalités essentielles telles que filtres, agrégations, pondération ou encore calcul de pertinence lors de l’exécution des requêtes tout en maintenant un haut niveau de performance en termes de délai de réponse.

Consulter :  https://collection-numerique.amue.fr/numero-27/13.html

Fédération d’identité

Si les thèses en accès restreint ne sont pas disponibles pour le grand public, leur diffusion étant par exemple limitée par un embargo, elles doivent cependant être accessibles aux membres de l’Enseignement Supérieur et de la Recherche. Donner accès à ces thèses constitue donc une des principales nouveautés du nouveau theses.fr.

L’implémentation de cette fonctionnalité a été réalisée grâce à l’inscription de theses.fr en tant que fournisseur de services dans la fédération d’identité RENATER. L’authentification des utilisateurs est ainsi déléguée à cette fédération d’identité qui s’assurera que toute personne disposant d’un compte chez un fournisseur d’identités pourra accéder aux thèses en accès restreint.

Le système, qui repose sur le protocole SAML2, requiert l’installation et la configuration de briques logicielles : à cette fin, nous avons mis en place un proxy Apache chargé de rediriger les URLs des thèses en accès restreint vers une page demandant à l’utilisateur de choisir son fournisseur d’identité afin de s’authentifier pour pouvoir accéder à la ressource.

Continuer la lectureRefonte de theses.fr : éclairage sur les choix informatiques

À la recherche des unicas de la bibliothèque Sainte-Geneviève

En janvier 2022, la bibliothèque Sainte-Geneviève a débuté un projet pluriannuel (2022-2024) de refonte de ses outils de politique documentaire, par la mise à jour du plan de développement des collections et de la charte documentaire.

Dans ce cadre, une analyse quantitative et qualitative de ses collections a été lancée, afin d’identifier et de caractériser plus finement ses pôles d’excellence et ses gisements documentaires rares et remarquables.

Ce billet retrace la méthodologie employée pour une des étapes de cette analyse qui consiste en la catégorisation thématique de l’ensemble des unicas. Pour mémoire, les unicas sont, dans le contexte du Sudoc, des notices bibliographiques sous lesquelles un seul établissement du réseau est localisé. 

L’équipe actuelle en charge de ces opérations se compose de trois personnes, dont deux catalogueuses, pour un total d’environ 30 heures de travail hebdomadaire. Ce chantier est réalisé avec l’appui de la monitrice étudiante et des magasiniers du département des Services aux publics pour les vérifications en magasin.
– Chef de projet “unica” : Emilie Trompille
– Chef de projet du plan de développement des collections : Timothée Rony
– Expertes catalogueuses : Marie Barbier, Clara Dauber
– Soutien informatique : Clément Croquet, Pauline Rivière et le service informatique de la bibliothèque.

Continuer la lectureÀ la recherche des unicas de la bibliothèque Sainte-Geneviève

Quand IdRef s’aligne sur ROR, ou comment rapprocher des référentiels 

 “Faire de la lumière, pauvres gens, c’est plus difficile que de faire de l’or.” (Paul Claudel, L’annonce faite à Marie)

Prémices de l’intérêt pour ROR Research Organization Registry

Tête de lion rugissant, Eugène Delacroix. Crédits : Photo (C) RMN-Grand Palais (musée du Louvre) / Michel Urtado.

Au printemps 2021, le service Autorités et Référentiels de l’Abes avait mené un travail de veille sur les référentiels dédiés aux structures. Contrairement aux personnes ou aux publications pour lesquelles un identifiant pérenne – respectivement ORCID et DOI – s’est progressivement imposé au plan international, les collectivités, dans le monde de la recherche, sont un secteur pour lequel plusieurs référentiels coexistent, notamment : ISNI, GRID, ROR, RingGold.

Au printemps 2023, nous avons décidé de prendre à bras le corps la question de la qualité des notices IdRef de type ‘Tb’ qui décrivent des collectivités liées à la recherche. Se posait alors alors la question du champ : que devions-nous couvrir ? Par pragmatisme, nous avons défini un premier cercle : les établissements habilités (actuellement ou dans le passé) à délivrer le doctorat. 216 notices ont ainsi été passées en revue, améliorées, et enrichies d’alignements vers le référentiel ROR.

Nous avons découvert que ROR, qui s’était jusqu’alors présenté comme un référentiel des top-level institutions, avait enrichi sa base pendant l’été 2023 avec de nombreuses structures de type laboratoires (unités mixtes de recherche) au moyen des données publiques issues du RNSR.

Cette inflexion semblait nécessaire pour poursuivre l’objectif de ROR, qui est de structurer les données d’affiliation des publications par des PID. Nous avons alors emboîté le pas, en élargissant le cercle : le début de l’année 2024 a vu l’injection de nouveaux alignements ROR dans IdRef, pour des structures, de type unités de recherche, et plus seulement pour des établissements.

Continuer la lectureQuand IdRef s’aligne sur ROR, ou comment rapprocher des référentiels 

Quand la base de données d’ITEM a disparu : retour sur l’incident de fin janvier 2024

Date de début de l’incident: 26/01/2024 à 12h20Date de fin de l’incident : 05/02/2024 à 11h04Type d’incident : Critique

Points essentiels à retenir

Précisons tout d’abord qu’une indisponibilité de la base de données d’ITEM ne concerne en rien les exemplaires créés dans le Sudoc ; ces deux processus sont distincts. Ainsi, l’absence de visualisation d’une demande dans le tableau de bord ne reflète pas un problème dans le traitement réel des opérations dans le Sudoc.

De même, il convient de distinguer les fichiers de traitement des informations relatives aux demandes. En cas d’incident sur la base de données, les fichiers de demande sont stockés sur les serveurs de l’Abes et peuvent être retrouvés à partir de leur numéro. Cependant, cela nécessite que l’utilisateur ait mémorisé ce numéro, car il n’est pas possible de retrouver une demande à partir de l’ILN et/ou du RCR. Une réflexion sera menée sur ce point.

Continuer la lectureQuand la base de données d’ITEM a disparu : retour sur l’incident de fin janvier 2024

CERCLES : lancement d’un nouveau chantier sur le corpus Lextenso par la BU Angers

  • Auteur/autrice de la publication :
  • Post category:Sudoc

Illustration crayons de couleurEn 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner, aider et valoriser un établissement souhaitant s’investir sur l’enrichissement des données d’un corpus de documents spécifique.

En 2024, un nouveau corpus de ressources électroniques va bénéficier de ce dispositif : Lextenso.

Le corpus Lextenso

Proposant des ressources numériques (revues et  ebooks) de doctrine, de jurisprudence et de codes, la base Lextenso constitue un corpus utile et apprécié des usagers des bibliothèques en sciences juridiques et économiques. Les domaines couverts sont ceux du droit français (public et privé) mais aussi du droit international, de la fiscalité et des finances publiques. Parmi les ressources, on trouve également des collections de manuels juridiques et des documents pédagogiques (Carrés rouges Gualino, Mémentos Gualino, Cours LGDJ et Manuels LGDJ).

Continuer la lectureCERCLES : lancement d’un nouveau chantier sur le corpus Lextenso par la BU Angers

Articuler Calames  et Wikimedia Commons : point technique

  • Auteur/autrice de la publication :
  • Post category:Non classé

Ce billet propose un point technique sur la façon d’articuler Calames et Wikimedia Commons. Consulter le billet Fil Abes à ce sujet

Récupérer les données produites dans le cadre du signalement dans Calames afin de les importer sur Wikimedia Commons, plateforme comportant des dizaines de milliers d’utilisateurs dans le monde, semble d’emblée une bonne idée. Pour ce faire, l’Abes se devait de répondre d’un point de vue technique à la question suivante : comment faciliter le liage entre les métadonnées associées aux ressources Calames et Wikimedia Commons ? 

Mise à disposition d’un plugin dédié

Le plugin Pattypan s’est vite imposé comme un choix sûr. Développé par la communauté des wikimédiens, régulièrement mis à jour et librement accessible sur GitHub, ce plugin permet de charger des fichiers en masse, ce dans un large choix de formats (jpg, png, pdf, wav, TIFF,…). De plus, il a l’avantage non négligeable de réunir métadonnées et fichiers numériques en un seul import dans Wikimedia Commons, les données étant prises en charge dans un simple tableau Excel. 

Seul inconvénient identifié, le plugin Pattypan nécessite des compétences en Java pour être exécuté sous Windows. Pour remédier à ce problème, l’Abes a donc décidé de financer une prestation de développement. Celle-ci, réalisée par Wikimédia Suède, a abouti à une version du plugin exécutable directement sous Windows, par un simple double-clic sur une icône dédiée présente sur le bureau. Cette version du plugin est librement téléchargeable sur le GitHub dédié.

Continuer la lectureArticuler Calames  et Wikimedia Commons : point technique

Focus sur les technologies utilisées pour la publication du projet d’établissement 2024-2028 de l’Abes

  • Auteur/autrice de la publication :
  • Post category:Non classé

Au cours de l’année 2023, l’Abes a préparé son projet d’établissement pour la période 2024-2028. Une équipe Scrum, composée de 10 agents issus des 3 départements de l’Abes, a été mise en place pour travailler de manière itérative sur l’analyse des produits et services de l’Abes, le recueil des besoins utilisateurs, des propositions de services et enfin la rédaction du document de projet. 

Pour cette dernière étape, un site web public, doté d’un système permettant aux utilisateurs de déposer des commentaires, a été mis en place : https://projet2024.abes.fr

Cet article a pour objectif de détailler les technologies utilisées pour la conception de ce site web : 

  • Docusaurus, 
  • Hypothes.is, 
  • CI/CD avec GitHub et Docker

Docusaurus 

Le socle du site est le logiciel libre Docusaurus (dans sa version 2) dont la devise est : « Construisez rapidement des sites web optimisés, concentrez-vous sur votre contenu. 

Il s’agit d’un logiciel très populaire – https://docusaurus.io/showcase – dans le monde de l’IT maintenu par les développeurs de Facebook. Son principal cas d’usage est de simplifier la création et la maintenance de documentation en ligne. Il permet de générer des sites web statiques, fluides au niveau de la navigation et optimisés pour le référencement web.

Continuer la lectureFocus sur les technologies utilisées pour la publication du projet d’établissement 2024-2028 de l’Abes

Nouvel import Sudoc : les notices des vidéos en streaming de la plateforme Arte Campus 

  • Auteur/autrice de la publication :
  • Post category:docelecSudoc

Pour répondre à la demande d’établissements du réseau Sudoc, l’Abes, en collaboration avec le Service de coopération documentaire interuniversitaire (SCDI) de Montpellier, a mis en place un nouveau flux d’import permettant de charger mensuellement les nouvelles notices disponibles depuis la plateforme de diffusion Arte Campus. L’import initial a eu lieu  fin novembre.

Naissance du projet  

Les besoins du réseau Sudoc concernant l’intégration de ce type de notices ont été évalués par un sondage initié par Marie Nikichine (SCDI) via la liste de diffusion Code2bib : c’est Arte Campus qui arrivait en tête des abonnements.

A l’initiative de Régis Griesser, coordinateur Sudoc au SCDI, un workflow – permettant la création des notices en local puis leur chargement dans leur SGB Alma – avait déjà été mis en place.  Après discussion, il a été décidé de créer un flux d’import régulier afin de mutualiser le signalement de ces ressources par l’intégration de leurs notices descriptives dans le Sudoc.

 

Continuer la lectureNouvel import Sudoc : les notices des vidéos en streaming de la plateforme Arte Campus 

Abes et Mir@bel : retours sur le chantier d’attribution de n°ISSN pour les revues en accès libre

  • Auteur/autrice de la publication :
  • Post category:Non classé

Visuel Abes Mirabel ISSNDébut 2022,  en s’appuyant sur les données de la base Mir@bel et sur la Base de Connaissance BACON, un corpus d’environ 700 titres étrangers en libre accès ne possédant pas de n°ISSN électronique était identifié. Afin de remédier à ce constat, l’Abes a  lancé, à l’aide de l’application CIDEMIS  (Circuit dématérialisé des Demandes ISSN), un important chantier de demandes d’attribution de n°ISSN auprès du Centre International de l’ISSN et de son réseau, qui gère, au niveau international, l’identification et la description des ressources continues.

Ce chantier, qui vise à améliorer l’identification des ressources en libre accès, et éventuellement de leur généalogie, en demandant leur numérotation ISSN, concerne un large périmètre, soit 88 pays et 75 Centres Nationaux différents. Rappelons par ailleurs que l’inclusion de publications en libre accès dans les principaux répertoires mondiaux – tels que le DOAJ (« Directory of Open Access Journals« ) ou ROAD (répertoire des ressources scientifiques et universitaires en accès libre) – implique l’attribution d’un identifiant ISSN.

Continuer la lectureAbes et Mir@bel : retours sur le chantier d’attribution de n°ISSN pour les revues en accès libre

CERCLES : lancement d’un nouveau chantier sur le corpus Clinical Key

  • Auteur/autrice de la publication :
  • Post category:Sudoc
Crédit image : David_Stewart

En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner, aider et valoriser un établissement souhaitant s’investir sur l’enrichissement des données d’un corpus de documents spécifique. 

En septembre 2023, un nouveau corpus de ressources électroniques va bénéficier de ce dispositif : Clinical Key. Le chantier est pris en charge par le SCD de l’Université Paris-Est Créteil Val de Marne. 

 

Le corpus Clinical Key

Clinical Key accompagne les professionnels de santé et les étudiants en médecine, toutes spécialités confondues, en leur offrant l’accès aux dernières publications. La plateforme de l’éditeur Elevier Masson permet de faire des recherches sur le texte inétgral de revues et de monographies.
La collection « Student » contient des images, vidéos en ebooks en santé, dont les Référentiels des collèges, les atlas d’anatomie Gray et Netter et les traités EMC (Encyclopédie médico-chirurgicale).
La collection « Nursing », dédiée aux soins infirmiers, propose des ebooks  (Essentiels en IFSI, guides pratiques) et des revues, ainsi que les EMC Savoirs et Soins infirmiers.

Pourquoi le SCD de l’Université Paris-Est Créteil Val de Marne a-t-il choisi ce corpus ?
La responsable du chantier, Sylvia, nous répond :
« Clinicalkey était un des derniers bouquets francophones pas encore pris en charge, et c’est une ressource importante pour nos étudiants en médecine. Ils sont très demandeurs des manuels type « Collèges » proposés sur cette plateforme. Nous avons envie d’être réactives et de signaler les titres rapidement après leur publication en produisant des bonnes notices pour les partager avec le réseau ».

 

Continuer la lectureCERCLES : lancement d’un nouveau chantier sur le corpus Clinical Key
Aller au contenu principal