Retours sur trois jours de tempête

Ce billet constitue un post-mortem d’un incident critique survenu du 4 au 7 mars 2024 . Caractérisé par des ralentissements intermittents et des déconnexions sur l’ensemble des applications de l’Abes, qui ont affecté les établissements du réseau de l’Abes, cet incident a débuté le 4 mars 2024 et a été résolu le 7 mars 2024 à midi.  La cause de l’incident était liée aux scories d’une ancienne configuration de routeur, restées actives sans que l’on en soit conscient. Le redémarrage des machines, notamment des switches, a réactivé ces paramètres, provoquant une redirection alternée de paquets vers un routeur inexistant. Cela a conduit à des « tempêtes réseau » et à des ralentissements importants. 

Symptômes et impacts de l’incident 

Suite à la maintenance effectuée par l’Abes sur son infrastructure les 2 et 3 mars 2024, des ralentissements intermittents ont été observés sur le réseau du SI, provoquant des lenteurs d’accès, voire des déconnexions, sur l’ensemble des applications de l’Abes.

Les utilisateurs ont donc rencontré des difficultés pour accéder aux services en ligne, ce qui a entraîné une perturbation majeure de l’activité. Les tentatives de redémarrage des équipements réseaux n’ayant pas permis de résoudre immédiatement le problème, la période d’indisponibilité des applications a été prolongée.

Causes et solutions 

Après de nombreuses recherches, l’origine de l’incident a été trouvée : elle était liée à une configuration VRRP – Virtual Router Redundancy Protocol (Protocole de Redondance de Routeur Virtuel)  – laissée en place. Le VRRP est un protocole standardisé qui vise à améliorer la haute disponibilité dans un réseau en permettant à plusieurs routeurs de travailler ensemble pour assurer la redondance. Cette double configuration de routeur avait été proposée par Renater en 2020 pour assurer une haute disponibilité à la suite d’une panne. Cependant, après l’installation, cette configuration, qui n’a jamais été testée en conditions réelle, a été jugée trop complexe à maintenir. Elle a donc été supprimée de l’infrastructure de l’Abes l’année suivante. 

Lors du redémarrage du système suite à la maintenance planifiée les 2 et 3 mars, les ports VRRP, normalement désactivés, ont donc renvoyé des paquets sur un routeur qui n’existait plus. C’est cette redirection intermittente qui a entraîné des « tempêtes réseaux » caractérisées par des ralentissements importants.

L’analyse de l’incident s’est basée sur les temps de réponse de la commande « ping ». Les résultats des « ping » en interne étaient excellents, tandis que les « ping » vers le routeur ou l’extérieur étaient par moment fortement dégradés. La résolution de l’incident a finalement été trouvée en identifiant et en éliminant des scories de la configuration VRRP et en redémarrant les interfaces physiques du routeur. Cette action a permis d’instaurer une configuration fonctionnelle, bien que cela ne corresponde pas au comportement attendu des équipements modernes qui devraient normalement prendre en charge les configurations à chaud. 

En résumé, l’incident a mis en évidence l’importance d’une gestion prudente des configurations réseau, en particulier lors de modifications majeures ou après des périodes d’inactivité prolongée. Un contrôle régulier et une maintenance proactive peuvent contribuer à prévenir de tels incidents. Pour limiter les risques, il est également prudent de réduire au maximum les opérations de la maintenance effectuées le jour J. De même, il est important de s’appuyer sur l’assistance externe pour certaines tâches spécifiques. 

Continuer la lectureRetours sur trois jours de tempête

CERCLES : lancement d’un nouveau chantier sur le corpus Arte Vidéo Campus par le SCDI de Montpellier

  • Auteur/autrice de la publication :
  • Post category:Sudoc

logo du dispositif CERCLES

En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner, aider et valoriser un établissement souhaitant s’investir sur l’enrichissement des données d’un corpus de documents spécifique.

En 2024, un nouveau corpus de ressources électroniques va bénéficier de ce dispositif : Arte Vidéo Campus.

Le corpus Arte Vidéo Campus

Guide d'utilisation du service Arte CampusEn décembre 2023, l’Abes informait le réseau Sudoc qu’un nouvel import réguliers de notices bibliographiques était mis en place : l’import des notices de vidéos en streaming de la plateforme de diffusion Arte Campus.
Arte Campus est la ressource pédagogique en ligne de la chaîne ARTE pour l’enseignement supérieur et la formation des adultes.
Le corpus se compose de 2.000 vidéos environ (en janvier 2024), disponibles et transcrites en 5 langues, qui prennent la forme de long-métrages documentaires, de magazines documentaires, de courts-métrages de fiction, de captations de pièces de théâtre, de ballets et d’opéras. Les domaines représentés sont les arts, la littérature, les langues, les sciences sociales, les sciences économiques et politiques la technologie et la santé.
Les services associés permettent aux établissements abonnés de visionner, télécharger, découper les vidéos, de rechercher dans les scripts.

L’investissement du SCDI de Montpellier

Le Service de Coopération Documentaire Interuniversitaire de Montpellier fut le partenaire de l’Abes pour concevoir cet import de notices, qui suppose une transformation préalable des métadonnées de JSON en UNIMARC, et c’est lui qui en assure les premières étapes (voir le billet).
Cet investissement est désormais reconnu et formalisé par un chantier CERCLES.

  • Corpus : 2 390 notices de vidéos en streaming, identifiée dans le Sudoc comme « notices de ressources électroniques (Oa) »
  • Période de travail : à partir du 1er janvier 2024
  • Responsable du chantier : Régis Griesser, coordinateur Sudoc
  • Référent Abes : Élodie Molières
  • Axes d’enrichissements :
    • récupération des métadonnées fournies par la plateforme
    • transformation des métadonnées en UNIMARC
    • création des notices UNIMARC
    • avertissement en cas de suppression de titres communiquée par l’éditeur

Les « + » du chantier :

  • une réponse aux besoins exprimés par le réseau (après enquête, de nombreux établissements avaient souhaité que ce corpus soit importé dans le Sudoc)
  • un travail en binôme, avec l’Abes
  • la maîtrise technique des conversions de données de Régis Griesser, le coordinateur Sudoc

Au nom du réseau, l’Abes remercie le SCDI de Montpellier pour son investissement dans ce nouveau chantier CERCLES  !

Consulter le document du suivi pour suivre la progression du travail

Continuer la lectureCERCLES : lancement d’un nouveau chantier sur le corpus Arte Vidéo Campus par le SCDI de Montpellier

Bilan du chantier Qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet3

  • Auteur/autrice de la publication :
  • Post category:IdRefSudoc

Troisième d’une série de 3 billets dressant le bilan du chantier de traitement des notices d’autorité Personnes physiques en statut 1  (dites notices Tp1), ce billet  présente  la dernière phase du chantier, menée de novembre 2022 au 21 mars 2024, avec le concours de collègues volontaires.

Le billet n°1 décrit la finalité et l’ampleur du chantier. Le billet n°2 décrit les opérations menées de janvier 2022 à octobre 2022, dont la sollicitation des correspondants autorité au printemps 2022 (étape qui a fait l’objet d’un billet Punktokomo ad hoc publié le 29 mars 2022).

Le chantier a été mené en quatre étapes en croisant différentes méthodologies. Ce billet détaille la méthodologie, strictement manuelle, utilisée de novembre 2022 à mars 2024 dans la joie et la bonne humeur, par un groupe de volontaires. Toutes les méthodes pour regrouper des cas similaires et les traiter en masse ayant été utilisées au préalable, il s’agissait désormais de traiter à la main, une par une, les 15 806 notices Tp1 restantes.

Novembre 2022 – mars 2024 : traitement manuel par des volontaires

Fin octobre 2022, l’Abes a envoyé une bouteille à la mer sur ses listes de diffusion : qui accepterait  du travail en plus était invité à se faire connaitre pour venir en renfort des 4 personnes du service Autorités & Référentiels déjà impliquées dans ce chantier.

Nombre de volontaires

Dès le lancement de l’appel au volontariat, le chantier a eu du succès : 42 personnes provenant de 38 établissements distincts ont répondu présents fin octobre 2022. En définitive, pendant les 17 mois qu’aura duré cette phase, plus de 70 personnes provenant de plus de 40 établissements auront été volontaires.

Répartition du travail

L’Abes a établi des paquets de 100 notices à distribuer aux volontaires et tenait à la disposition de ceux qui avaient épuisé leur liste, un nouveau lot si c’était souhaité. Les volontaires étaient également libres de renoncer et de rendre leur liste inachevée à l’Abes.

Rythme d’avancée du chantier

Chaque volontaire a reçu une liste de 100 notices Tp1. Dans la plupart des cas, cette liste était destinée à une seule personne qui l’a traitée de A à Z. Mais certains établissements ont choisi de tronçonner cette liste pour faire des paquets plus petits donnés à un groupe de catalogueurs. Aucun délai n’était imposé pour traiter cette liste. Plusieurs collègues ont ainsi pris 8 ou 9 listes (alors que d’autres, notamment à l’Abes, ont mis 17 mois à finir leur unique liste !). Peu importe, l’essentiel était d’en faire un peu, beaucoup, ou à la folie, le but étant de les traiter toutes.

Des temps d’échange collectifs

Même si assez peu d’échanges ont transité par cette voie, une liste de diffusion comportant l’ensemble des volontaires a été mise en place pour l’occasion.
Pour rendre la démarche conviviale, l’Abes a proposé régulièrement des « cafés Tp1 », temps d’échange collectifs, facultatifs, volontairement informels,  organisés en visio pendant la pause-café de 13h30 à 14h. Ainsi, sur la durée de ce chantier, une dizaine de « cafés Tp1 » ont été organisé au cours desquels, en moyenne, 14 volontaires se sont retrouvées, sans compter les participants Abes. Certains étaient très assidus, certains ne sont jamais venus. De fait, il n’y avait pas de corrélation entre la participation aux cafés et le rythme de traitement des listes.

Chaque café a donné lieu à la présentation par l’Abes d’un court diaporama qui donnait à voir l’avancée statistique du chantier. La discussion s’engageait ensuite sur des sujets variés en rapport avec le chantier, comme par exemple : comment traiter des homonymes ? quels usages de Paprika ? e…

Au fil des cafés, nous avons fêté ensemble les marronniers de l’année.

Les affiches des « cafés Tp1 »

Un poster aux Journées Abes 2023

Au printemps 2023, nous avons proposé aux volontaires de présenter un poster lors des Journées Abes 2023, défi relevé par les collègues de l’Université Paris Cité qui, cerise sur le gâteau, ont remporté le prix du meilleur poster !

Nous avons aussi profité du cocktail des Journées Abes pour faire une photo avec les volontaires présents.

Le tout dans une ambiance conviviale

Le traitement des Tp1 peut parfois s’apparenter à une mini-enquête : ce François Martin est-il le même que cet autre François Martin ? A moins qu’il ne s’agisse de Martin François ?! On déniche aussi des perles : « Médecin spécialiste en médecine générale » ou bien « né en 1883 et ayant soutenu une thèse en 1892 » ou des aptonymes : « nom de famille d’une personne qui est étroitement lié à son métier ou à ses occupations », selon la définition donnée par le Grand dictionnaire terminologique de l’Office québécois de la langue française.
Pour accompagner ce chantier, nous avons proposé à chacun de partager nos sourires, voire nos fou-rires, dans un fichier collaboratif commun ; nous avons également conçu ensemble la « playlist des identités » pour travailler en musique : c’est fou le nombre de chansons en rapport avec les Tp1 !

Enfin, lors du dernier café Tp1, en direct pendant la visioconférence, nous avons transformé les 3 dernières notices d’autorité Tp1 qui subsistaient. Le chantier était terminé !

En conclusion

L’Abes remercie très chaleureusement l’ensemble des participants à ce chantier, que ce soit les Correspondants Autorités sollicités au printemps 2022 ou les collègues qui ont répondu à l’appel à volontariat entre novembre 2022 et mars 2024.
La première satisfaction est bien sûr d’avoir atteint l’objectif fixé : en finir avec des notices d’autorité tellement pauvres qu’elles ne pouvaient « faire autorité ». En améliorant la qualité intrinsèque de dizaines de milliers de notices de Personnes physiques,  c’est l’ensemble des liens aux ressources bibliographiques qui ont été fiabilisés.
La seconde satisfaction, encore plus précieuse car moins anticipée, est d’avoir, très concrètement et pendant plusieurs mois, perçu ce que veut dire « faire réseau ». Plus qu’un principe, le catalogage partagé est une réalité très puissante.

Merci à tous !

Continuer la lectureBilan du chantier Qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet3

Bilan du chantier qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet2 

  • Auteur/autrice de la publication :
  • Post category:IdRefSudoc

Second d’une série de 3 billets dressant le bilan du chantier lancé début 2022 et terminé le 21 mars 2024 pour traiter des notices d’autorité Personnes physiques en statut 1  (dites notices Tp1), ce billet  décrit les opérations menées entre janvier 2022 et octobre 2022, dont la sollicitation des Correspondants Autorités au printemps 2022 (étape ayant fait l’objet d’un billet Punktokomo publié le 29 mars 2022).

Le billet n°1 décrit la finalité et l’ampleur du chantier et le billet n°3 présente la dernière phase du chantier, menée de novembre 2022 à mars 2024, avec le concours de collègues volontaires. 

Le chantier a été mené en quatre étapes en croisant différentes méthodologies. Ce billet détaille les opérations menées de janvier à octobre 2022. 

 Janvier – février 2022 : correction automatique de ce qui était automatisable

Début 2022, 11 295 notices d’autorité Tp1 avaient pour double caractéristique : 

  • de n’être liées qu’à une seule notice bibliographique 
  • le fait que l’Abes soit le dernier modificateur

Ces notices ont été isolées dans un projet OpenRefine. Après analyse humaine et multiples sondages pour vérifier que ce lot était homogène et pouvait faire l’objet d’un traitement en masse, l’Abes a décidé d’enrichir ces notices d’une zone A810 construite grâce à la notice bibliographique liée et de basculer le statut de 1 à 5.

Mars 2022 – août 2022 : travail manuel par ciblage vers des établissements précis

Parmi les 24 000 notices d’autorité Tp1 restant à l’issue de ces corrections, l’Abes a isolé environ 4 800 notices ayant un établissement du réseau Sudoc comme dernier modificateur. Un fichier a été généré puis partagé, enrichi de cette information, afin de ventiler le poids du chantier sur pdavantage d’acteurs. 134 Correspondants Autorités ont alors été sollicités pour prendre en charge les lignes les concernant. Pour accompagner les Correspondants Autorités dans ce chantier Qualité :

Ouvert fin mars, il était prévu que le chantier se termine fin juin 2022, ce qui a été le cas pour 70% des 134 établissements, effectivement intervenus dans les temps. Suite à un rappel fait fin juin sur les listes de diffusion puis de manière personnalisée auprès de 48 établissements, un nouveau pointage réalisé mi-aout montraient que seuls 16 établissements n’avaient pas encore corrigé les notices qui leur incombaient.  Sollicités individuellement, la plupart des retardataires ont corrigé les notices avant la fin août 2022.

Septembre 2022 – octobre 2022 : constitution de lots homogènes pour correction en masse

Début septembre, il restait 18 780 notices Tp1 encore présentes dans la base. Quatre personnes du service Autorités & Référentiels de l’Abes se sont attelées à la tâche. Après analyse, deux lots homogènes ont été constitués qui ont pu être traités en masse.

Pour ce faire, l’outil Bibliostratus  a été utilisé pour rapprocher les notices bibliographiques liées aux notices d’autorité Tp1 et les notices bibliographiques BnF identiques liées à une autorité BnF. Quand les données BnF étaient plus riches, les notices d’autorité BnF ont été dérivées puis fusionnées avec les notices Tp1. 1 965 notices d’autorité Tp1 ont ainsi été basculées en statut 5. 

Parmi les notices Tp1 restantes, les notices les plus riches ont été isolées, notamment du fait qu’elles contenaient des zones de notes (A300 ou A340). 749 notices d’autorité Tp1 ont ainsi été basculées en statut 5. 

Une fois ces travaux réalisés, nous avons conclu qu’il n’était plus possible de constituer des lots homogènes : l’analyse aurait pris plus de temps qu’un traitement à l’unité. L’équipe a donc décidé de faire appel aux bonnes volontés. 

La suite du chantier est détaillée dans le billet n°3 (à lire prochainement). 

 

Continuer la lectureBilan du chantier qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet2 

Signalement des ressources électroniques entre contraintes techniques et ambition politique : la solution développée par l’UPEC pour les livres électroniques

  • Auteur/autrice de la publication :
  • Post category:baconSudoc

logo UPECLa volumétrie des ressources électroniques (plus de 300 000 documents pour une université moyenne comme l’Université Paris-Est Créteil – UPEC) interdit l’idée même d’un signalement manuel. La nécessité d’un suivi régulier – tant pour des raisons éditoriales (parution ou suppression de titres) que commerciales (ventes de bouquets d’un éditeur à l’autre) ou techniques (changement de plateforme, de système d’authentification) – renforce encore la nécessité de se fonder sur l’import de métadonnées préexistantes. Malheureusement, si les fournisseurs de données abondent, aucun ne peut garantir l’exhaustivité ni la fiabilité en termes de délai de signalement/désignalement.

Il s’avère alors impossible d’automatiser la comparaison de fichiers ou d’en prendre un comme référence et de le compléter, d’autant que certaines données fondamentales ne sont pas toujours disponibles.

Ce billet vise à présenter la solution développée par l’UPEC pour répondre au besoin de signalement des livres électroniques, avec 0,7 ETP.

L’environnement documentaire

La zone communautaire d’ExLibris

Disposant du logiciel Alma de la société Ex Libris, nous avons accès à une zone communautaire (ZC) dans laquelle sont proposés des bouquets.

La capture d’écran ci-dessous laisse entrevoir un monde idéal. Le bouquet proposé stipule qu’il est fondé sur BACON, la BAse de COnnaissance Nationale de métadonnées pour le signalement des ressources électroniques gérée par l’Abes.

extrait de la présentation du bouquet dans l'application BACON

La réalité est un peu moins satisfaisante. Le bouquet comprend 2006 portfolios (titres) alors que son équivalent dans BACON en contient 2022. Bien que ces 16 titres d’écart représentent moins de 0, 3 % du contenu du bouquet, ils sont loin d’être négligeables, car ce sont probablement des nouveautés, que nous sommes désireux de signaler aussi vite que possible à nos usagers.
L’autre point à noter est l’indicateur de qualité des notices du bouquet , attribué par Ex Libris à partir de la présence de certaines métadonnées, dont celles liées à l’indexation (plus d’informations à ce sujet dans le document de l’université de Liège). Le bouquet ci-dessous doit donc être pensé comme contenant 68% de notices de qualité moyenne ou faible.

copie écran indicateur Qualité d'Ex Libris
nb : la première mention ”moyen” doit être comprise comme moyenne.

L’interface client du prestataire

Pour répondre à ce besoin de signalement, certains prestataires de ressources électroniques fournissent au choix :

  • des fichiers des titres sous forme d’une liste globale ou de listes séparées pour chaque bouquet commercial
  • un serveur OAI-PMH pour signaler dynamiquement les notices correspondantes à nos achats ou abonnements
  • des fichiers de notices (par exemple Cyberlibris) à télécharger et à importer dans son SIGB

Indépendamment de la qualité, c’est la diversité des formats et des modes de signalement qui condamne, cette fois, l’idée même de s’appuyer sur eux pour automatiser la mise à jour de notre base.

Les services de l’Abes

  1. La Base de COnnaissance Nationale propose les métadonnées de ressources électroniques labellisées, fournies sous forme de fichiers Kbart (les masterlists des éditeurs étant découpées en autant de fichiers que de bouquets commerciaux). Pour plus d’informations
  2. Le Sudoc, catalogue collectif des bibliothèques de l’Enseignement Supérieur, contient des notices de ressources électroniques. Certaines d’entre-elles précisent le bouquet commercial auxquelles elles appartiennent (via une zone 035 $9). S’il est possible d’interroger la base professionnelle du Sudoc pour les repérer, les établissements membres du réseau le font plutôt à partir de la documentation  dédiée aux imports de notices, puis ont recours aux webservices pour télécharger automatiquement un bouquet (ou, à l’inverse, les notices supprimées).
  3. Les chantiers CERCLES : n’étant pas un réservoir de notices, la mention de ces chantiers ici peut surprendre. Cependant, il importe de noter qu’à la logique de chantier ponctuel initial s’est substitué peu à peu un engagement sur un corpus donné. Les établissements deviennent de ce fait co-responsables de la complétude du signalement dans le Sudoc et éventuellement de la mise à jour des fichiers Kbart. Nous ne saurions trop souligner l’importance et l’intérêt de ce dispositif. L’engagement d’un établissement correspond bien à la garantie d’un catalogage satisfaisant et le plus rapide possible.

À titre d’exemple, l’UPEC a pris la responsabilité du signalement de deux bouquets de l’éditeur Elsevier-Masson dans le domaine des sciences médicales et est en relation avec ce dernier pour obtenir la constitution de fichiers Kbart adaptés.

L’environnement informatique

L’import des notices dans notre catalogue est bien évidemment proportionnel au fait de pouvoir signaler ces documents dans le Sudoc d’une part et récupérer les notices complètes d’autre part. L’exemplarisation peut se faire à l’aide d’ITEM tandis que la récupération des notices se fait via les transferts réguliers. L’UPEC utilise avec bonheur le circuit de synchronisation des ressources électroniques mis en place par l’Abes et les universités de Bordeaux et de Toulouse qui consiste à publier celles de nos ressources électroniques pourvues d’un PPN dans un entrepôt OAI. Ce dernier est moissonné par l’Abes qui procède à la création d’un exemplaire dans le Sudoc [Guide méthodologique] et à l’envoi de la notice correspondante.

Nos objectifs et notre fonctionnement

Les motivations à la base de notre travail sont de deux types :

  • Un service aux usagers qui vise à :
    • signaler le plus tôt possible les ressources proposées par un éditeur quitte à avoir des notices minimalistes dans un premier temps ;
    • proposer des ressources de qualité, c’est à dire susceptibles de donner à l’usager les critères de choix qui lui sont proposés dans notre catalogue (année d’édition, langue, mots-clés).
  • Une démarche plus engagée qui veut :
    • placer le Sudoc au centre de nos fournisseurs de données ;
    • valoriser le travail collaboratif de l’ESR et particulièrement de CERCLES.

Le processus en œuvre à l’UPEC

Rappel : le traitement décrit ci-dessous est valide pour les livres électroniques francophones. Il est donc parallèle à l’import depuis la CZ des ouvrages anglophones.

La première base retenue pour l’import de notices francophones est BACON.copie écran BACON

La capture d’écran ci-contre montre la fréquence d’actualisation de la bibliothèque Dalloz. Celle-ci est certes une des plus régulièrement mise à jour, mais elle montre bien la réactivité vers laquelle nous devons tendre.

Si ces fichiers sont de loin les plus à jour, leur format et leur contenu ne sont pas totalement adaptés à un import dans notre SIGB :

  • Les formats tout d’abord. Un fichier texte (.txt) encodé en en UTF-8 contenant de nombreuses colonnes dédiées aux publications en série (et donc à supprimer dans notre cas) est en revanche relativement pauvre.
  • Les données que nous en conservons sont néanmoins suffisantes à une notice de base. Elles comprennent : un titre, l’ISBN de l’édition imprimé (nous gardons celui-ci pour faciliter la comparaison des éditions) et celui de l’édition en ligne, l’URL du document, le nom du premier auteur, l’identifiant de la publication chez l’éditeur (que nous conservons systématiquement à des fins éventuelles de dédoublonnage en la faisant précéder de (Editeur_ID)), l’éditeur, la date de publication au format électronique.

La dernière colonne de ce fichier est le « best PPN » soit le résultat d’un algorithme qui détermine le n PPN correspondant à ce titre. Les premiers essais que nous avons faits avec celui-ci ne s’étaient pas révélés concluants ; nous avons donc choisi de ne pas l’utiliser. Il semble cependant que la qualité de ce « best PPN » progresse.

Étape 1 : complétude du fichier

À partir de ce seul fichier, nous renommons les colonnes avec les en-têtes adaptés pour Alma, ajoutons un Leader, faisons précéder l’ISBN imprimé de la mention (ISBN-imprimé), ajoutons une donnée locale BE pour Book electronic (pratique pour l’analyse statistique des collections).

Étape 2 : enrichissement des notices

À partir d’imports dans le Sudoc, un apport d’information enrichit les notices.

copie d'écran du manuel "Imports dans le Sudoc"

Le fichier obtenu est au format .xls. Il contient trois valeurs que nous souhaitons importer dans le fichier construit à partir de BACON : la langue et le pays d’édition et surtout le PPN.
La comparaison se fait sur l’URL, zone pour laquelle nous avons la plus haute probabilité d’obtenir une comparaison fiable.
Le fichier ainsi obtenu comprend donc les valeurs suivantes : Leader, e-isbn, (isbn-imprimé), (Editeur_ID), langue du document, pays d’édition, titre, éditeur, année d’édition, auteur (suite de caractères alphabétiques sans lien), url de la ressource, PPN (s’il existe).

Étape 3 : import dans le SGB

Il nous suffit d’importer ce fichier dans Alma pour créer une notice bibliographique minimale ainsi qu’un portfolio, ce dernier correspondant plus ou moins à l’exemplaire d’une ressource électronique. Il recense diverses informations de liens (et notamment l’url d’accès construite sur le 856$u) et de disponibilité, peut être lié à une ligne de commande et surtout à une collection et une interface. Chaque fichier que nous importons est donc lié dans les paramètres d’import à une collection précise.
Grâce à la synchronisation décrite ci-dessus, toute nouvelle notice comprenant un PPN est publiée dans notre entrepôt OAI, moissonnée par le Sudoc qui crée un exemplaire et nous fournit par les Transferts réguliers, la notice complète.

Nos objectifs sont donc atteints : signalement minimal dès parution du fichier BACON et notice de qualité Sudoc dès que disponible.

L’automatisation du processus

L’ensemble des opérations décrites ci-dessus est chronophage et nécessite suffisamment de concentration pour ne pas pouvoir être faite à la chaîne. C’est alors qu’intervient la magie informatique. Toutes ces tâches peuvent être automatisée dans une macro Excel : ci-joint la macro initiale qui œuvre sur deux fichier Bacon.txt et Abes.xls enregistrés sur le bureau (le chemin des fichiers est à adapter à votre poste).

⇒ Télécharger la macro.

Le circuit complet de signalement des ressources électroniques
Le circuit complet de signalement des ressources électroniques

 

L’automatisation de cette tâche augmente de fait la fréquence à laquelle nous pouvons la faire, et c’est ainsi qu’avec son 0.7 ETP l’UPEC réussit à proposer un catalogue à jour, tout en participant aux chantiers CERCLES.

Conclusion

Pour conclure, le process décrit est bien évidemment réplicable à volonté par toute bibliothèque intéressée. Il est cependant encore largement optimisable. Bien plus que l’aspect technique somme toute secondaire, nous souhaitons mettre en avant dans le cadre de ce billet l’importance et la qualité du dispositif CERCLES. C’est la garantie de la complétude de signalement qui rend l’automatisation intéressante.

Par ailleurs, nous suggérons quelques pistes d’évolution qui pourraient être utiles à ce process  :

  • proposer que les référents CERCLES prennent en charge l’ajout du PPN dans les fichiers Kbart. Créant la notice Sudoc, ils sont les plus à même d’assurer la correspondance entre un titre et un PPN ;
  • faciliter l‘information sur l’évolution des signalements par une communication plus régulière. Celle-ci pourrait par exemple prendre la forme d’un abonnement RSS ou Atom ;
  • disposer d’un import fondé sur un critère “date de création de la notice”.

Nous espérons surtout voir un maximum d’établissement rejoindre  le dispositif CERCLES et prendre en charge le suivi d’un ou plusieurs corpus.
Ainsi en combinant tous ensemble les quatre O (BacOn, ImpOrt, l’entrepôt Oai et le SudOc) qui gravitent autour de notre planète Alma respective, nous pourrons viser un objectif en or.

Jean Bouyssou, responsable du pôle Données
Service Commun de la Documentation de l’Université Paris-Est Créteil Val de Marne

 

 

Continuer la lectureSignalement des ressources électroniques entre contraintes techniques et ambition politique : la solution développée par l’UPEC pour les livres électroniques

Bilan du chantier Qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet1 

  • Auteur/autrice de la publication :
  • Post category:IdRefSudoc

Premier d’une série de 3 billets dressant le bilan du chantier lancé début 2022 et terminé le 21 mars 2024 pour traiter des notices d’autorité Personnes physiques en statut 1 (dites notices Tp1), ce billet décrit la finalité et l’ampleur du chantier. Le billet n°2 décrit les opérations menées de janvier 2022 à octobre 2022, dont la participation des Correspondants Autorités au printemps 2022 (étape ayant fait l’objet d’un billet Punktokomo publié le 29 mars 2022). Le billet n°3 (à lire prochainement)  décrit la dernière phase du chantier, menée de novembre 2022 au 21 mars 2024, avec le concours de collègues volontaires. 

 17 mois, 4 phases de travail aux méthodologies distinctes, 150 catalogueurs de plusieurs dizaines d’établissements, beaucoup de café et de gâteaux, de la musique, de la convivialité auront été nécessaires pour améliorer la qualité de 35 000 notices d’autorité Personnes physiques et de leurs liens bibliographiques dans le Sudoc. 

Les mascottes du chantier Tp1
Mascottes du chantier Tp1

C’était quoi les notices Tp1 ? 

Le statut 1, précisé dans la zone A008, une zone UNIMARC spécifique au Sudoc, permet de distinguer des notices d’autorité Personnes physiques (Tp) particulièrement pauvres des autres. Le chantier visait à la disparition de ces notices au profit de notices enrichies et fiabilisées, basculées en statut 5 pour acter ces améliorations. 

Pourquoi des notices en statut 1 ?  

Ces notices provenaient du chargement initial, au début des années 2000, des données du catalogue de la BnF vers la base des autorités Sudoc.  Réduites à un simple point d’accès, ces notices d’autorité avaient été chargées avec un statut particulier indiquant leur faible complétude.  

Quels problèmes posaient ces notices d’autorité ? 

Les catalogueurs Sudoc pouvaient utiliser ces notices mais avaient pour consigne de les améliorer pour les basculer en statut 5. Plusieurs cas de figure étaient à distinguer :

  • Dans certains cas, les améliorations avaient été réalisées mais les catalogueurs avaient cependant oublié de modifier le statut. 
  • Dans d’autres cas, les notices n’avaient pas été retouchées et restaient très pauvres. Faute d’élément discriminant, les catalogueurs les avaient laissées en l’état, créant parfois d’autres notices en statut Tp5 qui se sont révélées être des doublons de notices Tp1. 
  • Dans d’autres cas encore, ces notices pauvres avaient tout de même été utilisées à des fins de liage. Ainsi, une notice d’autorité pauvre pouvait être dotée d’une douzaine de liens bibliographiques correspondants à plusieurs personnes « dans la vraie vie ». 

A partir de 2017,  quand l’Abes a commencé à développer et utiliser massivement des programmes d’alignement automatisés, ces notices Tp1 « attrape-tout » ont posé problème, notamment du fait qu’elles induisaient les programmes en erreur. 

L’ampleur du chantier 

Si, au milieu des années 2010, on décomptait jusqu’à 100 000 notices d’autorité en statut Tp1, dès 2017, l’Abes a cherché à en réduire le nombre. Début 2022, il restait environ 35 000 notices TP1 à traiter, il a donc été décidé de régler définitivement cette question par le lancement de ce chantier Qualité.

Dix-sept mois auront été nécessaires. Les billets n°2 et n°3 détaillent les méthodologies employées. 

Phases et rythme du chantier Tp1

Continuer la lectureBilan du chantier Qualité autour des notices d’autorité Personnes physiques de statut 1 - #billet1 

Refonte de theses.fr : éclairage sur les choix informatiques

  • Auteur/autrice de la publication :
  • Post category:Non classé

La nouvelle version de theses.fr a été mise en ligne jeudi 14 mars 2024. Consulter le billet Fil’Abes

Conduit selon la méthode SCRUM, le projet de refonte de theses.fr illustre parfaitement les concepts de la politique de développement de l’Abes. Il est l’aboutissement de 19 mois de travail pour l’équipe constituée d’une Product Owner, de cinq développeurs – dont un en prestation externe – et d’un devops.

Fidèle à la résolution de l’Abes qui, depuis 2019, publie les codes sources de ses applications sur Github, le projet est entièrement open source. Ses différents modules sont répartis dans plusieurs dépôts, tous hébergés dans l’organisation Github de l’Abes.

L’interface du site

Un premier dépôt contient le code de l’interface de l’application réalisée avec le framework Nuxt, surcouche au framework VueJs. VueJs a été choisi par les développeurs de l’Abes pour sa courbe d’apprentissage jugée plus rapide que pour ses concurrents React ou Angular.

La surcouche Nuxt assure une meilleure indexation du site par les moteurs de recherche du web, notamment grâce au Server Side Rendering, qui permet de préparer, côté serveur, une partie du code client qui sera exécuté dans le navigateur et ainsi le rendre immédiatement lisible par les moteurs d’indexation. De plus, Nuxt propose et préconfigure par défaut un certain nombre de fonctionnalités indispensables, comme le routage qui fournit les URLs de l’application, la gestion des erreurs ou encore la récupération des données depuis les API.

L’accès à l’interface via différents types de terminaux est également facilité par le framework VueJS : une navigation aisée sur mobile est une des nouveautés du site.

Une attention toute particulière a été portée par les développeurs sur l’accessibilité de l’interface, qui respecte les règles édictées dans le Référentiel général d’amélioration de l’accessibilité (RGAA) : polices appropriées, choix des couleurs, contraste, mise en forme de la page et utilisation de balises ARIA pour introduire la sémantique des éléments dans le code HTML.

Une intégration continue

L’intégration continue du projet est assurée par des actions Github, programmes qui se déclenchent à chaque fois qu’un développeur pousse (publie) du code sur une branche (qui propose une fonctionnalité) du projet : le code est alors compilé et, si la compilation et les tests réussissent, la branche en question peut alors être publiée comme image sur la plateforme Dockerhub. Ces images sont alors disponibles pour déploiement sur nos machines de développement, test ou production. A noter que le code de l’intégration continue est versionné sur le même dépôt que le projet, au plus près de ce dernier pour en faciliter la maintenance.

Les API

Côté back-office, theses.fr est composé de trois API, ensemble de services utilisés par l’interface VueJs mais qui peuvent également être appelés depuis des programmes externes.  Ces API, programmées en Java Spring et documentées selon la norme OpenAPI, sont publiées à cette adresse : https://api.gouv.fr/les-api/api-export-donnees-these

Ces services recouvrent trois thématiques :

  • La recherche dans les métadonnées : il est possible d’interroger les données en passant directement une chaine de recherche du langage de requête du moteur d’indexation Elastic Search via l’URL. Les réponses sont renvoyées au format JSON.
  • La diffusion des documents : cette API fournit à la fois les boutons à afficher dans l’interface pour chacune des thèses et les liens avers les documents eux-mêmes, ou des liens vers des ressources externes décrivant les documents, comme les notices du catalogue Sudoc. Les accès aux documents sont contrôlés : il n’est pas possible de visualiser une thèse confidentielle et la récupération d’une thèse sous embargo est soumis à authentification.
  • L’export des métadonnées : les métadonnées des thèses sont fournies dans des formats BIBTEX et RIS qui permettent d’échanger ou d’intégrer facilement la thèse comme référence bibliographique. Elles sont aussi disponibles en RDF, format du web sémantique qui facilite leur intégration dans le Linked Open Data cloud

Le moteur Elastic Search

Les données sont indexées dans le moteur Elastic Search, le choix s’étant porté sur cet outil à la fois pour sa popularité et sa présence dans la pile logicielle Elastic Search – LogStash – Kibana, déjà installée dans  le système d’information de l’Abes.

Elastic Search assure les fonctionnalités essentielles telles que filtres, agrégations, pondération ou encore calcul de pertinence lors de l’exécution des requêtes tout en maintenant un haut niveau de performance en termes de délai de réponse.

Consulter :  https://collection-numerique.amue.fr/numero-27/13.html

Fédération d’identité

Si les thèses en accès restreint ne sont pas disponibles pour le grand public, leur diffusion étant par exemple limitée par un embargo, elles doivent cependant être accessibles aux membres de l’Enseignement Supérieur et de la Recherche. Donner accès à ces thèses constitue donc une des principales nouveautés du nouveau theses.fr.

L’implémentation de cette fonctionnalité a été réalisée grâce à l’inscription de theses.fr en tant que fournisseur de services dans la fédération d’identité RENATER. L’authentification des utilisateurs est ainsi déléguée à cette fédération d’identité qui s’assurera que toute personne disposant d’un compte chez un fournisseur d’identités pourra accéder aux thèses en accès restreint.

Le système, qui repose sur le protocole SAML2, requiert l’installation et la configuration de briques logicielles : à cette fin, nous avons mis en place un proxy Apache chargé de rediriger les URLs des thèses en accès restreint vers une page demandant à l’utilisateur de choisir son fournisseur d’identité afin de s’authentifier pour pouvoir accéder à la ressource.

Continuer la lectureRefonte de theses.fr : éclairage sur les choix informatiques

À la recherche des unicas de la bibliothèque Sainte-Geneviève

En janvier 2022, la bibliothèque Sainte-Geneviève a débuté un projet pluriannuel (2022-2024) de refonte de ses outils de politique documentaire, par la mise à jour du plan de développement des collections et de la charte documentaire.

Dans ce cadre, une analyse quantitative et qualitative de ses collections a été lancée, afin d’identifier et de caractériser plus finement ses pôles d’excellence et ses gisements documentaires rares et remarquables.

Ce billet retrace la méthodologie employée pour une des étapes de cette analyse qui consiste en la catégorisation thématique de l’ensemble des unicas. Pour mémoire, les unicas sont, dans le contexte du Sudoc, des notices bibliographiques sous lesquelles un seul établissement du réseau est localisé. 

L’équipe actuelle en charge de ces opérations se compose de trois personnes, dont deux catalogueuses, pour un total d’environ 30 heures de travail hebdomadaire. Ce chantier est réalisé avec l’appui de la monitrice étudiante et des magasiniers du département des Services aux publics pour les vérifications en magasin.
– Chef de projet “unica” : Emilie Trompille
– Chef de projet du plan de développement des collections : Timothée Rony
– Expertes catalogueuses : Marie Barbier, Clara Dauber
– Soutien informatique : Clément Croquet, Pauline Rivière et le service informatique de la bibliothèque.

Continuer la lectureÀ la recherche des unicas de la bibliothèque Sainte-Geneviève

Quand IdRef s’aligne sur ROR, ou comment rapprocher des référentiels 

 “Faire de la lumière, pauvres gens, c’est plus difficile que de faire de l’or.” (Paul Claudel, L’annonce faite à Marie)

Prémices de l’intérêt pour ROR Research Organization Registry

Tête de lion rugissant, Eugène Delacroix. Crédits : Photo (C) RMN-Grand Palais (musée du Louvre) / Michel Urtado.

Au printemps 2021, le service Autorités et Référentiels de l’Abes avait mené un travail de veille sur les référentiels dédiés aux structures. Contrairement aux personnes ou aux publications pour lesquelles un identifiant pérenne – respectivement ORCID et DOI – s’est progressivement imposé au plan international, les collectivités, dans le monde de la recherche, sont un secteur pour lequel plusieurs référentiels coexistent, notamment : ISNI, GRID, ROR, RingGold.

Au printemps 2023, nous avons décidé de prendre à bras le corps la question de la qualité des notices IdRef de type ‘Tb’ qui décrivent des collectivités liées à la recherche. Se posait alors alors la question du champ : que devions-nous couvrir ? Par pragmatisme, nous avons défini un premier cercle : les établissements habilités (actuellement ou dans le passé) à délivrer le doctorat. 216 notices ont ainsi été passées en revue, améliorées, et enrichies d’alignements vers le référentiel ROR.

Nous avons découvert que ROR, qui s’était jusqu’alors présenté comme un référentiel des top-level institutions, avait enrichi sa base pendant l’été 2023 avec de nombreuses structures de type laboratoires (unités mixtes de recherche) au moyen des données publiques issues du RNSR.

Cette inflexion semblait nécessaire pour poursuivre l’objectif de ROR, qui est de structurer les données d’affiliation des publications par des PID. Nous avons alors emboîté le pas, en élargissant le cercle : le début de l’année 2024 a vu l’injection de nouveaux alignements ROR dans IdRef, pour des structures, de type unités de recherche, et plus seulement pour des établissements.

Continuer la lectureQuand IdRef s’aligne sur ROR, ou comment rapprocher des référentiels 

Quand la base de données d’ITEM a disparu : retour sur l’incident de fin janvier 2024

Date de début de l’incident: 26/01/2024 à 12h20Date de fin de l’incident : 05/02/2024 à 11h04Type d’incident : Critique

Points essentiels à retenir

Précisons tout d’abord qu’une indisponibilité de la base de données d’ITEM ne concerne en rien les exemplaires créés dans le Sudoc ; ces deux processus sont distincts. Ainsi, l’absence de visualisation d’une demande dans le tableau de bord ne reflète pas un problème dans le traitement réel des opérations dans le Sudoc.

De même, il convient de distinguer les fichiers de traitement des informations relatives aux demandes. En cas d’incident sur la base de données, les fichiers de demande sont stockés sur les serveurs de l’Abes et peuvent être retrouvés à partir de leur numéro. Cependant, cela nécessite que l’utilisateur ait mémorisé ce numéro, car il n’est pas possible de retrouver une demande à partir de l’ILN et/ou du RCR. Une réflexion sera menée sur ce point.

Continuer la lectureQuand la base de données d’ITEM a disparu : retour sur l’incident de fin janvier 2024
Aller au contenu principal