Nouvel import Sudoc : les notices des vidéos en streaming de la plateforme Arte Campus 

  • Auteur/autrice de la publication :
  • Post category:docelecSudoc

Pour répondre à la demande d’établissements du réseau Sudoc, l’Abes, en collaboration avec le Service de coopération documentaire interuniversitaire (SCDI) de Montpellier, a mis en place un nouveau flux d’import permettant de charger mensuellement les nouvelles notices disponibles depuis la plateforme de diffusion Arte Campus. L’import initial a eu lieu  fin novembre.

Naissance du projet  

Les besoins du réseau Sudoc concernant l’intégration de ce type de notices ont été évalués par un sondage initié par Marie Nikichine (SCDI) via la liste de diffusion Code2bib : c’est Arte Campus qui arrivait en tête des abonnements.

A l’initiative de Régis Griesser, coordinateur Sudoc au SCDI, un workflow – permettant la création des notices en local puis leur chargement dans leur SGB Alma – avait déjà été mis en place.  Après discussion, il a été décidé de créer un flux d’import régulier afin de mutualiser le signalement de ces ressources par l’intégration de leurs notices descriptives dans le Sudoc.   

La transformation des métadonnées : de JSON à UNIMARC

Même si la plateforme Arte Campus ne propose pas d’export de notices aux formats UNIMARC ou MARC 21, elle met à disposition une API permettant la récupération des métadonnées au format JSON :   https://campus.arte.tv/api/list/programs 

Cette première partie du processus est gérée par l’équipe informatique du SCDI de Montpellier. Tout d’abord, un script PHP transforme les données des balises JSON en CSV. Les données sont ensuite converties manuellement en UNIMARC à l’aide de l’outil MarcEdit :  

Balises JSON   Zones UNIMARC 
ID 

 

001  

035 préfixé 035##$aArte_Campus_   

URL
856$u  

Avec une note B371 

371 0#$aAccès en ligne restreint soumis à abonnement  

Editorial 

Title 

Subtitle  

ShortDescription  

Description  

Note  

PublicationDate  

Subjects  

 

200 $a  

200 $e  

330 $a  

Balise vide non exploitable 

Balise non exploitée 

610 $a  

Indexation libre 

Technical 

Duration  

 

ProductionYear  

 

 

Nationality  

Languages  

Versions  

 

230 $aDurée : X minutes  

et 115 $a [sur trois positions]  

100 $a   

et 214 $dC   

(avec 214 #2 $aParis$cArte Campus)  

102 $a  

101 $a  

307 $a   

Staff 

Director 

 

 

 

Actors 

 

Producers 

Presenter 

 

200 $f   

700/701 avec $43   

Si collectivité 

710   

200 $g   

702 avec $4005  

306 $a[Mention de copyright]  

702 $4605  

Media 

Poster 

Trailers  

 

300 $u avec $a[Affiche] 

300 $u avec $a[Bande-annonce] 

Une fois ces opérations de mapping effectuées, un lot de notices au format UNIMARC est envoyé à l’Abes.  

Import et enrichissement des données   

Un catalogage adapté à ce type de ressource  

L’import dans le Sudoc de notices de vidéos en streaming constituant une première, les données ont été adaptées, en concertation avec les experts données de l’Abes, afin de les rendre conformes aux règles de description en vigueur.  

Exemple d’une notice après import

Zoom sur certaines zones   

  • B008 : le statut Oa permet l'identification des ressources électroniques avec un périmètre assez large.   
  • B115 : cette zone contient les données codées pour les images projetées, enregistrements vidéo et films.
  • B230 : durée de la vidéo.  
  • Traitement des épisodes/séries: certaines vidéos sont liées à des séries. Leur traitement est identique à celui effectué pour des monographies en plusieurs volumes, avec une description volume par volume.  Le titre propre de l’épisode est identifié en B200$a $e, tandis que le titre de la série à laquelle est rattachée l’épisode est reporté en 225/461 avec le numéro de l’épisode en $v.   
  • B608 : l’indexation « Webdocumentaires » a été ajoutée dans toutes les notices.   
  • B610 : l’indexation sujet présente dans les métadonnées du diffuseur est reportée ici (indexation libre).   
  • B859 : l’URL d’accès se trouve dans cette zone.    [Update : voir à ce sujet le premier commentaire sous le billet]

Import et enrichissement des notices  

  • B309: cette zone, que l’on retrouve dans certains flux d’imports automatiques, doit être supprimée une fois que les zones 7XX ont été vérifiées et corrigées le cas échéant.  
  • B371 : cette zone, insérée automatiquement par l’Abes,  précise les droits d’accès et d’utilisation.    
  • B7XX : comme il est d’usage pour les imports automatiques, le programme de liage aux autorités est lancé à la fin de chaque import afin d'intégrer les liens vers les notices d’autorité, lorsqu’elles existent.   

Et la suite ?  

L’Abes invite les membres du réseau qui s’exemplariseront sous ces notices à les améliorer. Pour sa part, le SCDI Montpellier va continuer à maintenir le corpus de notices (ajouts et retraits). Le réseau sera informé des mises à jour mensuelles par un message via les listes de diffusion.   

Pour toute demande à ce sujet, l’Abes se tient à disposition via le guichet AbesSTP › sudocpro › Alimentation du Sudoc par chargement.

Continuer la lectureNouvel import Sudoc : les notices des vidéos en streaming de la plateforme Arte Campus 

Signalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Pas à pas vers l’EAD (2/2)

Du point de vue des processus de traitement de métadonnées de l’Abes, le cas des Archives du Parlement britannique constitue un cas inédit. La bonne manière de l’aborder n’allait pas de soi : pourrait-on réutiliser les méthodes et outils habituels ? Devrait-on imaginer une autre manière de faire ? Paradoxalement, comment traiter ce cas d’espèce tout en tirant des enseignements génériques pour dompter d’autres « ovnis documentaires » ?

Quelle méthode ? Passer par RDF ou rester en XML ?

L’Abes a une longue expérience d’intégration des métadonnées fournies par des éditeurs ou diffuseurs, en MARC ou en XML. Pour traiter les métadonnées obtenues dans le cadre des programmes d’acquisition ISTEX, CollEx-Persée et du Plan de soutien à l’édition scientifique française, l’Abes a conçu et développé un workflow, dont la pièce maîtresse est une base RDF. Habituellement, les métadonnées sont récupérées en XML, converties en RDF, chargées dans une base RDF, enrichies puis redistribuées vers le Sudoc, Bacon ou scienceplus.abes.fr.

Dans le cas de l’achat de ces archives numérisées, il a été décidé de ne pas suivre la voie RDF, mais plutôt d’emprunter un nouveau chemin, où les manipulations sont entièrement en XML, pour les raisons suivantes :

  • le traitement n’a qu’une sortie : il s’agit d’un format XML, en l’occurrence EAD. Le RDF serait un modèle/format pivot adéquat s’il fallait générer différentes sorties.
  • le format EAD de sortie possède une structure foncièrement hiérarchique, qui se prête mieux à une représentation en XML qu’en RDF (dont la vocation est d’exprimer des graphes).
  • le format EAD peut contenir du « contenu mixte », ie un élément XML ayant pour enfants à la fois un autre élément XML et directement du texte : <a>blabla <b>hum</b> blabla</a>. Essayer de modéliser du contenu mixte en RDF serait peu, voire absolument pas, efficient. Notons cependant que, dans ce projet,  l’EAD produit ne contient finalement pas de contenu mixte.
Continuer la lectureSignalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Pas à pas vers l’EAD (2/2)

Signalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Conception et sources pour la description du corpus (1/2)

Dans le cadre du programme d’acquisitions de ressources numériques sous licence nationale porté par le GIS CollEx-Persée, l’Abes a acquis le corpus des archives du Parlement britannique au XIXe siècle numérisées par ProQuest et choisi d’en assurer le signalement dans Calames

Des choix nécessaires pour une première

Le signalement dans Calames d’un corpus d’archives numérisées a posé des questions inédites, aussi bien d’un point de vue intellectuel que technique.

Il était en effet nécessaire de réfléchir au signalement en EAD d’archives numérisées, pour ce corpus mais également pour les suivants qui ne manqueront pas de se profiler, qu’il s’agisse de corpus acquis dans le même cadre ou de besoins spécifiques de la part d’établissements du réseau Calames, notamment dans le cadre de la collecte d’archives de projets de recherche, désormais objets de signalement.

Il a été décidé de décrire les archives dans leur version numérique, le fonds physique originel n’étant décrit qu’à un niveau élevé et général. Les données descriptives des archives originales se trouvent ainsi dans le fichier maître, plus haut niveau d’une arborescence EAD dans Calames, à titre d’informations générales pour contextualiser le corpus. Pour leur part, les niveaux inférieurs décrivent les archives numérisées.

Continuer la lectureSignalement dans Calames du corpus sous licence nationale « Archives du Parlement britannique » : Conception et sources pour la description du corpus (1/2)

Le signalement des corpus acquis sous Licence Nationale évolue !

Dans le cadre des programmes d’acquisition de corpus documentaires sous licence nationale lancés il y a 10 ans, les contrats signés avec les éditeurs prévoyaient initialement, que ceux-ci donnent accès aux ressources acquises via leurs plateformes respectives, pour une durée minimale de 5 ans, renouvelable ou non.

En parallèle, les équipes de l’Inist ont développé et alimentent la plateforme nationale ISTEX, infrastructure documentaire indépendante des plateformes commerciales. Pour leur part, les équipes de l’Abes ont signalé – dans le Sudoc ou dans les fichiers KBart mis à disposition via BACON, la base de connaissance nationale – principalement les accès aux ressources via les plateformes des éditeurs. En effet, au début, l’accès direct à un titre de revue ou d’ebook sur la plateforme ISTEX était impossible pour des raisons techniques. En cause, une différence de granularité : alors que le Sudoc et les KBart BACON signalent des titres de revues ou d’ebooks, ISTEX donne très massivement accès aux articles de revues et aux chapitres de monographies.

Or, depuis 2019, l’Inist a mis à disposition un nouveau service : la ‘revue de sommaire’. Grâce à ce dispositif, chaque ebook et chaque revue intégrés à la plateforme ISTEX disposent désormais d’une URL d’accès ‘générique’, basée sur un identifiant de type ARK, unique et pérenne.

Continuer la lectureLe signalement des corpus acquis sous Licence Nationale évolue !

Début d’un partenariat entre l’Abes et le réseau Mir@bel

Mir@bel, portail de signalement des périodiques

Logo de Mir@belNé en 2009, le réseau Mir@bel est porté par 4 établissements pilotes : l’ENTPE (Ecole de l’aménagement durable des territoires), la Maison des Sciences de l’Homme de Dijon (sous l’égide du Réseau national des Maisons des sciences de l’homme), Sciences Po Grenoble et Sciences Po Lyon.

Il a pour vocation de valoriser les contenus des périodiques scientifiques accessibles en ligne, à travers un portail offrant, pour chaque revue référencée, un ou des accès au titre et ses contenus, avec l’objectif de faciliter le rebond vers la ressource qui intéresse l’usager. Actuellement, 7 500 revues sont référencées, et plus de 80 000 liens extérieurs sont proposés. Par le terme « revue », Mir@bel désigne en réalité l’ensemble de l’environnement numérique et bibliographique d’une revue, tous titres et supports confondus : c’est ce que nous appelons, dans le vocabulaire propre à l’Abes, une métarevue. Afin de favoriser la science ouverte, Mir@bel souhaite proposer des services aux chercheurs, tels que l’indication du positionnement de chaque revue vis-à-vis de l’Open Access et des APC (Article Processing Charges), grâce aux données du DOAJ (Directory of Open Access Journals) et des éditeurs, et apporter également des informations sur la politique éditoriale via des liens vers la base de données Sherpa/RoMEO 1 .

Fer de lance en matière de signalement global de l’Open Access, Mir@bel se base – entre autres – sur les revues recensées dans le DOAJ, pour valoriser celles qui sont librement accessibles.

Pour en savoir plus sur le réseau Mir@bel, vous pouvez visionner cette courte vidéo de présentation.

Continuer la lectureDébut d’un partenariat entre l’Abes et le réseau Mir@bel

Chantier BACON – partie 1 : liage du Sudoc et de BACON par les PPN

Logo BaconS’appuyant sur les résultats du 1er volet de l’enquête BACON-Usages de la Base de connaissance publiés en décembre 2019, l’Abes s’engage dans un plan de développement de services ambitieux pour BACON

Vers un nouveau paradigme

Dans la logique du projet BACON initial, l’Abes s’est jusqu’à présent concentrée sur la sensibilisation, tant des professionnels des bibliothèques que des éditeurs scientifiques, autour de la qualité des métadonnées associées aux ressources électroniques, nécessaire pour en garantir le signalement et l’accès. Dans une démarche volontariste, l’Abes a veillé au renforcement des échanges entre éditeurs scientifiques et établissements documentaires, coordonnant certains chantiers Qualité. S’il n’était initialement pas prévu de lancer de chantier de correction (lire le billet Punktokomo à ce sujet), avec plus de 800 bouquets – et autant de fichiers KBart à disposition, cette démarche ne s’avère plus vraiment adaptée pour garantir la pertinence (qualité et fraîcheur) des métadonnées disponibles. Aussi, après avoir éprouvé cette méthode pendant près de cinq ans, ainsi que la labellisation de bouquets fournis par les éditeurs, les limites de ce dispositif semblent désormais atteintes.

Afin de garantir la qualité et la fiabilité des métadonnées, il est nécessaire de se doter de méthodes communes, de moyens automatisées, de workflow adaptés, autant d’opportunités pour harmoniser les pratiques collaboratives et contributives indispensables pour alimenter le « vaste entrepôt des métadonnées de l’ESR. » que constituent les différentes bases de données gérées par l’Abes. Grâce aux évolutions apportées, BACON devrait être en mesure de mieux aider au quotidien les professionnels dans la gestion courante des métadonnées de ressources électroniques, de la façon la plus adaptée et la moins chronophage possible. 

Continuer la lectureChantier BACON – partie 1 : liage du Sudoc et de BACON par les PPN

Vers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press

[English abstract at the bottom of this blog’s post]D’un point de vue technique, charger des corpus de livres dans le Sudoc n’est pas très difficile. Depuis plusieurs années, les équipes de l’Abes importent régulièrement des ensembles de notices MARC en provenance de différents éditeurs (Springer, CAIRN …) et, globalement, ces notices sont bien utilisées par les bibliothèques du réseau.

Pourquoi un nouveau workflow d’imports de données dans le Sudoc ?

Pour autant, on a pu constater que ce système comporte des limites : en amont, il n’est pas toujours évident de récupérer auprès des éditeurs des notices MARC – si possible de bonne qualité, cette démarche exigeant généralement de nombreux aller-retours. En aval, ce type d’opérations de chargement dans le Sudoc requiert des interventions et compétences spécifiques, relativement rares à l’Abes. Autant d’éléments qui rendent les processus actuels difficilement scalables et difficile aussi l’atteinte de l’objectif de signalement total. Aussi, il s’est avéré indispensable de réfléchir  à la conception de nouveaux  workflows,  afin de réaliser automatiquement les opérations d’ingestion,  transformation, enrichissements et chargement dans le Sudoc.

Continuer la lectureVers un nouveau workflow d’imports de données dans le Sudoc : les notices des ouvrages publiés par Oxford University Press

OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [1] – Introduction

  • Auteur/autrice de la publication :
  • Post category:bacondocelec

Cette série de billets exposera la méthode d’évaluation appliquée aux fichiers KBART, transmis à l’Abes par les éditeurs francophones ayant accepté de collaborer avec nous. Ce sera aussi l’occasion d’exposer une nouvelle déclinaison du dispositif CERCLES, appliquée à BACON.

  1. Introduction (ce billet)
  2. Un outil : OpenRefine
  3. Cas pratique
  4. Dispositif CERCLES dans le cadre de BACON

Logo BaconLa BAse de COnnaissance Nationale (BACON) est un entrepôt de métadonnées libres pour le signalement de la documentation électronique. Son contenu, exposé via bacon.abes.fr, peut être soit interrogé puis téléchargé par webservices soit interrogé via l’interface graphique du site.

Continuer la lectureOpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [1] – Introduction

Récit d’une immersion. Traiter les ebooks Dalloz avec les données Sudoc, les données de l’éditeur et les outils du hub

Ce billet relate à la première personne l’immersion effectuée par Catherine Storne (Université de Strasbourg) au sein de l’équipe hub de l’ABES, entre le 1er et le 5 février 2016. Catherine a eu l’occasion de partager cette expérience aux dernières journées ABES. Merci pour tout, Catherine !

Placée en face de la nouvelle « Metadaten Weltanschauung » au travers de la réflexion locale sur l’abonnement à un outil de découverte (discovery tool) ou sur les réalisations de la plateforme ISTEX sur les licences nationales, je ressentais le besoin de monter en compétences sur la manipulation des métadonnées. J’ai donc souhaité faire une immersion à l’ABES pour mieux comprendre les projets de l’établissement tournant autour des métadonnées dont les noms parvenaient aux confins de nos bibliothèques : BACON, hub de métadonnées, CERCLES, ainsi que les liens entre eux. Mon objectif étant de travailler au rapprochement, au sein du SCD de Strasbourg, des équipes de la documentation électronique et du catalogage, la participation à un projet concret, au travers d’un chantier CERCLES me semblait de nature à y contribuer.

Continuer la lectureRécit d’une immersion. Traiter les ebooks Dalloz avec les données Sudoc, les données de l’éditeur et les outils du hub

Mettre nos données en réseau – un démonstrateur. [2] Inventaire des données.

[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]

Pour les besoins de la démonstration, nous avons agrégé des données diverses et variées, mais finalement cette auberge espagnole n’est pas si anarchique : tout mène à tout, et on peut regrouper les jeux de données de différentes manières :

  • Données descriptives vs Référentiels
  • Données produites par les réseaux ABES vs Données de tiers
  • Données du monde des bibliothèques vs Données d’autres mondes (science, administration, etc.)
  • Données récupérées en RDF vs Données produites en RDF

Mais dans ABES, il y a B : notre réseau de données se déploie autour des données bibliographiques, qui décrivent des livres, des revues, mais également des chapitres et des articles.

Continuer la lectureMettre nos données en réseau – un démonstrateur. [2] Inventaire des données.
Aller au contenu principal