Signaler les thèses déposées sur TEL dans le Sudoc et theses.fr

35 000 thèses TEL proviennent de Star : et les autres ?

logo_telActuellement, 75 000 documents  estampillés « thèses » sont déposés sur TEL. Or, si 35 000 documents  – qui proviennent de l’application Star – sont bien estampillés « version validée par le Jury », 40 000  d’entre eux ne sont signalés ni dans le Sudoc ni sur theses.fr, alors même que le lien vers le texte intégral de la thèse peut avoir un intérêt pour les lecteurs. Suite à ce constat, plusieurs établissements, soucieux d’offrir une visibilité plus importante à ces travaux de recherche, ont sollicité l’Abes en vue de leur signalement automatique. Deux options s’offraient :

  • importer les notices de TEL en s’appuyant sur leurs métadonnées (XML TEI) pour les transformer en Unimarc.
  • décrire ces documents via les notices des thèses originelles déjà présentes dans le Sudoc.

Pour une plus grande simplicité de mise en œuvre et une bonne cohérence des données – notamment des liens aux autorités IdRef « Nom de personnes » et Rameau, il a été décidé de partir du socle constitué par la notice Sudoc décrivant la thèse originelle papier et d’en faire la matrice de la future notice du document TEL.

Recouper les données de TEL avec celles du Sudoc

L’étape dite « de recouvrement » des données de TEL avec celles du Sudoc a été complexe.

Dans un premier temps, les données de TEL ont été récupérées dans OpenRefine via une requête sur l’API-HAL – https://api.archives-ouvertes.fr/docs en demandant en sortie : URI, Date de soutenance, Auteur et Titre français du document.

Puis, via un test de recouvrement (sur Date, Auteur, Titre), les thèses TEL auxquelles correspondent une notice de thèse originelle papier (notice « mère ») dans le Sudoc, ont été identifiées. Dans un cas sur trois, le taux de recouvrement a échoué (soit 0 notices trouvées dans le Sudoc ou plus de 5)

Ensuite, à partir du NNT,  les différentes notices de reproduction (notices « filles ») rattachées à une notice « mère » ont été identifiées dans le Sudoc, ce qui a permis d’exclure les thèses possédant déjà une notice de reproduction et faisant mention, en zone 856, d’une URL (vers TEL ou Pastel) et pour lesquelles le  signalement avait déjà été effectué.

Après un passage par ces différents tamis, il restait environ 22 000 documents TEL disposant d’une notice de thèse originelle dans le Sudoc. Parmi ces 22 000 documents, n’ont pu être conservées que 15 500 thèses dont la notice de thèse originelle « passait l’AlgoSudoc » et apparaissait dans theses.fr [afin d’améliorer le référencement des thèses dans theses.fr, rappelons que les établissements sont invités à corriger les notices WinIBW qui ne « passent pas l’AlgoSudoc »].

Theses_TEL_image1

Theses_TEL_image2

Les thèses de TEL : reproductions exactes ou autres versions des thèses ?

Une fois identifiés les documents potentiellement à signaler dans le Sudoc,  la question de la méthode s’est posée : dans la mesure où les notices de reproduction décrivant les thèses TEL allaient être générées en masse à l’aide de scripts, il fallait en effet rester prudent.

L’Abes n’étant pas en mesure de vérifier la conformité du dépôt TEL avec la thèse originelle archivée par l’établissement de soutenance, il a été décidé de ne pas signaler les documents déposés sur TEL en tant que reproductions exactes, mais en tant qu’« autres versions » des thèses archivées en bibliothèques.

En lieu et place de l’habituelle zone 455/456 (reproduction de/reproduit comme), nous avons donc opté pour une paire de zones 452 (autre édition sur un autre support), ce qui permet de ne pas statuer sur l’identité de contenu entre la version originelle de la thèse et la version déposée sur TEL.

Ce choix a été renforcé par la suppression, dans la notice ainsi créée, du Directeur de thèse, de l’Université de soutenance, des membres du jury et du NNT, de sorte que le traitement de ces documents corresponde à celui réservé habituellement à une « version commerciale » de thèse. Ce traitement catalographique est applicable à toutes les « autres éditions » et « autres versions » d’une thèse, qui ne sont pas des reproductions exactes ou ne peuvent être considérées comme telles en l’absence de vérification.

La note de thèse (zone 328 : Texte remanié de …) a été conservée [on peut, dans WinIBW, interroger l’index nth pour retrouver les thèses par établissement de soutenance]. De son côté, le NNT est déplacé à la fois en zone de note (zone 305 : « Cette édition peut différer de la version de soutenance enregistrée sous le Numéro National de Thèse : 20XXZZZZ0001 ») et en tant qu’identifiant dans un autre système (zone 033) pour pointer sur la page correspondante sur theses.fr.

Theses_TEL_image4

Bilan

Après plusieurs mois de réflexion, le chantier de signalement des thèses de TEL dans le Sudoc lancé le 26 avril 2018 s’est achevé le 4 mai 2018. Il a donné lieu à la création de quelques 15 500 notices Oa liées à une notice de thèse originelle Aa [on peut les retrouver en interrogeant la zone 035 avec la requête « che sou tel? OU pastel? OU hal? »].

a_noter [voir en fin d’article le nombre de notices créées par établissement].

Le lien d’accès au fichier de la thèse s’affiche désormais sur theses.fr de la façon suivante :  Theses_TEL_image3

Par ailleurs, toutes les notices créées se sont vues attribuer un « exemplaire Abes » afin d’apparaître sur le catalogue Sudoc public.

Dans la mesure où il s’agissait d’une première, la prudence a été de mise, aussi bien en ce qui concerne le périmètre choisi que le traitement retenu pour la création de ces notices. Notre objectif a été, avant tout, de permettre l’intégration dans la notice Sudoc d’un lien vers le texte intégral là où on ne disposait que d’une notice de thèse originelle papier.

Si la procédure choisie – notamment le test de recouvrement – mérite encore d’être affinée, l’objectif est  de parvenir au signalement dans le Sudoc de l’ensemble des thèses de doctorat déposées sur TEL. Pour ce faire, le chantier sera relancé l’année prochaine, puis tous les deux ans.

Après l’Abes, c’est au tour des établissements de jouer

Les établissements sont libres de compléter ou corriger les notices créées, notamment afin de remplacer la zone 452 par une zone 456 – après vérification de la conformité du dépôt TEL avec la version de soutenance – et d’appliquer le traitement habituellement réservé aux reproductions de thèses de doctorat.

Ils peuvent également demander à l’Abes une exemplarisation automatique sur un lot de thèses TEL, afin d’enrichir leur catalogue local.

Enfin, ceux qui souhaitent améliorer le signalement de leurs thèses dans le Sudoc afin, d’une part, de permettre leur référencement dans theses.fr, et, d’autre part, d’obtenir une meilleure couverture Sudoc / TEL, sont invités à contacter le service des Thèses qui pourra leur fournir la liste des thèses ayant été écartées du chantier et dont la reprise est nécessaire.

N’hésitez donc pas à nous solliciter via ABESstp en cas de problèmes ou pour avoir plus de détails sur les outils utilisés et la méthode suivie.

Annexe : Nombre de notices créées par établissement (code court)

Etab. Nb de notices créées Etab. Nb de notices créées Etab. Nb de notices créées
AGPT 46 ENST 117 NAN2 8
AGUY 12 ENSU 8 NANT 285
AIX1 192 EPHE 16 NCAL 1
AIX2 80 EPXX 310 NICE 362
AIX3 94 ESAE 29 NSAM 1
AIXM 1 ESMA 56 NSAR 13
AMIE 31 ESTA 6 OBSP 30
ANGE 16 EVRY 19 ORLE 182
ARTO 5 GLOB 18 PA01 283
AVIG 10 GRE1 1616 PA02 3
BESA 169 GRE2 28 PA03 39
BOR1 284 GRE3 22 PA04 33
BOR2 24 GREN 163 PA05 72
BOR3 44 IEPP 17 PA06 1885
BOR4 45 INAL 7 PA07 625
BORD 1 INAP 75 PA08 45
BRES 115 INPG 890 PA09 49
CAEN 380 INPL 22 PA10 97
CERG 13 INPT 33 PA11 901
CHAM 130 ISAL 1 PA12 12
CLF1 6 ISAM 11 PA13 28
CLF2 270 ISAR 72 PAUU 66
CNAM 34 ISAT 48 PERP 30
COMP 54 LARE 2 POIT 110
CORT 16 LARO 49 POLF 1
DENS 20 LEHA 40 REIM 6
DIJO 107 LEMA 6 REN1 466
DUNK 18 LIL1 42 REN2 43
ECAP 70 LIL2 25 ROUE 123
ECDL 22 LIL3 15 STET 33
ECDM 1 LIMO 6 STR1 136
ECDN 52 LORI 46 STR2 8
ECLI 10 LYO1 79 STR3 2
EHEC 36 LYO2 4 STRA 33
EHES 196 LYO3 12 TELB 9
EIAA 11 LYON 1 TELE 3
EMSE 23 LYSE 1 TOU1 13
ENAM 296 MARN 58 TOU2 69
ENCR 1 METZ 30 TOU3 453
ENGR 40 MNHN 37 TOUL 9
ENMP 291 MON1 29 TOUR 62
ENPC 290 MON2 303 USPC 52
ENSA 11 MON3 27 VALE 58
ENSF 5 MULH 13 VERS 71
ENSL 63 NAN1 78
Publicités

La géolocalisation des autorités géographiques dans le Sudoc – partie 1

Cette série de billets écrite par Elena Avellino présente le travail de géolocalisation de notices d’autorité géographiques dans le Sudoc, réalisé par l’Ecole française de Rome.

  1. Finalités, modalités et applications (ce billet)
  2. Mode d’emploi de la géolocalisation

Pourquoi la géolocalisation ?

Entre 2014 et 2016, en collaboration avec l’Abes, les Écoles françaises à l’étranger (École française d’Athènes, École française de Rome, Casa de Velàzquez à Madrid, Institut français d’archéologie orientale du Caire et École française d’Extrême-Orient) ont conduit le projet « ArchéoRef : signalement de publications archéologiques dans le Sudoc » (voir le poster présenté aux JABES en 2015).
C’est à l’occasion de ce projet qu’ont eu lieu les premières géolocalisations de notices d’autorité géographique dans le Sudoc. À l’EFR, le groupe de travail était composé de Nadia Marconi -archéologue et documentaliste- et moi-même, bibliothécaire et archéologue. Il s’agissait de géolocaliser les notices d’autorité décrivant des sites fouillés par l’Ecole française de Rome.

La géolocalisation vise 3 objectifs :

  • enrichir les notices d’autorités géographiques (Tg),
  • contribuer à la pertinence des recherches bibliographiques dans le Sudoc
  • faciliter l’accès aux ressources liées à un site.

Son intérêt ici est strictement documentaire : en aucun cas; elle n’a la prétention de constituer une base de données proprement topographique ou géographique.

Le travail pour ArchéoRef  a abouti à la mise  au point d’un outil de recherche qui met en relation :

  • une entité géographique
  • l’accès aux données bibliographiques recensées dans le Sudoc qui la concernent
  • sa visualisation sur une carte

Quel est le principe de la géolocalisation dans les notices d’autorité ?

Les coordonnées géographiques saisies dans la notice d’autorité géographique du Sudoc – accompagnée si nécessaire d’un contrôle de la qualité de la notice, de doublons ou encore de la pertinence des liens – sont répercutées immédiatement dans l’interface publique IdRef, qui donne l’accès au positionnement sur une carte géographique et aux notices bibliographiques liées.

Saisie dans WinIBW, l’outil de production du Sudoc :

geolocalisation_notice_winibw

Notice Tg « Pompéi (ville ancienne) » PPN 027243303

Visualisation des données dans l’interface publique IdRef :

geolocalisation_notice_idref

Notice « Pompéi (ville ancienne) » affichée dans IdRef (https://www.idref.fr/027243303)

Accès à la géolocalisation du site archéologique  (bouton « GÉOLOCALISATION » d’IdRef) :

geolocalisation_bouton

Quelles sont les applications, actuelles et à venir  ?

A l’EFR, la géolocalisation dans le Sudoc a été associée à une analyse du référencement bibliographique des sites fouillés par l’établissement et a été utilisée pour enrichir leur présentation dans notre page web. Exemple : Porta Nocera, Pompéi (Italie)  :

Le développement de la géolocalisation des entités géographiques pourrait aboutir à des véritables cartes interactives thématiques qui donneraient accès à la localisation du site, à la notice d’autorité et à sa bibliographie (monographies). L’EFR étudie d’ailleurs, comme suite possible au projet ArchéoRef, le projet d’une carte interactive des monuments de la Rome antique. Contrairement à d’autres projets similaires qui demandent une saisie spécifique des références, la bibliographie de ces cartes thématiques serait alimentée de manière autonome et en temps réel par le catalogage et l’indexation du Sudoc : il s’agirait d’une « bibliographie thématique dynamique ».

Simulation de carte thématique sur les monuments de Rome :

geolocalisation_carte_rome

Géolocalisation de l’Arc de Titus (à gauche) et du Colisée (à droite), visualisation de leur notice d’autorité, puis de leurs bibliographies respectives.

D’autres possibilités sont également envisageables, par analogie à celles qui s’appliquent aux autorités Nom de personne. Par exemple, le renvoi dans les articles de Wikipédia :

geolocalisation_simulation_wikipedia

… ou l’insertion du lien dans d’autres bases de données bibliographiques. À titre d’exemple, pour les Mélanges de l’Ecole française de Rome Antiquité  (Revue.org), on pourrait insérer le renvoi à la notice IdRef dans les index :

geolocalisation_simulation_revue_org

Simulation de l’écran de présentation de la revue, sur revue.org

En conclusion

Les interfaces de consultation peuvent encore être améliorées et adaptées à l’usage. Naturellement, les développements que nous avons évoqués, si jugés utiles et pertinents, demanderaient certainement d’autres aménagements techniques. Il nous semble en revanche intéressant de disposer potentiellement d’un outil qui permettrait de conjuguer une carte interactive d’entités géographiques normalisées et une bibliographie automatiquement mise à jour, qui puiserait ses références dans le riche catalogue collectif du Sudoc.

                     Elena  Avellino
 Bibliothèque de l’École française de Rome
elena.avellino[at]efrome.it
logo_EFR

 

 

 

 

 

La géolocalisation des autorités géographiques dans le Sudoc – partie 2

Cette série de billets écrite par Elena Avellino présente le travail de géolocalisation de notices d’autorité géographiques dans le Sudoc, réalisé par l’École française de Rome.

  1. Finalités, modalités et applications
  2. Mode d’emploi de la géolocalisation (ce billet)

Ce billet expose les modalités de géolocalisation et la transcription de ces données dans l’outil de production du Sudoc, WinIBW.

Étape 1 : définir la référence cartographique

Dans le cadre d’ArchéoRéf, nous avons choisi d’utiliser Google Earth qui permet le relevé des coordonnées sexagésimales et décimales. Les coordonnées obtenues doivent être converties dans le format Unimarc Autorités dans la zone 123. La visualisation sur la carte est réalisée avec Google Map qui ne lit que les coordonnées décimales du champ 123 ($q $r $s $t). Les données sexagésimales ne sont donc pas obligatoires. Par ailleurs, la géolocalisation peut s’effectuer avec d’autres systèmes de référencement cartographique (ex. Geonames).

Étape 2 : établir le degré de précision du pointage

Il est nécessaire ensuite d’établir le degré de précision du pointage. Ce paramètre peut être élaboré en fonction de la fiabilité des sources de localisation et des références des coordonnées cartographiques. Ainsi l’Ecole française d’Athènes a élaboré des paramètres un peu différents de ceux de l’EFR (référence cartographique prise à partir du WebSIG mis au point par les fouilleurs).  Il est en revanche indispensable de toujours mentionner, dans la notice, les modalités de localisation.

L’EFR a fixé trois paramètres de pointage :

  • point exact : pour localiser les structures dont la localisation est certaine comme un bâtiment déterminé ou les petits sites (ex. Amphithéâtre de Pompéi)
  • central : pour les sites plus étendus comme les villes. Dans ce cas nous avons pointé une aire centrale (ex. pour Pompéi, le forum)
  • approximatif : en absence de données exactes nous avons choisi de prendre les coordonnées d’une aire géographique plus étendue.

Étape 3 : relever les coordonnées

À partir de Google Earth :

a) Saisir le nom de la localité (pays, ville ; ici : Pompéigeolocalisation_google_earth_1

b) Visualiser la zone plus ou moins étendue proposée en résultat :

geolocalisation_google_earth_2

c) Cibler, avec le pointeur, le point qui intéresse (ici : l’amphithéâtre de Pompéi)

geolocalisation_google_earth_3

On obtient pour l’Amphithéâtre de Pompéi  –  Coordonnées Google Earth (Est du méridien de Greenwich):

Coordonnés décimales : 40.751297° latitude Nord, 14.495274° longitude Est.

Étape 4 : transcrire la géolocalisation dans WinIBW

Dans la notice d’autorité Tg « Pompéi (ville ancienne) — Amphithéâtre » :

a) insérer la zone Unimarc 123 : coordonnées géographiquesgeolocalisation_zone_123warning_48Attention ! dans chaque sous-zone, il ne faut pas dépasser 8 caractères. Si les coordonnées de géolocalisation sont plus longues, il faut supprimer les derniers chiffres. Les coordonnées des lieux à l’Ouest du méridien de Greenwich dans Google Earth sont signalés par le signe « -« , qui se transcrit dans WinIBW par « 00 ».

Exemple : les coordonnées de Google Earth pour Baelo Claudia (Espagne ; site archéologique ») se transcrivent ainsi :
123 ##‎$de0054630‎$ee0054630‎$fn3605226‎$gn3605226

b) compléter les autres zones Unimarc :

  • 356  : « Note géographique », dans laquelle sont renseignés la base cartographique de référence et le degré de précisiongeolocalisation_zone_356
  • 686 : « Autres classifications », où on indique éventuellement le cadre du projet de géolocalisationgeolocalisation_zone_686
  • 899 : « Note du catalogueur interne au Sudoc » : c’est une zone spécifique aux notices géographiques dont le point d’accès contient une subdivision Rameau $x, $y ou $z, notices dérivées de la BnF et dont la mise à jour est automatique dans le Sudoc (identifiées par la zone 035). La zone sert à éviter que les imports automatiques de la BnF écrasent les données insérées dans le Sudoc, tout en conservant une trace de l’alignement des notices dans les deux catalogues.

899 ##$aIdentifiant RFBNF de la notice à ne pas placer en 035 pour ne pas risquer de perte de données : « FRBNFXXXXXXXXX »

d) faire les liens :

  • 515 : « point d’accès en relation – Nom géographique ». Il s’agit de lier aux sous-unités pertinentes, et réciproquement

geolocalisation_zone_515-bis

En conclusion

L’opération de géolocalisation et la saisie dans le SUDOC se font assez rapidement. À partir de notre expérience, en revanche, le travail de révision et la rétroconversion du corpus des notices bibliographiques liées a été le plus chronophage. Nous avons rencontré également quelques problèmes pour localiser et identifier les sites fouillés anciennement et dont la publication était fragmentaire et incomplète (par exemple,  quelques sites de l’Afrique du Nord).

Elena Avellino
Bibliothèque de l’École française de Rome
elena.avellino[at]efrome.it
logo_EFR

 

 

Synthèse de l’enquête « Évaluation du dispositif CERCLES »

CERCLES_pencils_by_art_sourse

Le dispositif CERCLES (Corrections et Enrichissements par le Réseau de Corpus de l’Enseignement Supérieur) a été lancé en 2015.
Depuis, 17 chantiers ont été lancés, dont 9 encore en cours.

Avec le double objectif d’évaluer les modalités de fonctionnement actuelles et de réfléchir à l’évolution du dispositif, une enquête a été menée, en février 2018, auprès des 18 responsables de chantiers CERCLES.

Voici un résumé de leurs opinions sur le dispositif.

Taux de participation : 77,7 %

18 responsables de chantier ont été sollicités, 14 ont validé le questionnaire. Cela constitue le corpus de réponses complètes et exploitables.
Ceux qui n’ont pas répondu appartiennent à des chantiers co-gérés ; à chaque fois, leurs binômes ont validés leurs réponses, de telle sorte qu’on peut affirmer que, si l’enquête ne reflète pas la totalité des établissements CERCLES, elle reflète en revanche la totalité des chantiers.

Sur l’organisation mise en place par le responsable de chantier :

  • le plus souvent, une petite équipe est mise en place, sans organisation très formelle (échanges sans réunions systématiques et planifiées), mais avec un document collaboratif.
  • s’il n’y a qu’1 agent sur le chantier, l’organisation se met en place en tenant compte de ces moyens limités ; la conduite solitaire d’un chantier n’entrave pas sa réalisation.
  • tous les responsables évoquent la difficulté à faire du « reporting » auprès de leur direction, par manque de document modèle.
  • chacun ressent le besoin de créer des documents spécifiques (procédures, scripts).
  • il semble difficile de prévoir en amont la durée du chantier :
    • le travail en mode projet (estimation, contrôle, révision) n’est pas systématiquement appliqué ;
    • les tâches d’organisation, de coordination ne sont pas quantifiées, au départ, dans le temps estimé nécessaire pour le chantier ;
    • il faut gérer des aléas et des charges de travail imprévues.
  • par contre, le travail CERCLES reste souvent prioritaire, en cas d’aléas.

Sur la reconnaissance de la fonction de responsable de chantier :

  • le plus souvent, un chantier est lancé à l’initiative de l’équipe de catalogage.
  • le travail CERCLES est davantage lié à l’agent (la personne) qu’à sa fonction (la fiche de poste). Ainsi :
    • il n’y pas d’objectifs et d’indicateurs associés dans la fiche de poste des agents responsables de chantier ;
    • aucune pérennité du chantier n’est assurée si l’agent quitte l’établissement.

Sur les enrichissements apportés par le chantier :

  • les axes d’enrichissements s’avèrent toujours plus importants que ceux prévus au départ.
  • les difficultés rencontrées pour les corrections sont liées aux difficultés du traitement des documents électroniques, pas au dysfonctionnement du dispositif CERCLES.
  • la collaboration avec l’éditeur du corpus, au sein du chantier, est utile, mais pas obligatoire.

Sur l’apport de l’ABES :

  • les services sont appréciés, à part l’espace de travail collaboratif, perfectible dans sa forme et dans son usage.

Sur la reconnaissance du réseau :

  • les responsables de chantier n’ont pas vraiment d’avis sur la question. Mais ignorer si on est reconnu ne veut pas dire qu’on ne l’est pas. Cela signifie simplement qu’on n’a jamais eu le moyen de mesurer cette reconnaissance (par exemple, l’ABES n’ pas inclut cette question dans l’enquête 2017 sur les usages professionnels du Sudoc).

Sur les évolutions du dispositif CERCLES :

  • les responsables actuels n’envisagent pas forcément de nouveaux chantiers, puisque la charge de travail est déjà importante.
  • le besoin de lancer des chantiers liées aux données d’autorités de leurs corpus n’apparait pas comme une priorité.
  • les chantiers à venir devraient être d’une volumétrie moins importante, pour attirer d’autres bibliothèques.

 

CERCLES_crayonsEt maintenant… ?

L’équipe de l’ABES en charge de coordonner le dispositif CERCLES analyse ces résultats pour formuler une série de préconisations, qui seront ensuite communiquées au réseau.

La synthèse complète et détaillée des résultats est disponible  ICI.

Chantier Qualité des données de thèses : bilan 2017

En février 2017, l’Abes annonçait via les listes de diffusion des réseaux Sudoc et Thèses que les établissements intéressés pouvaient demander des  traitements automatiques sur les notices de thèses du Sudoc. Ce billet fait le point sur les modifications réalisées entre février et novembre,  ce à l’initiative soit des établissements, soit de l’Abes.

Rappel

thesestheses.fr, moteur de recherche des thèses de doctorat, a pour objet d’afficher les thèses soutenues en France depuis 1985 ainsi que les thèses en préparation ( depuis 10 ans au maximum). Il s’agit donc de données en provenance des applications nationales STEP et STAR et du Sudoc.
Pour les thèses soutenues, le parti pris de theses.fr consiste à regrouper en une seule page l’œuvre « thèse »,  quelle que soit la variété de ses supports matériels et en mettant en avant sa version de soutenance, estampillée d’un tampon «validée par le jury ». Il s’agit donc d’une FRBRisation des données de thèses de doctorat présentes dans le Sudoc.
Dans un monde parfait, les données du Sudoc  trouvent naturellement leur place  dans theses.fr. Hélas, les données du Sudoc ne sont pas parfaites. Grâce au programme de FRBRisation AlgoSudoc, les principales erreurs empêchant le versement dans theses.fr ont été détectées et, depuis le printemps 2015, les établissements ont accès à ces erreurs et peuvent y remédier.

Opérations menées

En 2017, l’Abes a eu l’opportunité de travailler à nouveau sur cette question.  Grâce au renfort d’un collègue contractuel recruté pour cette activité et à un nouvel outillage technique – développé à l’Abes  et à usage strictement interne, ces travaux sont venus en complément des outils traditionnels d’administration des données fournis par OCLC.

Ainsi, de février à novembre 2017, plus de 160 000 notices Sudoc ont été modifiées en utilisant ce nouvel outil d’administration de données. Pendant l’été 2017, une part importante des corrections a été traitée « à la main », principalement des fusions de notices et des corrections de liens erronés entre notices bibliographiques. L’objectif était double :

  • charger dans theses.fr des notices en provenance du Sudoc n’ayant pu être chargées du fait de leur médiocre qualité

Il s’agissait de corriger des erreurs manifestes et, à cette occasion, d’enrichir les notices originelles, notamment celles dépourvues de numéro national de thèses (zone 029), de note de thèse structurée (328$bDiplôme$cDiscipline $eEtablissement de soutenance$dDate de soutenance) ou de code domaine TEF (zone 686).
Des lots ont été constitués établissement par établissement, afin de permettre un versement des modifications dans les SIGB et de compléter les points d’accès 712 à l’établissement de soutenance.

  •  mettre de l’ordre dans les données déjà visibles dans theses.fr

En 2013, lors du versement des données Sudoc dans theses.fr, des choix devaient être faits  – tout verser ou ne verser que les notices de meilleurs qualité ? C’est une voie médiane qui a été retenue : les données Sudoc chargées dans theses.fr comportaient les zones essentielles, même si le contenu de ces zones était parfois peu exploitable ou non conforme aux recommandations du Guide Méthodologique.
Ainsi, par exemple, chaque occurrence distincte d’une zone 328$eEtablissement de soutenance dans une notice de thèse en provenance du Sudoc a créé une entrée au niveau de la facette « Établissements » dans theses.fr. Cette facette n’aurait dû contenir qu’environ 200 entrées puisqu’il existe une liste fermée des libellés des établissements de soutenance …. cependant, le recours à cette liste n’étant pas contrôlé dans WinIBW, n’importe quoi peut en réalité être saisi en 328$e, ce qui a parasité le fonctionnement de la facette « Etablissements » dans theses.fr.

Dans d’autres cas, le désordre dans theses.fr n’était pas dû à des consignes de catalogage non respectées mais à l’évolution des consignes de catalogage. Par exemple, longtemps il n’a pas été possible – dans le Sudoc (alors que STAR le permettait) – de qualifier finement les rôles de personnes en relation avec la thèse (membre du jury, président, rapporteur) ou les rôles des organismes (établissement de cotutelle, école doctorale, autre partenaire de recherche…). Fin 2014, l’Abes a créé  de nouveaux codes de fonction dans le Sudoc et a incité les catalogueurs à s’en servir (cf J.e-cours du 14/12/2014 « Description des thèses de doctorat » ). Évidemment, une grande partie des données rétrospectives du Sudoc étaient à corriger. Même si toutes les données n’ont pu être traitées en 2017, cela a constitué un axe majeur des modifications réalisées.

Résultats

Quantitativement, le nombre de page décrivant des thèses soutenues a fortement augmenté en 2017 [ie : nombre de thèses soutenues en 2016 et 2017  et signalées pour la première fois dans theses.fr au cours de l’année 2017]. Ainsi, alors qu’en 2016, le taux d’accroissement était de 4,04%, de février à décembre 2017, le nombre de pages de thèses soutenues dans theses.fr a connu un accroissement de 10,88%.

Qualitativement, les efforts ont principalement portés sur les organismes liées à la thèse, ce qui a permis de nettoyer les facettes ainsi que les pages dédiées aux organismes. Voici par exemple une copie d’écran de la facette «Établissements» réalisé le 10/02/2017. On y voit, surlignées en jaune, les entrées erronées (faculté),  autant d’éléments aujourd’hui corrigés.

 

 

 

 

 

 

 

 

 

 

Dans la mesure du possible, les zones de texte libre présentes dans la note de thèse – indiquant par exemple la discipline – ont été harmonisées.

Par ailleurs, suite à l’appel lancé via les listes de diffusion, quelques établissements ont sollicité l’Abes pour corriger des lots de données. Parmi les cas les plus fréquents : les notices de reproduction ou les versions électroniques de thèse versées dans une archive institutionnelle locale, pour lesquelles l’URL de diffusion dans la zone 856 devait être corrigée.

Conclusion

Malgré ces forces supplémentaires qui ont permis d’améliorer la qualité des données de thèses dans le Sudoc, ce dossier n’est hélas pas clos. En effet, le programme AlgoSudoc de FRBRisation des données du Sudoc en vue de leur chargement dans theses.fr détecte encore des milliers d’erreurs et les rend publiques.

Afin  que le slogan de theses.fr «Signaler l’ensemble des thèses de doctorat soutenues en France depuis 1985 » devienne réalité, l’Abes invite les établissements qui ne se sont pas encore emparés de ce dossier à prendre en main les données qui leur incombent.

IMR

CERCLES OPENEDITION : UN ALGORITHME POUR AUTOMATISER LES LIENS 7XX

Le chantier CERCLES OpenEdition

CERCLES_Sarah8Klocars_Clauser_via_OpenPhoto

Sarah Klocars Clauser (via OpenPhoto)

Lancé en 2015 par le SCD de l’Université François Rabelais de Tours – l’un des établissements ayant activement milité pour la création du dispositif –   le chantier CERCLES OpenEdition consiste principalement à l’enrichissement des notices bibliographiques du corpus OpenEdition (3959 notices au 01/07/2017), un travail réalisé par une équipe de catalogueurs du SCD, sous la responsabilité de Véronique Lacan, coordinatrice Sudoc.

Étapes à la loupe

Pour le traitement des notices d’e-books, il convient de  procéder dans un premier temps à la visualisation de 2 notices : celle de l’e-book à enrichir et celle de la manifestation imprimée, quand celle-ci existe. Pour cela, l’option « multifenêtrage » de WinIBW est activée.

Image1

Menu Fenêtre > Mosaïque verticale

En plus de la relecture complète, l’attention est ensuite portée sur les zones à vérifier et/ou enrichir particulièrement :

  • 035 : vérification du code source à partir du site Open Edition Books (OEB)
  • 010 : vérification de l’ISBN à partir du site OEB
  • 1XX : vérification des données codées, dont les dates
  • 200 : vérification du titre et des mentions de responsabilité (nombreux contributeurs reportés en 314)
  • 307 : ajout de la pagination de l’édition imprimée (si elle existe)
  • 310 : vérification des modalités d’accès et mise en cohérence de cette information dans les zones 856 ou 859
  • 452 : lien vers la notice de l’édition imprimée et lien réciproque
  • 6XX : complétude de l’indexation matière
  • 70X : lien à la notice d’autorité du contributeur (le plus souvent :  zones 701)

C’est principalement  l’enrichissement de cette zone 70X qui peut s’avérer complexe : soit la notice d’autorité n’existe pas encore, soit un choix doit être effectué entre plusieurs notices d’autorité, en cas d’homonymie par exemple :

  CERCLES_doublon_autorite

De plus, ce traitement peut s’avérer long et fastidieux, les notices d’e-books proposant de nombreux contributeurs, comme par exemple  :

CERCLES_contributeurs

Une vingtaine de contributeurs pour cette notice : autant de liens à créer

L’intérêt du traitement automatique

CERCLES_hula_hoop_by_Lars_Plougmann_via_Flickr_CC_BY_SA_2_0

Un algorithme au service du CERCLE…

Menée au SCD de l’université Picardie Jules Verne dans le cadre d’un autre chantier CERCLES comportant également de nombreux accès Auteurs à créer (voir le billet à ce sujet), une première expérimentation a démontré la capacité du programme de traitement automatique mis au point par les équipes de l’Abes.  A l’aide de cet algorithme conçu pour rechercher puis lier automatiquement les points d’accès 70X aux notices d’autorité correspondantes, un lien 7XX a été ajouté automatiquement à 749 notices sur 987, soit un taux d’erreur d’à peine 0,5 %. Une expérimentation globalement positive dont l’Abes a fait la promotion, notamment lors de l’atelier  « Aligner, le signalement augmenté » présenté par Yann Nicolas lors des Journées Abes 2017.

Saisissant cette opportunité, le SCD de Tours a sollicité les équipes de l’Abes pour bénéficier d’un traitement similaire sur le corpus OpenEdition, expérimentation lancée lors de la rencontre de travail avec un membre de l’équipe OpenEdition. Ainsi, en juin dernier, l’algorithme a  tourné sur le dernier fichier d’import de notices OpenEdition chargé dans le Sudoc. Les résultats  sont tout aussi satisfaisants : le programme est parvenu à lier automatiquement 733 sur 977 points d’accès, soit 75 % de réussite. Ce sont donc des notices avec des zones 7XX liées et validées qui ont été importées dans le Sudoc, facilitant considérablement le travail du SCD de Tours et bénéficiant à tous les établissements du réseau.

L’aide à la décision

Autre avantage de ce traitement :  pour les notices n’ayant pu bénéficié du traitement automatiquement, un rapport d’aide à la décision – résultat d’une analyse et d’un décryptage – est fourni au responsable du chantier CERCLES,  coupe de pouce bien utile pour organiser le travail de correction et témoignage que l’Abes respecte son engagement dans le dispositif CERCLES : « contribuer aux enrichissements, par un travail d’expertise préalable, par la fourniture d’outils automatisés et enfin par l’analyse et le conseil pour organiser le travail d’enrichissement« .

Ainsi, la responsable du chantier OpenEdition a disposé d’une grille de corrections à effectuer sur une partie des 244 points d’accès non traités,  pour lesquels des suggestions de liens ont été exprimées :

  • sur la base de rapprochement avec des titres similaires (73 cas)
  • sur la base de rapprochement avec des éditeurs similaires (33 cas)
  • sur la base de rapprochement avec des co-contributeurs similaires (2 cas)

Dans 10 cas seulement, aucune proposition n’a pu être opérée par le programme, les notices d’autorités potentiellement liables comportant des erreurs de catalogage, à corriger au préalable.

Image2

Extrait de l’analyse du traitement et sa grille de lecture

A partir de ce traitement automatisé, les catalogueurs du chantier CERCLES OpenEdition disposent donc d’un guide de corrections, de listes de PPN toutes prêtes sur lesquels ils peuvent intervenir. Ainsi, l’essentiel de leur travail peut se concentrer sur l’analyse et le choix de liens « problématiques », plutôt que sur la tâche purement technique et répétitive, de liages « indiscutables » aux autorités.

C’est en effet dans ce travail d’analyse et de choix complexes que s’exercent véritablement les compétences des catalogueurs, et non dans l’acte technique de simple liage qui peut être, sans remords, délaissé aux machines.

 

CERCLES Bibliothèque Numérique Dalloz : retour d’expérience du SCD de l’université de Strasbourg

logo-unistra

« Genèse » du Chantier CERCLES de la Bibliothèque Numérique Dalloz

Le chantier “CERCLES BNDalloz” a été initié par le SCD de l’Université de Strasbourg en avril 2016 (sa fin est prévue pour le printemps 2017).

Il fait suite à l’immersion de Catherine Storne à l’Abes en janvier/février 2016.
Les objectifs de cette immersion étaient à la fois de rapprocher les équipes “docelec” et “catalogage” pour mieux signaler les ressources électroniques et de circonscrire la relation éditeurs et bibliothèque dans le traitement des métadonnées.

La documentation électronique seconde, voire prend le pas –pour certaines disciplines- sur la documentation papier. Il est dès lors nécessaire aux bibliothèques de s’inscrire comme acteur de leur signalement. Le SCD de l’université de Strasbourg a voulu participer, au travers de ce projet, à cette transition.

Organisation du Chantier CERCLES

L’équipe

L’équipe en charge de ce projet se compose de deux personnes :

  • Stéphanie Himber, responsable du chantier CERCLES BNDalloz.
  • Stéphane Rehlinger

Ne bénéficiant pas de temps dégagé pour se consacrer prioritairement à ce projet, nous y avons travaillé aussi régulièrement que possible lorsque nos activités propres à notre structure nous le permettaient.
Le départ de l’initiatrice du chantier, en septembre 2016, aurait pu nous fragiliser car nous ne disposions alors que des extractions initiales. L’appui des services Interfaces & Traitements et Métadonnées de l’Abes a donc été d’une grande aide : au niveau des outils, nous avons disposé d’extractions ad hoc et bénéficié de modifications en lot ; au niveau de l’accompagnement, nous avons pu nous appuyer sur des conseils et orientations de travail.
Nous avons également pu nous appuyer sur notre collègue Catherine Banos, correspondante “publications en série périodiques et collections” au sein du SCD de l’université de Strasbourg, et sur l’équipe du CR Alsace du Sudoc-PS de la BNUS – Christine Hecht et Estelle Cade – pour les demandes de numérotation ISSN des collections électroniques.

Périmètre du chantier

Le corpus initial – circonscrit en février 2016 – compte environ 1950 notices bibliographiques auxquelles s’ajoutent les versements réguliers de nouveaux titres, soit actuellement près de 2150 notices.
Il convient d’y ajouter les 40 notices de collection dont seulement 6 étaient présentes dans le Sudoc avant le début du chantier.

Lors du travail préparatoire sur ce corpus, les notices Oa ont été créées par copie des notices Aa existantes puis enrichies et corrigées par l’Abes.

Ci-dessous le tableau des modifications apportées par script vbs lors de la création par copie

Notice papier Notice d’e-book correspondante
001 Non repris
002 Non repris
003 Non repris
008 Par défaut : $aOax3
010 Non repris
020 Non repris
021 Non repris
033 Non repris
034 Non repris
035 Remplacé par défaut par : ##$aBNDalloz
073 Non repris
106 Non repris
135 Ajout par défaut : ##$av$br$cm$e#$gm$ia$ja
181 Ajout par défaut : ##$P01$ctxt
182 Ajout par défaut : ##$P01$cc
215 Non repris
225 Non repris
230 Ajout par défaut : ##$aDonnées textuelles
337 Ajout par défaut : ##$aNécessite un logiciel capable de lire un fichier au(x) format(s)Widelook ou Widelook Flash
410 Non repris
452 Ajout par défaut : ##$0″ + ancienPpn
801 Non repris
802 Non repris
830 Non repris

Ci-dessous les enrichissements

zone
010 ISBN électronique
100$a / 210$s dates du tableau-Dalloz ajoutées en 100$a et 210$d (par écrasement de celles éventuellement présentes)
205 Numéro d’édition tiré de la BNDalloz
676 $a340
859 URL fourni par l’OAI-Dalloz

Une fois ces deux opérations terminées, il restait environ 570 notices ou titres à traiter :
Cataloguer les documents électroniques pour lesquels la notice papier n’existe pas ;
Vérifier / corriger les notices Oa déjà présentes dans le Sudoc ;
Vérifier les notices susceptibles d’être des doublons. Dédoublonner quand nécessaire ;
Enrichissement des notices absentes de l’entrepôt OAI-Dalloz.

… et quelques 1830 notices Oa créées par l’Abes à enrichir ou à corriger.

Si la taille de ce corpus est relativement modeste, son signalement dans les catalogues est fortement attendu par les collègues. Aussi, plus que la complexité du traitement catalographique, c’est l’impératif de la réalisation du chantier pour fin 2016/janvier 2017 (comme nous nous l’étions fixé) qui nous a préoccupé.

Organisation du travail

  • Nous avons élaboré des outils de travail que nous avons partagés sur un dossier commun et nous disposions d’un espace collaboratif de travail proposé par l’Abes.

Outils de suivi
▹Tableau de suivi étape par étape ;
▹Tableau de suivi des demandes ISSN ;
▹Tableau des erreurs à corriger : notices doublons, 859 doublons, pb. d’eISBN, erreur de référencement Dalloz, … ;
▹Sauvegarde de plusieurs extractions servant de base de travail ;
▹Tableau détaillé des zones retenues pour le catalogage des documents électroniques.
▹Liste des nouveaux titres versés sur la base depuis mars 2016 : pISBN-eISBN-titre-édition-collection-date de mise en ligne-eppn-URL ;
▹Suivi pour info. au réseau / tableau de bord ;
▹Extractions réalisées par l’Abes.

Le manuel CERCLES de suivi du chantier est disponible ICI

  • Nous avons construit nos scripts vbs :
    Avec Nicole Krieger, correspondante SUDOC pour notre structure, nous avons déterminé les zones Unimarc que nous utiliserons pour créer et enrichir les notices Oa. Dans un document interne, nous avons commenté chaque zone et détaillé la forme du contenu de celle-ci.
    Nous avons formalisé le tout au travers d’un script que nous avons enrichi au fur et à mesure des consignes communiquées par l’Abes (ex. zones 339, 035).

Script vbs des notices bibliographiques :

"010 ##$AISBN$bebook"&vblf&_
"035 ##$aBNDalloz_"&vblf&_
"135 ##$av$br$cm$e#$in"&vblf&_
"181 ##$P01$ctxt"&vblf&_
"182 ##$P01$cc"&vblf&_
"230 ##$aDonnées textuelles"&vblf&_
"303 ##$aDescription d'après la consultation du 2017-MM-JJ"&vblf&_
"304 ##$aTitre provenant de la page de titre de la version électronique"&vblf&_
"305 ##$aVersion électronique de la XXe édition, Paris : Dalloz, 20"&vblf&_
"307 ##$aPagination de l'édition imprimée : XXX p."&vblf&_
"310 ##$aAccès réservé aux usagers des établissements qui en ont fait l'acquisition"&vblf&_
"320 ##$aBibliogr. p. XXX de l'édition imprimée"&vblf&_
"339 ##$aHTML$d20"&vblf&_
"339 ##$aSWF$d20"&vblf&_
"337 ##$aNécessite un logiciel capable de lire un fichier au(x) format(s) Widelook ou Widelook Flash"&vblf&_
"452 ##$0PPN imprimé"&vblf&_
"676 ##$a340$v22"&vblf&_
"830 ##$aChantier CERCLES 2016 ! Ne pas modifier cette notice sans avoir vérifié le périmètre d'intervention sous la responsabilité de : SCD de l'université de Strasbourg. Pour plus d'information, consultez le manuel CERCLES du GM."&vblf

  • Nous avons procédé de la même façon pour les notices Od
    Script vbs des notices de collection :
008 ‎$aOdx3
100 0#‎$a200X‎$d200X-
101 0#‎$afre
102 ##‎$aFR
104 ##‎$ak‎$by‎$cy‎$dba‎$e0‎$ffre
106 ##‎$ar
110 ##‎$ab‎$by‎$cb‎$em‎$f0‎$gy‎$hy‎$i0
135 ##‎$av‎$br‎$cm‎$dn‎$e#‎$gm‎$hn‎$in‎$ja‎$kn
181 ##‎$P01‎$ctxt
182 ##‎$P01‎$cc
200 1#‎$a@Codes Dalloz universitaires et professionnels
210 ##‎$aParis‎$cÉditions Dalloz‎$d[200?]-
230 ##‎$aDonnées textuelles
301 ##‎$aDemande de numérotation ISSN en cours
303 ##‎$aNotice réd. d'après la consultation du 2016-07-06
304 ##‎$aTitre provenant de l'écran-titre
310 ##‎$aL'accès à cette ressource est réservé aux usagers des établissements qui en ont fait l'acquisition.
326 ##‎$aCollection
337 ##‎$aNécessite un logiciel capable de lire un fichier au(x) format(s) Widelook ou Widelook Flash
452 ##$0LIEN VERS Ad
517 ##‎$a@Codes Dalloz

Travaillant à deux personnes sur ce corpus et étant dans des établissements distants, il était capital d’assurer un traitement uniforme des notices au risque de devoir s’entre-corriger.

Le traitement

Suite à l’étude des extractions initiales et à l’étude de la qualité des métadonnées, il a été décidé de créer les notices Oa par duplication des notices Aa pré-existantes et de les corriger / compléter le cas échéant à l’aide des données venues du site  Dalloz.
Aussi, contrairement à d’autres chantiers CERCLES, nous n’avons pas été concernés par la création d’autorités.

Plusieurs opérations ont fait l’objet de modifications en lot par l’Abes à partir d’extractions de sous-ensembles. C’est le cas de l’insertion des zones 035, 225/410, 304, 310, 339, 830, 859.
Le reste des vérifications et traitement des « cas spéciaux » s’est fait manuellement.

Concrètement, les opérations que nous avons eues à mener étaient :

  • des enrichissements ou corrections de notices bibliographiques et de collection : pour cela, nous avons travaillé à partir des extractions initiales et à partir des extractions de sous-ensembles, résultats de modifications en lot, faites tout au long du chantier.
  • des créations de notices bibliographiques et de collection : nous nous sommes appuyés – quand cela a été possible – sur la notice Aa existante que nous avons dupliquée et modifiée à l’aide de notre script.

Chaque création / vérification de notice s’est faite à partir de la « fiche de l’ouvrage » Dalloz + affichage / consultation du document électronique.

Quelques chiffres

Notices de collection Traitement en lot Traitement manuel
Création de notices de collection + demande de numérotation ISSN 39 notices
Doublons
notices dédoublonnées env. 50 notices
URL
Vérification de notices sans URL 34 ppn
Modifications
Insertion zone 010 $a 120 notices
Insertion zone “035BNDalloz” 2081 notices 13 notices
Insertion zones 181/182 5 notices
Insertion zones 225/410 1434 notices 716 notices
Insertion zone 230 1901 notices
Insertion zone 830 1901 notices
Insertion zone 859 “URL” 1726 notices
Zone 859 : substitution de l’URL pointant vers la notice de présentation par l’URL pointant vers le document 380 notices
suppression zone 073 273 notices
Suppression zone 839 30 notices
Créations
création manuelle de notices Oa env. 240 notices

Problèmes rencontrés

  • Numérotation ISSN des collections électroniques :
    L’intitulé de la collection électronique mentionné sur la fiche de présentation de la base Dalloz diffère de la mention de collection signalée sur la page de titre de la version électronique du document (nouvelle collection ou absence de série). Du coup, certaines demandes de numérotation ISSN ont été rejetées par le Centre ISSN France. Ces dernières ont été relancées en mars 2017 avec un dossier étoffé. Sont concernées les collections suivantes :
    ▹Cours
    ▹Dictionnaires Dalloz
    ▹Etudes, mélanges, travaux
    ▹Hors collection
    ▹Hors collection Dalloz / Hors collection Delmas / Hors collection Sirey
  • Communication de l’URL d’accès :
    Nous avons communiqué  les URL au fur et à mesure à l’Abes en complétant un fichier partagé (contenant déjà les PPN des notices créées).  l’Abes ne peut les récupérer directement et facilement via le service dédié Dalloz, un long nettoyage préalable des données récupérées est nécessaire via Open Refine avant de pouvoir les insérer en lot dans les notices.
    Nous avons utilisé le service mis à disposition par Dalloz :
    Test de service BND ☞ http://www.dalloz-bibliotheque.fr/services/bndtest.php?isbn
  • Accès aux anciennes éditions déjà retirées de la base Dalloz. Grâce au même service Dalloz, via l’ISBN (consigné dans les premières extractions) nous avons pu trouver les informations éditeur du document électronique.

dalws

  • Fiche de présentation BNDalloz incomplète ou erronée : absence de l’édition, ISBN doublon, … ;
  • Nombre réduit de connexions simultanées (5) nous obligeant à différer la consultation / le traitement des documents.

Questions soulevées

  • Lors du traitement catalographique :
    • Quel sort réserver à la zone 205 ?
      Pour la BNDalloz, la version électronique est la reproduction de la version imprimée ; c’est donc tout naturellement que Dalloz signale dans la « fiche de présentation » de l’ouvrage électronique, le numéro de l’édition imprimée. La BNDalloz donnant accès à plusieurs éditions du même titre, nous avons choisi de mentionner le numéro d’édition de la version imprimée conformément à ce que Dalloz fait dans sa base.
      Nous avons ajouté également la zone 305 :
      Ex. 305 ##‎$aVersion électronique de la 2e édition, Paris : Dalloz, 2016
    •  Que faire de la mention « matériel d’accompagnement » ?
      Il a été décidé de garder cette information en zone 327.Ex. 327 2#‎$aLa ressource ne donne pas accès aux données contenues sur le CD-ROM accompagnant l’édition imprimée
    • Notices de collection : comment dater le début d’une collection électronique, sachant que la BNDalloz est une base dont la mise à jour est régulière ?
      Il a été convenu que c’est l’année de mise en ligne du premier titre dans la collection qui compte. A défaut de la connaître, nous avons considéré la date comme incertaine :
      100 $a 20XX, 100 $d20XX-… et en 210 $d [20??]-
  • Cas de l’exemplarisation :

La question s’est posée de s’exemplariser de suite sous les notices créées par duplication en février/mars 2016 ou d’attendre la fin du chantier CERCLES.
Certaines bibliothèques, en option « Mises à jour propres » pour leur transferts réguliers, ont décidé de se localiser sous les notices fraîchement créées par copie, au risque de récupérer en local des notices incomplètes et perfectibles. D’autres, en option « toutes mises à jour » ont pu bénéficier de la mise à disposition rapide de nos créations, en ayant la garantie de recevoir au fil de l’eau nos enrichissements.
Ici, le SCD de l’université de Strasbourg a opté pour l’exemplarisation en fin de chantier. Les modalités n’ont pas encore été définies ; il a toutefois été décidé de créer une double localisation si la ressource électronique est présente sur deux bases (le plus souvent ScholarVox) car la BNDalloz est pressentie comme une base relativement stable.

  • La pertinence du corpus :
    Les sciences juridiques étant une discipline pour laquelle l’information est vite obsolète, nous nous sommes demandé s’il était utile et pertinent de signaler des éditions anciennes.
    La réponse n’étant pas clairement tranchée, nous avons traité tous les titres dont nous avions connaissance.
    A voir par la suite si nous procéderons à une sorte de « désherbage » du catalogue.A titre d’exemple, le titre suivant (ppn 191184985) : Comptabilité et gestion des associations : système comptable, gestion financière, analyse et contrôle de gestion / Francis Jaouen. – 11e éd. [à jour au 22 décembre 2008]. – Paris : Dalloz : Delmas, 2009. – (Encyclopédie Delmas).
    La notice ne comporte pas le champ 859 car le titre n’est plus accessible via la base et l’URL n’est pas connu.

Nos impressions sur cette expérience

Ce type de chantier nécessite un investissement important :

  • du temps pour organiser le travail, pour assurer un suivi régulier et être réactif aux diverses sollicitations ;
  • de la concentration pour jongler, au sein de la même journée, entre nos activités initiales et l’étude d’extractions / traitement de notices.

Nous n’avons été que deux personnes à nous lancer dans ce chantier. Après réflexion, cela n’a sans doute pas été un mal car le travail de coordination n’aurait été que plus important si nous avions été plus nombreux.

La création des notices Oa par copie des notices Aa nous a grandement soulagé. Du coup, nous avons eu relativement peu de notices à créer eu égard à la taille du corpus initial.
En outre, il me semble que pour mener à bien ce type de chantier, il est nécessaire de trouver l’appui d’une équipe capable de manipuler les métadonnées dans tous les sens, de faire des extractions du corpus et des modifications d’ensemble. Grâce aux équipes de l’Abes, nous avons pu avancer à pas de géant dans le traitement des notices.

Et la suite ?

Conformément au principe du dispositif CERCLES, où l’établissement reste le référent sur le corpus pour le réseau Sudoc, le SCD de l’université de Strasbourg maintiendra l’effort de mise à jour. En effet, Dalloz fait partie des éditeurs qui ne fournissent pas (encore ?) de métadonnées exploitables qu’il serait possible de traiter de façon automatique ou presque pour alimenter le SUDOC et d’autres outils.
En s’appuyant sur le nombre de titres versés sur la base en 2016, nous pouvons estimer le nombre de nouveaux titres annuels à environ 200.
Se pose en sus la gestion des titres quittant la base : introuvables via la BNDalloz mais consultables si l’URL est connue (… pour le moment).

La page dédiée au corpus Dalloz bibliothèque numérique est désormais disponible dans le manuel import ICI

28684221452_443261be71_n

« Kandinsky circles int’l july » (CC BY-NC-ND 2.0) by CaZaTo Ma

Stéphanie Himber
Responsable du chantier CERCLES BNDalloz

logo-unistra