Le SUDOC en RDF : du nouveau ! 2/2

RDA en RDF : pourquoi, comment ?

Fidèles au principe de réutiliser au maximum des vocabulaires déjà publiés, et si possible « métiers », c’est assez naturellement du côté de RDA, qu’on a cherché la sémantique adéquate. On utilisait déjà des propriétés et des classes telles que : ModeOfIssuance, WorkManifested/ManifestationOfWork, et la classe Work.

 Pour les zones de liens, ce vocabulaire est celui qui, en général, « colle » le mieux avec les données issues de l’Unimarc.

Il y avait toutefois un problème avec RDA en RDF : il était publié depuis 2009 à l’état de « propositions » seulement (« new-proposed », sur Open Metadata Registry), donc de brouillon.  Or, le JSC (Joint Steering Commitee, en charge du développement et de la diffusion du code de catalogage  RDA), s’est penché récemment sur son sort et a décidé d’en publier une nouvelle version consolidée et validée, sur l’OMR. L’espace de nom a été changé : l’URL http://www.rdaregistry.info/ accueille désormais l’ensemble des classes et propriétés RDA, ainsi que l’ensemble de la documentation associée.

Cette validation est en elle-même très positive, car elle donne une certaine garantie sur la pérennité et le maintien de ce vocabulaire. Mais dans l’immédiat, le changement d’espace de nom rend obsolètes les propriétés et classes précédemment utilisées, obligeant à une mise à jour du modèle de données. Il ne faudrait donc pas que cela devienne une habitude… D’autant plus que les listes de vocabulaires contrôlés (listes fermées de valeurs) sont restées sur l’ancien espace de nom http://rdvocab.info/. Ce qui ne simplifie pas les choses.

Les propriétés sont désormais, comme pour l’ISBD, identifiées par des codes opaques, et non plus par des libellés en anglais. Ce qui peut aussi se discuter car ne facilite pas leur manipulation. Mais elles sont désormais officiellement utilisables.

Ce vocabulaire comporte plusieurs sous-domaines : les agents (rdaa), les classes (rdac), et les propriétés, réparties selon leur domaine d’application FRBR : rdaw : pour les propriétés d’œuvres ; rdae, pour celles des expressions ; rdam, pour les manifestations, rdai, pour les items.

La plupart des catalogues, SUDOC compris, n’étant pas, ou très imparfaitement, FRBRisés, un domaine « unconstrained properties » (rdau), rassemble également l’ensemble des propriétés précédentes. C’est celui qui a été retenu pour les zones de liens.

Exemple

Une zone 430 (Suite de) exprime en principe une relation entre deux œuvres. Mais la ressource décrite dans le Sudoc est plutôt une manifestation. C’est pourquoi seul l’usage d’une propriété sans contrainte de domaine  est correct. En l’occurrence : « is continuation of » dont l’état civil sur le web de données est rdau:P60576.

M. Jeulin

De F. Rieder. CC BY-NC-SA 2.0. Source : Flickr

De F. Rieder. CC BY-NC-SA 2.0. Source : Flickr

Le SUDOC en RDF : du nouveau ! 1/2

A propos du  web de données, et du Sudoc en RDF, voir notamment les billets précédents ici et .

L’été 2013 avait vu la mise en ligne d’une documentation sur l’exposition du SUDOC en RDF, et l’annonce d’un chantier visant à enrichir et affiner progressivement celle-ci. Ce chantier a produit ses premiers résultats au cours de l’année universitaire écoulée, par petites touches successives. Zoom sur les nouveautés.

Alignements

Dans un souci d’interopérabilité avec Data.bnf.fr, le FRBNF des notices BNF a été ajouté, à côté des OCN d’OCLC déjà présents : onto-bnf :FRBNF (propriété maintenue par la BnF elle-même). Les identifiants ark – présents dans une partie des notices du Sudoc, devraient suivre un peu plus tard.

Types de documents

Pour typer les documents décrits, on fait appel, de façon partiellement redondante, à trois vocabulaires :

–  Bibliographic ontology (plus familièrement « bibo »). C’est un vocabulaire simplifié d’usage assez large, au-delà de la communauté professionnelle des bibliothécaires

Dublin Core, encore plus générique

ISBD en RDF, maintenu par l’IFLA. Celui-là correspond plus strictement à nos standards de description bibliographique. Plus précis mais sans doute plus déroutant pour le profane…

Jusqu’ici, on utilisait de « bibo » que les classes « Book », « Periodical », « Series ». D’autres types de documents sont désormais identifiés: « Image », « Audio », « Audiovisual »…

– Idem pour Dublin Core : Image, Moving Image, Sound…

Côté ISBD, on utilise les deux propriétés isbd:P1001 « Content form » (type de contenu) et isbd:P1003 « Media type » (type de « médiation ») qui font appel à des listes de valeurs contrôlées.

Auparavant on ne distinguait guère que les documents imprimés et électroniques.  Désormais, le spectre des documents identifiés est plus large, même si pas encore tout à fait exhaustif : images fixes ou animées, documents musicaux ou sonores, cartographiques, microformes…

Exemple (RDF/XML):

<bibo:AudioVisualDocument rdf:about="http://www.sudoc.fr/114415641/id">
 <dc:title>Les Shadoks  [Images animées]  : l'intégrale des origines à nos jours  / René Borg, Robert Richez, Jacques Rouxel... [et al.], réal.  ; Jacques Rouxel, texte  ; Robert Cohen-Solal, comp.  ; Claude Piéplu, voix</dc:title>
 …
 <isbd:P1001>
 <skos:Concept rdf:about="http://iflastandards.info/ns/isbd/terms/contentform/T1002">
 <skos:prefLabel xml:lang="en">image</skos:prefLabel></skos:Concept>
 </isbd:P1001>
 <isbd:P1003>
 <skos:Concept rdf:about="http://iflastandards.info/ns/isbd/terms/mediatype/T1007"><skos:prefLabel xml:lang="en">video</skos:prefLabel></skos:Concept>
 </isbd:P1003>
 …
 </bibo:AudioVisualDocument>

Soit en Turtle :

<http://www.sudoc.fr/114415641/id> a bibo:AudioVisualDocument ;
 dc:title "Les Shadoks  [Images animées]  : l'intégrale des origines à nos jours  / René Borg, Robert Richez, Jacques Rouxel... [et al.], réal.  ; Jacques Rouxel, texte  ; Robert Cohen-Solal, comp.  ; Claude Piéplu, voix" ;
 isbd:P1001 <http://iflastandards.info/ns/isbd/terms/contentform/T1002> ;
 isbd:P1003 <http://iflastandards.info/ns/isbd/terms/mediatype/T1007> ;
 dc:type "Moving Image" ;
  
 <http://iflastandards.info/ns/isbd/terms/contentform/T1002> a skos:Concept ;
 skos:prefLabel "image"@en .
 <http://iflastandards.info/ns/isbd/terms/mediatype/T1007> a skos:Concept ;
 skos:prefLabel "video"@en .

Zones de liens bibliographiques : Unimarc 4XX

Ces liens se trouvent dans les zones 4XX de l’Unimarc, une bonne partie d’entre eux concernant les périodiques dont ils permettent de reconstituer l’historique (suite de/ devient, fusions/scissions, etc.).

Jusqu’ici, seule une petite partie d’entre eux était convertie, à l’aide des propriétés relationnelles de Dublin Core, beaucoup moins précis en la matière que l’Unimarc : hasFormat, relation, hasVersion.

A présent presque tous ces liens sont publiés. Il reste encore un peu de  Dublin Core (is part of / has part), de Bibo, à la marge (notamment pour les tirés à part) ; le reste avec RDA qui a fourni l’essentiel du vocabulaire ad hoc. (Voir la suite)

Certaines relations ont été par la même occasion précisées par une nouvelle propriété : par exemple « Est une reproduction de » : traduit par dcterms:isFormat l’est désormais par rdau:P60297 (is reproduction of)

Deux zones Unimarc sont encore exprimées de façon approximative :

– 451 : Autre édition sur un même support

– 452 : Autre édition sur un support différent

Elles n’existent dans aucun vocabulaire et devront être forgées.

La suite consistera à exposer  ces mêmes champs 4XX quand ils n’ont pas de lien, c’est-à-dire lorsqu’ils sont utilisés comme points d’accès. Comme, par exemple, les nombreuses 463$t ou 464$t (Comprend) contenant des titres de volumes ou d’œuvres contenues.

Mises à jour, présentes et à venir : bonnes pratiques

L’ancienne propriété a été pour l’instant  conservée, de façon redondante.

Par ailleurs, les propriétés RDA WorkManifested, ManifestationOfWork, et la classe Work : déjà utilisées dans quelques cas précis (titres uniformes, thèses) sont désormais obsolètes et sont  remplacées par leurs homologues rdam:P30135, rdac:C10001. De même que modeOfIssuance par  rdau:30003

A noter que le vocabulaire obsolète est pour l’instant maintenu. Ceci dans un souci d’assurer une interopérabilité entre deux versions du modèle de données, et d’éviter de « casser » des applications qui exploiteraient les données impactées. Ce principe ne pourra pas toujours être appliqué, mais à l’avenir, les modifications apportées à l’existant seront annoncées à l’avance avec une échéance, comme pour les modifications habituelles de format.

A ce propos, tous les retours sont les bienvenus !

Chantier ouvert au public, casque obligatoire

D’après A. Raanes. CC by 2.0. Source :Flickr

Rappelons enfin que tout ce qui précède est détaillé dans la documentation en ligne :

http://documentation.abes.fr/sudoc/manuels/administration/sudoc_rdf

M. Jeulin