A propos du web de données, et du Sudoc en RDF, voir notamment les billets précédents ici et là.
L’été 2013 avait vu la mise en ligne d’une documentation sur l’exposition du SUDOC en RDF, et l’annonce d’un chantier visant à enrichir et affiner progressivement celle-ci. Ce chantier a produit ses premiers résultats au cours de l’année universitaire écoulée, par petites touches successives. Zoom sur les nouveautés.
Alignements
Dans un souci d’interopérabilité avec Data.bnf.fr, le FRBNF des notices BNF a été ajouté, à côté des OCN d’OCLC déjà présents : onto-bnf :FRBNF (propriété maintenue par la BnF elle-même). Les identifiants ark – présents dans une partie des notices du Sudoc, devraient suivre un peu plus tard.
Types de documents
Pour typer les documents décrits, on fait appel, de façon partiellement redondante, à trois vocabulaires :
– Bibliographic ontology (plus familièrement « bibo »). C’est un vocabulaire simplifié d’usage assez large, au-delà de la communauté professionnelle des bibliothécaires
– Dublin Core, encore plus générique
– ISBD en RDF, maintenu par l’IFLA. Celui-là correspond plus strictement à nos standards de description bibliographique. Plus précis mais sans doute plus déroutant pour le profane…
Jusqu’ici, on utilisait de « bibo » que les classes « Book », « Periodical », « Series ». D’autres types de documents sont désormais identifiés: « Image », « Audio », « Audiovisual »…
– Idem pour Dublin Core : Image, Moving Image, Sound…
Côté ISBD, on utilise les deux propriétés isbd:P1001 « Content form » (type de contenu) et isbd:P1003 « Media type » (type de « médiation ») qui font appel à des listes de valeurs contrôlées.
Auparavant on ne distinguait guère que les documents imprimés et électroniques. Désormais, le spectre des documents identifiés est plus large, même si pas encore tout à fait exhaustif : images fixes ou animées, documents musicaux ou sonores, cartographiques, microformes…
Exemple (RDF/XML):
<bibo:AudioVisualDocument rdf:about="http://www.sudoc.fr/114415641/id"> <dc:title>Les Shadoks [Images animées] : l'intégrale des origines à nos jours / René Borg, Robert Richez, Jacques Rouxel... [et al.], réal. ; Jacques Rouxel, texte ; Robert Cohen-Solal, comp. ; Claude Piéplu, voix</dc:title> … <isbd:P1001> <skos:Concept rdf:about="http://iflastandards.info/ns/isbd/terms/contentform/T1002"> <skos:prefLabel xml:lang="en">image</skos:prefLabel></skos:Concept> </isbd:P1001> <isbd:P1003> <skos:Concept rdf:about="http://iflastandards.info/ns/isbd/terms/mediatype/T1007"><skos:prefLabel xml:lang="en">video</skos:prefLabel></skos:Concept> </isbd:P1003> … </bibo:AudioVisualDocument>
Soit en Turtle :
<http://www.sudoc.fr/114415641/id> a bibo:AudioVisualDocument ; dc:title "Les Shadoks [Images animées] : l'intégrale des origines à nos jours / René Borg, Robert Richez, Jacques Rouxel... [et al.], réal. ; Jacques Rouxel, texte ; Robert Cohen-Solal, comp. ; Claude Piéplu, voix" ; isbd:P1001 <http://iflastandards.info/ns/isbd/terms/contentform/T1002> ; isbd:P1003 <http://iflastandards.info/ns/isbd/terms/mediatype/T1007> ; dc:type "Moving Image" ; <http://iflastandards.info/ns/isbd/terms/contentform/T1002> a skos:Concept ; skos:prefLabel "image"@en . <http://iflastandards.info/ns/isbd/terms/mediatype/T1007> a skos:Concept ; skos:prefLabel "video"@en .
Zones de liens bibliographiques : Unimarc 4XX
Ces liens se trouvent dans les zones 4XX de l’Unimarc, une bonne partie d’entre eux concernant les périodiques dont ils permettent de reconstituer l’historique (suite de/ devient, fusions/scissions, etc.).
Jusqu’ici, seule une petite partie d’entre eux était convertie, à l’aide des propriétés relationnelles de Dublin Core, beaucoup moins précis en la matière que l’Unimarc : hasFormat, relation, hasVersion.
A présent presque tous ces liens sont publiés. Il reste encore un peu de Dublin Core (is part of / has part), de Bibo, à la marge (notamment pour les tirés à part) ; le reste avec RDA qui a fourni l’essentiel du vocabulaire ad hoc. (Voir la suite)
Certaines relations ont été par la même occasion précisées par une nouvelle propriété : par exemple « Est une reproduction de » : traduit par dcterms:isFormat l’est désormais par rdau:P60297 (is reproduction of)
Deux zones Unimarc sont encore exprimées de façon approximative :
– 451 : Autre édition sur un même support
– 452 : Autre édition sur un support différent
Elles n’existent dans aucun vocabulaire et devront être forgées.
La suite consistera à exposer ces mêmes champs 4XX quand ils n’ont pas de lien, c’est-à-dire lorsqu’ils sont utilisés comme points d’accès. Comme, par exemple, les nombreuses 463$t ou 464$t (Comprend) contenant des titres de volumes ou d’œuvres contenues.
Mises à jour, présentes et à venir : bonnes pratiques
L’ancienne propriété a été pour l’instant conservée, de façon redondante.
Par ailleurs, les propriétés RDA WorkManifested, ManifestationOfWork, et la classe Work : déjà utilisées dans quelques cas précis (titres uniformes, thèses) sont désormais obsolètes et sont remplacées par leurs homologues rdam:P30135, rdac:C10001. De même que modeOfIssuance par rdau:30003
A noter que le vocabulaire obsolète est pour l’instant maintenu. Ceci dans un souci d’assurer une interopérabilité entre deux versions du modèle de données, et d’éviter de « casser » des applications qui exploiteraient les données impactées. Ce principe ne pourra pas toujours être appliqué, mais à l’avenir, les modifications apportées à l’existant seront annoncées à l’avance avec une échéance, comme pour les modifications habituelles de format.
A ce propos, tous les retours sont les bienvenus !
Rappelons enfin que tout ce qui précède est détaillé dans la documentation en ligne :
http://documentation.abes.fr/sudoc/manuels/administration/sudoc_rdf
M. Jeulin