Le Sudoc sur le Web de données : plus de détails

Après d’autres catalogues, l’ABES publie aujourd’hui les 10 millions de notices bibliographiques du Sudoc sur le Web de données. Cette décision vient compléter les précédentes initiatives de l’Agence en matière de participation au Web sémantique :

  • En 2008, Calames, catalogue des archives et des manuscrits, devenait conforme à RDFa.
  • En octobre 2010, dès son ouverture, IdRef exposait en RDF/XML plus de 2 millions d’entités décrites par ses notices d’autorité. D’ailleurs, à partir d’aujourd’hui, ces données RDF/XML sont encore plus riches.
  • En octobre 2010, à l’occasion de l’ouverture de la nouvelle version de STAR, application professionnelle de gestion des thèses numériques, chaque thèse de STAR était décrite par une page HTML conforme à RDFa. D’ici quelques jours, ces milliers de pages seront refondues et absorbées dans theses.fr, le portail des thèses françaises. theses.fr restera conforme à RDFa et proposera également des pages RDF/XML.

Comment accéder au contenu sémantique des pages Sudoc ?

Si vous utilisez l’interface Web classique du Sudoc, vous ne pourrez pas accéder, pour l’instant, à la version sémantique des données Sudoc. En effet, cette interface est générée par un logiciel fourni par un des prestataires de l’ABES, ce qui limite notre marge de manœuvre technique.

Il faut donc partir des nouvelles URL officielles du Sudoc, qui sont de type :

http//www.sudoc.fr/{identifiant PPN}

dont, par exemple :

http://www.sudoc.fr/132133520

Si vous utilisez un navigateur Web, cette URL vous redirigera vers :

http://www.sudoc.abes.fr/xslt/DB=2.1/SRCH?IKT=12&TRM=132133520

qui est l’URL de l’interface classique, destinée aux humains.

Mais, si vous utilisez un outil qui attend du RDF, le serveur vous renverra du RDF/XML, l’équivalent de la page suivante :

http://www.sudoc.fr/132133520.rdf

Enfin, si vous êtes un robot de moteur de recherche, le serveur vous renverra une page HTML spéciale, invisible aux humains, truffée de métadonnées Microdata conforme au vocabulaire schema.org, promu par Google, Yahoo et Bing. Astuce : ce contenu HTML spécial est directement accessible à cette adresse :

http://www.sudoc.fr/132133520.html

Si vous soumettez cette URL à cet outil en ligne proposé par Google, vous pourrez visualiser les métadonnées structurées qui sont cachées entre les balises HTML. Vous constaterez également que ces métadonnées sont moins riches que celles contenues dans la version RDF de cette même notice Sudoc.

Derrière les balises, des principes

L’annonce des trois moteurs de recherche dominants qui sont derrière schema.org suscite une polémique violente mais profonde, comme en témoigne cette synthèse « un mois après« . L’irruption de schema.org fait craindre une reddition du Web de données au diktat des marchands de publicité que sont, de facto, les moteurs de recherche.

En choisissant d’exposer les données Sudoc en RDF, l’ABES affirme son attachement à un Web de données ouvert, standard, pluraliste, décentralisé. En soumettant parallèlement aux moteurs de recherche des pages HTML enrichies de métadonnées schema.org, l’ABES prend au sérieux sa mission de rendre visibles et accessibles les fonds documentaires des bibliothèques universitaires. Or, en-deçà des moteurs, point de salut.

Nous ne voyons là ni conflit de valeurs, ni contradiction technique. Essayons. Corrigeons ensuite s’il le faut.

A suivre

Ce billet d’annonce est déjà trop long. D’autres posts suivront, dans les prochaines semaines. Ils reviendront notamment sur les choix de modélisation RDF ou sur les évolutions à venir.

Cet article a 9 commentaires

  1. Stanislas

    Bonjour,
    IdRef est consultable en UNIMARC/XML et en RDF/XML, mais le Sudoc seulement en RDF/XML. Est-il en projet de pouvoir aussi consulter le Sudoc en UNIMARC/XML ?
    Cordialement,

    1. FilAbes

      Bonjour,
      Hélas non, toujours pas…
      Cordialement

Laisser un commentaire

Aller au contenu principal