Sudoc, IdRef : de nouveaux Micro Web Services

De nouveaux Micro Web Services Sudoc et IdRef ont été développés :

  • merged : à partir d’un PPN de notice Sudoc ou IdRef fusionnée, trouver le PPN actif (notice valide)
  • multiwhere : localiser (RCR de localisation) un ou plusieurs document(s) à partir de leur identifiant Sudoc (PPN)

A noter : un service where a été précédemment développé pour permettre la localisation d’un seul document à partir de son identifiant (PPN). Il est dorénavant conseillé d’utiliser le multiwhere qui est plus riche que le where : non seulement il permet de traiter plusieurs notices à la fois, mais il contient également les coordonnées géographiques de chaque bibliothèque.

  • frbn2ppn, ocn2ppn, etc. : connaitre l’identifiant Sudoc à partir d’un identifiant externe (BnF, WorldCat, etc.)
  • iln2rcr : connaître la liste des RCR rattachés à un ILN

Pour  retrouver l’ensemble de la documentation technique :

Continuer la lecture

SudocAD : résumé du projet

Voici le résumé du rapport final (+ annexes) du projet SudocAD, mené par l’ABES et le LIRMM en 2010-2011 et co-financé par le TGE ADONIS :

Mené par l’ABES et l’équipe de recherche GraphIK du LIRMM, co-financé par le TGE ADONIS dans le cadre de son appel à projets 2009-2010, le projet SudocAD vise à interconnecter entre eux différents corpus de métadonnées agrégés par la plateforme de recherche ISIDORE, en les reliant au référentiel IdRef. Ce qui est en jeu, ce n’est pas seulement l’efficacité de la recherche dans Isidore, mais l’intégration des données SHS françaises au web de données, auquel IdRef est déjà connecté.

L’objectif opérationnel du projet était d’enrichir automatiquement des notices d’articles du portail Persée, en identifiant (quand elle existe) l’autorité IdRef correspondant à chacun des auteurs de l’article. 13 444 notices ont ainsi été traitées et livrées à ADONIS et à l’équipe Persée.

Pour identifier la notice d’autorité IdRef qui correspond à l’auteur Persée, SudocAD ne se contente pas d’utiliser les informations contenues dans la notice d’autorité mais exploite les connaissances enfouies dans les notices bibliographiques Sudoc liées. Toutes ces connaissances sont exprimées en RDF, selon le vocabulaire FRBROO. Il devient possible alors de raisonner à propos de ces connaissances, grâce aux outils sémantiques conçus et développés par GraphIk.

Les principales étapes du traitement opéré par SudocAD sont les suivantes : le nom et le prénom de l’auteur Persée sont utilisés pour sélectionner une liste parfois longue d’autorités IdRef candidates ; le raisonneur du LIRMM charge un ensemble de données RDF composées de la notice Persée, des autorités candidates et des notices bibliographiques Sudoc liées à ces autorités ; enfin, après avoir analysé ces données au moyen de règles logiques, le raisonneur répartit les autorités candidates en sept catégories de liage, de Strong à Impossible.

SudocAD ne donne donc pas directement un verdict sur la bonne autorité à lier. Mais, à partir du rapport d’analyse en XML et des sept catégories, il est facile de définir un algorithme qui détermine automatiquement l’autorité à lier. Mais il existe plusieurs manières de construire un tel algorithme. Ce rapport distingue les algorithmes de liage automatique qui paraissent les plus pertinents.

A côté du liage automatique, le rapport d’analyse généré par SudocAD peut également être utilisé dans une perspective d’aide à la décision. Il s’agirait d’utiliser ce rapport pour présenter les autorités candidates d’une manière qui facilite et fiabilise le travail manuel du catalogueur qui cherche à lier une notice bibliographique à une autorité.

Afin d’évaluer l’approche de SudocAD, un protocole a été établi pour comparer les résultats d’un traitement automatique aux décisions de liage prises par un catalogueur. Sur un échantillon de 150 notices Persée, elle montre que SudocAD atteint un très bon taux de bonnes décisions (liage ou non liage), autour de 80%, et surtout un taux d’erreur (création de liens erronés) inférieur à  2%.

Au-delà du projet SudocAD, l’ABES et l’équipe GraphIK ont la volonté d’éprouver la validité de cette approche sur d’autres corpus de métadonnées et d’améliorer encore son efficacité en corrigeant les défauts actuels et surtout en élargissant le spectre des informations prises en compte, notamment en exploitant de manière sémantique les co-auteurs et le vocabulaire Rameau.

Continuer la lecture

theses.fr : comment fonctionne l’onglet « personnes » ?

(If libraries were like relational databases. Par Bpanulla. CC BY-NC-SA 2.0 . Source : Flickr)

Depuis le 17 janvier, www.theses.fr propose un nouveau périmètre de recherche : les personnes impliquées dans la recherche doctorale française (directeurs de thèse, auteurs de thèse et rapporteurs).

Pour mettre en place cette nouvelle fonctionnalité, l’ABES a dû résoudre plusieurs difficultés techniques.

En effet, theses.fr s’appuie sur SolR, un moteur de recherche proposant une API XML et JSON par HTTP. Les données exposées étant décrites par document (TEF), nous les avons naturellement indexées de cette manière. C’est-à-dire qu’une thèse (soutenue ou en préparation) correspond à un TEF et est indexée sous la forme d’un document SolR.
La description d’une thèse contient, entre autre, son auteur, son directeur de thèse, ses rapporteurs.

Continuer la lecture

PCP : gérer vos états de collection

Au premier semestre 2012, une interface de visualisation des plans de conservation partagée (PCP) sera ouverte. En exploitant les états de collection des périodiques, elle donnera à voir dans un premier temps les lacunes et les redondances existant dans un périmètre modulable de bibliothèques (PCP, département, région, toute la France, etc.).
Cette interface s’adresse principalement aux gestionnaires de PCP existants mais doit permettre aussi le développement  de nouveaux PCP.

Continuer la lecture

Exemplariser sans WinIBW

Au second semestre 2012, l’ABES proposera une interface Web dédiée à l’exemplarisation. Cette nouvelle application s’adressera aux professionnels des réseaux Sudoc et Sudoc-PS pour exemplariser un document, sans modifier le niveau bibliographique des notices.

  • Ergonomie :

La connaissance du format MARC ne sera pas un pré-requis nécessaire à la saisie des données.
L’interface devrait s’articuler sur 4 écrans :
1-Onglet Recherche
2-Onglet Résultat (liste de notices bibliographiques)
3-Onglet Titre
4-Onglet Edition (modification, création)

Continuer la lecture

theses.fr : les technologies utilisées

logoThesesFrtheses.fr a été développée en interne par l’ABES.

Il s’agit d’une application web Java, tournant sur le conteneur de servlet Tomcat, et dont les urls sont réécrites via Apache.
Nous avons choisi d’utiliser uniquement des JSP et Servlet, sans framework particulier ; voici les quelques librairies utilisées :  Saxon / JDOM / SolRJ / JSON …
La partie « visible » est constituée d’HTML (bien sûr!) et d’une feuille de style (créée par Oxynel), ainsi que de javascript (JQuery) pour les widgets présents : autocompleter, slider, checkers…
Mais theses.fr sait délivrer autre chose que de l’HTML, via ses Servlets. Les API XML de theses.fr vous permettent d’obtenir le contenu sous différents formats, tels que (pour l’instant !) :
– Flux Atom
– RDF
– XML

Continuer la lecture

IdRef : des pages HTML et RDF plus riches

En Octobre 2010, l’ABES a inauguré IdRef, avec l’ambition de promouvoir l’utilisation des autorités Sudoc au-delà du Sudoc, et même au-delà des seules applications ABES comme Calames ou STAR.

Parmi les moyens techniques mis au service de cette stratégie, figurait l’exposition sur le Web des données d’autorité au moyen de pages HTML et RDF dédiées et d’une batterie d’URL pérennes associées. Depuis ce matin, ces pages sont considérablement enrichies.

Continuer la lecture

Le Sudoc sur le Web de données : plus de détails

Après d’autres catalogues, l’ABES publie aujourd’hui les 10 millions de notices bibliographiques du Sudoc sur le Web de données. Cette décision vient compléter les précédentes initiatives de l’Agence en matière de participation au Web sémantique :

  • En 2008, Calames, catalogue des archives et des manuscrits, devenait conforme à RDFa.
  • En octobre 2010, dès son ouverture, IdRef exposait en RDF/XML plus de 2 millions d’entités décrites par ses notices d’autorité. D’ailleurs, à partir d’aujourd’hui, ces données RDF/XML sont encore plus riches.
  • En octobre 2010, à l’occasion de l’ouverture de la nouvelle version de STAR, application professionnelle de gestion des thèses numériques, chaque thèse de STAR était décrite par une page HTML conforme à RDFa. D’ici quelques jours, ces milliers de pages seront refondues et absorbées dans theses.fr, le portail des thèses françaises. theses.fr restera conforme à RDFa et proposera également des pages RDF/XML.
Continuer la lecture

IdRef dans votre application

Depuis octobre 2010, les interfaces professionnelles de STAR et de Calames sont « branchées » sur IdRef. Pour sélectionner un concept Rameau ou pour créer une notice d’autorité pour un nouvel auteur, les catalogueurs de thèse ou de manuscrits cliquent sur un bouton IdRef de leur interface de saisie et basculent dans les formulaires Web d’IdRef pour y lancer une recherche ou saisir des informations qui seront enregistrées dans LA base centrale et unique des autorités Sudoc.

Continuer la lecture