Le cercle vertueux de theses.fr : mise en relation de l’utilisateur et du producteur de données

L. Par J.G. Park. CC BY-NC 2.0. Source : Flickr

Depuis début avril, le bouton « signaler un problème » de theses.fr présent sur les pages de thèses en préparation et de thèses soutenues permet à un utilisateur lambda d’entrer en contact avec l’établissement de soutenance responsable des données. Le Fil ABES expose le contexte de la mise en place du feedback dans theses.fr.

Continuer la lecture

theses.fr : comment fonctionne l’onglet « personnes » ?

(If libraries were like relational databases. Par Bpanulla. CC BY-NC-SA 2.0 . Source : Flickr)

Depuis le 17 janvier, www.theses.fr propose un nouveau périmètre de recherche : les personnes impliquées dans la recherche doctorale française (directeurs de thèse, auteurs de thèse et rapporteurs).

Pour mettre en place cette nouvelle fonctionnalité, l’ABES a dû résoudre plusieurs difficultés techniques.

En effet, theses.fr s’appuie sur SolR, un moteur de recherche proposant une API XML et JSON par HTTP. Les données exposées étant décrites par document (TEF), nous les avons naturellement indexées de cette manière. C’est-à-dire qu’une thèse (soutenue ou en préparation) correspond à un TEF et est indexée sous la forme d’un document SolR.
La description d’une thèse contient, entre autre, son auteur, son directeur de thèse, ses rapporteurs.

Continuer la lecture

theses.fr : l’API XML de recherche

logoThesesFrtheses.fr dispose d’une API permettant de récupérer les résultats d’une requête.

Construisez votre requête via l’interface http://www.theses.fr et ajoutez à l’URL de la page le paramètre &format= suivi du format choisi parmi les trois actuellement proposés : XML, JSON et ATOM.

Exemple : vous cherchez toutes les thèses soutenues à Aix-Marseille 2 entre 2010 et 2011 ayant comme discipline « Environnement et santé » et pour lesquelles le texte intégral est accessible en ligne. Dans l’interface, sélectionnez les filtres et facettes correspondants : filtre « Uniquement les thèses soutenues accessibles en ligne » ; date de soutenance entre 2010 et 2011 ; facette Etablissement « Aix-Marseille 2 »  et facette Discipline « Environnement et santé »
L’URL de votre requête est :

Continuer la lecture

theses.fr : les technologies utilisées

logoThesesFrtheses.fr a été développée en interne par l’ABES.

Il s’agit d’une application web Java, tournant sur le conteneur de servlet Tomcat, et dont les urls sont réécrites via Apache.
Nous avons choisi d’utiliser uniquement des JSP et Servlet, sans framework particulier ; voici les quelques librairies utilisées :  Saxon / JDOM / SolRJ / JSON …
La partie « visible » est constituée d’HTML (bien sûr!) et d’une feuille de style (créée par Oxynel), ainsi que de javascript (JQuery) pour les widgets présents : autocompleter, slider, checkers…
Mais theses.fr sait délivrer autre chose que de l’HTML, via ses Servlets. Les API XML de theses.fr vous permettent d’obtenir le contenu sous différents formats, tels que (pour l’instant !) :
– Flux Atom
– RDF
– XML

Continuer la lecture

theses.fr : l’API XML des personnes

logoThesesFrtheses.fr dispose d’une API dédiée aux personnes. Elle permet de récupérer les informations de la personne et la liste des thèses liées.

Repérez la page de la personne qui vous intéresse, et ajoutez le paramètre .rdf à l’URL de la page.

Exemples : http://www.theses.fr/034282297

et http://www.theses.fr/034282297.rdf

Vous obtenez un fichier RDF/XML.

Les données décrivant la personne utilisent le vocabulaire FOAF, les données décrivant les thèses utilisent BIBO et DC, les relations sont exprimées grâce aux MARC RELATORS PROPERTIES

theses.fr utilise les autorités du Sudoc : chaque personne possède un identifiant propre à theses.fr mais aussi son  identifiant pérenne issu du référentiel IdRef.

Attention : cet API ne permet pas de récupérer le nuage de mots de la personne disponible dans l’interface de theses.fr

Le dernier chapitre de la documentation de theses.fr est consacré aux API.

N’hésitez pas à utiliser le guichet d’assistance ABESstp pour nous faire part de vos remarques.

IMR

Continuer la lecture

theses.fr : l’API XML des thèses

logoThesesFrMoteur de recherche des thèses de doctorat françaises, theses.fr propose des API XML d’accès aux données.

Le principe est d’utiliser l’interface puis d’ajouter un paramètre à l’URL pour obtenir les données brutes.

Pour récupérer les données d’une thèse de theses.fr en RDF, repérez la thèse convoitée, récupérez son URL, ajoutez .rdf

Exemples :

http://www.theses.fr/2009PA040090

et

http://www.theses.fr/2009PA040090.rdf

Dans le fichier RDF/XML, les vocabulaires suivants sont utilisés

  • pour qualifier les éléments de la thèse : Dublin Core, BIBO, ISBD (vocabulaire en cours de normalisation par l’IFLA)
  • pour décrire les personnes et les organismes : FOAF
  • pour décrire les relations : MARC RELATORS PROPERTIES

Le dernier chapitre de la documentation de theses.fr est consacré aux API.

Les API de theses.fr démarrent modestement ;  n’hésitez à nous faire part de vos besoins via le guichet d’assistance ABESstp

IMR

Continuer la lecture