theses.fr : l’API XML de recherche

logoThesesFrtheses.fr dispose d’une API permettant de récupérer les résultats d’une requête.

Construisez votre requête via l’interface http://www.theses.fr et ajoutez à l’URL de la page le paramètre &format= suivi du format choisi parmi les trois actuellement proposés : XML, JSON et ATOM.

Exemple : vous cherchez toutes les thèses soutenues à Aix-Marseille 2 entre 2010 et 2011 ayant comme discipline « Environnement et santé » et pour lesquelles le texte intégral est accessible en ligne. Dans l’interface, sélectionnez les filtres et facettes correspondants : filtre « Uniquement les thèses soutenues accessibles en ligne » ; date de soutenance entre 2010 et 2011 ; facette Etablissement « Aix-Marseille 2 »  et facette Discipline « Environnement et santé »
L’URL de votre requête est :

http://www.theses.fr/?q=&fq=dateSoutenance:[2010-01-01T23:59:59Z%2BTO%2B2011-12-31T23:59:59Z]&checkedfacets=etablissement=Aix Marseille 2;discipline=Environnement et santé;&start=0&status=&access=accessible:oui

Ajoutez &format=xml à cette URL.

http://www.theses.fr/?q=&fq=dateSoutenance:[2010-01-01T23:59:59Z%2BTO%2B2011-12-31T23:59:59Z]&checkedfacets=etablissement=Aix Marseille 2;discipline=Environnement et santé;&start=0&status=&access=accessible:oui&format=xml

Vous obtenez un fichier XML issu du moteur SolR utilisé par theses.fr

Pour chaque thèse vous disposez :

  • de l’indicateur de la disponibilité de la thèse sur le web : accessible : oui / non
  • du nom et prénom de l’auteur
  • du numéro de la notice d’autorité de l’auteur dans le Sudoc et dans IdRef
  • de la date de soutenance
  • des noms et prénoms des directeurs de thèse
  • des numéros de leurs notices d’autorité dans le Sudoc et dans IdRef
  • de la discipline de la thèse
  • du nom de de l’établissement de soutenance
  • du numéro de sa notice d’autorité dans le Sudoc et dans IdRef
  • de la langue de la thèse
  • du numéro national de thèse pour les thèses soutenues
  • des codes de domaine (codes oaiset issus de la classification décimale Dewey et utilisés par la recommandation TEF)
  • du statut de la thèse : soutenue / en préparation
  • du titre de la thèse

Vous pouvez aussi obtenir ces données au format JSON en ajoutant à l’URL &format=json

Le format ATOM est également disponible en ajoutant &format=atom.

 

Remarque : quelle différence entre le bouton « S’abonner » et le paramètre &format=atom ?
Les données sont les mêmes mais le tri est différent. Le bouton  « S’abonner » génère un flux ATOM trié par date de soutenance décroissant.

Le paramètre  &format=atom applique comme critère de tri celui choisi dans l’interface au moment de la génération de la requête.

L’API de recherche de theses.fr permet de récupérer les résultats de toutes les recherches faites dans theses.fr : filtres, facettes et chaîne de caractère compris.
Par exemple, vous voulez récupérer en JSON la liste des thèses soutenues depuis 2009 en anglais qui traitent du lessivage des terres rares (si si !), votre requête sera :

http://www.theses.fr/?q=lessivage « terres rares »&fq=dateSoutenance:[2009-01-01T23:59:59Z%2BTO%2B2011-12-31T23:59:59Z]&checkedfacets=langueThese=en;&start=0&status=&access=&format=json

Le dernier chapitre de la documentation de theses.fr est consacré aux API.

N’hésitez pas à utiliser le guichet d’assistance ABESstp pour nous faire part de vos remarques.

IMR

Advertisements

2 réflexions sur “theses.fr : l’API XML de recherche

  1. Bonjour,

    J’ai étudié l’API permettant l’accès aux thèses sur theses.fr et j’ai une question :
    Est-il possible de construire une requete permettant de récupérer les theses dont on connait le « auteurPpn » ou le « directeurThesePpn » ?

    Ces attributs ne faisant partie ni des paramètres de la requête ni des facettes il m’a été impossible de construire une telle requête.

    Merci par avance.
    Adrian

Les personnes disposent d’un droit d’accès aux informations contenues dans cette zone de texte. Les informations que vous y inscrivez doivent être pertinentes au regard du contexte. Elles ne doivent pas comporter d’appréciation subjective, ni faire apparaître, directement ou indirectement les origines raciales, les opinions politiques, philosophiques ou religieuses, les appartenances syndicales ou les mœurs de la personne concernée.

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s