Quels contrôles qualité sur les notices de thèses en provenance du Sudoc ?

Deux types d’outils de production pour le signalement des thèses en France existent :

  • STAR pour les thèses déposées au format électronique (et son jumeau STEP pour les thèses avant soutenance),
  • WinIBW pour les thèses déposées au format papier.

Ces outils n’ont pas grand-chose en commun.

Continuer la lectureQuels contrôles qualité sur les notices de thèses en provenance du Sudoc ?

L’attribution d’un code de domaine aux notices en provenance du Sudoc

L’interface de theses.fr propose une recherche par facettes. L’une d’entre elles est le domaine. Il s’agit d’une liste fermée de 98 codes et libellés élaborée dans le cadre de la recommandation TEF pour faciliter le moissonnage des données exposées sur un serveur OAI-PMH.

La recommandation TEF propose une liste de sets qui classe les thèses par sujets. Une telle classification pourra contribuer à harmoniser le mode d’organisation des serveurs OAI, ce qui doit faciliter le moissonnage sélectif et la construction de réservoirs spécialisés sur tel ou tel sujet. Cet enjeu n’étant pas borné à la France, la classification des sets proposée par TEF s’inspire au plus près de la classification analogue proposée par la DINI allemande, qui elle-même s’appuie sur la Classification Décimale Dewey. Cette classification TEF reprend systématiquement les indices Dewey correspondant à une dizaine, sauf exceptions.

Continuer la lectureL’attribution d’un code de domaine aux notices en provenance du Sudoc

Comment isoler les thèses de doctorat soutenues en France au sein des données Sudoc ?

Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr
Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Ce billet entame une série sur le chargement des données du Sudoc dans theses.fr

theses.fr a ouvert en juillet 2011 avec les données en provenance de STAR (les thèses déposées au format électronique au sens de l’arrêté du 26 août 2006), soit une infime partie des thèses de doctorat soutenues en France. Pour que theses.fr puisse prétendre à l’exhaustivité du signalement des thèses de doctorat soutenues en France, il fallait charger dans theses.fr les données du Sudoc concernant les thèses de doctorat.

Continuer la lectureComment isoler les thèses de doctorat soutenues en France au sein des données Sudoc ?

Le cercle vertueux de theses.fr : mise en relation de l’utilisateur et du producteur de données

  • Auteur/autrice de la publication :
  • Post category:theses.fr
L. Par J.G. Park. CC BY-NC 2.0. Source : Flickr

Depuis début avril, le bouton « signaler un problème » de theses.fr présent sur les pages de thèses en préparation et de thèses soutenues permet à un utilisateur lambda d’entrer en contact avec l’établissement de soutenance responsable des données. Le Fil ABES expose le contexte de la mise en place du feedback dans theses.fr.

Continuer la lectureLe cercle vertueux de theses.fr : mise en relation de l’utilisateur et du producteur de données

theses.fr : comment fonctionne l’onglet « personnes » ?

(If libraries were like relational databases. Par Bpanulla. CC BY-NC-SA 2.0 . Source : Flickr)

Depuis le 17 janvier, www.theses.fr propose un nouveau périmètre de recherche : les personnes impliquées dans la recherche doctorale française (directeurs de thèse, auteurs de thèse et rapporteurs).

Pour mettre en place cette nouvelle fonctionnalité, l’ABES a dû résoudre plusieurs difficultés techniques.

En effet, theses.fr s’appuie sur SolR, un moteur de recherche proposant une API XML et JSON par HTTP. Les données exposées étant décrites par document (TEF), nous les avons naturellement indexées de cette manière. C’est-à-dire qu’une thèse (soutenue ou en préparation) correspond à un TEF et est indexée sous la forme d’un document SolR.
La description d’une thèse contient, entre autre, son auteur, son directeur de thèse, ses rapporteurs.

Continuer la lecturetheses.fr : comment fonctionne l’onglet « personnes » ?

theses.fr : l’API XML de recherche

  • Auteur/autrice de la publication :
  • Post category:theses.fr

logoThesesFrtheses.fr dispose d’une API permettant de récupérer les résultats d’une requête.

Construisez votre requête via l’interface http://www.theses.fr et ajoutez à l’URL de la page le paramètre &format= suivi du format choisi parmi les trois actuellement proposés : XML, JSON et ATOM.

Exemple : vous cherchez toutes les thèses soutenues à Aix-Marseille 2 entre 2010 et 2011 ayant comme discipline « Environnement et santé » et pour lesquelles le texte intégral est accessible en ligne. Dans l’interface, sélectionnez les filtres et facettes correspondants : filtre « Uniquement les thèses soutenues accessibles en ligne » ; date de soutenance entre 2010 et 2011 ; facette Etablissement « Aix-Marseille 2 »  et facette Discipline « Environnement et santé »
L’URL de votre requête est :

Continuer la lecturetheses.fr : l’API XML de recherche

theses.fr : les technologies utilisées

logoThesesFrLe moteur de recherche theses.fr a été développée en interne par l’Abes. Il s’agit d’une application web Java, tournant sur le conteneur de servlet Tomcat, et dont les urls sont réécrites via Apache.

Nous avons choisi d’utiliser uniquement des JSP et Servlet, sans framework particulier. Voici les quelques librairies utilisées :  Saxon / JDOM / SolRJ / JSON …
La partie « visible » est constituée d’HTML (bien sûr!) et d’une feuille de style (créée par Oxynel), ainsi que de javascript (JQuery) pour les widgets présents : autocompleter, slider, checkers…

Cependant, theses.fr sait délivrer autre chose que de l’HTML, via ses Servlets. Les API XML de theses.fr permettent d’obtenir le contenu sous différents formats, tels que (pour l’instant !) :

  • Flux Atom
  • RDF
  • XML
Continuer la lecturetheses.fr : les technologies utilisées

theses.fr : l’API XML des personnes

  • Auteur/autrice de la publication :
  • Post category:theses.fr

logoThesesFrtheses.fr dispose d’une API dédiée aux personnes. Elle permet de récupérer les informations de la personne et la liste des thèses liées.

Repérez la page de la personne qui vous intéresse, et ajoutez le paramètre .rdf à l’URL de la page.

Exemples : http://www.theses.fr/034282297

et http://www.theses.fr/034282297.rdf

Vous obtenez un fichier RDF/XML.

Les données décrivant la personne utilisent le vocabulaire FOAF, les données décrivant les thèses utilisent BIBO et DC, les relations sont exprimées grâce aux MARC RELATORS PROPERTIES

theses.fr utilise les autorités du Sudoc : chaque personne possède un identifiant propre à theses.fr mais aussi son  identifiant pérenne issu du référentiel IdRef.

Attention : cet API ne permet pas de récupérer le nuage de mots de la personne disponible dans l’interface de theses.fr

Le dernier chapitre de la documentation de theses.fr est consacré aux API.

N’hésitez pas à utiliser le guichet d’assistance ABESstp pour nous faire part de vos remarques.

IMR

Continuer la lecturetheses.fr : l’API XML des personnes

theses.fr : l’API XML des thèses

  • Auteur/autrice de la publication :
  • Post category:theses.fr

logoThesesFrMoteur de recherche des thèses de doctorat françaises, theses.fr propose des API XML d’accès aux données.

Le principe est d’utiliser l’interface puis d’ajouter un paramètre à l’URL pour obtenir les données brutes.

Pour récupérer les données d’une thèse de theses.fr en RDF, repérez la thèse convoitée, récupérez son URL, ajoutez .rdf

Exemples :

http://www.theses.fr/2009PA040090

et

http://www.theses.fr/2009PA040090.rdf

Dans le fichier RDF/XML, les vocabulaires suivants sont utilisés

  • pour qualifier les éléments de la thèse : Dublin Core, BIBO, ISBD (vocabulaire en cours de normalisation par l’IFLA)
  • pour décrire les personnes et les organismes : FOAF
  • pour décrire les relations : MARC RELATORS PROPERTIES

Le dernier chapitre de la documentation de theses.fr est consacré aux API.

Les API de theses.fr démarrent modestement ;  n’hésitez à nous faire part de vos besoins via le guichet d’assistance ABESstp

IMR

Continuer la lecturetheses.fr : l’API XML des thèses
Aller au contenu principal