L’attribution d’un code de domaine aux notices en provenance du Sudoc

L’interface de theses.fr propose une recherche par facettes. L’une d’entre elles est le domaine. Il s’agit d’une liste fermée de 98 codes et libellés élaborée dans le cadre de la recommandation TEF pour faciliter le moissonnage des données exposées sur un serveur OAI-PMH.

La recommandation TEF propose une liste de sets qui classe les thèses par sujets. Une telle classification pourra contribuer à harmoniser le mode d’organisation des serveurs OAI, ce qui doit faciliter le moissonnage sélectif et la construction de réservoirs spécialisés sur tel ou tel sujet. Cet enjeu n’étant pas borné à la France, la classification des sets proposée par TEF s’inspire au plus près de la classification analogue proposée par la DINI allemande, qui elle-même s’appuie sur la Classification Décimale Dewey. Cette classification TEF reprend systématiquement les indices Dewey correspondant à une dizaine, sauf exceptions.

Continuer la lecture

Comment isoler les thèses de doctorat soutenues en France au sein des données Sudoc ?

Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr
Back to my packing egg / Rubí Flórez / CC BY-NC-ND 2.0, via Flickr

Ce billet entame une série sur le chargement des données du Sudoc dans theses.fr

theses.fr a ouvert en juillet 2011 avec les données en provenance de STAR (les thèses déposées au format électronique au sens de l’arrêté du 26 août 2006), soit une infime partie des thèses de doctorat soutenues en France. Pour que theses.fr puisse prétendre à l’exhaustivité du signalement des thèses de doctorat soutenues en France, il fallait charger dans theses.fr les données du Sudoc concernant les thèses de doctorat.

Continuer la lecture