theses.fr : comment fonctionne l’onglet « personnes » ?

(If libraries were like relational databases. Par Bpanulla. CC BY-NC-SA 2.0 . Source : Flickr)

Depuis le 17 janvier, www.theses.fr propose un nouveau périmètre de recherche : les personnes impliquées dans la recherche doctorale française (directeurs de thèse, auteurs de thèse et rapporteurs).

Pour mettre en place cette nouvelle fonctionnalité, l’ABES a dû résoudre plusieurs difficultés techniques.

En effet, theses.fr s’appuie sur SolR, un moteur de recherche proposant une API XML et JSON par HTTP. Les données exposées étant décrites par document (TEF), nous les avons naturellement indexées de cette manière. C’est-à-dire qu’une thèse (soutenue ou en préparation) correspond à un TEF et est indexée sous la forme d’un document SolR.
La description d’une thèse contient, entre autre, son auteur, son directeur de thèse, ses rapporteurs.

Comment arriver à rechercher sur ces personnes, alors que l’index est fait par document ?

Avec une base de données relationnelle, il aurait suffi de faire une jointure entre la table du « document » et la table des « personnes ».
Dans notre cas, il a fallu fabriquer une indexation dédiée à ce type de recherche.
Nous avons utilisé un SolR « personnes », destiné à indexer des personnes.
A chaque indexation d’un document thèse :
– un programme récupère les personnes liées (par leur numéro d’identifiant, le PPN de la notice d’autorité IdRef-Sudoc),
– les supprime éventuellement du SolR « personnes » (pour ne pas avoir de personnes sans thèse liée, dans le cas d’une mise à jour d’une thèse),
– puis pour chaque PPN trouvé, et pour chaque rôle possible, effectue une recherche dans le SolR « thèses » afin de trouver les thèses liées à ce PPN. Et ce sert de ces informations pour ajouter une fiche ainsi constituée au SolR « personnes ».
La recherche dans l’onglet « personnes » utilise le SolR « personnes » afin de trouver les fiches correspondant à tous les critères de recherche.
Pour chaque fiche de personne trouvée, le programme effectue une sous requête par rôle sur le SolR « thèses » afin de n’afficher que les thèses correspondant à au moins un des critères de recherche.

Exemple

La thèse http://www.theses.fr/2011TOU20094 a pour auteur  Mehdi Ghouirgate, pour directeur Philippe Sénac, pour rapporteurs Pascal Buresi et Jean-Pierre Van Staëvel, et comme mot-clé al-andalus. Cette thèse correspond au document 2011TOU20094 dans le SolR « thèses »
Au moment de son insertion dans theses.fr, un document est créé dans le SolR « thèses » et quatre documents sont créés dans le SolR  « personnes ».
Jean-Pierre Van Staëvel a été rapporteur d’une thèse,  a été directeur de quelques thèses soutenues, et est actuellement directeur d’une dizaine de thèses en préparation.
Dans le SolR « personnes », le document  SolR qui décrit Jean-Pierre Van Staëvel contient le fait qu’il est rapporteur de la thèse http://www.theses.fr/2011TOU20094 et qu’il est directeur notamment des thèses en préparation http://www.theses.fr/s33517 et http://www.theses.fr/s37444
Dans le SolR « thèses », le document 2011TOU20094 indique que cette thèse a pour mot clé al-andalus et  les documents s33517 et s37444 ont le mot maroc dans les mots du titre des thèses en préparation.
Ainsi si vous faites une recherche sur maroc al-andalus dans l’onglet « personnes » vous avez notamment comme résultat Jean-Pierre Van Staëvel qualifié par une thèse soutenue dont il est rapporteur (2011TOU20094) et deux thèses en préparation dont il est directeur (s33517 et s37444).
L’onglet « personnes » de theses.fr consolide donc l’information présente dans les deux SolR.

A. Charot

Publicités