theses.fr : comment fonctionne l’onglet « personnes » ?

(If libraries were like relational databases. Par Bpanulla. CC BY-NC-SA 2.0 . Source : Flickr)

Depuis le 17 janvier, www.theses.fr propose un nouveau périmètre de recherche : les personnes impliquées dans la recherche doctorale française (directeurs de thèse, auteurs de thèse et rapporteurs).

Pour mettre en place cette nouvelle fonctionnalité, l’ABES a dû résoudre plusieurs difficultés techniques.

En effet, theses.fr s’appuie sur SolR, un moteur de recherche proposant une API XML et JSON par HTTP. Les données exposées étant décrites par document (TEF), nous les avons naturellement indexées de cette manière. C’est-à-dire qu’une thèse (soutenue ou en préparation) correspond à un TEF et est indexée sous la forme d’un document SolR.
La description d’une thèse contient, entre autre, son auteur, son directeur de thèse, ses rapporteurs.

Comment arriver à rechercher sur ces personnes, alors que l’index est fait par document ?

Avec une base de données relationnelle, il aurait suffi de faire une jointure entre la table du « document » et la table des « personnes ».
Dans notre cas, il a fallu fabriquer une indexation dédiée à ce type de recherche.
Nous avons utilisé un SolR « personnes », destiné à indexer des personnes.
A chaque indexation d’un document thèse :
– un programme récupère les personnes liées (par leur numéro d’identifiant, le PPN de la notice d’autorité IdRef-Sudoc),
– les supprime éventuellement du SolR « personnes » (pour ne pas avoir de personnes sans thèse liée, dans le cas d’une mise à jour d’une thèse),
– puis pour chaque PPN trouvé, et pour chaque rôle possible, effectue une recherche dans le SolR « thèses » afin de trouver les thèses liées à ce PPN. Et ce sert de ces informations pour ajouter une fiche ainsi constituée au SolR « personnes ».
La recherche dans l’onglet « personnes » utilise le SolR « personnes » afin de trouver les fiches correspondant à tous les critères de recherche.
Pour chaque fiche de personne trouvée, le programme effectue une sous requête par rôle sur le SolR « thèses » afin de n’afficher que les thèses correspondant à au moins un des critères de recherche.

Exemple

La thèse http://www.theses.fr/2011TOU20094 a pour auteur  Mehdi Ghouirgate, pour directeur Philippe Sénac, pour rapporteurs Pascal Buresi et Jean-Pierre Van Staëvel, et comme mot-clé al-andalus. Cette thèse correspond au document 2011TOU20094 dans le SolR « thèses »
Au moment de son insertion dans theses.fr, un document est créé dans le SolR « thèses » et quatre documents sont créés dans le SolR  « personnes ».
Jean-Pierre Van Staëvel a été rapporteur d’une thèse,  a été directeur de quelques thèses soutenues, et est actuellement directeur d’une dizaine de thèses en préparation.
Dans le SolR « personnes », le document  SolR qui décrit Jean-Pierre Van Staëvel contient le fait qu’il est rapporteur de la thèse http://www.theses.fr/2011TOU20094 et qu’il est directeur notamment des thèses en préparation http://www.theses.fr/s33517 et http://www.theses.fr/s37444
Dans le SolR « thèses », le document 2011TOU20094 indique que cette thèse a pour mot clé al-andalus et  les documents s33517 et s37444 ont le mot maroc dans les mots du titre des thèses en préparation.
Ainsi si vous faites une recherche sur maroc al-andalus dans l’onglet « personnes » vous avez notamment comme résultat Jean-Pierre Van Staëvel qualifié par une thèse soutenue dont il est rapporteur (2011TOU20094) et deux thèses en préparation dont il est directeur (s33517 et s37444).
L’onglet « personnes » de theses.fr consolide donc l’information présente dans les deux SolR.

A. Charot

Publicités

PCP : gérer vos états de collection

Au premier semestre 2012, une interface de visualisation des plans de conservation partagée (PCP) sera ouverte. En exploitant les états de collection des périodiques, elle donnera à voir dans un premier temps les lacunes et les redondances existant dans un périmètre modulable de bibliothèques (PCP, département, région, toute la France, etc.).
Cette interface s’adresse principalement aux gestionnaires de PCP existants mais doit permettre aussi le développement  de nouveaux PCP.
L’application permet la consultation et l’affichage de toutes les notices de périodiques du Sudoc.

  • Ergonomie :

L’accent doit être porté sur l’affichage des données pour permettre efficacement leur analyse et comparaison.

L’interface devrait s’articuler sur 3 écrans :
1-Onglet Recherche
2-Onglet Résultat (liste de notices bibliographiques)
3-Onglet Titre

Ce dernier onglet proposera une visualisation des états de collections disponibles et proposera une information sur les lacunes identifiées.

Connexion :
L’interface ne propose qu’un affichage des informations disponibles et ne permet aucune  possibilité d’intervention sur les données :
L’accès est libre sans condition d’authentification ou d’habilitation particulière.

  • Technique :

Coté serveur :

– Stockage : l’ensemble des notices du Sudoc et leur données d’exemplaires sont stockées dans une base de données Oracle dans un format d’export XML
– Recherche : un moteur de recherche Solr (http://lucene.apache.org/solr/) permet d’identifier des notices selon des critères définis

Coté « client » :

– votre navigateur (Firefox, Internet Explorer…) est capable d’interroger par des requêtes HTTP asynchrones (http://fr.wikipedia.org/wiki/Ajax_%28informatique%29 ) les deux sources de données citées ci-dessus :
* les réponses sont fournies au format JSON (http://www.json.org/) lors de l’interrogation de Solr
* du XML est renvoyé par un serveur Tomcat intermédiaire pour les données d’exemplaire des notices
– des librairies javascript sont ensuite exécutées dans le navigateur (jQuery http://jquery.com/ et ses éléments d’interface principalement) pour manipuler, calculer et présenter les résultats.

Le prototype devrait être présenté une nouvelle fois au groupe de discussion.

Exemplariser sans WinIBW

Au second semestre 2012, l’ABES proposera une interface Web dédiée à l’exemplarisation. Cette nouvelle application s’adressera aux professionnels des réseaux Sudoc et Sudoc-PS pour exemplariser un document, sans modifier le niveau bibliographique des notices.

  • Ergonomie :

La connaissance du format MARC ne sera pas un pré-requis nécessaire à la saisie des données.
L’interface devrait s’articuler sur 4 écrans :
1-Onglet Recherche
2-Onglet Résultat (liste de notices bibliographiques)
3-Onglet Titre
4-Onglet Edition (modification, création)

Toutes les fonctionnalités proposées dans l’outil professionnel actuel WinIBW et permettant la gestion ou l’intervention sur les données d’exemplaires seront préservées.
L’utilisateur sera guidé dans son travail par une aide et des contrôles intégrés aux formulaires de saisie.
Les données seront soumises aux mêmes tables de validation que dans WinIBW.
L’utilisateur pourra créer des modèles de notices d’exemplaires adaptés à ses besoins.
Une exemplarisation par douchette sera aussi proposée.

  • Connexion :

L’interface est à destination des professionnels.
L’accès sera donc réservé aux catalogueurs des réseaux Sudoc et Sudoc-PS, avec authentification (login WinIBW).

  • Technique :

Cette application Web dialogue directement avec le CBS, comme le fait WinIBW en utilisant les technologies XML, JavaScript, java.
L’interface repose donc sur CBS, le système central du Sudoc : les index de recherche, les tables de catalogage, de validation sont ceux définis dans le CBS.

Un prototype est en cours de réalisation. Il servira de base de discussion au sein d’un groupe de travail qui sera bientôt constitué.