Univ-Droit et IdRef : une coopération ambitieuse et réciproque

Retours sur une coopération fructueuse entre  l’équipe IdRef de l’Abes et l’équipe d’Univ-Droit dans le cadre de l’UNJF – Université Numérique Juridique Francophone, dont Gilles Dumont, professeur de droit public, est le directeur.

Le portail Univ-Droit

univ-droit_logoUniv-Droit, site dédié au Droit et aux Sciences Politiques, porté par la Conférence des doyens des Facultés de droit, est un outil incontournable pour aborder le champ juridique national. On y trouve des informations sur l’ensemble des formations juridiques universitaires, des structures de recherche et des instances professionnelles ainsi qu’une offre conséquente de ressources pédagogiques (cours en ligne).

Deux annuaires sont également disponibles, qui consacrent une page propre aux entrées de type :

enseignants

structure

Conçus pour la diffusion des informations autant que pour leur bonne gestion interne et relationnelle, ces annuaires s’appuient sur des listes contrôlées et des référentiels, une démarche indispensable pour assurer les liens entre ressources et acteurs. Initiée dès l’origine du portail, cette étape d’identification concerne les données de type  :

  • Structures : la quasi-totalité des entrées s’appuie sur un référentiel national (RNSR pour les laboratoires, UAI pour les structures d’enseignement, Numéro national pour les Ecoles doctorales). Ce travail d’identification a été effectué en coopération avec l’équipe ScanR, et est donc sécurisé.
  • Personnes : certaines pages d’enseignants-chercheurs comportent déjà des renvois vers leur notice d’autorité dans IdRef (exemple : https://univ-droit.fr/universitaires/24364-alain-supiot) sans toutefois que cette identification ne soit exhaustive.

noticeidref

Coopération avec l’Abes

A l’automne dernier, suite à une présentation d’IdRef dans le cadre du groupe de travail “Moteur de recherche” de  SupNumérique, initiative ministérielle destinée à la valorisation des Ressources Pédagogiques Numériques, l’Abes a été sollicitée par l’équipe d’Univ-Droit afin de généraliser l’identification fiable et pérenne des données de type Personnes. En effet, disposer d’identifiants fiables, pérennes et partagés pour l’ensemble des acteurs recensés – personnes physiques ou morales – est une garantie pour l’interopérabilité des données.

Alignement des enseignants-chercheurs

La première opération, similaire à celle détaillée ici, a consisté à identifier automatiquement plus de 90 % des 3 728 enseignants-chercheurs recensés dans Univ-Droit. Et cette fois encore, les alignements produits par l’algorithme se sont révélés très fiables. Enfin, pour les alignements considérés moins sûrs, les données inscrites dans les notices d’autorité sont venues valider les candidats.

Comme à l’accoutumée, cette opération d’alignement a mis en évidence bon nombre d’anomalies dans les données de type Personnes (coquille dans les noms, doublons…), ce qui a donné lieu à autant de corrections, étape importante pour l’amélioration qualitative des données.

Au final, c’est maintenant l’ensemble de la communauté des juristes et politologues français qui dispose désormais d’une identification fiable !

Enrichissements réciproques

Côté IdRef : seront intégrées au sein des notices IdRef, les URL des pages personnes d’Univ-Droit ainsi que des données disciplinaires ou d’affiliation qui en seront extraites pour enrichir et consolider le contenu des autorités. Concrètement, pour ceux qui « parlent Unimarc », le résultat sera l’ajout d’une zone 035 – numéro source dans Univ-Droit, ajout/modification d’une zone 340 – note sur la biographie et les activités.

Côté Univ-Droit : dans les pages Personnes d’Univ-Droit, les renvois vers les notices d’autorité IdRef ont été systématisés. Il en sera probablement de même avec les renvois vers les pages Personnes de theses.fr : https://www.theses.fr/027151808.

Cette démarche double permet à la fois de multiplier les rebonds web et le référencement réciproque, de désambiguïser les personnes d’Univ-droit et de consolider les notices autorités parce qu’elles sont maintenant reliées “physiquement” à Univ-Droit.

Récupération par Univ-Droit des données bibliographiques liées

L’affichage des publications dans les pages d’enseignants-chercheurs va pouvoir évoluer. Pour ce faire, Univ-Droit a l’intention d’exploiter le nouveau web service d’IRef – «References », disponible depuis la V2 d’IdRef (octobre 2017) : pour un identifiant IdRef donné, le webservice renvoie l’ensemble des documents associés dans les différents catalogues ou sources de données bibliographiques connus d’IdRef, à savoir le catalogue Sudoc bien entendu mais aussi theses.fr, Calames, Persée et d’autres.

Jusqu’à présent, dans Univ-Droit, les publications Sudoc proviennent d’une interrogation de HAL – le plus souvent suite à une requête forgée du nom-prénom croisé avec le labo de rattachement – pour aller chercher les rares ISBN dans les résultats de la recherche HAL de type “ouvrage”, qui sont ensuite croisés avec le web service “ISBNtoPPN” pour aboutir, enfin,  à la notice Sudoc.

Prenons l’exemple de Véronique Champeil-Desplats. Cette méthode permet de remonter comme résultats 3 monographies dotées d’un ISBN. En interrogeant le web service « references » d’IdRef avec comme seul paramètre l’identifiant IdRef de Véronique Champeil-Desplats – http://www.idref.fr/services/references/05505563X – on obtient 27 monographies ainsi que son rôle dans chacune. C’est plus simple et plus complet !

L’Abes espère que cette nouvelle exposition des données Sudoc dans Univ-Droit engendrera des retours des enseignants-chercheurs qui constateront que des intrus figurent parmi la liste de leurs ouvrages.

Une nouvelle rubrique pour les thèses

En plus des rubriques déjà présentes, une nouvelle rubrique Thèses va voir le jour puisque le web service “references” utilise theses.fr comme source.
thesesEn conclusion, parce qu’Univ-Droit connaît les identifiants IdRef, l’exposition et la moisson des publications des enseignants-chercheurs en droit et sciences politiques est sécurisée. Parce qu’IdRef connaît Univ-Droit, les notices de ces enseignants-chercheurs sont enrichies et les liens aux données bibliographiques des catalogues sources fiabilisées.

Cette coopération fructueuse entre l’Abes et Univ-Droit démontre, si besoin est, que les chantiers de mise en interopérabilité des données – ici l’identification fiable et pérenne des enseignants-chercheurs – constituent un moteur puissant pour l’amélioration concrète de leur qualité, et conforte l’ambition de construire progressivement un véritable “réseau numérique de confiance” au service  des ressources de l’ESR.

François Mistral, responsable IdRef

 

Calames : les statistiques 2017

calamesEn ce début d’année, voici venu la traditionnelle épiphanie en chiffres du réseau Calames. Le présent billet se propose de fournir aux établissements déployés dans Calames des éléments complémentaires aux statistiques accessibles via Webstats : jauges quantitatives des données produites via l’outil de catalogage ; répartition actualisée des niveaux descriptifs indexés dans la base de données et exposées sur le web ; étiage du trafic sur le catalogue en ligne.

Mais au-delà de ces aspects quantitatifs, c’est la qualité des données qui est au cœur des préoccupations de l’équipe Calames. Si en 2017, les contrôles qualité ont été concentrés sur les inventaires dont l’encodage a été co-financé par l’Abes dans le cadre de sa mission d’encouragement aux rétroconversions, d’autres sondages, plus globaux, ont été effectués : une inspection des liens vers les numérisations (éléments <dao> et <daogrp>) a par exemple permis une correction générale de centaines de liens au cours de l’été 2017. La remise en place progressive d’une cellule nationale de l’EAD en bibliothèques, le (ré-)examen de diverses consignes de catalogage et la poursuite d’une homogénéisation des bonnes pratiques, laissent espérer que ce travail de monitoring et d’aide à une production de qualité s’amplifiera en 2018.

Nota bene : les termes « composants » et « niveaux descriptifs » se trouvent souvent assimilés dans la présentation de ces statistiques. Ils ne sont pourtant pas strictement synonymes, puisque les hauts niveaux d’inventaires (dont les identifiants Calames commencent par le préfixe « FileId-« , en reprenant le numéro interne de chaque instance EAD dans la base de données), qui ne correspondent donc pas à des composants <c>, représentent 1446 des 873 504 niveaux descriptifs comptabilisés.

État de la base publique Calames au 31 décembre 2017

Répartition  des niveaux descriptifs publiés dans Calames : par établissement

repartition-c-publies-fin-2017-par-RCR_png

Répartition des niveaux descriptifs publiés dans Calames : par tranches chronologiques de production

OriginesDonneesCalames2017_png

Répartition  des composants publiés dans Calames : par cercles de déploiement (1er cercle déployé en 2008, 10ème cercle début 2018)

repartition-c-publies-fin-2017-par-cercles_png

Nouvelles données publiées dans Calames

La catalogue public Calames a soufflé sa 10ème bougie en décembre 2017 en approchant des 875 000 niveaux descriptifs publiés :

evolution-c-publies-2007-2017_png

La quantité de données nouvellement publiées a connu un léger tassement en 2017. Elle est largement due à trois grands « publiants » : la BDIC, l’INHA et la BIU Sorbonne. Ces tendances viennent en écho direct aux travaux d’encodage de l’année (cf. infra).

surcroit-c-pub-2017-par-RCR_png

Travaux de catalogage dans l’outil Calames Prod

Pour la cinquième année consécutive, le nombre d’identifiants nouvellement attribués par l’outil Calames Prod au cours de l’année est resté au-dessus de la barre des 100 000 composants, quasiment tous créés en base de production (et non de formation, dont l’usage doit être cantonné à des tests techniques ou à des exercices pédagogiques).
Cependant la majorité de cette production n’est pas aussi également répartie que les années précédentes : la BDIC (qui sera rebaptisée « La Contemporaine » en mars 2018) tient très nettement le haut du pavé avec un tiers des niveaux descriptifs créés dans l’année. Situation dont le seul point de comparaison est 2010 (le Muséum ayant alors produit près de 45% des <c>), alors que le réseau Calames était moins développé.
Viennent ensuite six établissements ayant produit 6 à 7% des <c> de l’année 2017 : Muséum National d’Histoire Naturelle, École Centrale Supélec, BIU Sorbonne, Bibliothèque Littéraire Jacques Doucet, Bibliothèque Mazarine, et Institut National d’Histoire de l’Art.
Le palmarès des 5 établissements ayant créé la plus grande quantité (env. 60%) de niveaux descriptifs dans Calames depuis son origine reste inchangé par rapport à 2016 : Muséum National d’Histoire Naturelle (165 955 <c> créés dans l’outil depuis 2008), BDIC (146176), Institut de France (906 56), Bibliothèque Littéraire Jacques Doucet (73 151) et Académie de Médecine (640 870).

catalogage-dans-calames-2017_png

Pour compléter un peu ce paysage très métrique et brossé à grands traits, le graphique ci-dessous tente de nous en dire plus sur le temps et la fréquence d’usage de l’outil de catalogage Calames Prod. Ainsi, s’il est vrai que la BLJ Doucet a produit un peu plus de 7400 <c> en 2017, elle l’a fait au prix d’un recours plus important à l’outil d’encodage que les autres établissements, effectuant 698 interventions quotidiennes sur fichiers EAD unitaires (soit près de 700 « jours-fichiers »). L’École Centrale, qui est essentiellement intervenue sur deux à trois inventaires distincts au cours de l’année, présente logiquement ici des chiffres plus bas (127 « plages journalières d’interventions sur inventaire » en 2017, et ce quelque soit la durée ou la qualité de l’intervention en question). Au-delà de toute possibilité d’analyse plus précise des modifications effectuées sur des <c> déjà existants, de leur nature et de leur ampleur, un ratio se dégage depuis trois ans : pour une session quotidienne de catalogage sur fichier EAD, compter un vingtaine de <c> nouvellement créés et identifiés.

temps-frequence-catalogage-calames-2017_png

Ventilation des résultats de 10 années de catalogage dans Calames (en production et en publication/indexation)

c-publies-produits-2008-2017_png

Le décalage entre ces deux représentations des composants créés via l’outil Calames (<c> publiés / <c> créés) tient au fait qu’on dénombre en permanence dans la base, et ce depuis quelques années, environ 100 000 composants présents mais n’ayant jamais connu de première publication (fin 2017, en effet, on frôle le million de composants présents en base de production). L’étiage des chantiers d’encodage étant assez stable depuis 2012, on doit aussi lire ce double histogramme en se rappelant qu’une (petite) proportion de niveaux descriptifs sont soit ré-identifiés au fil du temps (ce qui peut se justifier en cas de restructuration des descriptions), soit créés pour en remplacer d’autres (versions multiples d’un même inventaire par exemple).

Statistiques de consultation 

De même qu’en 2015 et en 2016, la hausse continue de la quantité de données exposées, ainsi que plusieurs épisodes de popularité liés aux recherches ponctuelles de certains mots-clés sur les moteurs de recherche généralistes, se sont soldés par un nombre de visites sur le catalogue public en accroissement.

La moyenne du trafic se situe à environ 25 000 visites/mois (soit 8 000 de plus qu’en 2016, ce qui est lié notamment à un important épisode de popularité du site en mars 2017). Le phénomène de « zapping » des internautes reste cependant très sensible, les deux tiers de visites étant « courtes » voire « très courtes ».

Jean-Marie Feurtet, responsable Calames