Les données en diptyque : le noyau de la cerise ou la culture du pivot [2-1]
Ces billets sont la seconde partie d’une trilogie consacrée au projet Sudoc21. Ils reviennent sur les enjeux de la modélisation des données posés dans le premier billet, et sur la manière dont l’équipe en charge du projet s’y est confrontée.
-
- Nom de code Sudoc21
- Les données en diptyque
- 2- 1 Le noyau de la cerise ou la culture du pivot
- 2- 2 Exercice d’apagogie négative
- Retours sur l’exploration des solutions informatiques (billet technique)
Façonner un top-modèle…
Des silos au modèle commun
Pour rappel, les enjeux du projet Sudoc21 étaient d’expérimenter à la fois comment :
- “Désiloter” les différents types de données, aujourd’hui dispersés dans des environnements et formats qui ont du mal à se parler.
- Ouvrir la voie à leur migration vers le modèle IFLA-LRM en faisant le choix d’une instanciation commune de ce modèle à tous les types de données traitées. C’est ce modèle cible que nous évoquerons plus loin sous le raccourci “pot commun”.
Dans cette première partie consacrée aux données, il sera question des choix opérés par l’équipe pour l’instanciation du modèle et le passage par un format pivot pour leur conversion.
Pour ce faire, nous avons constitué des jeux de données représentatifs de chaque source. Puis, afin de rendre tangible l’articulation qui existe entre ces données et qui n’est aujourd’hui pas exploitable, nous avons sélectionné un sous-ensemble de ressources présentes à la fois dans le Sudoc, dans BACON et en base RDF auquel est venu s’ajouter un échantillon de métadonnées TEF pour les thèses.