[ Lire le billet qui introduit cette série « Mettre nos données en réseau – un démonstrateur » ]
De quoi parle-t-on ?
Les corpus présents dans le démonstrateur, et ceux qui n’y sont pas ou pas encore, ne nous ont pas (à une exception près) été fournis directement en RDF. Il s’agissait en général de fichiers XML respectant (plus ou moins) des DTD ou modèles de données hétérogènes, qu’il nous a fallu convertir, en concevant nous-même un modèle général suffisamment souple pour les accueillir tous, et suffisamment bien structuré pour favoriser les manipulations de données ultérieures.
En effet, les données fournies sont généralement “à plat” : un fichier par article de revue ou chapitre de livre, regroupant des informations relevant de différents niveaux :
- Certaines informations (titres, contributeurs, sujets, et relations d’appartenance) se répartissent entre article/chapitre, le livre, le numéro, le volume de la revue qui les contiennent, la revue elle-même ou la collection ;
- D’autres sont, en plus, spécifiques à l’édition, soit imprimée, soit électronique (ISBN, ISSN, DOI)
Ces informations sont donc à la fois lacunaires et redondantes : redondantes car répétées sans nécessité dans tout ou partie des fichiers ; et lacunaires car ces informations peuvent manquer ou être corrompues dans certains d’entre eux.