De la modélisation des métadonnées à la conception d'un lac de données : Application à l'habitat social - Thèses Lyon 2 Accéder directement au contenu
Thèse Année : 2022

From metadata modeling to the conception of a data lake : Application to public housing

De la modélisation des métadonnées à la conception d'un lac de données : Application à l'habitat social

Résumé

The 2010s saw the emergence of the data lake concept as a new approach for storing and exploiting big data, as an alternative to data warehouses. A data lake is defined by two main properties: the diversity of data it is capable of ingesting, and an approach where the data schema is defined only when querying it (schema-on-read). These properties make a data lake a flexible and adaptive system, but require an efficient metadata system. In the absence of a fixed data schema, metadata are indeed essential to support all uses and thus prevent the lake from turning into a data swamp, i.e. an unusable data lake. While the literature converges on the need for an efficient metadata system within a data lake, there are however several approaches to establish it. Several proposals have already been formulated to build a metadata system, but many of these proposals turn out to be « black boxes » that are difficult to reuse because they are not detailed enough, while others, which are more explicit, often lack the genericity to adapt to different use cases. Also, the concrete implementation of a data lake raises its share of problems, and again, several approaches have been proposed to define the major components of a data lake. However, a comparative study of the functional architectures of data lakes shows that these proposals tend to overly compartmentalize data in the lake to meet a specific business need. Finally, the profusion of tools and technologies allowing the implementation of a data lake adds to the confusion around a recent concept whose definition is not yet totally consensual. Therefore, we propose in this thesis several contributions to the conception, modeling and implementation of a data lake and its metadata system. Our first contributions concern metadata modeling, since the proposals in the literature in this area turn out to lack genericity and are not able to support any type of data or different important situations. This is why we propose a metadata model named MEDAL, which we have subsequently, in the light of more recent work, evolved into a metadata metamodel named goldMEDAL, which differs from other proposals by its higher level of abstraction. In addition to the modeling of metadata, we also addressed the issue of the actual implementation of a data lake. For this purpose, we propose HOUDAL, a data lake implementation dedicated to social housing, a business context that falls within the framework of the CIFRE thesis, where the company BIAL-X works in close collaboration with several social landlords. HOUDAL is composed of a metadata system based on the instantiation of the goldMEDAL metamodel, as well as a web interface allowing the user to access the data lake, i.e. data and metadata. To help the user when using HOUDAL, we also propose QSTR, a metadata creation wizard for periodically generated structured data. QSTR is located in the ingestion layer of HOUDAL and helps the user to efficiently describe structured data, especially in order to describe schema evolutions that may occur when adding new data occurrences to the lake.
Les années 2010 ont vu émerger le concept de lac de données (data lake) comme nouvelle approche pour le stockage et l'exploitation de mégadonnées (big data), en alternative aux entrepôts de données (data warehouses). Un lac de données se définit par deux propriétés principales : la variété des données qu'il est capable d'ingérer, et une approche où le schéma des données n'est défini qu'à leur interrogation (schema-on-read). Ces propriétés font qu'un lac de données est un système souple et adaptatif, mais nécessite en contrepartie de disposer d'un système de métadonnées efficace. En l'absence d'un schéma fixe de données, les métadonnées sont en effet essentielles pour supporter tous les usages et empêcher ainsi le lac de se transformer en marécage de données (data swamp), c'est-à-dire un lac de données inutilisable.Alors que la littérature converge sur la nécessité de disposer d'un système de métadonnées efficace au sein d'un lac de données, il existe toutefois plusieurs approches pour le mettre en place. Plusieurs propositions ont déjà été formulées pour constituer un système de métadonnées, mais beaucoup de ces propositions s'avèrent être des « boites noires » difficilement réutilisables car trop peu détaillées, tandis que d'autres, plus explicites, manquent souvent de généricité pour s'adapter à des cas d'usages différents. Aussi, la mise en œuvre concrète d'un lac de données soulève son lot de problématiques, et à nouveau, plusieurs approches ont été proposées pour définir les composants majeurs d'un lac de données. Toutefois, une étude comparative des architectures fonctionnelles des lacs de données montre que ces propositions ont tendance à trop compartimenter les données du lac pour répondre à un besoin métier spécifique. Enfin, la profusion d'outils et de technologies permettant d'implémenter un lac de données vient ajouter de la confusion autour d'un concept récent et dont la définition n'est pas encore totalement consensuelle. C'est pourquoi nous proposons dans cette thèse plusieurs contributions pour la conception, la modélisation et l'implémentation d'un lac de données et de son système de métadonnées. Nos premières contributions portent sur la modélisation des métadonnées, puisque les propositions de la littérature dans ce domaine s'avèrent manquer de généricité et ne pas être à même de prendre en charge tous types de données ou différents cas de figures importants. C'est pourquoi nous proposons un modèle de métadonnées baptisé MEDAL, que nous avons par la suite, à la lumière de travaux plus récents, fait évoluer en un métamodèle de métadonnées nommé goldMEDAL, qui se distingue des autres propositions par un niveau d'abstraction plus élevé. En plus de la modélisation des métadonnées, nous nous sommes aussi penchés sur la problématique de la mise en œuvre effective d'un lac de données. A ce titre, nous proposons HOUDAL, une implémentation de lac de données dédié à l'habitat social, un contexte métier qui s'inscrit dans le cadre de la thèse CIFRE, où l'entreprise BIAL-X travaille en étroite collaboration avec plusieurs bailleurs sociaux. HOUDAL se compose d'un système de métadonnées basé sur l'instanciation du métamodèle goldMEDAL, ainsi que d'une interface web avec laquelle l'utilisateur interagit pour accéder au lac de données, i.e. aux données et aux métadonnées. Pour aider l'utilisateur lors de son utilisation de HOUDAL, nous proposons aussi QSTR, un assistant à la création de métadonnées pour les données structurées. QSTR se situe dans la couche d'ingestion de HOUDAL et aide l'utilisateur à décrire de manière efficiente les données structurées, en particulier dans l'optique de décrire des évolutions de schéma qui pourraient subvenir lors de l'ajout de nouvelles occurrences de données au sein du lac.
Fichier principal
Vignette du fichier
these_internet_scholly_e.pdf (29.55 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03961251 , version 1 (28-01-2023)

Identifiants

  • HAL Id : tel-03961251 , version 1

Citer

Etienne Scholly. De la modélisation des métadonnées à la conception d'un lac de données : Application à l'habitat social. Autre [cs.OH]. Université de Lyon, 2022. Français. ⟨NNT : 2022LYSE2031⟩. ⟨tel-03961251⟩
256 Consultations
48 Téléchargements

Partager

Gmail Facebook X LinkedIn More