From data lakes to assisted analysis of textual and tabular documents - Archive ouverte HAL Access content directly
Theses Year : 2021

From data lakes to assisted analysis of textual and tabular documents

Des lacs de données à l’analyse assistée de documents textuels et tabulaires

(1)
1

Abstract

Over the past decade, the concept of a data lake has emerged as an alternative to data warehouses for big data storage and analysis. Data lakes follow a schema-on-read approach to provide flexible and scalable decision-support systems. A key issue in data lakes is the need of an effective metadata system. In the absence of a fixed data schema, metadata are indeed essential to support analyses and thus prevent the lake from turning into an inoperable data swamp.Though the literature seems unanimous on the importance of metadata systems, there are still many questions and uncertainties about their implementation methodology. Several approaches have been proposed to organize metadata in data lakes, but most of them do not support industrialized analyses as in data warehouses. In addition, a significant part of the literature limits access to the data lake to data scientists, thus excluding business users. Moreover, a wide majority of existing metadata management approaches in data lakes only concern structured and semi-structured data. Designing a metadata system that supports both industrialized analyses and unstructured data is therefore still an open research issue.In this context, we propose through this thesis a set of contributions to the literature on the design and implementation of data lakes. Our contributions are divided into three parts. The first part targets the disambiguation of the data lake concept. That is, data lakes were still relatively new and ill-mastered at the beginning of this thesis. To clarify this, we propose a new definition of data lakes, as well as an analysis of approaches to metadata management and architectural organization in data lakes.Based on an extensive state of the art, we identify the strengths and the limitations ofexisting approaches to metadata management in data lakes, which highlight that most of metadata management approaches are too specific to be reused. The only generic approaches are also limited either in terms of data types or in terms of supported functionalities. Thus, we address these shortcomings by introducing two metadata models called MEDAL and goldMEDAL.Finally, we address the problems related to the effective implementation of data lakes, by proposing a data lake implementation called AUDAL that supports textual and tabular documents. This system is based on MEDAL and provides a set of extensible analysis services suitable for business users. To evaluate AUDAL, we propose and applied a benchmark dedicated to the quantitative evaluation of performance in data lakes, called DLBench. Through this quantitative evaluation and another qualitative evaluation (user experience), we demonstrate the effectiveness and usability of AUDAL.
Au cours de la dernière décennie, le concept de lac de données (data lake) a émergé comme une alternative aux entrepôts de données pour le stockage et l'analyse des mégadonnées (big data). Les lacs de données adoptent une approche de stockage sans schéma fixe pour fournir un système d'aide à la décision souple et extensible. Concevoir un lac de données requiert avant tout de mettre en place un système de métadonnées efficace. En l'absence d'un schema fixe de données, les métadonnées sont en effet essentielles pour supporter les analyses et empêcher ainsi le lac de se transformer en marécage de données (data swamp), c'est-à-dire un lac de données inutilisable.Si la littérature semble unanime sur l'importance du système de métadonnées, des interrogations et des incertitudes subsistent toutefois sur la méthodologie à suivre pour le mettre en œuvre. Plusieurs approches ont été proposées pour organiser les métadonnées dans les lacs de données, mais la plupart d'entre elles ne supportent pas d'analyses industrialisées comme dans les entrepôts de données. Par ailleurs, une part non négligeable de la littérature limite l'accès au lac de données aux seuls spécialistes du traitement de données (data scientists), excluant ainsi les experts métiers. De plus, la grande majorité des approches existantes d'organisation des métadonnées dans les lacs de données concerne uniquement les données structurées et semi-structurées. Concevoir un système de métadonnées supportant à la fois des analyses industrialisées et des données non structurées est donc encore une question de recherche ouverte.C'est dans ce contexte que nous proposons à travers cette thèse un ensemble de contributions à la littérature sur la conception et la mise en ÷œuvre de lacs de données. Nos contributions se déclinent en trois axes. Le premier axe se consacre à la désambiguïsation du concept de lac de données. Les lacs de données étaient en effet encore relativement nouveaux et mal maîtrisés au début de cette thèse. Pour remédier à cela, nous avons proposé une nouvelle définition des lacs de données, ainsi qu'une analyse des approches de gestion des métadonnées et d'organisation architecturales dans les lacs de données.Un travail exhaustif d'état de l'art nous a permis d'identifier les forces et, surtout, leslimites des approches existantes d'organisation des métadonnées dans les lacs de données. La plupart des approches sont en effet spécifiques à des cas d'usage précis et donc difficilement réutilisables. Les seules approches génériques sont elles aussi limitées non seulement par rapport aux types de données pris en charge, mais aussi en termes de fonctionnalités supportées. Nous remédions à ces insuffisances en introduisant deux modèles de métadonnées nommés MEDAL et goldMEDAL.Nous avons enfin abordé les problématiques liées à la mise en ÷œuvre effective de lacs de données. Pour ce faire, nous avons proposé une implémentation de lac de données intitulée AUDAL, qui supporte des documents textuels et tabulaires. Ce système basé sur le modèle MEDAL propose un ensemble de services d'analyses extensibles adaptés aux utilisateurs métiers. Pour évaluer AUDAL, nous proposons et mettons en œuvre un banc d'essais dédié à l'évaluation quantitative des performances des lacs de données, nommé DLBench. Cette évaluation quantitative, complétée par une évaluation qualitative (expérience-utilisateur) démontrent l'efficacité et l'utilisabilité d'AUDAL.
Fichier principal
Vignette du fichier
these_internet_sawadogo_p.pdf (8.55 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03677596 , version 1 (24-05-2022)

Identifiers

  • HAL Id : tel-03677596 , version 1

Cite

Pegdwendé Sawadogo. Des lacs de données à l’analyse assistée de documents textuels et tabulaires. Algorithme et structure de données [cs.DS]. Université de Lyon, 2021. Français. ⟨NNT : 2021LYSE2088⟩. ⟨tel-03677596⟩
81 View
92 Download

Share

Gmail Facebook Twitter LinkedIn More