Introducing parsimony to analyse complex data with model-based clustering - Equipe de Recherche en Ingénierie des Connaissances Access content directly
Theses Year : 2020

Introducing parsimony to analyse complex data with model-based clustering

Parcimonie dans les modèles probabilistes pour l'analyse de données complexes

Abstract

In recent years, the production of digitized information has increased exponentially. Websites, social media, smartphones and the Internet of Things in general have contributed to a massive production of data of all kinds. This overproduction has also led to more complex data sets in the sense that they are high-dimensional, sparse, heterogeneous or that they contain missing values. Traditional algorithms and statistical models are no longer sufficient to handle this kind of data since they do not take into account the already mentioned particularities and they can not scale to the ``big data" phenomenon. Fortunately, the access to increasing computation power has allowed practitioners to design more complex algorithms that are being adapted to the complexity of the data.In statistical analysis (or machine learning), unsupervised learning refers to a type of algorithms that brings new insights about the data to the user. Some examples include dimension reduction, pattern recognition and cluster analysis. The goal of cluster analysis is to find meaningful groups of observations in a data set. These groups are referred to as “clusters”. In each cluster, the members have something in common that they do not share with members of other clusters. Performing cluster analysis helps finding a structure in the data set, which can be helpful in different domains such as medicine, marketing or computer vision. Model-based clustering is an unsupervised learning domain that designs probabilistic models for cluster analysis. Defining a probabilistic model brings many advantages such as interpretability, model selection criteria and credibility intervals in the Bayesian framework. Due to their flexibility, those approaches have proved to be efficient in many domains and they are widely used for the analysis of data. A disadvantage of classical model-based clustering methods is the high number of parameters to be estimated, which can slow the inference algorithms and lead to poor results in case of complex data. Designing more parsimonious models (i.e reducing the number of parameters) is an efficient way to tackle this problem.This thesis gathers contributions to introduce parsimony in model-based clustering methods for complex data sets. In the first two chapters, we focus on co-clustering. Co-clustering consists in clustering simultaneously the rows and columns of a matrix (or the observations and the features of a data set). We describe two novel approaches of model-based co-clustering to handle heterogeneous data sets and textual data sets. The third contribution is a thorough investigation of a Deep Gaussian Mixture Model which combines model-based clustering techniques in a deep learning fashion. We detail methodological aspects and provide numerical experiments on simulated and real data sets for all the contributions.
Ces dernières années, la production d'informations numériques a fortement augmenté. Les sites web, les réseaux sociaux et l'Internet des Objets en général ont contribué à une production massive de données de tous genres. Cette sur-production a aussi conduit à des jeux de données plus complexes, dans la mesure où ils sont devenus de haute dimension, sparses, hétérogènes, ou encore qu'ils contiennent des valeurs manquantes. Les algorithmes et méthodes traditionnelles ne sont donc plus suffisants pour gérer ce type de données car ils ne prennent pas en compte ces particularités, et ne peuvent se mettre à l'échelle du phénomène ``Big-Data". Heureusement, l'accès à des machines de plus en plus puissantes a permis aux experts de concevoir des algorithmes plus complexes, adaptés à la complexité de ces données.L'apprentissage non-supervisé concerne un type d'algorithmes en analyse statistique (ou apprentissage automatique) qui apporte à l'utilisateur un nouveau point de vue sur les données. Quelques exemples de méthodes dites non-supervisées sont la réduction de dimension, la détection de motifs, ou encore la segmentation de données (ou analyse de clusters). L'objectif de la segmentation de données est de trouver des groupes d'observations dans un jeu de données. Ces groupes sont appelés ``clusters". Dans chaque cluster, les membres ont quelque chose en commun qu'ils ne partagent pas avec les membres des autres clusters. Utiliser un algorithme de clustering aide à trouver une structure dans le jeu de données, ce qui peut-être utile dans différents domaines comme la médecine, le marketing ou la vision par ordinateur.Les modèles probabilistes pour le clustering regroupent des méthodes d'apprentissage non-supervisé pour la segmentation de données. Définir un modèle probabiliste apporte de nombreux avantages comme l'interprétabilité, la sélection de modèle ou la possibilité d'estimer des intervalles de confiance. Grâce à leur flexibilité, ces approches ont prouvé leur efficacité dans différents domaines, et elles sont souvent utilisées pour analyser des données. Un désavantage des modèles probabilistes pour le clustering classiques, c'est qu'ils requièrent le calcul de nombreux paramètres, ce qui peut ralentir les différents algorithmes d'inférence et donner de mauvais résultats dans le contexte de données complexes. Introduire de la parcimonie (i.e. réduire le nombre de paramètres à estimer) est une manière efficace de pallier ce problème.Cette thèse regroupe plusieurs contributions pour introduire de la parcimonie dans les modèles probabilistes pour le clustering dans le cadre de données complexes. Dans les deux premiers chapitres, nous nous concentrons sur le co-clustering. Le co-clustering consiste à effectuer un clustering simultané des lignes et des colonnes d'une matrice (ou des observations et des variables d'un jeu de données). Nous décrivons deux approches innovantes de co-clustering probabiliste pour gérer des données hétérogènes et des données textuelles. La troisième contribution investigue les modèles de mélange gaussiens profonds (ou Deep Gaussian Mixture Model), qui couple les modèles probabilistes et des techniques de réseau profond, plus communément appelées Deep Learning. Les aspects méthodologiques sont détaillés, et des expériences numériques sont réalisées sur des jeux de données simulés et réels.
Fichier principal
Vignette du fichier
these_internet_selosse_m.pdf (21.8 Mo) Télécharger le fichier
resumefr_internet_selosse_m_annexe.pdf (252.97 Ko) Télécharger le fichier
Origin Version validated by the jury (STAR)
Format Other

Dates and versions

tel-04592164 , version 1 (29-05-2024)

Identifiers

  • HAL Id : tel-04592164 , version 1

Cite

Margot Selosse. Introducing parsimony to analyse complex data with model-based clustering. Other [cs.OH]. Université de Lyon, 2020. English. ⟨NNT : 2020LYSE2106⟩. ⟨tel-04592164⟩
19 View
4 Download

Share

Gmail Mastodon Facebook X LinkedIn More