Apprentissage de représentations d'auteurs et de documents : approches probabilistes à partir de représentations pré-entraînées.

Antoine Gourru

Résumé

The ``digital revolution'' led to an exponential growth of the quantity of long term stored information. Most of this information is textual (e.g., web pages, social media). Natural Language Processing (NLP) models, that allow to classify or to cluster textual objects, need the text to be represented as a mathematical object. This is the goal of representation learning, which makes use of machine learning approaches to learn representations for textual objects (word, document, author) in a low dimensional vectorial space. The distance between the vectorial representations of these objects should relate with their semantic proximity or stylistic similarity. In addition to the text itself, documents are often associated with meta data. They are often linked (e.g., hypertext references, citations in scientific production), tagged with their author, and timestamped. This information was shown to improve the quality of the documents representation and can help to guide the learning of the author representation. Nevertheless, incorporating these meta data is not trivial.Additionally, NLP evolved rapidly during last decades. Representation models are now trained on massive amount of textual data and fine-tuned on specific tasks. These models are of high interest when working with small dataset, allowing to transfer knowledge from relevant information sources. Developing representation learning models that can incorporate these pre-trained representations is crucial. Most of prior works learn pointwise representation. This is a serious limitation as language is more complex than that : words are often polysemic, and documents are, most of the time on, several topics. A branch of the literature proposes to learn probabilistic distribution in a semantic space to circumvent this issue. In this thesis, we first introduce theoretical of machine learning, and a general overview of existing works in representation learning for words, and documents (without meta data). We then focus on representation learning for linked documents. We present prior works of the domain and propose two contributions : the RLE (regularized Linear Embedding) model, and the GELD model (Gaussian Embedding of Linked Documents). Then, we explore representation learning for authors and documents in the same vector space. We present most recent works and our contribution VADE (Variational Authors and Documents Embedding). Finally, we study the problematic of representation learning for authors in a dynamic context : their representations should evolve over time. We first previous models, and propose an original contribution, DGEA (Dynamic Gaussian Embedding of Authors). Additionally, we propose several scientific axes to improve our contributions, and some open questions for future research.

La révolution numérique a entraîné une croissance exponentielle de la quantité d'informations stockées à long terme. Une part importante de cette information est textuelle (pages Web, médias sociaux, etc.). Les modèles de traitement du langage naturel (NLP), qui permettent de classer ou de regrouper cette information, ont besoin que le texte soit représenté sous forme d'objets mathématiques : on parle alors d'apprentissage de représentations. L'objectif de l'apprentissage de représentations est de construire des représentations d'objets textuels (mots, documents, auteurs) dans un espace vectoriel de faible dimension. La similarité entre les représentations vectorielles de ces objets devrait être liée à leur proximité sémantique ou à leur similarité stylistique. En plus du texte lui-même, les documents sont souvent associés à des métadonnées. Ils peuvent être liés (par exemple, par des références hypertextes), associés à leurs auteurs, et horodatés. Il a été démontré que ces informations améliorent la qualité de la représentation d'un document. Néanmoins, l'incorporation de ces métadonnées n'est pas triviale. De plus, le langage naturel a rapidement évolué au cours des dernières décennies. Les modèles de représentation sont maintenant entraînés sur des quantités massives de données textuelles et affinés pour des tâches spécifiques. Ces modèles sont d'un grand intérêt lorsqu'on travaille avec de petits ensembles de données, permettant de transférer des connaissances à partir de sources d'information pertinentes. Il est crucial de développer des modèles d'apprentissage de représentations qui peuvent incorporer ces représentations pré-entraînées. La plupart des travaux antérieurs apprennent une représentation ponctuelle. C'est une limitation sérieuse car la langue est plus complexe que cela : les mots sont souvent polysémiques, et les documents sont, la plupart du temps, sur plusieurs sujets. Une branche de la littérature propose d'apprendre des distributions probabilistes dans un espace sémantique pour contourner ce problème. Dans cette thèse, nous présentons tout d'abord la théorie de l'apprentissage automatique, ainsi qu'un aperçu général des travaux existants en apprentissage de représentations de mots et de documents (sans métadonnées). Nous nous concentrons ensuite sur l'apprentissage de représentations de documents liés. Nous présentons les travaux antérieurs du domaine et proposons deux contributions : le modèle RLE (Regularized Linear Embedding), et le modèle GELD (Gaussian Embedding of Linked Documents). Ensuite, nous explorons l'apprentissage des représentations d'auteurs et de documents dans le même espace vectoriel. Nous présentons les travaux les plus récents et notre contribution VADE (Variational Authors and Documents Embedding). Enfin, nous étudions la problématique de l'apprentissage de représentations dynamiques d'auteurs : leurs représentations doivent évoluer dans le temps. Nous présentons d'abord les modèles existants, puis nous proposons une contribution originale, DGEA (Dynamic Gaussian Embedding of Authors). De plus, nous proposons plusieurs axes scientifiques pour améliorer nos contributions, et quelques questions ouvertes pour de futures recherches.

Representation Learning for authors and documents : probabilistic approaches using pretrained representations

Apprentissage de représentations d'auteurs et de documents : approches probabilistes à partir de représentations pré-entraînées.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager