Interactions in information spread - Equipe de Recherche en Ingénierie des Connaissances Accéder directement au contenu
Thèse Année : 2022

Interactions in information spread

Interactions entre informations dans les processus de diffusion

Résumé

Since the development of writing 5000 years ago, human-generated data gets produced at an ever-increasing pace. This rate has been greatly influenced by technical innovations, such as clay tablets, papyrus, paper, press, and more recently the Internet. At the same time, new methods designed to handle and archive these growing information flows emerged: clay archives (Nippur, Mari), early libraries (Alexandria, Rome's Tabularia, Athens' Metroon), religious scriptoriums (abbeys, monasteries), modern libraries and, more recently, machine learning. Each of these archival methods aims at easing information retrieval. Nowadays, archiving is not enough anymore. The amount of data that gets generated daily is beyond human comprehension, and appeals for new information retrieval strategies. Instead of referencing every single data piece as in traditional archival techniques, a more relevant approach consists in understanding the overall ideas conveyed in data flows. To spot such general tendencies, a precise comprehension of the underlying data generation mechanisms is required. In the rich literature tackling this problem, the question of information interaction remains nearly unexplored. Explicitly, few works explored the influence of anterior human-generated data on ulterior data creation mechanisms. In this manuscript, we develop a panel of new machine learning methods that explore this specific aspect of online data generation. First, we investigate the frequency of such interactions. Building on recent advances made in Stochastic Block Modelling, we explore the role of interactions in several social networks. We find that interactions are rare in these datasets. Then, we wonder how interactions evolve over time. Earlier data pieces should not have an everlasting influence on ulterior data generation mechanisms; an ad may exert a short-term influence on buying behaviours, but would have no influence on them a decade later for instance. We model this using dynamic network inference advances on social media datasets. We conclude that interactions are brief and that their intensity typically decays in an exponential fashion. Finally, as an answer to the previous points, we design a framework that jointly models rare and brief interactions. Doing so, we exploit a recent bridge between Dirichlet processes and Point processes. We improve on this advance and discuss the more general Dirichlet-Point processes. We argue that this new class of models readily fits brief and sparse interaction modelling. We conduct a large-scale application on Reddit and find that interactions play a minor role in this dataset. From a broader perspective, our work results in a collection of highly flexible models and in a rethinking of core concepts of machine learning. Consequently, we open a range of novel perspectives both in terms of real-world applications and in terms of technical contributions to machine learning.
À compter du développement de l'écriture, il y a environ 5000 ans, la quantité de données générées par l'homme n'a cessé de croître de façon exponentielle. Cette tendance est étroitement liée au rythme des innovations techniques facilitant leur diffusion ; chacune de ces avancées va de pair avec le développement de méthodes visant à faciliter leur archivage. Or, aujourd’hui, l'archivage classique ne peut répondre à nos besoins. L’immense quantité de données générée quotidiennement requiert de nouvelles stratégies de récupération de l'information. Plutôt que référencer individuellement chaque fragment d'information (un tweet, un mème, une vidéo), comme le ferait une méthode d'archivage standard, une approche plus pertinente consiste à comprendre les principales idées convoyées par les flux d'informations à une échelle globale. Discerner de telles tendances à partir d'une masse de données apparemment informe nécessite une compréhension fine des mécanismes de génération de données sous-jacents Dans la riche littérature traitant du fonctionnement de tels mécanismes, la question de l'interaction entre différents fragments d'information est restée largement inexplorée. Plus explicitement, peu de travaux ont étudié le rôle de l'influence de données produites antérieurement par une population sur les mécanismes génératifs de données produites ultérieurement par cette même population. Dans ce manuscrit, nous développons un éventail de nouvelles méthodes d'apprentissage automatique, permettant d'explorer cet aspect particulier des mécanismes de génération de données en ligne. En premier lieu, nous examinons la fréquence de telles interactions entres fragments d'information. Sur la base de récentes avancées en Stochastic Block Modelling, nous explorons le rôle de ces interactions dans la génération d'informations sur plusieurs plateformes sociales en ligne. Cette première étude nous permet de conclure que les interactions sont rares dans ces jeux de données. Ensuite, nous nous intéressons à l'évolution temporelle de ces interactions ; un fragment d'information ne devrait pas influencer indéfiniment les mécanismes de génération ultérieurs, ni de la même manière au cours du temps. Une publicité peut par exemple influer les comportements d'achat à court terme, mais pas nécessairement à l'échelle d'une décennie. Nous modélisons ce phénomène dans des jeux de données provenant des réseaux sociaux, en nous basant sur de récents progrès effectués en inférence de graphes dynamiques. Nous en tirons la conclusion que les interactions sont brèves, et que leur intensité décroît généralement de manière exponentielle avec le temps. Enfin, en guise de réponse aux difficultés soulevées dans les deux paragraphes précédents, nous élaborons une méthode permettant de modéliser des interactions rares et brèves. Ce faisant, nous étudions des connexions encore peu exploitées entre les processus de Dirichlet et les processus ponctuels. Nous explorons cette voie en vue de la résolution de notre problème, et discutons à cette occasion le concept plus général de processus de Dirichlet-Point. Nous justifions l'usage de cette nouvelle classe de modèles dans la modélisation d'interactions rares et brèves. En guise de conclusion, nous conduisons une application à grande échelle de notre méthode sur un jeu de données provenant de Reddit ; suite à cette étude, nous concluons que les interactions jouent un rôle mineur dans ce cas précis. D'un point de vue plus global, nos travaux aboutissent à une collection de modèles flexibles en termes de champs d'applications, d'une part, et à une réflexion sur plusieurs concepts au coeur des méthodes d'apprentissage automatique actuelles d'autre part. Ce faisant, nous ouvrons la voie à une panoplie de nouvelles perspectives, tant en termes d'applications à des problématiques de recherche transdisciplinaires, qu'en termes de contributions à l'apprentissage automatique en tant que tel.
Fichier principal
Vignette du fichier
Th_se___Manuscript (8).pdf (39.65 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03779457 , version 1 (16-09-2022)

Identifiants

  • HAL Id : tel-03779457 , version 1

Citer

Gaël Poux-Médard. Interactions in information spread. Social and Information Networks [cs.SI]. Université de Lyon, 2022. English. ⟨NNT : ⟩. ⟨tel-03779457⟩
49 Consultations
1 Téléchargements

Partager

Gmail Facebook X LinkedIn More