Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour Clustering Temporel de Textes - Equipe de Recherche en Ingénierie des Connaissances Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour Clustering Temporel de Textes

Résumé

Le contenu textuel d'un document et sa date de publication sont corrélés. Par exemple, une publication scientifique est influencée par les précédents articles cités dans ladite publication. Utiliser cette corrélation permet d'améliorer la compréhension de grands corpus textuel datés. Cependant, cette tâche peut se compliquer lorsque les textes considérés sont courts ou possèdent des vocabulaires similaires. De plus, la corrélation entre texte et date est rarement parfaite. Nous développons une méthode répondant à ces limites, permettant de créer des clusters de documents en fonction de leur contenu et de leur date : le processus Powered Dirichlet-Hawkes (PDHP). Nous montrons que PDHP présente de meilleures performances que les modèles état de l'art (qu'il généralise) lorsque l'information textuelle ou temporelle est peu informative. Le PDHP se libère également de l'hypothèse d'une corrélation parfaite entre texte et date des documents. Enfin, nous illustrons une possible application sur des données réelles, provenant de Reddit.
Fichier principal
Vignette du fichier
Accepted___EGC_21___Powered_DHP.pdf (4.44 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03778878 , version 1 (28-09-2022)

Identifiants

  • HAL Id : hal-03778878 , version 1

Citer

Gaël Poux-Médard, Julien Velcin, Sabine Loudcher Rabaseda. Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour Clustering Temporel de Textes. Extraction et Gestion des Connaissances (EGC 2022), Jan 2022, Blois, France. p.323-330. ⟨hal-03778878⟩
22 Consultations
6 Téléchargements

Partager

Gmail Facebook X LinkedIn More