Découverte d'acronymes torturés dans des publications scientifiques - Recherche d’Information et Synthèse d’Information
Communication Dans Un Congrès Année : 2024

Découverte d'acronymes torturés dans des publications scientifiques

Résumé

Dans un contexte de course à la publication, du contenu plagié est régulièrement publié, amenant à une pollution croissante de la littérature scientifique. Une telle fraude peut être caractérisée par l'utilisation d'expressions torturées. Des solutions ont été développées afin de contribuer à la détection et au signalement de tels contenus. D'une part, elles reposent sur des méthodes et ressources de nature hétérogène, avec des biais qui leur sont propre. D'autre part, elles nécessitent la collaboration d'experts permettant l'alimentation d'une liste d'expressions connues. Ainsi, nous proposons une approche peu coûteuse en ressources et indépendante de tout domaine, reposant sur la détection d'acronymes torturés, étant visuellement facile à mettre en œuvre. Afin de détecter la présence de l'ensemble de ces expressions dans une publication donnée, nous mettons à disposition un jeu de données de publications torturées, un algorithme d'extraction et de classification d'acronymes, ainsi qu'une méthode permettant d'évaluer cette ligne de base. Les résultats obtenus sont biaisés par l'utilisation du jeu de données de développement, annoté par une seule personne, lors de l'évaluation de la solution proposée. Nos futures recherches seront focalisées sur l'élaboration de méthodes permettant la détection de formes particulières d'expressions telles que les hallucinations et les termes polysémiques, toujours dans une optique de faciliter la détection d'expressions torturées.
Fichier principal
Vignette du fichier
Inforsid2024_TorturedAcronyms.pdf (104.84 Ko) Télécharger le fichier
Inforsid2024_presentation.pdf (671.52 Ko) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-04597389 , version 1 (04-06-2024)

Licence

Identifiants

  • HAL Id : hal-04597389 , version 1

Citer

Alexandre Clausse. Découverte d'acronymes torturés dans des publications scientifiques. Forum Jeunes Chercheuses Jeunes Chercheurs du congrès INFormatique des ORganisations et Systèmes d'Information et de Décision (iNforsiD) de 2024, May 2024, Nancy (France), France. ⟨hal-04597389⟩
377 Consultations
62 Téléchargements

Partager

More