Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole

Ryan Whetten; Titouan Parcollet; Marco Dinarelli; Yannick Estève

Communication Dans Un Congrès Année : 2024

Open Implementation and Study of BEST-RQ for Speech Processing

Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole

(1) , (2, 3) , (4, 5, 6) , (1)

1
2
3
4
5
6

Ryan Whetten

Fonction : Auteur

Laboratoire Informatique d'Avignon

Titouan Parcollet

Fonction : Auteur

University of Cambridge [UK]

Samsung AI Center [Cambridge]

Marco Dinarelli

Fonction : Auteur

Université Grenoble Alpes

Laboratoire d'Informatique de Grenoble

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Yannick Estève

Fonction : Auteur
PersonId : 11645
IdHAL : yannick-esteve
ORCID : 0000-0002-3656-8883
IdRef : 070531668

Laboratoire Informatique d'Avignon

Résumé

Self-Supervised Learning (SSL) has proven to be useful in various speech tasks. However, these methods are generally very resource demanding. BERT-based Speech pre-Training with Random-projection Quantizer (BEST-RQ), is an SSL method that has shown great performance on Automatic Speech Recognition (ASR) while being simpler than other SSL methods, such as wav2vec 2.0. Despite BEST-RQ's great performance, details are lacking in the original paper, such as the amount of GPU/TPU hours used in pre-training, and there is no official easy-to-use open-source implementation. Furthermore, BEST-RQ has not been evaluated on other downstream tasks aside from ASR and speech translation. In this work, we describe a re-implementation of BEST-RQ and perform a preliminary study with a comparison to wav2vec 2.0 on four downstream tasks. We discuss the details of our implementation. We show BEST-RQ can achieve similar downstream performance as wav2vec 2.0 while decreasing training time by over a factor of two.

L’apprentissage auto-supervisé (SSL) a fait ses preuves pour le traitement automatique de la parole mais est généralement très consommateur de données, de mémoire et de ressources matérielles. L’approche BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer) est une approche SSL performante en reconnaissance automatique de la parole (RAP), plus efficiente que wav2vec 2.0. L’article original de Google qui introduit BEST-RQ manque de détails, comme le nombre d’heures de GPU/TPU utilisées pour le pré-entraînement et il n’existe pas d’implémentation open-source facile à utiliser. De plus, BEST-RQ n’a pas été évalué sur d’autres tâches que la RAP et la traduction de la parole. Dans cet article, nous décrivons notre implémentation open-source de BEST-RQ et réalisons une première étude en le comparant à wav2vec 2.0 sur quatre tâches. Nous montrons que BERT-RQ peut atteindre des performances similaires à celles de wav2vec 2.0 tout en réduisant le temps d’apprentissage d’un facteur supérieur à deux.

Mots clés

speech recognition speaker recognition keyword spotting

apprentissage auto-supervisé reconnaissance de la parole reconnaissance du locuteur repérage de mots-clés self-supervised learning

Domaines

Informatique et langage [cs.CL]

Fichier principal

Implementation_ouverte_BESTRQ.pdf (287.21 Ko)

Origine	Fichiers produits par l'(les) auteur(s)

Ryan Whetten : Connectez-vous pour contacter le contributeur

https://hal.science/hal-04623092

Soumis le : vendredi 20 septembre 2024-13:00:35

Dernière modification le : mercredi 18 décembre 2024-10:11:45

Dates et versions

hal-04623092 , version 1 (01-07-2024)

hal-04623092 , version 2 (20-09-2024)

Licence

Paternité

Identifiants

HAL Id : hal-04623092 , version 2

Citer

Ryan Whetten, Titouan Parcollet, Marco Dinarelli, Yannick Estève. Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole. 35èmes Journées d'Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.412-420. ⟨hal-04623092v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-AVIGNON UGA CNRS LIG LIG_TDCGE_GETALP GENCI LIA LIG_SIDCH

116 Consultations

39 Téléchargements

Open Implementation and Study of BEST-RQ for Speech Processing

Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Relations

Exporter

Collections

Partager