Toward Genre Adapted Closed Captioning - Traitement du Langage Parlé Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

Toward Genre Adapted Closed Captioning

François Buet
François Yvon

Résumé

This paper studies the generation of intralingual closed captions from automatic speech transcripts, with the aim to assess techniques for multi-genre captioning. Captions and subtitles greatly vary in form and content depending on the programs genres and subtitling styles, resulting for instance in significantly different compression rates and lexical content. Borrowing ideas from the multi-domain machine translation literature, we implement and contrast several adaptation methods on a diverse set of programs broadcast on the French public TV. Our results show that such multi-domain adaption techniques are effective and help to improve our automatic subtitling system.
Cet article étudie la génération de sous-titres monolingues à partir de transcriptions vocales automatiques, dans le but d'évaluer les techniques de sous-titrage multi-genres. La forme et le contenu des sous-titres varient considérablement en fonction des genres de programmes et des styles de sous-titrage, ce qui se traduit par exemple par des taux de compression et des contenus lexicaux très différents. En empruntant des idées à la littérature de la traduction automatique multi-domaine, nous mettons en œuvre et comparons plusieurs méthodes d'adaptation sur un ensemble diversifié de programmes diffusés sur la télévision publique française. Nos résultats montrent que ces techniques d'adaptation multi-domaines sont efficaces et permettent d'améliorer notre système de sous-titrage automatique.
Fichier principal
Vignette du fichier
buet21_interspeech.pdf (131.31 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-03329488 , version 1 (31-08-2021)

Identifiants

Citer

François Buet, François Yvon. Toward Genre Adapted Closed Captioning. Interspeech 2021, Aug 2021, Brno (virtual), Czech Republic. pp.4403-4407, ⟨10.21437/interspeech.2021-1762⟩. ⟨hal-03329488⟩
151 Consultations
227 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More