Voice Conversion by modelling and transformation of extended voice characteristics - Thèses de l'Université Pierre et Marie Curie
Theses Year : 2015

Voice Conversion by modelling and transformation of extended voice characteristics

Conversion de l’identité de la voix par modélisation et transformation de caractéristiques etendues de la voix

Abstract

Voice Conversion (VC) aims at transforming the characteristics of a source speaker’s voice in such a way that it will be perceived as being uttered by a target speaker. The principle of VC is to define mapping functions for the conversion from one source speaker’s voice to one target speaker’s voice. The transformation functions of common STAte-of-the-ART (START) VC system adapt instantaneously to the characteristics of the source voice. While recent VC systems have made considerable progress over the conversion quality of initial approaches, the quality is nevertheless not yet sufficient. Considerable improvements are required before VC techniques can be used in a professional industrial environment. The objective of this thesis is to augment the quality of Voice Conversion to facilitate its industrial applicability to a reasonable extent. The basic properties of diff erent START algorithms for Voice Conversion are discussed on their intrinsic advantages and shortcomings. Based on experimental evaluations of one GMM-based START VC approach the conclusion is that most VC systems which rely on statistical models are, due to averaging e ffect of the linear regression, less appropriate to achieve a high enough similarity score to the target speaker required for industrial usage. The contributions established throughout the work for this thesis lie in the extended means to a) model the glottal excitation source, b) model a voice descriptor set using a novel speech system based on an extended source-filter model, and c) to further advance IRCAM’s novel VC system by combining it with the contributions of a) and b). a) Improvements to estimate the shape of the deterministic part of the glottal excitation source from speech signals are presented in this thesis. A STAte-of-the-ART method based on phase minimization to estimate the shape parameter Rd of the glottal source model LF has been considerably enhanced. First, the adaptation and extension of the utilized Rd parameter range avoids inconsistencies in the frame-based estimator. Second, the utilization of Viterbi smoothing suppresses unnatural jumps of the estimated glottal source parameter contour within short-time segments. Third, the exploitation of the correlation of other co-varying voice descriptors to additionally steer the Viterbi algorithm augments the estimators robustness, especially in segments with few stable harmonic sinusoids available where the phased minimization based paradigm is more error prone. b) The estimation of the glottal excitation source is utilized to extract the contribution of the Vocal Tract Filter (VTF) from the spectral envelope by means of dividing the spectral envelope of the glottal pulse. This facilitates altering the voice quality of a given speech phrase by means of exciting the VTF with altered glottal pulse shapes. A novel speech system is presented which allows for the analysis, transformation and synthesis of di fferent voice descriptors such as glottal excitation source, intensity, fundamental frequency and the voiced / unvoiced frequency boundary. The proposed speech framework PSY derives from Parametric Speech SYnthesis to indicate its fully parametric design to construct a speech phrase for synthesis. PSY is based on the separate processing of the voiced deterministic and the unvoiced stochastic part of a speech signal. Each voice descriptor and VTF or spectral envelope required for synthesis can be introduced from the same or diff erent speakers. This flexibility allows for many voice modification possibilities or the generation of a human voice avatar. c) Please note that this part of the abstract is confidential and can therefore not be shown for the time being. It is related to IRCAM’s novel VC system which is currently patent pending.
Sommaire La Conversion de la Voix (VC) vise à transformer les caractéristiques de la voix d’un locuteur source de manière qu’il sera perçu comme étant prononcé par un locuteur cible. Le principe de la VC est de définir des fonctions du transposition pour la conversion de la voix de l’un locuteur source à la voix de l’un locuteur cible. Les fonctions de transformation de VC systèmes "State-Of-The-Art" (START) adapte instantanément aux caractéristiques de la voix source. Les récentes VC systèmes ont fait des progrès considérables sur la qualité des approches initiales de conversion. Cependant, la qualité est pas encore suffisant. Des améliorations considérables sont nécessaires que les techniques VC peuvent être utilisés dans un environnement industriel professionnel. L’objectif de cette thèse est d’augmenter la qualité de la conversion de la voix pour faciliter son applicabilité industrielle dans une mesure raisonnable. Les propriétés de base de différentes START algorithmes de la conversion de la voix sont discutés sur leurs avantages intrinsèques et ses déficits. Basé sur des évaluations expérimentales avec un GMM VC système la conclusion est que la plupart des systèmes VC START qui reposent sur des modèles statistiques sont, en raison de l’effet en moyenne de la régression linéaire, moins appropriées pour atteindre un score du similitude assez élevé avec le haut-parleur cible requise pour l’utilisation industrielle. Les contributions établies pendant de ce travail de thèse se trouvent dans les moyens étendus à a) modéliser l’excitation du source glottique, b) modéliser des descripteurs de la voix en utilisant un nouveau système de parole basée sur un modèle élargie de source-filtre, et c) avancer une nouveau système VC de l’Ircam en le combinant avec les contributions de a) et b). a) Améliorations pour estimer la forme de la partie déterministe de l’excitation du source glottique de signaux de parole sont présentés dans cette thèse. Une méthode START basé sur la minimisation des phases pour estimer le paramètre Rd du source glottique model LF a été considérablement amélioré. Tout d’abord, l’adaptation et l’extension de la gamme de paramètre Rd utilisé évite des incohérences dans l’estimateur basé par trame. Deuxièmement, l’utilisation de Viterbi lissage supprime sauts artificiels du contour Rd estimé pendant des segments de courte durée. Troisièmement, l’exploitation de la corrélation des autres descripteurs vocaux co-variant pour diriger en outre l’algorithme de Viterbi augmente la robustesse du estimateur, en particulier dans les segments avec seulement quelques stables sinusoïdes harmoniques disponibles où le paradigme basé sur la minimisation des phases est plus susceptible aux erreurs. L’estimation de l’excitation du source glottique est utilisé pour extraire la contribution du filtre de conduit vocal (VTF) à partir de l’enveloppe spectrale au moyen de diviser l’enveloppe spectrale du pulse glottique. Cela facilite d’altérer la qualité de la voix d’une phrase de la parole donnée au moyen d’exciter le VTF avec formes du pulse glottique altérée. Un nouveau système de la parole est présentée qui permet l’analyse, la transformation et la synthèse de différents descripteurs vocaux tel que l’excitation du source glottique, l’intensité, la fréquence fondamentale et la limite de fréquence voisé / non voisé. Le système de la parole proposée est dénommée "Parametric Re-Synthesis" (PaReSy) pour indiquer sa conception paramétrique pour construire une phrase de la parole pour la synthèse. PaReSy est basé sur le traitement séparé de la partie voisée déterministe et la partie non-voisée stochastique d’un signal de parole. Chaque descripteur de la voix et du VTF ou enveloppe spectrale nécessaire pour la synthèse peuvent être introduits à partir du même ou des différents locuteurs. Cette flexibilité permet de nombreuses possibilités de modification de la voix ou la génération d’un avatar de la voix humaine. c) Patent pending.
Fichier principal
Vignette du fichier
Thesis-NoPatentShown.pdf (45.12 Mo) Télécharger le fichier

Dates and versions

tel-02317057 , version 1 (22-06-2016)
tel-02317057 , version 2 (15-10-2019)
tel-02317057 , version 3 (30-03-2022)

Licence

Copyright

Identifiers

  • HAL Id : tel-02317057 , version 1

Cite

Stefan Huber. Voice Conversion by modelling and transformation of extended voice characteristics. Signal and Image Processing. IRCAM, 2015. English. ⟨NNT : ⟩. ⟨tel-02317057v1⟩
601 View
379 Download

Share

More