Přejít k obsahu


First Steps Towards Hybrid Speech Synthesis in Czech TTS System ARTIC

Citace:
TIHELKA, D., HANZLÍČEK, Z., JŮZOVÁ, M., MATOUŠEK, J. First Steps Towards Hybrid Speech Synthesis in Czech TTS System ARTIC. In Speech and Computer 20th International Conference, SPECOM 2018 Leipzig, Germany, September 18–22, 2018, Proceedings. Cham: Springer Nature Switzerland AG, 2018. s. 676-686. ISBN: 978-3-319-99578-6 , ISSN: 0302-9743
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: First Steps Towards Hybrid Speech Synthesis in Czech TTS System ARTIC
Rok vydání: 2018
Místo konání: Cham
Název zdroje: Springer Nature Switzerland AG
Autoři: Ing. Daniel Tihelka Ph.D. , Ing. Zdeněk Hanzlíček Ph.D. , Ing. Markéta Jůzová , Doc. Ing. Jindřich Matoušek Ph.D. ,
Abstrakt CZ: Bylo reportováno, že hybridní syntéza řeči, která kombinuje generátor trajektorií parametrů na bázi HMM s metodou výběr jednotek, vykazuje vysokou kvalitu výstupní řeči, v některých případech dokonce překonává "klasickou" metodu výběru jednotek. Zároveň tato metoda vyžaduje přiměřenou cenu hardwarových požadavků, zejména ve srovnání s moderními metodami syntézy řeči založenými na DNN (např. WaveNet). Tento příspěvek představuje jeden z hybridních přístupů, kdy je překonán nesoulad mezi poměrně plynulým průběhem parametrů generovaných HMM modelem a mezi jejich dynamickým charakterem jsou-li získané z řeči. Popisujeme také několik variant výpočtu ceny cíle, ovlivňujících výběr jednotek blízkých požadovaným parametrům. Naším cílem je získat představu o vzájemných interakcích uvnitř upraveného procesu výběru jednotek. Celkové zhodnocení je podepřeno poslechovými testy, které ukazují srovnatelnou kvalitu popsané experimentální hybridní metody a dlouhé roky laděné metody výběru jednotek.
Abstrakt EN: The hybrid speech synthesis, combining an HMM-based parameter trajectories generator and unit selection, was reported to achieve high speech output quality, in some cases even outperforming the “classic” unit selection method, while having reasonable cost of hardware requirements increase, especially when compared to modern DNN-based (e.g. WaveNet) speech synthesis methods. The present paper introduces one of this hybrid approaches, facing up the mismatch between rather smooth flow of parameters when generated by a model and between their varying evolution when obtained from speech. We also describe several modifications of target cost computation, influencing the selection of units being close to the required parameters, while our aim is to obtain a notion of the mutual interactions within the modified selection process. The overall conclusion is covered by listening tests, showing comparable quality of the trial hybrid synthesis described to unit selection method tuned through the years.
Klíčová slova

Zpět

Patička