Optimierung der Numerik eines linearen Gleichungssystems für die Simulation des Schallfeldes im Vokaltrakt

Johann August Marwitz; Simon Stone; Peter Birkholz

Optimierung der Numerik eines linearen Gleichungssystems für die Simulation des Schallfeldes im Vokaltrakt

Publikation: Beitrag in Buch/Konferenzbericht/Sammelband/Gutachten › Beitrag in Konferenzband › Beigetragen › Begutachtung

Beitragende

Johann August Marwitz - , Professur für Werkzeugmaschinenentwicklung und adaptive Steuerungen (Autor:in)
Simon Stone - , Professur für Sprachtechnologie und Kognitive Systeme, Juniorprofessur für Kognitive Systeme (Autor:in)
Peter Birkholz - , Juniorprofessur für Kognitive Systeme (Autor:in)

Abstract

Im Gegensatz zur in Forschung und Industrie weit verbreiteten konkatenativen Sprachsynthese besitzt die artikulatorische Sprachsynthese alle Freiheiten, die auch ein natürlicher Sprechapparat besitzt. Durch die vollständige aeroakustische Simulation der Sprache entsteht nachteilig ein hoher Rechenaufwand. Maßgeblich ist die Berechnung eines großen linearen Gleichungssystems (LGS) zur Simulation des Schallfeldes im Vokaltrakt. Um die Berechnungszeit zu reduzieren wurden für den artikulatorischen Sprachsynthesizer VocalTractLab verschiedene numerische Verfahren, Vorkonditionierungen und Speicherstrategien untersucht. Insgesamt ist es gelungen, mittels der Cholesky-Zerlegung und einer auf den Algorithmus sowie auf das LGS angepassten Speichermethode die Berechnungszeit um das Fünf- bis Sechsfache gegenüber dem bisher verwendeten Gauß-Seidel-Relaxationsverfahren zu verkürzen. Verglichen mit der Dauer des simulierten akustischen Signals nimmt die Berechnung des LGS nur noch ca. die Hälfte der simulierten Zeit in Anspruch - womit die gesamte Synthese deutlich näher an die Echtzeitfähigkeit rückt und auf aktueller PC-Hardware einen Echtzeitfaktor von 2 erreicht (vgl. vorher 4,5).

Details

Originalsprache	Deutsch
Titel	Elektronische Sprachsignalverarbeitung 2018
Redakteure/-innen	André Berton, Udo Haiber, Wolfgang Minker
Herausgeber (Verlag)	Dresden : TUDpress
Seiten	359-366
Seitenumfang	8
ISBN (Print)	978-3-959081-28-3
Publikationsstatus	Veröffentlicht - 1 März 2018
Peer-Review-Status	Ja

Publikationsreihe

Reihe	Studientexte zur Sprachkommunikation
Band	90
ISSN	0940-6832

Externe IDs

ORCID	/0000-0003-0167-8123/work/168716955

Schlagworte

Schlagwörter

Speech Synthesis

Forschungsportal der TU Dresden