Beyond Beamforming: KI-basierte Sprechertrennung in Echtzeit mit Einkanalmessungen

Tom Berner; Anja Hahne; Tobias Reichenbach; Niki K. Vavatzanidis

doi:10.3205/26dga115

Beyond Beamforming: KI-basierte Sprechertrennung in Echtzeit mit Einkanalmessungen

Publikation: Beitrag zu Konferenzen › Abstract › Beigetragen › Begutachtung

Beitragende

Tom Berner - , Klinik und Poliklinik für Hals-Nasen-Ohrenheilkunde (Autor:in)
Anja Hahne - , Klinik und Poliklinik für Hals-Nasen-Ohrenheilkunde (Autor:in)
Tobias Reichenbach - , Friedrich-Alexander-Universität Erlangen-Nürnberg (Autor:in)
Niki K. Vavatzanidis - , Klinik und Poliklinik für Hals-Nasen-Ohrenheilkunde (Autor:in)

Abstract

Fragestellung: Das sogenannte Cocktail-Party-Problem beschreibt die Herausforderung, in lauten Umgebungen mit mehreren Sprechern einem bestimmten Zielsprecher zu folgen. Für Träger von Hörgeräten und Cochlea-Implantaten ist dies oft sehr schwierig. Bisherige Verfahren zur Rauschunterdrückung im akustischen Signal wie „Beamforming“ können mittels mehrerer Mikrophone die Sprachverständlichkeit verbessern. Tiefe neuronale Netzwerke erreichen sogar mit Einkanalmessungen erhebliche Rauschunterdrückung. Wir entwickeln hier ein KI-basiertes-Echtzeit-Verfahren zur Sprechertrennung, welches mit nur einem Mikrofon funktioniert.

Methoden: Implementiert wurde ein System zur Blind Source Separation (BSS), das kontinuierliche Audiodaten in 0,5s-Fenstern verarbeitet. Es wurden drei verschiedene Instanzen von KI-Modellen getestet, die über ein FastAPI/ONNX/OpenVINO-Framework implementiert wurden: TDANet [1], TIGER-tiny [2] und TIGER-full [2]. Die auf englischen Daten vortrainierten KI-Modelle wurden für die Echtzeitanwendung optimiert und auf deutsche Audiodaten angewandt. Diese enthielten zwei simultane Sprecher mit jeweils einer männlichen und einer weiblichen Stimme [3]. Die Qualität der Sprechertrennung wurde mittels SI-SDR, STOI und PESQ in jeweils 5s-Fenstern gemessen. Ein WebAudio-Frontend mit AudioWorklets übernahm Streaming, Wiedergabe und Visualisierung in Echtzeit, vollständig im Browser und ohne spezielle Hardware.

Ergebnisse: Die Echtzeitverarbeitung kontinuierlicher Audiodaten wurde auf handelsüblichen Laptops (ohne GPU) erfolgreich implementiert. In allen Metriken zur Sprachverständlichkeit- und -qualität stach TIGER-full mit den besten Ergebnissen hervor (Abbildung 1 [Abb. 1]). Im Mittel erreicht TDANet eine SI-SDR von 4,86 ± 4,39 dB, TIGER-tiny 10,01 ± 1,66 dB und TIGER-full 14,25 ± 1,30 dB. Gepaarte t-Tests zeigen, dass für SI-SDR beide TIGER-Modelle das TDANet-Modell hochsignifikant übertreffen (p < 0,001; große Effektstärken nach Cohen’s d). Darüber hinaus ist auch der Unterschied zwischen TIGER-tiny und TIGER-full hochsignifikant (p < 0,001). Ein analoges Bild zeigt sich für STOI und PESQ, wobei TIGER-full durchgängig die höchsten Werte erzielt. Aufgrund der erhöhten Komplexität der Tiger-Modelle, hat das TDANet allerdings den Vorteil, dass es sich besser für die Anwendung auf CPUs optimieren lässt und deshalb aktuell die niedrigsten Latenzen von unter 300ms erreicht.

Details

Originalsprache	Deutsch
Publikationsstatus	Veröffentlicht - 2026
Peer-Review-Status	Ja

Konferenz

Titel	28. Jahrestagung der Deutschen Gesellschaft für Audiologie e.V.
Untertitel	Von der Präzisionsaudiologie zur Praxis
Kurztitel	28. DGA-Jahrestagung
Veranstaltungsnummer	28
Dauer	4 - 6 März 2026
Webseite	https://dga-jahrestagung.de/programm-abstracts/wissenschaftliches-programm
Bekanntheitsgrad	Nationale Veranstaltung
Ort	Carl von Ossietzky Universität Oldenburg
Stadt	Oldenburg
Land	Deutschland

Externe IDs

ORCID	/0000-0002-8487-9977/work/213149545
ORCID	/0000-0002-5009-1719/work/213150088

Forschungsportal der TU Dresden

Beyond Beamforming: KI-basierte Sprechertrennung in Echtzeit mit Einkanalmessungen

Beitragende

Abstract

Details

Konferenz

Externe IDs

Schlagworte