Beyond Beamforming: KI-basierte Sprechertrennung in Echtzeit mit Einkanalmessungen

Publikation: Beitrag zu KonferenzenAbstractBeigetragenBegutachtung

Beitragende

Abstract

Fragestellung: Das sogenannte Cocktail-Party-Problem beschreibt die Herausforderung, in lauten Umgebungen mit mehreren Sprechern einem bestimmten Zielsprecher zu folgen. Für Träger von Hörgeräten und Cochlea-Implantaten ist dies oft sehr schwierig. Bisherige Verfahren zur Rauschunterdrückung im akustischen Signal wie „Beamforming“ können mittels mehrerer Mikrophone die Sprachverständlichkeit verbessern. Tiefe neuronale Netzwerke erreichen sogar mit Einkanalmessungen erhebliche Rauschunterdrückung. Wir entwickeln hier ein KI-basiertes-Echtzeit-Verfahren zur Sprechertrennung, welches mit nur einem Mikrofon funktioniert.

Methoden: Implementiert wurde ein System zur Blind Source Separation (BSS), das kontinuierliche Audiodaten in 0,5s-Fenstern verarbeitet. Es wurden drei verschiedene Instanzen von KI-Modellen getestet, die über ein FastAPI/ONNX/OpenVINO-Framework implementiert wurden: TDANet [1], TIGER-tiny [2] und TIGER-full [2]. Die auf englischen Daten vortrainierten KI-Modelle wurden für die Echtzeitanwendung optimiert und auf deutsche Audiodaten angewandt. Diese enthielten zwei simultane Sprecher mit jeweils einer männlichen und einer weiblichen Stimme [3]. Die Qualität der Sprechertrennung wurde mittels SI-SDR, STOI und PESQ in jeweils 5s-Fenstern gemessen. Ein WebAudio-Frontend mit AudioWorklets übernahm Streaming, Wiedergabe und Visualisierung in Echtzeit, vollständig im Browser und ohne spezielle Hardware.

Ergebnisse: Die Echtzeitverarbeitung kontinuierlicher Audiodaten wurde auf handelsüblichen Laptops (ohne GPU) erfolgreich implementiert. In allen Metriken zur Sprachverständlichkeit- und -qualität stach TIGER-full mit den besten Ergebnissen hervor (Abbildung 1 [Abb. 1]). Im Mittel erreicht TDANet eine SI-SDR von 4,86 ± 4,39 dB, TIGER-tiny 10,01 ± 1,66 dB und TIGER-full 14,25 ± 1,30 dB. Gepaarte t-Tests zeigen, dass für SI-SDR beide TIGER-Modelle das TDANet-Modell hochsignifikant übertreffen (p < 0,001; große Effektstärken nach Cohen’s d). Darüber hinaus ist auch der Unterschied zwischen TIGER-tiny und TIGER-full hochsignifikant (p < 0,001). Ein analoges Bild zeigt sich für STOI und PESQ, wobei TIGER-full durchgängig die höchsten Werte erzielt. Aufgrund der erhöhten Komplexität der Tiger-Modelle, hat das TDANet allerdings den Vorteil, dass es sich besser für die Anwendung auf CPUs optimieren lässt und deshalb aktuell die niedrigsten Latenzen von unter 300ms erreicht.

Details

OriginalspracheDeutsch
PublikationsstatusVeröffentlicht - 2026
Peer-Review-StatusJa

Konferenz

Titel28. Jahrestagung der Deutschen Gesellschaft für Audiologie e.V.
UntertitelVon der Präzisionsaudiologie zur Praxis
Kurztitel28. DGA-Jahrestagung
Veranstaltungsnummer28
Dauer4 - 6 März 2026
Webseite
BekanntheitsgradNationale Veranstaltung
Ort Carl von Ossietzky Universität Oldenburg
StadtOldenburg
LandDeutschland

Externe IDs

ORCID /0000-0002-8487-9977/work/213149545
ORCID /0000-0002-5009-1719/work/213150088

Schlagworte