Mikrofon-Diversitätsverfahren zur Verbesserung der Spracherkennung in Sprachbediensystemen

Aus Komfortgründen und aus Gründen der Fahrsicherheit kommen in Fahrzeugen in zunehmendem Maße Sprachbediensysteme zur Steuerung komplexer Multimediasysteme zum Einsatz. Die hierzu notwendige Spracherkennung ist in Kraftfahrzeugen jedoch besonders schwierig, da im PKW das Sprachsignal durch mehrere Störquellen beeinträchtigt wird. Unmittelbar einsichtig ist die Störung durch Fahrgeräusche. Daneben gibt es jedoch noch eine Reihe weiterer Störquellen. Dies sind vor allem Lüfter- und Strömungsgeräusche durch die Klimaanlage oder geöffnete Fenster/Schiebedach. Bei direkter Beströmung des Mikrofons führt dies zu einer drastischen Verschlechterung der Signalqualität. Für Sprachbedienanwendungen ist aber auch die Sprache der anderen Fahrzeuginsassen als Störung zu betrachten, die die Spracherkennung wesentlich erschwert.

Da die Mikrofone zur Aufnahme der Sprache nur mit einem Abstand von ca. 50 bis 70 cm zum Mund des Sprechers positioniert werden können, ist das Sprachsignal im Vergleich zu einem Nahbesprechungsmikrofon stark gedämpft, was eine erhebliche Verschlechterung des Signal-zu-Rauschleistungsverhältnisses bewirkt. Um dennoch eine robuste Spracherkennung zu gewährleisten, werden daher Verfahren zur Unterdrückung von Störgeräuschen eingesetzt. Zur Unterdrückung anderer Sprachquellen werden Mikrofonarrays und Beamforming-Algorithmen verwendet. Zukünftig werden hier sicherlich auch blinde Quellentrennungsverfahren zum Einsatz kommen. Insbesondere die aufwändigen Zeitbereichsalgorithmen sind derzeit aber noch zu komplex für einen Einsatz in eingebetteten Systemen.

Das Signal-zu-Rauschleistungsverhältnis hängt stark von der Sprecherposition ab, die den Abstand zum Mikrofon und damit die Dämpfung des Sprachsignals bestimmt. Dabei gibt es keine Mikrofonposition, die für alle Sprecherpositionen und Störgeräuschquellen ideal wäre. Im Rahmen dieses Projekts sollen daher Mikrofon-Diversitätsverfahren untersucht werden, bei denen mehrer Mikrofone an unterschiedlichen Positionen angebracht werden, die gegen unterschiedliche Störungen empfindlich bzw. unempfindlich sind. Das eigentliche Nutzsignal wird dann durch geeignete Kombination der jeweiligen Mikrofonsignale gewonnen. In eigenen Arbeiten wurde dieses Konzept schon erfolgreich zur Unterdrückung von Übersprechen und zur Unterdrückung von Hintergrundgeräuschen angewandt. Dabei wurde die Problemstellung jedoch jeweils für sich betrachtet und unterschiedliche Mikrofonpositionen sowie Signalverarbeitungsalgorithmen verwendet.

Ziel des Projekts ist die Entwicklung eines Mikrofon-Diversitätsverfahrens, das unterschiedliche Sprechpositionen, Störgeräuschquellen und Übersprechen durch andere Sprecher berücksichtigt. Hierfür wird nach geeigneten Mikrofonpositionen gesucht. Auf der Basis der bisherigen eigenen Arbeiten sollen dann entsprechende Signalverarbeitungsalgorithmen entwickelt werden. Um den Einsatz in eingebetteten Systemen zu ermöglichen, stehen hier effiziente Frequenzbereichsalgorithmen im Vordergrund.

Publikationen

  • A Phase Reference for a Multichannel Wiener Filter by a Delay and Sum Beamformer, S. Grimm, J. Freudenberger, 2015
  • A Minimum Variance Beamformer for Spatially Distributed Microphones Using a Soft Reference Selection, S. Stenzel, J. Freudenberger, 2014
  • Alternative Formulation and Robustness Analysis of the Multichannel Wiener Filter for Spatially Distributed Microphones, T. C. Lawin-Ore, S. Stenzel, J. Freudenberger, S. Doclo, 2014
  • Time-frequency Dependent Multichannel Voice Activity Detection, S. Stenzel, J. Freudenberger, 2014
  • Generalized Multichannel Wiener Filter for Spatially Distributed Microphones, Toby Christian Lawin-Ore, S. Stenzel, J. Freudenberger, Simon Doclo, 2014
  • Multichannel Signal Processing for Spatially Distributed Microphones, S. Stenzel, 2014
  • A Multichannel Wiener Filter with Partial Equalization for Distributed Microphones, S. Stenzel, Toby Christian Lawin-Ore, J. Freudenberger, Simon Doclo, 2013
  • On the Speech Distortion Weighted Multichannel Wiener Filter for diffuse Noise, S. Stenzel, J. Freudenberger, 2012
  • Blind Matched Filtering for Speech Enhancement with Distributed Microphones, S. Stenzel, J. Freudenberger, 2012
  • Blind Matched Filtering for Speech Recording in Uncorrelated Noise, J. Freudenberger, S. Stenzel, 2012
  • A Teleconference System with Distributed Microphones, S. Stenzel, E. Böhmler, J. Freudenberger, 2011
  • Combined Echo and Noise Reduction for Distributed Microphone, E. Böhmler, J. Freudenberger, S. Stenzel, 2011
  • Time-frequency masking for convolutive and noisy mixtures, J. Freudenberger, S. Stenzel, 2011
  • Time-frequency dependent voice activity detection based on a simple threshold test, J. Freudenberger, S. Stenzel, 2011
  • Microphone Diversity Combining for In-Car Applications, J. Freudenberger, S. Stenzel, B. Venditti, 2010
  • A Diversity Preprocessor for the Multichannel Wiener Filter, S. Stenzel, J. Freudenberger, 2010
  • Spectral Combining for Microphone Diversity Systems, J. Freudenberger, S. Stenzel, B. Venditti, 2009
  • A noise PSD and cross-PSD estimation for two-microphone speech enhancement systems, J. Freudenberger, S. Stenzel, B. Venditti, 2009
  • An FLMS based two-microphone speech enhancement system for in-car applications, J. Freudenberger, S. Stenzel, B. Venditti, 2009
  • A Two-Microphone Diversity System and its Application for Hands-Free Car Kits, J. Freudenberger, K. Linhard, 2005

Simon Grimm
Raum E 204
+49 7531 206-433
sgrimm@htwg-konstanz.de

Zurück zu Forschung