Die Qualität von Spracherkennungssystemen nimmt dank der Entwicklungen in KI, Halbleiter- und Mikrofontechnik kontinuierlich zu. Nicht nur im Bereich der Smart Homes werden Sprachassistenten immer populärer, sondern auch in anspruchsvolleren Anwendungen wie in Autos oder in der Industrie gewinnt die sprachgesteuerte Gerätekontrolle zunehmend an Bedeutung.
„Alexa, schalte das Licht im Wohnzimmer ein!“ ist nur einer der vielen Befehle, die intelligente Lautsprecher heute ausführen können. Smart Speaker mit ihren Spracherkennungssystemen sind bereits in vielen Haushalten die zentrale Schaltstelle für viele Smart Home-Funktionen – allein über Amazons Alexa können laut Statista über 60.000 verschiedene Smart Home-Geräte gesteuert werden.
Nutzung von Sprachassistenten nimmt zu
Human Machine Interfaces, die über Sprache funktionieren, sind also längst keine Vision von Science-Fiction-Serien wie „Star Trek“ oder „Knight Rider“. Bei Letzterer führte der Held der Serie regelmäßig humorvolle Gespräche mit seinem Auto K.I.T.T. Tatsächlich hat zuletzt das Auto den größten Schritt beim Einsatz von sprachgesteuerten HMI gemacht: In Deutschland erteilt zum Beispiel laut dem Branchenverband Bitkom schon fast die Hälfte der Nutzer dem Pkw Sprachbefehle – sei es etwa, um das Navi auf Kurs zu bringen, eine Playlist zu starten oder sich Nachrichten vorlesen zu lassen. „Die Automobilhersteller haben die Sprachsteuerung in Fahrzeugen in den vergangenen Jahren massiv ausgebaut“, sagt Dr. Sebastian Klöß, Experte für Consumer Technology bei der Bitkom. „Sprachsteuerung vergrößert nicht nur den Komfort am Steuer, sondern macht das Fahren vor allem sicherer. Sprachassistenten werden sich als dominierender Weg etablieren, die Funktionen des Fahrzeugs unterwegs zu bedienen.“
200 Millionen Geräte umfasst der in 2023 prognostizierte Markt für Smart Speaker.
Quelle: Statista
Besser als der Mensch
Schon seit den 1950er-Jahren wird an Spracherkennungssystemen geforscht. Erste Systeme konnten aber gerade einmal eine einzige Stimme und ein knappes Dutzend Wörter identifizieren. Erst in den 2000er-Jahren war die Technologie so weit, dass virtuelle Assistenten wie Google Home oder Amazon Alexa möglich wurden. Seitdem haben sich HMI mit Sprachsteuerung erheblich verbessert – heutige Systeme erkennen Worte bereits besser als ein Mensch, sie erreichen eine „Word Error Rate“ zwischen drei und vier Prozent. Der Mensch versteht dagegen durchschnittlich rund fünf Prozent der Wörter nicht.
Steigende Genauigkeit dank KI
Die hohe Genauigkeit der Spracherkennung wurde vor allem durch den Einsatz von Künstlicher Intelligenz verbessert. Algorithmen des Maschinellen Lernens wie Deep Learning werden eingesetzt, um komplexe Sprachmuster zu erkennen, natürliche Sprache zu verstehen und zwischen verschiedenen Sprachen zu unterscheiden.
Schnelle Reaktion dank Edge-Processing
Doch neben der Genauigkeit ist auch die Geschwindigkeit, mit der die Sprache in computerlesbare Befehle umgesetzt wird, entscheidend – vor allem, wenn zeitkritische Funktionen gesteuert werden sollen. Da die zu verarbeitenden Datenmengen allerdings bei der Spracherkennung gewaltig sind, laufen die erforderlichen Algorithmen bei den meisten virtuellen Assistenten in der Cloud oder vielmehr in einem Rechenzentrum. Damit ist jedoch eine relativ hohe Latenz verbunden – also die Zeit zwischen dem Aussprechen des Kommandos bis zur Ausführung. Doch dank der immensen Fortschritte in der Halbleitertechnologie sind heute spezielle KI- und digitale Signalprozessoren verfügbar, mit denen Sprache direkt vor Ort verarbeitet werden kann – entsprechend gering sind die Reaktionszeiten, da die Daten nicht mehr in die Cloud geladen werden müssen. Dedizierte Audio Edge-Prozessoren erhöhen zusätzlich die Effizienz in sprachgesteuerten Geräten: Sie fungieren als energieeffizienter Wake-Up-Schalter, der den stromhungrigen Anwendungsprozessor erst einschaltet, wenn ein bestimmtes Schlüsselwort genannt wird. Er kann zudem die Aufgabe der Rauschunterdrückung übernehmen und den Hauptprozessor davon entlasten.
Immer leistungsfähigere Mikrofone
Neben den digitalen Signalprozessoren ist die Mikrofontechnik entscheidend für die Genauigkeit der Spracherkennung. Mikrofon-Arrays ermöglichen zum Beispiel, dass sich das Spracherkennungssystem auf den Nutzer fokussiert und Hintergrundgeräusche ausblendet. Diese Beamforming genannte Technik wird bereits in intelligenten Lautsprechern wie Home Pod und Echo genutzt. Zum Einsatz kommen dabei zunehmend MEMS-Mikrofone – miniaturisierte mikroelektromechanische Systeme, die direkt auf elektronischen Platinen eingesetzt werden. Sie zeichnen sich durch einen hohen Signal-Rausch-Abstand, eine geringe Leistungsaufnahme und große Empfindlichkeit aus. Die Miniaturisierung ermöglicht es, mehrere Mikrofone auf kleinstem Raum zu kombinieren, was Voraussetzung ist für Beamforming, Rauschunterdrückung oder Windgeräuschfilterung.
Hände frei in der Produktion
Mit den Fortschritten in der Hardware und den Spracherkennungsalgorithmen erschließt sich die Sprachsteuerung inzwischen Einsatzgebiete, die vor wenigen Jahren noch unmöglich schienen. Zum Beispiel in einer industriellen Produktion, die von vielen lauten Nebengeräuschen geprägt ist. So hat das Fraunhofer IDMT in Oldenburg eine Lösung entwickelt, bei der Umgebungsgeräusche durch eine Kombination aus Richtmikrofonen und wirkungsvollem Noise Cancelling fast vollständig ausgeblendet werden.
Marvin Norda, Projektleiter „Voice Controlled Production“ am Fraunhofer IDMT: „Unsere Technologie ermöglicht erstmals die robuste und gleichzeitig intuitive Steuerung von Maschinen in der Produktion durch Sprachbefehle. Für produzierende Unternehmen bedeutet das eine verbesserte Effizienz und sinkende Kosten.“
So haben zukünftig Maschinenbediener beide Hände frei. Sie können zum Beispiel ein Werkstück im Arbeitsbereich positionieren und einem Roboter gleichzeitig Anweisungen wie „Arm senken“ oder „Werkstück greifen“ geben.