Digitale Assistenten erkennen dank Deep Learning Sprache immer besser. Mit ihrer Künstlichen Intelligenz können sie sogar die Wünsche ihrer Nutzer vorhersehen.
„Tee, Earl Grey, heiß“ – jeder Star-Trek-Fan kennt die Worte, mit denen Captain Picard sein Lieblingsgetränk beim Replikator bestellt. Die Steuerung von Computern und Raumschiffen über die Sprache ist fester Bestandteil der meisten Science-Fiction-Filme. Schon seit vielen Jahren wird versucht, Maschinen über die Sprache zu steuern: Die erste Spracherkennungssoftware für Computer generell hatte IBM im Jahr 1984 der Öffentlichkeit präsentiert. Rund zehn Jahre später wurde sie für den PC und damit für den Massenmarkt konzipiert. Microsoft setzte Spracherkennung in einem Betriebssystem erstmals 2007 ein – bei Windows Vista.
Für den Durchbruch auf dem Massenmarkt sorgte Apple im Jahr 2011. Damals stellte das Unternehmen die Spracherkennungssoftware Siri für das iPhone 4s vor. Inzwischen teilt sich Siri mit verschiedenen ähnlichen Lösungen den Markt: Amazons Alexa, Cortana von Microsoft oder Googles Assistant. Allen Systemen gemein ist, dass die Verarbeitung der Spracheingabe nicht auf dem mobilen Gerät vor Ort erfolgt, sondern auf Servern der Unternehmen: Die Sprachmitteilung wird an ein Rechenzentrum geschickt und dort von gesprochener in geschriebene Sprache umgewandelt. Damit kann das eigentliche Assistenz-System Kommandos und Fragen erkennen und entsprechend reagieren. Eine Antwort wird generiert und an das mobile Gerät vor Ort zurückgeschickt – mal als Datensatz, mal als fertiges Soundfile. Allerdings werden dafür schnelle mobile Internetverbindungen gebraucht. Die Spracherkennung profitiert also vom Trend zum Cloud Computing und schnelleren mobilen Internetverbindungen.
Die Fehlerrate von Spracherkennungssystemen ist signifikant gesunken von 27% in 1997 auf gerade einmal 6% in 2016!
Qualität der Spracherkennung steigt dank Deep Learning und Künstlicher Intelligenz
Vor allem aber profitieren Spracherkennungssysteme in letzter Zeit von Künstlicher Intelligenz. Selbstlernende Algorithmen sorgen dafür, dass Maschinen Sprache immer besser verstehen: Die Fehlerrate bei computergestützter Spracherkennung sank laut einer McKinsey-Studie aus dem Jahr 2017 von 27 Prozent im Jahr 1997 auf sechs Prozent in 2016. Dank Deep Learning können die Systeme Stimmmuster, Dialekte und Akzente des Anwenders immer besser erkennen und lernen.
Auch Nuance – das Unternehmen steckt übrigens hinter der Spracherkennung von Apples Siri – konnte die Genauigkeit seiner in 2017 herausgebrachten Dragon-Spracherkennung um bis zu zehn Prozent im Vergleich mit der Vorgängerversion verbessern. Dazu verwendet die Software durchgängig Deep Learning und neuronale Netzwerke: Zum einen auf der Ebene des Sprachmodells, wo die Häufigkeit von Wörtern und ihrer typischen Kombinationen erfasst werden. Zum anderen auch auf der Ebene des akustischen Modells, in der die Phoneme oder kleinsten gesprochenen Einheiten einer Sprache modelliert werden. „Normalerweise benötigen Deep-Learning-Verfahren Zugang zu umfangreichen Daten und eine aufwändige Hardware im Rechenzentrum, um die neuronalen Netze zu trainieren“, erläutert Nils Lenke, Senior Director Corporate Research bei Nuance Communications. „Wir bei Nuance haben es jedoch geschafft, dieses Training direkt auf den Mac zu bringen. Dragon verwendet die spezifischen Sprachdaten des Anwenders und lernt dadurch fortlaufend hinzu. So können wir die Präzision erheblich steigern.“
Vorausschauende Assistenten
Doch KI verbessert nicht nur die Spracherkennung, sondern auch die Qualität der Dienste von digitalen Assistenten wie Alexa, Siri und Co. Denn durch ihre Lernfähigkeit können die Systeme Themen vorausschauend behandeln und Empfehlungen aussprechen. Microsofts Cortana hat dazu – wie ein menschlicher Assistent – zum Beispiel ein Notizbuch. Darin merkt sie sich die Interessen und Präferenzen des Nutzers, oft besuchte Orte oder Ruhezeiten, in denen der Nutzer nicht gestört werden mag. Wenn der Nutzer zum Beispiel täglich vor dem Aufbruch zur Arbeit nach Wetter und Verkehrsbedingungen fragt, kann das System die Informationen nach einigen Wiederholungen selbständig anbieten, der Nutzer muss nicht mehr aktiv werden.
IoT-Geräte per Sprache steuern
Spannend werden die digitalen Assistenten vor allem dann, wenn sie mit dem Internet der Dinge vernetzt werden. Denn so lassen sich die unterschiedlichsten elektronischen Geräte mit ihnen steuern. Mehr als fünf Milliarden Geräte aus dem Consumer-Bereich sollen in 2018 bereits digitale Assistenten unterstützen, so die Marktforscher von IHS Markit. Bis 2021 sollen weitere drei Milliarden Geräte hinzukommen. So lässt sich zum Beispiel bereits heute das Smart Home über digitale Assistenten per Sprache steuern.
Seit Anfang 2017 integriert auch Ford in den USA den Sprachassistenten Alexa in seine Fahrzeuge – damit zog erstmals überhaupt die Amazon-App ins Auto ein. Die Fahrer können so am Steuer Hörbücher genießen, im Amazon-Universum einkaufen, lokale Ziele suchen, diese direkt ins Navigations-System übertragen und vieles mehr. „Ford und Amazon teilen die Vision, dass jeder Mensch seine bevorzugten Mobilgeräte und Services mit seiner eigenen Stimme aufrufen und bedienen können sollte“, erklärt Don Butler, Leitender Direktor Ford Connected Vehicle and Services. „In Kürze können unsere Kunden ihre Autos von zuhause aus starten und ihre vernetzten Wohnungen von unterwegs bedienen – so erleichtern wir Schritt für Schritt ihr Leben.“
Doch auch die Star-Trek-Fans können sich freuen: Dank Alexa kann man sich heute auch sein Heißgetränk per Sprachbefehl bestellen. Der Kaffeeröster Tchibo hat zum Beispiel die Qbo-Kapselmaschine auf den Markt gebracht, die über WLAN mit Alexa verbunden werden kann. Dann kann man schon im Bett seinen Frühstücks-Kaffee bestellen: „Kaffee, aber pronto!“