Alexa, wie funktioniert Siri? Sprachsteuerung erklärt

Wir können jetzt mit fast allen Geräten reden, aber wie funktioniert das genau? Wenn du fragst “Welches Lied ist das?” oder sagen “Ruf Mama”, ein Wunder der modernen Technologie geschieht. Und obwohl es sich anfühlt, als sei es auf dem neuesten Stand, geht die Idee, mit Geräten zu sprechen, Jahrzehnte zurück - fast so weit wie Jetpacks in der Science Fiction!

Heute konzentriert sich der Schwerpunkt des Voice-Driven-Computing hauptsächlich auf Smartphones. Apple, Amazon, Microsoft und Google stehen an der Spitze der Kette und bieten jeweils eine eigene Art, mit Elektronik zu sprechen. Sie wussten, wer sie sind: Siri, Alexa, Cortana und die Namenlosen “OK Google” Sein. Was wirft eine große Frage auf…

Wie kann ein Gerät gesprochene Wörter in Befehle umwandeln, die es verstehen kann? Im Wesentlichen geht es darum, Musterabgleich zu treffen und basierend auf diesen Mustern Vorhersagen zu treffen. Genauer gesagt, ist die Spracherkennung eine komplexe Aufgabe Akustische Modellierung und Sprachmodellierung.

Akustische Modellierung: Wellenformen und Telefone

Akustische Modellierung ist der Prozess, bei dem eine Wellenform von Sprache aufgenommen und unter Verwendung statistischer Modelle analysiert wird. Die gebräuchlichste Methode dafür ist Versteckte Markov-Modellierung, Dies wird in der so genannten Aussprachemodellierung verwendet, um Sprache in Bestandteile zu unterteilen, die als Telefone bezeichnet werden (nicht zu verwechseln mit tatsächlichen Telefongeräten). Microsoft ist seit vielen Jahren ein führender Forscher auf diesem Gebiet.

Versteckte Markov-Modellierung: Wahrscheinlichkeitszustände

Die Hidden-Markov-Modellierung ist ein vorhersagbares mathematisches Modell, bei dem der aktuelle Zustand durch Analyse der Ausgabe bestimmt wird. Wikipedia hat ein gutes Beispiel mit zwei Freunden.

Stellen Sie sich zwei Freunde vor - lokale Freunde und entfernte Freunde - die in verschiedenen Städten leben. Ein lokaler Freund möchte herausfinden, wie das Wetter in Remote Friend ist, aber Remote Friend möchte nur darüber sprechen, was er an diesem Tag getan hat: Gehen, Einkaufen oder Reinigen. Die Wahrscheinlichkeit jeder Aktivität hängt vom Wetter des Tages ab.

Stellen Sie sich vor, dass dies die einzigen verfügbaren Informationen sind. Local Friend kann damit Trends in Bezug auf das Wetter von Tag zu Tag finden. Mit diesen Trends kann sie fundierte Vermutungen darüber anstellen, welches Wetter heute auf der gestrigen Aktivität ihres Freundes basieren wird. (Sie können oben ein Diagramm des Systems sehen.)

Wenn Sie ein komplexeres Beispiel wünschen, schauen Sie sich dieses Beispiel in Matlab an. Bei der Spracherkennung vergleicht dieses Modell im Wesentlichen jeden Teil der Wellenform mit dem, was vorher und nachher kommt, und mit einem Wörterbuch von Wellenformen, um herauszufinden, was gesagt wird.

Im Wesentlichen, wenn Sie eine machen “th” Sound, es wird der Sound mit den wahrscheinlichsten Sounds verglichen, die normalerweise davor und danach auftreten. Vielleicht bedeutet das eine Überprüfung gegen “e” Ton, der “beim” Ton und so weiter. Wenn das Muster richtig passt, hat es Ihr ganzes Wort. Dies ist eine übermäßige Vereinfachung, aber Sie können die gesamte Erklärung von Microsoft hier sehen.

Sprachmodellierung: Mehr als nur Ton

Acoustic Modeling hilft Ihrem Computer dabei, Sie besser zu verstehen, aber wie sieht es mit Homonymen und regionalen Variationen in der Aussprache aus? An dieser Stelle kommt die Sprachmodellierung ins Spiel. Google hat in diesem Bereich viel Forschung betrieben, hauptsächlich durch den Einsatz von N-Gramm-Modellierung.

Wenn Google versucht, Ihre Sprache zu verstehen, basiert dies auf Modellen, die von der massiven Bank für Sprachsuche und YouTube-Transkriptionen abgeleitet wurden. Alle diese urkomisch falschen Videotitel haben Google tatsächlich dabei geholfen, ihre Wörterbücher weiterzuentwickeln. Außerdem nutzten sie den verstorbenen konnten die Informationen, wie die Leute sprechen.

Die gesamte Sprachkollektion hat eine Vielzahl von Aussprachen und Dialekten hervorgebracht, die für ein robustes Wörterbuch von Wörtern und deren Klangbild sorgten. Dies ermöglicht Übereinstimmungen, die eine wesentlich geringere Fehlerrate aufweisen als Brute-Force-Übereinstimmungen basierend auf Rohwahrscheinlichkeiten. Sie können hier einen kurzen Artikel lesen, in dem die Methoden beschrieben werden.

Während Google auf diesem Gebiet führend ist, werden derzeit weitere mathematische Modelle entwickelt, darunter kontinuierliche Weltraummodelle und Positionssprachenmodelle. Hierbei handelt es sich um fortgeschrittenere Techniken, die aus der Forschung im Bereich künstliche Intelligenz hervorgegangen sind. Diese Methoden basieren auf der Wiederholung des Denkens, das Menschen tun, wenn sie einander zuhören. Diese sind sowohl in Bezug auf die Technologie dahinter, als auch in Bezug auf Mathematik und Programmierung, die zur Erstellung dieser Modelle erforderlich sind, viel weiter fortgeschritten.

N-Gram-Modellierung: Wahrscheinlichkeit trifft Speicher

Die N-Gramm-Modellierung basiert auf Wahrscheinlichkeiten, aber es verwendet ein vorhandenes Wörterbuch von Wörtern, um einen verzweigten Baum von Möglichkeiten zu erstellen, der dann aus Effizienzgründen geglättet wird. In gewisser Weise bedeutet dies, dass die N-Gramm-Modellierung viel Unsicherheit in der oben genannten Hidden-Markov-Modellierung beseitigt.

Wie oben erwähnt, liegt die Stärke dieses Verfahrens darin, ein großes Wörterbuch von zu haben Wörter und Verwendungszweck, nicht nur primitiv Geräusche. Dies gibt dem Programm die Möglichkeit, den Unterschied zwischen Homophonen zu unterscheiden, wie z “schlagen” und “Rüben”. Es ist kontextabhängig, was bedeutet, dass wenn Sie über die Ergebnisse der letzten Nacht sprechen, das Programm keine Worte über Borscht zieht.

Diese Modelle sind jedoch nicht die besten für die Sprache, hauptsächlich aufgrund von Problemen mit der Wahrscheinlichkeit von Wörtern in längeren Sätzen. Wenn Sie einem Satz mehr Wörter hinzufügen, wird dieses Modell ein wenig abgenutzt, da Ihre frühen Wörter wahrscheinlich nicht alles geladen haben, was Sie für Ihren gesamten Gedanken benötigen.

Es ist jedoch einfach und leicht zu implementieren. Dies macht es zu einem hervorragenden Partner für ein Unternehmen wie Google, das gerne Server bei Problemen mit der Serverlösung einsetzt. Sie können N-gram Modelieng an der University of Washington weiter lesen oder einen Vortrag bei Coursera ansehen.

Clouds schreien: Apps & Geräte

Jeder, der Siri benutzt hat, kennt die Frustration einer langsamen Netzwerkverbindung. Dies liegt daran, dass Ihre Befehle an Siri über das Netzwerk gesendet werden, um von Apple entschlüsselt zu werden. Cortana für Windows Phone erfordert außerdem eine Netzwerkverbindung, um ordnungsgemäß zu funktionieren. Im Gegensatz dazu ist das Echo von Amazon nur ein Bluetooth-Lautsprecher ohne Internet.

Warum der Unterschied? Weil Siri und Cortana Hochleistungsserver benötigen, um Ihre Sprache zu dekodieren. Könnte es auf Ihrem Handy oder Tablet gemacht werden? Sicher, aber Sie würden dabei Ihre Leistung und Akkulaufzeit unterbinden. Es ist einfach sinnvoller, die Verarbeitung auf dedizierte Maschinen zu verlagern.

Stellen Sie sich das so vor: Ihr Befehl ist ein Auto, das im Schlamm steckt. Sie könnten es wahrscheinlich mit genügend Zeit und Mühe selbst herausdrücken, aber es wird Stunden dauern und Sie erschöpft lassen. Stattdessen rufen Sie die Pannenhilfe an und sie ziehen Ihr Auto in nur wenigen Minuten heraus. Der Nachteil ist, dass Sie den Anruf tätigen und auf sie warten müssen, aber es ist immer noch schneller und weniger anstrengend.

Desktop-Modelle wie Nuance verwenden aufgrund der leistungsfähigeren Hardware in der Regel lokale Ressourcen. In den Worten von Steve Jobs ist Ihr Desktop ein LKW. (Das macht es ein bisschen dumm, dass OS X Server für seine Verarbeitung verwendet.) Wenn Sie also Sprache und Sprache verarbeiten müssen, ist OS X bereits gut genug, um es eigenständig zu handhaben.

Auf der anderen Seite ermöglicht Android es Entwicklern, die Offline-Spracherkennung in ihre Apps aufzunehmen. Google mag es, der Technologie einen Schritt voraus zu sein, und Sie können darauf wetten, dass die anderen Plattformen diese Fähigkeit erhalten, wenn ihre Hardware leistungsfähiger wird. Niemand mag es, wenn eine schlechte Abdeckung oder ein schlechter Empfang das Gerät lobotomisiert.

Verwenden Sie jetzt die Sprachbefehle

Nun, da Sie die grundlegenden Konzepte kennen, sollten Sie mit Ihren verschiedenen Geräten herumspielen. Probieren Sie die neue Spracheingabe in Google Docs aus. So ist Sprachtippen das neue beste Feature von Google Docs. Wie Sprachtippen das neue beste Feature von Google Docs ist? Die Spracherkennung hat sich in den letzten Jahren sprunghaft verbessert. Anfang dieser Woche hat Google schließlich die Spracheingabe in Google Text & Tabellen eingeführt. Aber ist es gut? Lass es uns herausfinden! Weiterlesen . Als wäre die Web Office-Suite nicht bereits leistungsfähig genug, können Sie mit der Sprachsteuerung Ihre Dokumente vollständig diktieren und formatieren. Dies erweitert die leistungsstarke Technologie, die bereits für Chrome und Android entwickelt wurde.

Weitere Ideen sind die Einrichtung Ihres Mac für die Verwendung von Sprachbefehlen. So verwenden Sie Sprachbefehle auf Ihrem Mac. So verwenden Sie Sprachbefehle auf Ihrem Mac. Weitere Informationen und Einrichten Ihres Amazon Echo mit automatisiertem Checkout. Wie Amazon Echo Ihr Zuhause zu einem Smart Home machen kann Echo kann Ihr Zuhause machen Ein Smart Home Smart Home-Technologie steht noch am Anfang, aber ein neues Produkt von Amazon mit dem Namen "Echo" könnte dazu beitragen, es in den Mainstream zu bringen. Weiterlesen . Lebe in der Zukunft und freue dich auf das Gespräch mit deinen Gadgets - auch wenn Sie nur mehr Papierhandtücher bestellen. Wenn Sie ein Smartphone-Süchtiger sind, haben wir auch Tutorials für Siri. 8 Dinge, die Sie wahrscheinlich nicht erkannt haben Siri könnte 8 Dinge tun, die Sie wahrscheinlich nicht erkannt haben Siri könnte tun Siri wurde zu einer der bestimmenden Funktionen des iPhones, aber für Viele Leute, es ist nicht immer das Nützlichste. Während einige davon auf die Einschränkungen der Spracherkennung zurückzuführen sind, ist die Seltsamkeit der Verwendung… Cortana 6 coolste Dinge, die Sie mit Cortana unter Windows 10 steuern können 6 6 coolste Dinge, die Sie mit Cortana unter Windows 10 steuern können Cortana kann Ihnen beim Gehen helfen -frei auf Windows 10. Sie können Ihre Dateien und das Internet durchsuchen, Berechnungen durchführen oder die Wettervorhersage abrufen. Hier berichten wir über einige ihrer coolen Fähigkeiten. Weitere Informationen und Android OK, Google: 20 nützliche Dinge, die Sie zu Ihrem Android-Telefon sagen können OK, Google: 20 nützliche Dinge, die Sie zu Ihrem Android-Telefon sagen können Google Assistant kann Ihnen helfen, viel auf Ihrem Telefon zu erledigen. Hier sind eine ganze Reihe grundlegender, aber nützlicher OK-Befehle von Google zum Ausprobieren. Weiterlesen .

Was ist Ihre Lieblingsanwendung der Sprachsteuerung? Lass es uns in den Kommentaren wissen.

Bildnachweise: T-Flex über Shutterstock, Terencehonles über Wikimedia Foundation, Arizona, Cienpies Design über Shutterstock

Erfahren Sie mehr über: Amazon Echo, Microsoft Cortana, OK Google, Siri, Sprachbefehle.

« Alertification Erhalten Sie E-Mail- und Textbenachrichtigungen, wenn die Online-Preise von Artikeln fallen Alexa kann jetzt endlose Listen für Sie erstellen »