Apple liefert interessante Einblicke: So funktioniert das „Hey Siri“-Feature

Der Konzern aus Cupertino hat in einem eigenen Blog-Artikel, der Anfang Oktober veröffentlicht wurde, einiges an Hintergrundinformationen zum Sprachbefehl „Hey Siri“ geliefert.

Hey Siri 1

Bisher kaum beachtet, ist der Blogeintrag von Apple im eigenen Machine Learning Journal bereits am 1. Oktober dieses Jahres veröffentlicht worden und zeigt im Detail auf, welche technischen Raffinessen hinter einem simplen Sprachbefehl wie „Hey Siri“ stecken. Wir fassen die wichtigsten Infos in aller Kürze zusammen.


Um die sprachgesteuerte Funktion „Hey Siri“ nutzen und damit weitere Befehle von Apples eigener Sprachassistentin initiieren zu können, läuft laut Apple im Hintergrund stets ein kleiner Spracherkennungs-Dienst, der sich nur auf die beiden Wörter „Hey Siri“ konzentriert. „Wenn der Befehl ‚Hey Siri‘ erkannt wird, werden die darauf folgenden Sprachbefehle als Anfrage behandelt und entsprechend umgesetzt“, heißt es im Blog. „Der ‚Hey Siri‘-Erkennungsdienst nutzt ein Deep Neural Network (DNN), um das akustische Muster deiner Stimme zu jedem Zeitpunkt in eine Wahrscheinlichkeitsverteilung über Sprachgeräusche umzuwandeln. Es verwendet dann einen zeitlichen Integrationsprozess, um eine Vertrauensbewertung zu berechnen, dass die von dir ausgesprochene Phrase ‚Hey Siri‘ war. Wenn die Punktzahl hoch genug ist, wacht Siri auf.“

Um Siri ohne zusätzlichen Knopfdruck nur über den Sprachbefehl aktivieren zu können, sind im Hintergrund Hardware, Software und Internetdienste der iCloud nahtlos zusammen, um diese Funktion ermöglichen zu können. Das Mikrofon im iPhone oder der Apple Watch nimmt dabei kontinuierlich 16.000 Audiosignale in Wellenform auf. Trotz dieser enormen Leistung wird durch eine kluge Integration des Co-Prozessors AOP, ein Bestandteil des Motion Prozessors, weder die die CPU noch der Arbeitsspeicher des iPhones dauerhaft belastet und damit ein schnelles Entladen des Akkus verhindert. Auf der Apple Watch funktioniert aufgrund des kleineren Akkus das „Hey Siri“-Feature daher nur, wenn der Co-Prozessor eine Handgelenksbewegung registriert und das Display aktiviert wurde.

Spracherkennung trotz Akzent oder Dialekt

Hey Siri 2

Die Spracherkennung des Befehls „Hey Siri“ ist ausgeklügelt und erlaubt es durch eine schnelle Analyse der Audiowellen, die in Sekundenbruchteile unterteilt und in Paketen mit 20 Frames bei einer Gesamtlänge von 0,2 Sekunden an das DNN gesendet und dort auf den erstellten Sprachbefehl hin analysiert werden. Ist die Plausibilität groß genug, wird die Sprachassistentin Siri aktiviert. Dabei kommt auch ein Vergleich der vom Nutzer eingesprochenen fünf „Hey Siri“-Sprachbeispiele, die bei der Einrichtung der Funktion notwendig sind, zur Anwendung. Diese erschwert es daher auch anderen Personen, Siri mit dem Befehl „Hey Siri“ aufzuwecken.

Das Gerät sendet die Audiosignale des Nutzers zudem an Apples eigenen Siri-Server, wo zudem in der Cloud geprüft wird, ob der Sprachbefehl andere Komponenten als das geforderte „Hey Siri“ enthält. Sagt man beispielsweise „Hey Syrien“ oder „Hey Sirup“, sendet der Server ein Abbruchsignal an das iPhone, um Siri wieder schlafen zu legen. Auch in schwierigen Sprachumgebungen, beispielsweise bei mehrmalig geäußerten Sprachbefehlen in einer lauten Umgebung, wird das System sozusagen „hellhörig“ beim ersten Befehl und hört danach für einige Sekunden genauer hin, um bei einem erneuten „Hey Siri“-Versuch die Sprachassistentin zu aktivieren.

Auch verschiedene Sprachen und Akzente der Siri-Nutzer kommen bei der Erkennung zum Einsatz. Allein im Englischen gibt es mehrere auslösende Faktoren, je nach Aussprache des „Hey Siri“-Befehls, ebenso für andere Sprachen wie Französisch, Koreanisch, Russisch oder Thai. „Wir haben außerdem Aufnahmen in unterschiedlichen Umgebungen, beispielsweise in der Küche, im Auto, im Schlafzimmer und im Restaurant von Muttersprachlern jeder Sprache angefertigt“, berichtet Apple im Blogeintrag. „Beim nächsten Mal, wenn du ‚Hey Siri‘ sagst, denkst du vielleicht daran, was alles vor sich geht, um eine Antwort auf diesen Satz zu ermöglichen.“

Hinweis: Dieser Artikel enthält Affiliate-Links. Bei Käufen über diese Links erhalten wir eine Provision, mit dem wir diesen Blog finanzieren. Der Kaufpreis bleibt für euch unverändert.

Anzeige

Kommentare 3 Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Copyright © 2024 appgefahren.de