Hoe HomePod machine learning gebruikt om de Siri-nauwkeurigheid op afstand te verbeteren

In een nieuw bericht dat maandag via zijn Machine Learning Journal-blog is gepubliceerd, gaat Apple verder in op hoe HomePod, zijn draadloze slimme luidspreker, machine learning gebruikt om de nauwkeurigheid van verre velden te vergroten, wat Siri helpt achtergrondgeluiden te negeren of te onderdrukken om uw gesproken taal beter te begrijpen verzoeken in lawaaierige omgevingen.

Uit het artikel:

De typische audio-omgeving voor HomePod kent veel uitdagingen: echo, galm en ruis. In tegenstelling tot Siri op iPhone, die dicht bij de mond van de gebruiker werkt, moet Siri op HomePod goed werken in een verre omgeving. Gebruikers willen Siri vanuit vele locaties, zoals de bank of de keuken, oproepen, ongeacht waar HomePod zich bevindt.

Een compleet online systeem, dat alle milieuproblemen aanpakt die HomePod kan ondervinden, vereist een nauwe integratie van verschillende meerkanaals signaalverwerkingstechnologieën. Dienovereenkomstig hebben de audiosoftwaretechnologie en de Siri Speech-teams een systeem gebouwd dat zowel supervised deep learning-modellen als niet-begeleide online leeralgoritmen integreert en dat meerdere microfoonsignalen gebruikt.

Het systeem selecteert de optimale audiostream voor de spraakherkenner met behulp van top-down kennis van 'Hey Siri' trigger-frasedetectoren.

De rest van het artikel bespreekt het gebruik van de verschillende technieken voor machinaal leren voor online signaalverwerking, evenals de uitdagingen waar Apple voor stond en hun oplossingen voor het bereiken van milieu- en algoritmische robuustheid en tegelijkertijd voor energie-efficiëntie.

Om een ​​lang verhaal kort te maken, Siri op HomePod implementeert het Multichannel Echo Cancel (MCEC) -algoritme dat een reeks lineaire adaptieve filters gebruikt om de meerdere akoestische paden tussen de luidsprekers en de microfoons te modelleren om de akoestische koppeling te annuleren.

Vanwege de nabijheid van de luidsprekers tot de microfoons op HomePod, kan het afspeelsignaal aanzienlijk luider zijn dan het spraakcommando van een gebruiker op de microfoonposities, vooral wanneer de gebruiker zich van het apparaat verwijdert. In feite kunnen de echosignalen 30-40 dB luider zijn dan de verre-veld spraaksignalen, waardoor de triggerfrase niet detecteerbaar is op de microfoons tijdens luide muziekweergave.

TLDR: MCEC alleen kan het afspeelsignaal niet volledig van uw spraakopdracht verwijderen.


Siri-opdracht opgenomen in aanwezigheid van luide afspeelmuziek: microfoonsignaal (boven), uitvoer van MCEC (midden) en signaal versterkt door de op masker gebaseerde echo-onderdrukking van Apple (onder)

Om de resterende afspeelinhoud na de MCEC te verwijderen, gebruikt HomePod een residuele echo-onderdrukker (RES) -benadering met een beetje hulp van het goed getrainde machine-leermodel van Apple. Voor een succesvolle detectie van triggerfracties, doet de RES dingen zoals het verminderen van resterende lineaire echo, vooral in de aanwezigheid van dubbelspraak- en echopadveranderingen.

Lees het volledige bericht en scrol omlaag naar sectie 7, waar je afbeeldingen van meerdere kleurrijke golfvormen hebt, samen met links eronder zodat je zelf kunt horen hoeveel van het verzoek van een gebruiker wordt onderdrukt door muziek die op hoog volume speelt en de afspeelsignaal gegenereerd door HomePod's tweeters en woofer.

Tidbit: de meerkanaals signaalverwerking van Apple werkt op één kern van het 1,4-GHz dual-core A8-silicium en verbruikt tot 15 procent van de single-core prestaties van de chip.

HomePod gebruikt machine learning voor veel dingen, niet alleen Siri.

Inhoudsaanbevelingalgoritmen die op het apparaat worden uitgevoerd, profiteren van machine learning, net als HomePod's technieken voor digitale audioverwerking en geluidoptimalisatie.