Cum HomePod folosește învățarea mașină pentru a spori precizia Siri de câmp îndepărtat

Într-o nouă postare publicată luni prin intermediul blogului său Machine Learning Journal, Apple continuă să detalieze modul în care HomePod, difuzorul său inteligent fără fir, folosește învățarea mașină pentru a crește precizia câmpului îndepărtat, ceea ce îl ajută pe Siri să nu ia în considerare sau să suprime sunetele de fundal pentru a înțelege mai bine vorbirea dvs. solicitări în medii zgomotoase.

Din articol:

Mediul audio tipic pentru HomePod are multe provocări: ecou, ​​reverberație și zgomot. Spre deosebire de Siri pe iPhone, care funcționează aproape de gura utilizatorului, Siri pe HomePod trebuie să funcționeze bine într-o setare de câmp îndepărtat. Utilizatorii doresc să invoce Siri din multe locații, cum ar fi canapeaua sau bucătăria, fără a ține cont de locul unde se află HomePod.

Un sistem online complet, care abordează toate problemele de mediu pe care le poate întâmpina HomePod, necesită o integrare strânsă a diverselor tehnologii de procesare a semnalului multicanal. În consecință, echipele de inginerie software audio și Siri Speech au construit un sistem care integrează atât modele de învățare profundă supravegheate, cât și algoritmi de învățare online nesupravegheați și care folosește mai multe semnale de microfon.

Sistemul selectează fluxul audio optim pentru recunoscătorul de vorbire utilizând cunoștințe de sus în jos de la detectoarele de fraze „Hey Siri”.

Restul articolului discută despre utilizarea diferitelor tehnici de învățare mașină pentru procesarea semnalului online, precum și provocările cu care se confruntă Apple și soluțiile lor pentru obținerea robustetei de mediu și algoritmice, asigurând în același timp eficiența energetică.

Scurt istoric, Siri on HomePod implementează algoritmul de anulare a ecoului multicanal (MCEC) care folosește un set de filtre liniare adaptive pentru modelarea mai multor căi acustice între difuzoare și microfoane pentru a anula cuplarea acustică..

Datorită apropierii difuzoarelor cu microfoanele de pe HomePod, semnalul de redare poate fi semnificativ mai puternic decât comanda vocală a unui utilizator în pozițiile microfonului, mai ales atunci când utilizatorul se îndepărtează de dispozitiv. De fapt, semnalele ecou pot fi cu 30-40 dB mai puternice decât semnalele de vorbire pe câmpul îndepărtat, ceea ce duce la ca fraza declanșatoare să fie nedetectabilă pe microfoane în timpul redării muzicii puternice.

TLDR: MCEC singur nu poate elimina complet semnalul de redare din comanda voastră.


Comanda Siri înregistrată în prezența muzicii de redare puternică: semnal de microfon (sus), ieșire MCEC (mijloc) și semnal îmbunătățit prin suprimarea ecoului bazată pe mască (partea de jos)

Pentru a elimina conținutul de redare rămas după MCEC, HomePod utilizează o abordare reziduală de ecou (RES), cu puțin ajutor din modelul de învățare automată bine pregătit de la Apple. Pentru detectarea cu succes a frazei declanșatoare, RES face lucruri precum atenuarea unui ecou liniar rezidual, mai ales în prezența schimbărilor de cale dublă și ecou.

Asigurați-vă că citiți postarea completă și derulați în jos până la secțiunea 7, unde aveți imagini cu mai multe forme de undă colorate, împreună cu link-uri de mai jos, care vă permit să auziți singuri cât de mult din solicitarea unui utilizator este suprimată de muzica redată la volum mare și semnal de redare generat de tweeter-urile și woofer-ul HomePod.

Tidbit: prelucrarea semnalului Apple multicanal se execută pe un nucleu al siliconului A8 de 1.4 GHz dual-core și consumă până la 15 la sută din performanțele cu un singur nucleu ale cipului.

HomePod folosește învățarea mașină pentru o mulțime de lucruri, nu doar Siri.

Algoritmii de recomandare a conținutului care rulează pe dispozitiv beneficiază de învățarea automată, la fel ca tehnicile de procesare audio digitală și optimizarea sunetului HomePod.