Un nou articol de învățare automată de la Apple analizează în detaliu modul în care „Hei Siri” își face magia

Un articol tehnic extrem de interesant publicat pe 1 octombrie pe blogul Apple Learning Machine Journal a trecut neobservat până astăzi.

În ea, Apple prezintă în detaliu modul în care funcția "Hey Siri" neatinsă profită de hardware, software și puterea iCloud pentru a permite clienților să-și folosească asistentul cu mâinile libere.

Sistemul cuplă recunoașterea vorbirii bazată pe cloud, interpretarea limbajului natural și alte servicii cu procesare pe dispozitiv asistată de hardware. Un dispozitiv iOS rulează „un foarte mic recunoscător de vorbire” tot timpul, care ascultă doar fraza „Hei Siri”.

Microfonul din iPhone sau Apple Watch înregistrează 16.000 de fluxuri de probe instantanee de formă de undă pe secundă. Iată de ce asta nu impozitează mult bateria iPhone sau nu monopolizează alte resurse de sistem, cum ar fi memoria RAM și procesorul:

Pentru a evita rularea procesorului principal toată ziua, doar pentru a asculta fraza de declanșare, coprocesorul mereu pornit de pe iPhone (AOP, care este un procesor auxiliar de mică putere încorporat în coprocesorul de mișcare din seria M de la Apple) are acces la semnalul microfonului de pe dvs. iPhone 6s și versiuni ulterioare.

Folosim o proporție mică din puterea limitată de procesare a AOP pentru a rula un detector cu o versiune mică a rețelei neuronale. Când scorul depășește un prag, coprocesorul de mișcare trezește procesorul principal, care analizează semnalul folosind o rețea neuronală mai mare.

Datorită bateriei sale mult mai mici, Apple Watch rulează detectorul „Hey Siri” doar atunci când coprocesorul său de mișcare detectează un gest de ridicare a încheieturii, care pornește ecranul, de aceea nu puteți utiliza „Hey Siri” pe Apple Watch când ecranul este oprit..

WatchOS alocă „Hei Siri” aproximativ cinci procente din bugetul de calcul limitat.

Deci, cum recunosc expresia fierbinte „Hei Siri” în timp real?

Odată capturată de dispozitivul dvs., forma de undă este divizată într-o secvență de cadre, fiecare descriind spectrul sonor de aproximativ 0,01 sec. Aproximativ douăzeci din aceste cadre simultan (0,2 sec audio) sunt trecute la rețeaua neuronală profundă.

Acolo, sunetul este transformat într-o distribuție de probabilitate pe un set de clase de sunet de vorbire: cele utilizate în fraza „Hei Siri”, plus tăcerea și alte vorbe, pentru un total de aproximativ 20 de clase de sunet. Apoi calculează un scor de încredere că fraza pe care ai rostit-o a fost „Hei Siri”.

Dacă scorul este suficient de mare, Siri se trezește.

Pe iPhone, aceștia folosesc o rețea neurală pentru detectarea inițială (care rulează pe cipul de mișcare care înghițește puterea) și o altă ca un verificator secundar (care rulează pe procesorul principal). Pentru a reduce declanșatoarele false, Apple compară de asemenea orice noutăți „Hey Siri” cu cele cinci fraze salvate pe dispozitiv în timpul procesului de înscriere „Hei Siri”..

„Acest proces nu numai că reduce probabilitatea ca„ Hei Siri ”vorbit de o altă persoană să-ți declanșeze iPhone-ul, dar reduce și viteza cu care alte fraze similare declanșează Siri”, explică lucrarea de cercetare..

De asemenea, dispozitivul încarcă forma de undă pe serverul Siri.

În cazul în care recunoscătorul principal de vorbire care rulează în cloud îl va auzi ca altceva decât „Hei Siri” (de exemplu „Hey Seriously”, „Hey Syria” sau unele asemenea), serverul trimite un semnal de anulare către telefon pentru a-l readuce la dormi.

„În unele sisteme, rulăm o versiune cut-down a principalului recunoscător de vorbire de pe dispozitiv pentru a oferi o verificare suplimentară mai devreme”, notează Apple. Presupun că prin „unele sisteme” ele înseamnă dispozitive conectate la alimentare, cum ar fi Mac-uri, televizoare Apple și poate chiar iPads.

În imaginea de mai sus: modelul acustic pe măsură ce se deplasează prin detectorul „Hei Siri”, cu o spectrogramă a formei de undă din microfonul afișat în partea de jos. Scorul final, afișat în partea de sus, este comparat cu un prag pentru a decide dacă activă Siri.

Pragul în sine este o valoare dinamică, deoarece Apple vrea să permită utilizatorilor să activeze Siri în condiții dificile - dacă lipsește un eveniment autentic „Hei Siri”, sistemul intră într-o stare mai sensibilă pentru câteva secunde. Repetarea frazei în acest timp va declanșa Siri.

Și iată cum au antrenat modelul acustic al detectorului „Hei Siri”:

Cu mult înainte de a exista o funcție Hey Siri, o mică parte din utilizatori ar spune „Hey Siri” la începutul unei solicitări, începând prin apăsarea butonului. Am folosit astfel de mențiuni „Hey Siri” pentru setul de instruire inițial pentru modelul de detector englez din SUA.

Am inclus, de asemenea, exemple generale de vorbire, utilizate pentru instruirea principalului recunoscător de vorbire. În ambele cazuri, am folosit transcrierea automată pe frazele de antrenament. Membrii echipei Siri au verificat exact un subset de transcrieri.

Modelul acustic în engleza americană are în vedere chiar și primele vocale în „Siri”, una ca în „serioasă” și cealaltă ca în „Siria”.

Pregătirea unui model durează aproximativ o zi și, de obicei, există câteva modele de formare simultan. În general, ele antrenează trei versiuni: un model mic pentru primul pas pe cipul de mișcare, un model cu dimensiuni mai mari pentru a doua trecere și un model cu dimensiuni medii pentru Apple Watch.

Și ultima știre: sistemul este instruit să recunoască și fraze localizate „Hei Siri”.

De exemplu, utilizatorii de limbă franceză spun „Dis Siri”. În Coreea, ei spun „Siri 야”, care sună ca „Siri Ya”. Utilizatorii de limbă rusă folosesc sintagma „привет Siri” (sună ca „Privet Siri”) și în tailandeză „หวัด ดี Siri” (sună ca „Wadi Siri”).

„Am făcut înregistrări special în diferite condiții, cum ar fi în bucătărie (atât aproape cât și departe), mașină, dormitor și restaurant, de vorbitori nativi din fiecare limbă”, spune Apple.

Ei folosesc chiar podcast-uri și intrări Siri în multe limbi pentru a reprezenta atât sunetele de fundal (în special vorbirea), cât și „tipurile de expresii pe care un utilizator le-ar putea spune altei persoane”.

„Data viitoare când spui„ Hei Siri ”, s-ar putea să te gândești la tot ceea ce face ca răspunsul la acea frază să se întâmple, dar sperăm că„ doar funcționează ”, Apple rezumă frumos.

Articolul extrem de tehnic oferă o perspectivă fascinantă asupra tehnologiei „Hei Siri” de la care ne asumăm, deci asigurați-vă că o citiți sau o salvați mai târziu, dacă sunteți interesat să aflați mai multe.