Apple a publicat miercuri trei articole noi care detaliază tehnicile de învățare profundă utilizate pentru crearea noilor voci sintetice ale lui Siri. Înscrierile acoperă și alte subiecte de învățare automată pe care le va împărtăși în cursul acestei săptămâni la conferința Interspeech 2017 de la Stockholm, Suedia.
Următoarele articole noi ale echipei Siri sunt acum disponibile:
- Învățarea profundă pentru Voci a lui Siri detaliază modul în care sunt utilizate rețelele de densitate a amestecurilor profunde pe dispozitiv pentru sinteza de selectare a unităților hibride
- Normalizarea textului invers - abordată din perspectiva etichetării
- Îmbunătățirea modelelor acustice ale rețelei neuronale - profitând de lățimea încrucișată și inițializarea încrucișată, dacă știți ce vreau să spun
Dacă aveți probleme să înțelegeți tehnicile sau chiar să înțelegeți natura extrem de tehnică a limbii utilizate în ultimele scrieri, nu sunteți singur.
Nu am nicio problemă să mă arunc în profunzime în documentația complexă a Apple pentru dezvoltatori și alte documentații de specialitate, dar mă simt foarte prost doar citind acești explicatori detaliate.
Printre alte îmbunătățiri, iOS 11 oferă mai multă informație și o voce nouă pentru Siri.
Asistentul personal Apple nu mai folosește expresii și cuvinte înregistrate de actorii vocali pentru a construi propoziții și răspunsurile sale. În schimb, Siri pe iOS 11 (și pe alte platforme) adoptă voci masculine și feminine create programatic. Aceasta este o tehnică de sinteză vocală mult mai grea, dar permite anumite posibilități creative cu adevărat interesante.
De exemplu, noile voci Siri profită de învățarea mașinii pe dispozitiv și de inteligența artificială pentru a ajusta intonația, tonul, accentul și ritmul în timp ce vorbesc, în timp real, ținând cont de conversație. Articolul Apple intitulat „Învățare profundă pentru vocea lui Siri” detaliază diferitele tehnici de învățare profundă din spatele îmbunătățirilor vocale Siri ale iOS 11.
Conform alineatului de deschidere:
Siri este un asistent personal care comunică folosind sinteza vorbirii. Începând cu iOS 10 și continuând cu noi funcții în iOS 11, bazăm vocile Siri pe învățare profundă. Vocile rezultate sunt mai naturale, mai fine și permit personalitatea lui Siri să strălucească.
Noile scrieri au fost publicate pe blogul oficial Apple Machine Learning Journal, înființat în urmă cu câteva săptămâni pentru a acoperi eforturile companiei în domeniul învățării mașinilor, inteligenței artificiale și cercetării conexe.
Apple a mers mai departe cu blogul în urma unor critici potrivit cărora nu putea angaja cele mai strălucitoare minți în inteligența artificială și în învățarea mașinii, deoarece nu le-ar lăsa să își publice lucrările.
Postul inaugural, intitulat „Îmbunătățirea realismului imaginilor sintetice”, a fost publicat în iulie. Articolul detaliat prezintă o nouă metodă de îmbunătățire a realismului imaginilor sintetice dintr-un simulator, folosind date reale nemarcate, păstrând în același timp informațiile de adnotare..