Bagaimana HomePod menggunakan pembelajaran mesin untuk meningkatkan akurasi Siri medan jauh

Dalam sebuah posting baru yang diterbitkan pada hari Senin melalui blog Machine Learning Journal-nya, Apple melanjutkan dengan detail bagaimana HomePod, speaker cerdas nirkabelnya, menggunakan pembelajaran mesin untuk meningkatkan akurasi medan jauh, yang membantu Siri mengabaikan atau menekan suara latar belakang untuk lebih memahami ucapan Anda. permintaan di lingkungan yang bising.

Dari artikel:

Lingkungan audio khas untuk HomePod memiliki banyak tantangan-gema, gema dan kebisingan. Tidak seperti Siri di iPhone, yang beroperasi dekat dengan mulut pengguna, Siri di HomePod harus bekerja dengan baik dalam pengaturan medan jauh. Pengguna ingin memanggil Siri dari banyak lokasi, seperti sofa atau dapur, tanpa memperhatikan di mana HomePod berada.

Sistem online lengkap, yang menangani semua masalah lingkungan yang dapat dialami HomePod, membutuhkan integrasi yang ketat dari berbagai teknologi pemrosesan sinyal multichannel. Sejalan dengan itu, tim Rekayasa Perangkat Lunak Audio dan Siri Speech membangun sistem yang mengintegrasikan model pembelajaran mendalam yang diawasi dan algoritma pembelajaran online tanpa pengawasan dan yang memanfaatkan beberapa sinyal mikrofon.

Sistem memilih aliran audio optimal untuk pengenal ucapan dengan menggunakan pengetahuan top-down dari detektor frasa pemicu 'Hey Siri'.

Sisa artikel ini membahas penggunaan berbagai teknik pembelajaran mesin untuk pemrosesan sinyal online, serta tantangan yang dihadapi Apple dan solusi mereka untuk mencapai ketahanan lingkungan dan algoritmik sambil memastikan efisiensi energi.

Singkat cerita, Siri on HomePod mengimplementasikan algoritma Multichannel Echo Cancelled (MCEC) yang menggunakan seperangkat filter adaptif linier untuk memodelkan beberapa jalur akustik antara pengeras suara dan mikrofon untuk membatalkan kopling akustik..

Karena kedekatan pengeras suara dengan mikrofon pada HomePod, sinyal pemutaran dapat secara signifikan lebih keras daripada perintah suara pengguna di posisi mikrofon, terutama ketika pengguna menjauh dari perangkat. Faktanya, sinyal gema mungkin 30-40 dB lebih keras daripada sinyal ucapan jarak jauh, yang mengakibatkan frasa pemicu tidak terdeteksi pada mikrofon selama pemutaran musik yang keras..

TLDR: MCEC saja tidak dapat menghapus sinyal pemutaran sepenuhnya dari perintah suara Anda.


Perintah Siri direkam di hadapan musik pemutaran keras: sinyal mikrofon (atas), output MCEC (tengah) dan sinyal ditingkatkan oleh penekan gema berbasis topeng Apple (bawah)

Untuk menghapus konten pemutaran yang tersisa setelah MCEC, HomePod menggunakan pendekatan sisa penekan gema (RES) dengan sedikit bantuan dari model pembelajaran mesin Apple yang terlatih. Untuk deteksi frasa pemicu yang sukses, RES melakukan hal-hal seperti mengurangi gema linear residual, terutama di hadapan perubahan jalur gema dan bicara ganda.

Pastikan untuk membaca posting lengkap dan gulir ke bawah ke Bagian 7, di mana Anda memiliki gambar beberapa bentuk gelombang warna-warni beserta tautan di bawahnya yang memungkinkan Anda untuk mendengar sendiri berapa banyak permintaan pengguna yang ditekan oleh musik yang diputar pada volume tinggi dan sinyal pemutaran yang dihasilkan oleh tweeter dan woofer HomePod.

Tidbit: Pemrosesan sinyal multichannel Apple berjalan pada satu inti dari silikon A8 1.4GHz dual-core dan mengkonsumsi hingga 15 persen dari kinerja single-core chip.

HomePod menggunakan pembelajaran mesin untuk banyak hal, bukan hanya Siri.

Algoritma rekomendasi konten yang berjalan pada perangkat mendapat manfaat dari pembelajaran mesin, seperti halnya pemrosesan audio digital HomePod dan teknik optimisasi suara.