Artikel pembelajaran mesin baru dari Apple menjelaskan secara mendalam bagaimana Hey Siri melakukan keajaibannya

Sebuah artikel teknis yang sangat menarik yang diterbitkan 1 Oktober di blog Machine Learning Journal Apple tidak diketahui, sampai hari ini.

Di dalamnya, Apple menjabarkan secara terperinci bagaimana fitur "Hai Siri" yang tidak ditelusuri mengambil keuntungan dari perangkat keras, perangkat lunak, dan kekuatan iCloud untuk memungkinkan pelanggan menggunakan asisten mereka secara hands-free..

Sistem ini menggabungkan pengenalan suara berbasis cloud, interpretasi bahasa alami, dan layanan lainnya dengan pemrosesan pada perangkat yang dibantu perangkat keras. Perangkat iOS menjalankan "pengenal ucapan yang sangat kecil" sepanjang waktu, yang hanya mendengarkan frasa "Hai Siri".

Mikrofon di iPhone atau Apple Watch Anda merekam 16.000 aliran sampel gelombang instan per detik. Inilah mengapa hal itu tidak membebani baterai iPhone Anda terlalu banyak atau memonopoli sumber daya sistem lainnya, seperti RAM dan CPU:

Untuk menghindari menjalankan prosesor utama sepanjang hari hanya untuk mendengarkan frasa pemicu, coprocessor iPhone yang selalu aktif (AOP, yang merupakan prosesor bantu berdaya rendah yang tertanam di dalam coprocessor gerak seri-M Apple) memiliki akses ke sinyal mikrofon pada perangkat Anda. iPhone 6s dan yang lebih baru.

Kami menggunakan sebagian kecil daya pemrosesan terbatas AOP untuk menjalankan detektor dengan versi kecil dari jaringan saraf. Ketika skor melebihi ambang batas, coprocessor gerak membangunkan prosesor utama, yang menganalisis sinyal menggunakan jaringan saraf yang lebih besar.

Karena baterainya yang jauh lebih kecil, Apple Watch menjalankan detektor "Hey Siri" hanya ketika coprocessor gerakannya mendeteksi gerakan menaikkan pergelangan tangan, yang menghidupkan layar — itu sebabnya Anda tidak dapat menggunakan "Hey Siri" di Apple Watch ketika layar mati.

WatchOS mengalokasikan "Hey Siri" sekitar lima persen dari anggaran komputasi terbatas.

Jadi, bagaimana mereka mengenali frasa “Hey Siri” yang sebenarnya secara real time?

Setelah ditangkap oleh perangkat Anda, bentuk gelombang dipecah menjadi urutan bingkai, masing-masing menggambarkan spektrum suara sekitar 0,01 detik. Sekitar dua puluh dari frame-frame ini pada satu waktu (audio 0,2 detik) diteruskan ke jaringan saraf yang dalam.

Di sana, suara diubah menjadi distribusi probabilitas melalui satu set kelas suara bicara: yang digunakan dalam frasa "Hai Siri", ditambah keheningan dan ucapan lainnya, dengan total sekitar 20 kelas suara. Itu kemudian menghitung skor kepercayaan bahwa frasa yang Anda ucapkan adalah "Hei Siri".

Jika skornya cukup tinggi, Siri bangun.

Pada iPhone, mereka menggunakan satu jaringan saraf untuk deteksi awal (berjalan pada chip gerakan power-sipping) dan lainnya sebagai pemeriksa sekunder (berjalan pada prosesor utama). Untuk mengurangi pemicu salah, Apple juga membandingkan ucapan "Hey Siri" baru dengan lima frasa yang disimpan ke perangkat selama proses pendaftaran "Hey Siri".

"Proses ini tidak hanya mengurangi kemungkinan bahwa 'Hei Siri' yang diucapkan oleh orang lain akan memicu iPhone Anda, tetapi juga mengurangi tingkat di mana frasa-frasa lain yang mirip memicu Siri," jelas makalah penelitian..

Perangkat juga mengunggah bentuk gelombang ke server Siri.

Jika pengenal ucapan utama yang berjalan di cloud mendengarnya sebagai sesuatu selain "Hai Siri" (misalnya "Hai Serius", "Hai Suriah" atau semacamnya), server mengirimkan sinyal pembatalan ke telepon untuk mengembalikannya ke tidur.

“Pada beberapa sistem, kami menjalankan versi cut-down dari pengenal ucapan utama pada perangkat untuk memberikan pemeriksaan tambahan sebelumnya,” Apple mencatat. Saya berasumsi bahwa dengan "beberapa sistem" yang mereka maksudkan adalah perangkat yang terhubung ke daya, seperti Mac, Apple TV dan bahkan mungkin iPad.

Digambarkan di atas: pola akustik saat bergerak melalui detektor "Hei Siri", dengan spektogram bentuk gelombang dari mikrofon yang ditunjukkan di bagian paling bawah. Skor akhir, ditunjukkan di atas, dibandingkan dengan ambang batas untuk memutuskan apakah akan mengaktifkan Siri.

Ambang batas itu sendiri adalah nilai dinamis karena Apple ingin membiarkan pengguna mengaktifkan Siri dalam kondisi sulit-jika itu melewatkan acara "Hai Siri" yang asli, sistem memasuki kondisi yang lebih sensitif selama beberapa detik. Mengulangi frasa selama waktu itu akan memicu Siri.

Dan inilah cara mereka melatih model akustik detektor "Hey Siri":

Nah sebelum ada fitur Hey Siri, sebagian kecil pengguna akan mengatakan 'Hey Siri' di awal permintaan, setelah memulai dengan menekan tombol. Kami menggunakan ucapan 'Hei Siri' untuk pelatihan awal yang ditetapkan untuk model detektor Bahasa Inggris AS.

Kami juga menyertakan contoh-contoh pidato umum, seperti yang digunakan untuk melatih pengenalan ucapan utama. Dalam kedua kasus, kami menggunakan transkripsi otomatis pada frasa pelatihan. Anggota tim Siri memeriksa bagian dari transkripsi untuk akurasi.

Model akustik dalam bahasa Inggris AS bahkan memperhitungkan perbedaan vokal pertama dalam "Siri," satu sebagai "serius" dan yang lain seperti "Suriah."

Pelatihan satu model memakan waktu sekitar satu hari dan biasanya ada beberapa model dalam pelatihan pada satu waktu. Mereka umumnya melatih tiga versi: model kecil untuk lintasan pertama pada chip gerak, model ukuran lebih besar untuk lintasan kedua dan model ukuran sedang untuk Apple Watch.

Dan berita gembira terakhir: sistem dilatih untuk mengenali frasa "Hei Siri" yang terlokalisasi juga.

Misalnya, pengguna berbahasa Perancis mengatakan "Dis Siri." Di Korea, mereka mengatakan "Siri 야," yang terdengar seperti "Siri Ya". Pengguna berbahasa Rusia menggunakan frasa “привет Siri“ (terdengar seperti “Privet Siri”) dan dalam bahasa Thailand “หวัด ดี Siri” (terdengar seperti “Wadi Siri”).

“Kami membuat rekaman khusus dalam berbagai kondisi, seperti di dapur (baik dekat dan jauh), mobil, kamar tidur dan restoran, oleh penutur asli dari setiap bahasa,” kata Apple.

Mereka bahkan menggunakan podcast dan input Siri dalam banyak bahasa untuk mewakili suara latar belakang (terutama ucapan) dan "jenis ungkapan yang mungkin dikatakan pengguna kepada orang lain."

"Lain kali Anda mengatakan 'Hei Siri' Anda mungkin memikirkan semua yang terjadi untuk membuat tanggapan terhadap ungkapan itu terjadi, tetapi kami berharap itu 'hanya berfungsi'," Apple menyimpulkannya dengan baik.

Artikel yang sangat teknis ini memberikan wawasan yang menarik tentang teknologi "Hai Siri" yang kami terima begitu saja, jadi pastikan untuk membaca atau menyimpannya nanti jika Anda tertarik untuk mempelajari lebih lanjut.