Apple pada hari Rabu menerbitkan tiga artikel baru yang merinci teknik pembelajaran mendalam yang digunakan untuk penciptaan suara sintetis baru Siri. Artikel ini juga membahas topik pembelajaran mesin lainnya yang akan dibagikan akhir pekan ini di konferensi Interspeech 2017 di Stockholm, Swedia.
Artikel baru berikut dari tim Siri sekarang tersedia:
- Deep Learning for Siri's Voice-detail bagaimana jaringan densitas campuran dalam perangkat digunakan untuk sintesis pemilihan unit hibrid
- Inverse Text Normalalization-didekati dari perspektif pelabelan
- Meningkatkan Model Akustik Neural Network-dengan mengambil keuntungan dari inisialisasi lintas-bandwidth dan lintas-bahasa, jika Anda tahu apa yang saya maksud
Jika Anda kesulitan memahami teknis atau bahkan memahami sifat teknis yang sangat tinggi dari bahasa yang digunakan dalam artikel terbaru, Anda tidak sendirian.
Saya tidak punya masalah menyelam jauh ke dalam dokumentasi kompleks Apple untuk pengembang dan dokumentasi khusus lainnya, tetapi saya merasa benar-benar bodoh hanya membaca penjelasan terperinci itu..
Di antara peningkatan lainnya, iOS 11 memberikan lebih banyak kecerdasan dan suara baru untuk Siri.
Asisten pribadi Apple tidak lagi menggunakan frasa dan kata-kata yang direkam oleh aktor suara untuk menyusun kalimat dan tanggapannya. Sebaliknya, Siri pada iOS 11 (dan platform lainnya) mengadopsi suara pria dan wanita yang dibuat secara program. Itu teknik sintesis suara yang jauh lebih sulit, tetapi memungkinkan untuk beberapa kemungkinan kreatif yang sangat keren.
Misalnya, suara Siri baru memanfaatkan pembelajaran mesin di perangkat dan kecerdasan buatan untuk menyesuaikan intonasi, nada, penekanan, dan tempo saat berbicara, secara real time, dengan mempertimbangkan konteks percakapan. Artikel Apple berjudul “Pembelajaran Jauh untuk Siri's Voice” merinci berbagai teknik pembelajaran mendalam di balik peningkatan suara Siri iOS 11.
Menurut paragraf pembuka:
Siri adalah asisten pribadi yang berkomunikasi menggunakan sintesis ucapan. Mulai di iOS 10 dan berlanjut dengan fitur-fitur baru di iOS 11, kami mendasarkan suara Siri pada pembelajaran yang mendalam. Suara-suara yang dihasilkan lebih alami, lebih halus, dan memungkinkan kepribadian Siri bersinar.
Tulisan baru diterbitkan di blog resmi Apple Machine Learning Journal, didirikan beberapa minggu yang lalu untuk membahas upaya perusahaan di bidang pembelajaran mesin, kecerdasan buatan dan penelitian terkait.
Apple melanjutkan dengan kritik blog berikut bahwa itu tidak bisa mempekerjakan pikiran paling cerdas dalam kecerdasan buatan dan pembelajaran mesin karena tidak akan membiarkan mereka menerbitkan karya-karya mereka.
Posting perdana, berjudul "Meningkatkan Realisme Gambar Sintetis", diterbitkan pada bulan Juli. Artikel yang mendalam menguraikan metode baru untuk meningkatkan realisme gambar sintetik dari simulator menggunakan data nyata yang tidak berlabel sambil mempertahankan informasi anotasi.