Penggunaan multilingual menjadi semakin umum, dengan beberapa sumber [1][2][3] menunjukkan bahwa penutur multilingual sudah melebihi monolingual, dan jumlah ini akan terus bertambah. Dengan populasi pengguna multilingual yang besar dan terus bertambah ini, maka semakin penting bagi Google untuk mengembangkan produk yang bisa mendukung banyak bahasa secara bersamaan sehingga kami bisa melayani pengguna dengan lebih baik.

Hari ini, kami meluncurkan dukungan multilingual untuk Asisten Google, yang memungkinkan pengguna melompat antar dua bahasa yang berbeda di seluruh kueri, tanpa harus kembali ke setelan bahasanya. Setelah pengguna memilih dua bahasa yang didukung, Bahasa Inggris, Spanyol, Prancis, Jerman, Italia, dan Jepang, dari sana mereka bisa berbicara dengan Asisten dalam salah satu bahasa tersebut dan Asisten akan merespons dengan baik. Sebelumnya, pengguna harus memilih satu setelan bahasa untuk Asisten, dan mengubah setelannya setiap kali mereka ingin menggunakan bahasa lain, tetapi sekarang, ini menjadi pengalaman yang semakin mudah dan praktis untuk penggunaan multilingual.
Asisten Google kini mampu mengidentifikasi bahasa, menginterpretasikan kueri dan memberikan respons menggunakan bahasa yang tepat tanpa mengharuskan pengguna menyentuh setelan Asisten.
Namun, membuatnya bekerja, bukanlah pekerjaan yang mudah. Faktanya, ini adalah upaya multitahun yang melibatkan penyelesaian banyak masalah yang menantang. Pada akhirnya, kami memecahkan masalah menjadi tiga bagian terpisah: Mengidentifikasi Berbagai Bahasa, Memahami Berbagai Bahasa dan Mengoptimalkan Pengenalan Multilingual untuk pengguna Asisten Google.

Mengidentifikasi Berbagai Bahasa
Orang memiliki kemampuan untuk mengenali ketika seseorang berbicara dengan bahasa lain, bahkan bila mereka tidak berbicara bahasa tersebut, hanya dengan memperhatikan akustik ucapan (intonasi, registrasi fonetik, dll). Namun, menetapkan framework komputasional untuk pengenalan bahasa lisan otomatis sangatlah menantang, bahkan dengan bantuan sistem pengenalan ucapan otomatis lengkap1. Pada tahun 2013, Google mulai bekerja pada teknologi identifikasi bahasa lisan (LangID) menggunakan deep neural network [4][5]. Saat ini, model LangID terbaru kami bisa membedakan antara pasangan bahasa di lebih dari 2000 pasangan bahasa alternatif menggunakan recurrent neural network, famili neural network yang sangat berhasil dalam masalah pemodelan rangkaian, seperti yang terdapat dalam pengenalan ucapan, deteksi suara, pengenalan penutur dan lainnya. Salah satu tantangan yang kami hadapi adalah bekerja dengan kumpulan audio yang lebih besar — mendapatkan model yang secara otomatis memahami berbagai bahasa dalam skala besar, dan mencapai standar kualitas yang memungkinkan model tersebut berfungsi dengan baik.

Memahami Berbagai Bahasa
Untuk memahami lebih dari satu bahasa sekaligus, beberapa proses harus dijalankan secara paralel, masing-masing memberikan hasil yang terus meningkat, memungkinkan Asisten tidak hanya mengidentifikasi bahasa yang diucapkan kueri tetapi juga mengurai kueri untuk membuat perintah yang dapat ditindaklanjuti. Misalnya, bahkan untuk lingkungan monolingual, bila pengguna meminta “setel alarm jam 6 sore”, Asisten Google harus memahami bahwa "setel alarm" berarti membuka aplikasi jam, memenuhi parameter eksplisit “6 sore” dan membuat kesimpulan bahwa alarm harus disetel untuk hari ini. Untuk membuatnya berfungsi bagi setiap pasangan bahasa yang didukung adalah sebuah tantangan, karena Asisten menjalankan tugas yang sama untuk kasus monolingual, tetapi sekarang juga harus mengaktifkan LangID, dan bukan hanya satu tetapi dua sistem pengenalan ucapan monolingual secara bersamaan (nanti kami akan menjelaskan lebih lanjut tentang batasan dua bahasa saat ini di postingan ini).

Yang penting, Asisten Google dan layanan lain yang direferensikan dalam kueri pengguna secara tidak bersamaan menghasilkan hasil inkremental real-time yang perlu dievaluasi dalam hitungan milidetik. Hal ini bisa dicapai dengan bantuan algoritme tambahan yang menyusun peringkat hipotesis transkripsi yang disediakan oleh masing-masing sistem pengenalan ucapan menggunakan probabilitas bahasa kandidat yang dihasilkan oleh LangID, keyakinan kita pada transkripsi dan preferensi pengguna (seperti artis favorit, misalnya).
Skema sistem pengenalan ucapan multilingual kami yang digunakan oleh Asisten Google dibandingkan dengan sistem pengenalan ucapan monolingual standar. Algoritme peringkat digunakan untuk memilih hipotesis pengenalan terbaik dari dua pengenal ucapan monolingual menggunakan informasi yang relevan tentang pengguna dan hasil langID inkremental.
Ketika pengguna berhenti berbicara, model tidak hanya memastikan bahasa apa yang diucapkan, tetapi juga apa yang dikatakan. Tentu saja, proses ini membutuhkan arsitektur canggih yang tentunya membutuhkan biaya pemrosesan yang meningkat dan kemungkinan hadirnya latensi yang tidak perlu.

Mengoptimalkan Pengenalan Multilingual
Untuk meminimalkan efek yang tidak diinginkan ini, semakin cepat sistem bisa membuat keputusan tentang bahasa apa yang diucapkan, maka akan semakin baik. Bila sistem sudah mengetahui pasti bahasa yang diucapkan sebelum pengguna menyelesaikan kueri, maka sistem akan berhenti menjalankan ucapan pengguna melalui pengenal yang hilang dan menghapus hipotesis yang hilang, sehingga menurunkan biaya pemrosesan dan mengurangi potensi latensi. Dengan memperhatikan hal ini, kami melihat beberapa cara untuk mengoptimalkan sistem.

Satu kasus penggunaan yang kami pertimbangkan adalah bahwa orang-orang biasanya menggunakan bahasa yang sama di seluruh kueri mereka (yang juga merupakan bahasa yang biasanya ingin didengar pengguna dari Asisten), dengan pengecualian tentang menanyakan entitas dengan nama dalam bahasa yang berbeda. Ini berarti bahwa, dalam banyak kasus, berfokus pada bagian pertama kueri memungkinkan Asisten untuk membuat dugaan awal bahasa yang diucapkan, bahkan dalam kalimat yang berisi entitas dalam bahasa yang berbeda. Dengan identifikasi awal ini, tugas ini disederhanakan dengan beralih ke pengenal ucapan monolingual tunggal, seperti yang kami lakukan untuk kueri monolingual. Namun, membuat keputusan yang cepat tentang bagaimana dan kapan harus berkomitmen pada satu bahasa, membutuhkan perubahan teknologi akhir: secara khusus, kami menggunakan teknik random forest yang menggabungkan beberapa sinyal kontekstual, seperti jenis perangkat yang digunakan, jumlah hipotesis ucapan yang ditemukan, seberapa sering kami menerima hipotesis yang sama, ketidakpastian dari pengenal ucapan individual, dan seberapa sering setiap bahasa digunakan.

Cara lain yang kami lakukan untuk menyederhanakan dan meningkatkan kualitas sistem adalah dengan membatasi daftar bahasa kandidat yang bisa dipilih pengguna. Pengguna bisa memilih dua dari enam bahasa yang saat ini didukung perangkat Beranda, yang akan memungkinkan kami mendukung mayoritas penutur multilingual. Namun, seiring upaya kami untuk terus meningkatkan teknologi, kami berharap dapat menangani dukungan tiga bahasa pada masa mendatang, kami mengerti bahwa ini akan semakin meningkatkan pengalaman basis pengguna yang terus berkembang.

Bilingual ke Trilingual
Sejak awal, tujuan kami adalah membuat Asisten secara natural bisa berbicara ke semua pengguna. Dukungan multilingual telah menjadi fitur yang sangat diminta, dan ini adalah sesuatu yang menjadi perhatian tim kami beberapa tahun yang lalu. Namun tidak hanya penutur bilingual yang banyak di seluruh dunia saat ini, kami juga ingin mempermudah pengguna trilingual, atau keluarga yang tinggal di rumah di mana lebih dari dua bahasa diucapkan.

Dengan update hari ini, kami berada di jalur yang benar, dan hal ini dimungkinkan berkat machine learning lanjutan, teknologi pengenalan ucapan dan bahasa, dan komitmen tim kami untuk terus menyempurnakan model LangID. Kami sekarang bekerja untuk mengajari Asisten Google cara memproses lebih dari dua bahasa secara bersamaan, dan terus bekerja untuk menambahkan lebih banyak dukungan bahasa di masa mendatang — nantikan!


1 Secara umum sudah diakui bahwa pengenalan bahasa lisan jauh lebih menantang daripada identifikasi bahasa berbasis teks, ketika teknik yang relatif sederhana berdasarkan kamus bisa melakukan tugas ini dengan baik. Pola frekuensi/waktu kata-kata yang diucapkan sulit untuk dibandingkan, kata-kata yang diucapkan lebih sulit dibatasi karena bisa diucapkan tanpa jeda dan dengan kecepatan yang berbeda dan mikrofon mungkin merekam suara latar belakang selain ucapan pengguna.