Organisasi Kesehatan Dunia (WHO) memperkirakan bahwa di dunia terdapat 466 juta orang penderita tunarungu dan yang kesulitan mendengar. Teknologi yang sangat penting dalam memberdayakan komunikasi dan akses inklusif ke semua informasi dunia untuk populasi ini adalah pengenalan ucapan otomatis (ASR), yang memungkinkan komputer mendeteksi bahasa yang terdengar dan menuliskannya dalam bentuk teks untuk dibaca. Google ASR berada di belakang teks otomatis di Youtube, presentasi di Slide dan juga panggilan ponsel. Namun, meskipun ASR telah melakukan beberapa penyempurnaan dalam beberapa tahun terakhir, penderita tunarungu dan orang yang kesulitan mendengar sebagian besar masih mengandalkan layanan transkripsi manual seperti CART di AS, Palantypist di Inggris, atau STTR di negara lainnya. Layanan-layanan ini sangat mahal dan sering kali harus dijadwalkan jauh sebelumnya, mengurangi peluang bagi para penderita tunarungu dan orang yang kesulitan mendengar untuk berpartisipasi dalam percakapan dadakan serta acara sosial. Kami percaya teknologi bisa menjembatani kesenjangan ini dan memberdayakan komunitas ini.

Hari ini, kami mengumumkan Live Transcribe, layanan Android gratis yang membuat percakapan dunia nyata lebih mudah diakses dengan menghadirkan kekuatan teks otomatis ke dalam penggunaan percakapan sehari-hari. Didukung oleh Google Cloud, Live Transcribe menuliskan teks percakapan secara real-time, mendukung lebih dari 70 bahasa dan lebih dari 80% populasi dunia. Anda bisa meluncurkannya dengan satu tap dari dalam aplikasi apa pun, langsung dari ikon aksesibilitas pada baki sistem.

Membangun Live Transcribe
Sistem transkripsi berbasis ASR yang sebelumnya biasanya memerlukan model intensif-komputasi, riset pengguna yang mendalam dan akses mahal ke konektivitas, semuanya menghambat adopsi transkripsi berkelanjutan otomatis. Untuk mengatasi masalah ini dan memastikan transkripsi real-time yang cukup akurat, Live Transcribe menggabungkan hasil riset pengalaman pengguna (UX) yang luas dengan konektivitas yang mulus dan stabil ke server pemrosesan suara. Selain itu, kami perlu memastikan bahwa konektivitas ke server ini tidak mengakibatkan penggunaan data yang berlebihan oleh pengguna.

Mengandalkan ASR cloud memberi kami akurasi yang lebih tinggi, tetapi kami ingin mengurangi konsumsi data jaringan yang dibutuhkan Live Transcribe. Untuk melakukannya, kami mengimplementasikan detektor suara berbasis neural network pada perangkat, yang dibangun dalam karya kami sebelumnya dengan AudioSet. Jaringan ini adalah model serupa gambar, mirip dengan model VGGish kami yang sudah dipublikasikan, yang mendeteksi pembicaraan dan secara otomatis mengelola sambungan jaringan ke engine ASR cloud, meminimalkan penggunaan data dalam periode penggunaan yang lama.

Pengalaman Pengguna
Untuk membuat Live Transcribe seintuitif mungkin, kami bermitra dengan Gallaudet University untuk memulai kerja sama riset pengalaman pengguna yang akan memastikan kebutuhan pengguna inti terpuaskan sembari memaksimalkan potensi teknologi kami. Kami mempertimbangkan berbagai model, komputer, tablet, smartphone, dan bahkan proyektor kecil, yang merupakan beberapa cara untuk menampilkan informasi dan teks yang terdengar. Pada akhirnya, kami memutuskan untuk berfokus pada smartphone karena perangkat ini dimiliki oleh hampir semua orang dan kemampuannya terus meningkat.

Setelah diputuskan, kami perlu mengatasi masalah penting lainnya: menampilkan kepercayaan transkripsi. Secara tradisional dianggap bermanfaat bagi pengguna, riset kami mengeksplorasi apakah kami benar-benar perlu menunjukkan kepercayaan level-kata atau level-frasa.
Menampilkan level kepercayaan transkripsi. Kuning berarti level kepercayaan tinggi, hijau berarti sedang dan biru berarti kepercayaan rendah. Putih adalah teks baru yang menunggu konteks sebelum diproses. Di sebelah kiri, pewarnaan berada pada level per-frasa sedangkan di sebelah kanan berada pada level per-kata.1 Riset menemukan bahwa mereka mengganggu pengguna tanpa memberikan arti percakapan.
Memperkuat riset UX sebelumnya dalam area ini, riset kami menunjukkan bahwa transkrip paling mudah dibaca ketika tidak dilapisi dengan sinyal-sinyal ini. Sebagai gantinya, Live Transcribe berfokus pada penyajian teks yang lebih baik dan menambahkannya dengan sinyal pendengaran lainnya selain ucapan.

Sinyal UX lain yang bermanfaat adalah tingkat kebisingan dari lingkungan saat ini. Dikenal sebagai masalah cocktail party, memahami seorang pembicara di tengah ruangan yang bising adalah tantangan utama bagi komputer. Untuk mengatasinya, kami membuat indikator yang memvisualisasikan volume ucapan pengguna secara relatif terhadap kebisingan latar belakang. Indikator ini juga memberikan masukan langsung kepada pengguna tentang seberapa baik mikrofon menerima suara yang masuk dari speaker, sehingga memungkinkan mereka untuk menyesuaikan penempatan ponsel.
Indikator kenyaringan dan kebisingan ditampilkan menggunakan dua lingkaran konsentris. Lingkaran yang lebih terang di bagian dalam, menunjukkan tingkat kebisingan ruangan, memberi tahu pengguna tunarungu mengenai tingkat kebisingan lingkungan saat ini. Lingkaran luar menunjukkan seberapa baik suara pembicara diterima. Secara bersama-sama, lingkaran yang terlihat menunjukkan perbedaan relatif secara intuitif.
Karya Selanjutnya
Peningkatan potensial di masa mendatang dalam transkripsi ucapan otomatis berbasis seluler meliputi pengenalan pada-perangkat, pemisahan ucapan, dan peningkatan ucapan. Bergantung hanya pada transkripsi bisa menimbulkan kesulitan tersendiri yang dapat menyebabkan miskomunikasi. Riset kami dengan Gallaudet University menunjukkan bahwa menggabungkannya dengan sinyal pendengaran lainnya seperti deteksi ucapan dan indikator kenyaringan, membuat perubahan yang nyata dalam opsi komunikasi bagi pengguna.

Live Transcribe sekarang tersedia dalam peluncuran bertahap di Play Store, dan langsung terinstal di semua perangkat Pixel 3 dengan update terbaru. Live Transcribe bisa diaktifkan melalui Accessibility Settings. Anda juga bisa membaca selengkapnya tentang hal ini di The Keyword.

Ucapan Terima Kasih
Live Transcribe dibuat oleh peneliti Chet Gnegy, Dimitri Kanevsky, dan Justin S. Paul bekerja sama dengan anggota tim Android Accessibility Brian Kemler, Thomas Lin, Alex Huang, Jacqueline Huang, Ben Chung, Richard Chang, I-ting Huang, Jessie Lin, Ausmus Chang, Weiwei Wei, Melissa Barnhart dan Bingying Xia. Kami juga ingin mengucapkan terima kasih kepada mitra dekat kami dari Gallaudet University, Christian Vogler, Norman Williams dan Paula Tucker.


1 Pembaca yang jeli bisa melihat mode kepercayaan level frasa yang digunakan oleh Dr. Obeidat dalam video di atas.