Banyak produk Google (misal, Asisstant, Search, Maps) datang dengan sintesis text-to-speech bawaan berkualitas tinggi yang menghasilkan ucapan berbunyi natural. Developer memberi tahu kami bahwa mereka ingin menambahkan text-to-speech ke aplikasi mereka sendiri, jadi hari ini kami menghadirkan teknologi ini ke Google Cloud Platform dengan Cloud Text-to-Speech.

Anda bisa menggunakan Cloud Text-to-Speech dalam berbagai cara, misalnya:
  • Untuk mendukung sistem respons suara bagi pusat panggilan (IVR) dan mengaktifkan percakapan bahasa natural real-time 
  • Untuk mengaktifkan perangkat IoT (mis., TV, mobil, robot) agar merespons suara Anda 
  •  Untuk mengonversi media berbasis teks (mis., artikel berita, buku) ke dalam format lisan (mis., Podcast atau audiobook)
Cloud Text-to-Speech memungkinkan Anda memilih 32 suara berbeda dari 12 bahasa dan varian. Cloud Text-to-Speech mengucapkan teks kompleks dengan tepat seperti nama, tanggal, waktu, dan alamat persis seperti suara asli langsung dari program. Cloud Text-to-Speech juga memungkinkan Anda menyesuaikan nada, kecepatan berbicara, dan kekerasan volume, serta mendukung berbagai format audio, termasuk MP3 dan WAV.

DeepMind


Selain itu, kami senang sekali bisa mengumumkan bahwa Cloud Text-to-Speech juga menyertakan pilihan suara fidelitas-tinggi yang dibuat menggunakan WaveNet, model generatif untuk audio mentah yang dibuat oleh DeepMind. WaveNet mensintesis suara yang terdengar lebih natural dan, rata-rata, menghasilkan audio ucapan yang lebih disukai orang daripada teknologi text-to-speech lainnya.

Pada akhir tahun 2016, DeepMind memperkenalkan versi pertama WaveNet  neural network yang dilatih dengan volume besar sampel ucapan yang mampu menciptakan bentuk gelombang audio mentah dari awal. Selama pelatihan, jaringan mengekstraksi struktur dasar kemampuan berbicara, misalnya nada apa yang mengikuti satu dengan lainnya dan bagaimana seharusnya bentuk gelombang suara yang realistis. Ketika diberikan input teks, model WaveNet yang terlatih menghasilkan bentuk gelombang ucapan yang sesuai, satu sampel ke sampel lainnya, meraih akurasi yang lebih tinggi daripada pendekatan alternatif.

Lompat ke hari ini, dan kami sekarang menggunakan versi terbaru WaveNet yang berjalan pada infrastruktur Google Cloud TPU. Model WaveNet baru yang telah disempurnakan ini menghasilkan bentuk gelombang mentah 1.000 kali lebih cepat daripada model asli, dan bisa menghasilkan satu detik ucapan hanya dalam 50 milidetik. Bahkan, model ini tidak hanya lebih cepat, tetapi juga mempunyai fidelitas lebih tinggi, mampu membuat bentuk gelombang dengan 24.000 sampel per detik. Kami juga meningkatkan resolusi setiap sampel dari 8 bit menjadi 16 bit, menghasilkan audio berkualitas lebih tinggi untuk suara yang lebih terdengar seperti manusia.
Dengan penyesuaian ini, model WaveNet baru menghasilkan ucapan yang terdengar lebih natural. Dalam pengujian, pengguna memberikan nilai untuk suara WaveNet US English baru dengan mean-opinion-score (MOS) rata-rata 4,1 pada skala 1-5 — lebih dari 20% lebih baik daripada suara standar dan mengurangi gap dengan ucapan manusia lebih dari 70%. Karena suara WaveNet juga memerlukan lebih sedikit input audio terekam untuk menghasilkan model berkualitas tinggi, kami berharap bisa terus melakukan peningkatan baik dalam variasi maupun kualitas suara WaveNet yang tersedia bagi pelanggan Cloud dalam beberapa bulan mendatang.
Cloud Text-to-Speech sudah membantu banyak pelanggan memberikan pengalaman yang lebih baik kepada pengguna akhir mereka. Pelanggan ini termasuk Cisco dan Dolphin ONE.
“Sebagai penyedia solusi kolaborasi terkemuka, Cisco memiliki sejarah panjang dalam membawa kemajuan teknologi terbaru ke perusahaan. Cloud Text-to-Speech Google memungkinkan kami untuk mencapai kualitas suara natural yang diinginkan pelanggan kami."  
 Tim Tuttle, CTO of Cognitive Collaboration, Cisco
“Platform telepon Calll.io Dolphin ONE menawarkan konektivitas dari banyak perangkat, di hampir semua lokasi. Kami mengintegrasikan Cloud Text-to-Speech ke dalam produk kami dan mengizinkan pengguna kami menciptakan pengalaman pusat panggilan natural. Dengan menggunakan fitur machine learning Google Cloud, kami langsung menghadirkan teknologi termutakhir kepada para pengguna kami.” 
Jason Berryman, Dolphin ONE

Mulai sekarang


Dengan Cloud Text-to-Speech, Anda sekarang hanya berjarak beberapa klik saja dari salah satu teknologi ucapan tercanggih di dunia. Untuk mempelajari lebih lanjut, silakan kunjungi dokumentasi atau halaman harga kami. Untuk mulai mencoba beta versi publik kami atau mencoba suara baru, kunjungi situs Cloud Text-to-Speech.