Ditulis oleh Robby Neale, Software Engineer
TensorFlow menyediakan berbagai macam operasi yang sangat membantu dalam membangun model dari gambar dan video. Namun, ada banyak model yang dimulai dengan teks, dan model bahasa yang dibangun dari teks memerlukan beberapa prapemrosesan sebelum teks bisa dimasukkan ke dalam model. Misalnya, tutorial Klasifikasi Teks yang menggunakan set IMDB dimulai dengan data teks yang telah dikonversi menjadi ID integer. Prapemrosesan yang dilakukan di luar grafik ini dapat menyebabkan ketidaksimetrisan jika terjadi perbedaan pada waktu inferensi dan pelatihan, dan membutuhkan kerja ekstra untuk mengoordinasikan langkah prapemrosesan ini.
TF.Text adalah library TensorFlow 2.0 yang bisa dengan mudah diinstal menggunakan PIP dan dirancang untuk mengatasi masalah ini dengan menyediakan operasi untuk menangani prapemrosesan yang sering ditemukan dalam model berbasis teks, dan fitur lain yang berguna untuk pemodelan bahasa yang tidak disediakan oleh TensorFlow inti. Contoh yang paling umum dari operasi ini adalah tokenisasi teks. Tokenisasi adalah proses memecah string menjadi token. Biasanya, token ini adalah kata, angka, dan/atau tanda baca.
Setiap tokenizer yang disertakan menampilkan RaggedTensor dengan dimensi terdalam pemetaan token ke string individu asli. Akibatnya, peringkat bentuk yang dihasilkan meningkat satu. Ini diilustrasikan di bawah, tetapi mohon periksa juga panduan ragged tensor jika Anda belum familier dengan RaggedTensors.
Tokenizer
Kami awalnya menyediakan tiga tokenizer baru (seperti yang diusulkan dalam RFC baru-baru ini). Tokenizer baru yang paling dasar adalah tokenizer whitespace yang memisahkan string UTF-8 pada karakter whitespace ICU yang ditentukan (mis. spasi, tab, baris baru).
Rilis awal ini juga menyertakan tokenizer skrip unicode, yang membagi string UTF-8 berdasarkan batas skrip Unicode. Skrip Unicode adalah kumpulan karakter dan simbol yang secara historis terkait dengan derivasi bahasa. Lihat nilai-nilai UScriptCode International Components for Unicode (ICU) untuk daftar set lengkapnya. Perlu dicatat bahwa ini mirip dengan tokenizer whitespace dengan perbedaan yang paling kentara adalah bahwa ia memisahkan tanda baca USCRIPT_COMMON dari teks bahasa (mis. USCRIPT_LATIN, USCRIPT_CYRILLIC, dll).
Tokenizer akhir yang disediakan dalam peluncuran TF.Text adalah tokenizer wordpiece. Ini adalah tokenizer teks tanpa pengawasan yang membutuhkan kosakata yang telah ditentukan sebelumnya untuk membagi token menjadi subkata (prefiks & sufiks). Wordpiece biasanya digunakan dalam model BERT.
Masing-masing menghasilkan token pada string yang dikodekan dengan UTF-8 dan menyertakan opsi untuk memasukkan offset byte ke string asli. Ini memungkinkan pemanggil untuk mengetahui deretan byte dalam string asli untuk setiap token yang telah dibuat.
Kesimpulan
Ini hanyalah sedikit pembahasan mengenai TF.Text. Bersama dengan tokenizer, kami juga menyertakan operasi untuk normalisasi, n-gram, batasan rangkaian untuk pelabelan, dan banyak lagi! Kami mendorong Anda untuk mengunjungi repositori Github kami, dan mencoba menggunakan operasi ini dalam pengembangan model Anda sendiri. Penginstalan yang mudah dengan PIP:
pip install tensorflow-text
Dan untuk melihat contoh-contoh yang lebih mendalam, silakan lihat notebook Colab kami. Di sana terdapat berbagai cuplikan kode untuk banyak operasi yang baru tersedia yang tidak dibahas di sini. Kami berharap bisa melanjutkan upaya ini dan menyediakan lebih banyak fitur untuk membuat model bahasa Anda semakin mudah dibangun di TensorFlow.
Link login88 adalah situs judi online yang menyediakan banyak informasi seputar judi online Seperti cmdbet, dan anda bisa melakukan login cmdbet dan daftar cmdbet pada situs kami, Baca dan simak beberapa tips dan berbagai cara untuk menang memainkan judi online di situs kami. http://linklogin88.com/
Dissertation Master provides help on writing a dissertation/ If you are having trouble writing a dissertation and are looking for a website to buy dissertation online you should contact us to get your dissertation at a reasonable price.
Your blogs are really good and interesting. It is very great and informative. Prapemrosesan yang dilakukan di luar grafik ini dapat menyebabkan ketidaksimetrisan jika terjadi perbedaan pada waktu inferensi dan pelatihan, dan membutuhkan kerja ekstra untuk mengoordinasikan langkah prapemrosesan ini Bankruptcy lawyers in virginia. I got a lots of useful information in your blog. Keeps sharing more useful blogs..
What I knew, IMDB always provides movies and videos. What is the function of this text?
ReplyDeletedaftar slot playtech
slot playtech
casino allbet
daftar akun joker123
sbobet baccarat
slot deposit pulsa tanpa potongan
deposit slot pakai pulsa
https://www.putlockerxxi.com/4353-annabelle-comes-home-2019-putlocker.html
ReplyDeleteMaxbet / IBCBET telah RESMI mengganti namanya menjadi Nova88. Yuk Daftar Nova88 dan Login Nova88 untuk menikmati keseruan baru dalam bermain Judi Bola Online dan Live Casino Nova88.
ReplyDeletehttp://nova88.fun/
Link login88 adalah situs judi online yang menyediakan banyak informasi seputar judi online Seperti cmdbet, dan anda bisa melakukan login cmdbet dan daftar cmdbet pada situs kami, Baca dan simak beberapa tips dan berbagai cara untuk menang memainkan judi online di situs kami.
ReplyDeletehttp://linklogin88.com/
Dissertation Master provides help on writing a dissertation/ If you are having trouble writing a dissertation and are looking for a website to buy dissertation online you should contact us to get your dissertation at a reasonable price.
ReplyDelete
ReplyDeletegötten siktiren adam, bisex izle gey pornus bisexual porn japon 18 yaş etek altı gizli çekim
Hi, great thread!
ReplyDeleteTrading on 15 popular spot and futures cryptocurrency exchanges on your account via API key more you can visit at CryptoRobotics.
Your blogs are really good and interesting. It is very great and informative. Prapemrosesan yang dilakukan di luar grafik ini dapat menyebabkan ketidaksimetrisan jika terjadi perbedaan pada waktu inferensi dan pelatihan, dan membutuhkan kerja ekstra untuk mengoordinasikan langkah prapemrosesan ini Bankruptcy lawyers in virginia. I got a lots of useful information in your blog. Keeps sharing more useful blogs..
ReplyDelete