Inovasi teknologi termutakhir akan menjadi komponen utama untuk mengatasi pandemi COVID-19. Kaggle—komunitas data scientist terbesar di dunia, dengan hampir 5 juta pengguna—saat ini menjadi host berbagai tantangan data science yang berfokus untuk membantu komunitas medis agar lebih memahami COVID-19, dengan harapan bahwa AI mereka bisa membantu upaya para ilmuwan dalam mengalahkan pandemi.

Komunitas Kaggle telah bekerja keras dalam memprediksi kematian COVID-19, merangkum literatur COVID-19, dan membagikan karya mereka di bawah lisensi open source Apache 2.0 (di Kaggle.com). Dalam postingan ini, kita akan melihat secara detail beberapa tantangan yang sedang berlangsung saat ini, dan beberapa strategi menarik yang digunakan komunitas kami untuk menyelesaikannya. 

NLP vs. COVID-19 

Volume penelitian COVID-19 semakin tidak terkendali. Pada bulan Mei ada sekitar 357 makalah ilmiah tentang COVID-19 yang dipublikasikan per hari naik dari 16 per hari pada bulan Februari. Pada bulan Maret, para pejabat dari Gedung Putih dan organisasi penelitian global meminta Kaggle untuk menjadi host tantangan natural language processing (NLP) dengan tujuan menyaring pengetahuan dari sejumlah besar publikasi pracetak yang terus dirilis. 

Secara khusus, komunitas Kaggle sedang mencoba menjawab sembilan pertanyaan utama yang diambil dari Standing Committee National Academies of Sciences, Engineering, and Medicine mengenai topik penelitian Penyakit Menular Baru dan cetak biru R&D Organisasi Kesehatan Dunia untuk COVID-19. Untuk menjawab pertanyaan ini, kami membagikan lebih dari 139.000 artikel ilmiah yang disimpan dalam format yang dapat dibaca mesin. Sudah ada banyak pekerjaan menarik yang dilakukan dengan menggunakan model bahasa transformer seperti SciBERT, BioBERT, dan model serupa lainnya, dan kami mendorong Anda untuk memeriksa kode (Python/R), yang semuanya telah menjadi open source.

Gambar 1, misalnya, menggambarkan dua baris pertama dari tabel ringkasan artikel yang menjelaskan temuan terbaru mengenai dampak suhu dan kelembapan terhadap transmisi COVID-19. Tabel awal dihasilkan oleh notebook Kaggle yang mengekstraksi sebanyak mungkin informasi yang relevan, dan kemudian hasilnya diperiksa ulang untuk memastikan keakuratan dan nilai yang hilang oleh tim pakar medis. Tabel ringkasan artikel berisi kutipan teks yang diekstraksi langsung dari publikasi asli. Tabel ringkasan seperti ini, yang bisa diproduksi secara cepat, memudahkan para peneliti untuk mengikuti laju publikasi yang cepat.

Gambar 1

figure_1.jpg
Gambar 1: Tabel ringkasan artikel representatif dari sini. Artikel disortir secara kronologis dan tabel menyediakan informasi tentang hasil penelitian, jenis penelitian, dan desain penelitian. Setiap baris juga menunjukkan judul penelitian, lengkap dengan link ke teks lengkap PDF, dan referensi ke jurnal tempat artikel tersebut dipublikasikan.

“Pendekatan awal saya adalah membangun indeks kesamaan semantik di atas data, yang memungkinkan peneliti menemukan kecocokan topik/kata kunci. Saya belajar bahwa walaupun penelusuran itu penting, peneliti memerlukan lebih banyak konteks untuk mengevaluasi penelitian di balik makalah ini,” papar David Mezzetti, seorang kontributor Kaggle dan pendiri NeuML yang berbasis di AS. “Banyak upaya saya berfokus pada penggunaan NLP untuk mengekstraksi metadata penelitian (desain, ukuran sampel/metode, statistik faktor risiko), yang memungkinkan peneliti untuk tidak hanya menemukan makalah yang relevan tetapi juga menilai kredibilitas kesimpulannya.” 

Prediksi deret waktu vs. COVID-19 

Pada tanggal 23 Maret, Kaggle juga mulai mengadakan rangkaian kompetisi prediksi transmisi global, untuk mengeksplorasi pendekatan baru dalam pemodelan yang mungkin berguna bagi ahli epidemiologi. Tujuannya adalah untuk memprediksi jumlah total infeksi dan kematian di berbagai daerah—dengan pemikiran bahwa angka-angka ini harus berkorelasi baik dengan jumlah aktual rawat inap, pasien ICU, dan kematian—serta jumlah total sumber daya langka yang diperlukan untuk merespons krisis ini.  

Prediksi COVID-19 merupakan tugas yang sangat menantang, tetapi kami berharap komunitas bisa menghasilkan pendekatan prediksi yang dapat berguna bagi para peneliti medis. Sejauh ini, hasilnya cukup menjanjikan. Seperti yang bisa kita lihat dalam plot di bawah ini, solusi pemenang dari kompetisi Kaggle dilakukan setara dengan model epidemiologi terbaik pada bulan April dalam hal RMSLE—Root Mean Square Log Error, ukuran perbedaan antara log dari nilai prediksi dan nilai aktual—untuk memprediksi kematian di 51 negara bagian dan wilayah AS selama 29 hari berikutnya. (Model telah dioptimalkan untuk berbagai fungsi tujuan, jadi ini adalah perbandingan perkiraan.)

Gambar 2

figure_4.jpg
Gambar 2: Pengukuran error untuk empat model prediksi COVID-19 yang berbeda, diambil dari sini. Sumbu y adalah root mean square log error (RMSLE) untuk prediksi selama 29 hari berikutnya; lebih rendah lebih baik.

“Seri kompetisi ini menunjukkan bahwa hal ini masih merupakan masalah yang sulit dipecahkan dan sekarang kombinasi transformasi data menjadi format yang dapat dikonsumsi dari berbagai sumber, memahami perbedaan dalam pemodelan prediksi jangka pendek vs. prediksi jangka panjang, dan menggunakan model machine learning yang lebih sederhana dengan beberapa penyesuaian tampaknya memiliki kinerja yang terbaik,” kata Rohan Rao, kompetitor Kaggle yang berbasis di India. “Saya berharap dengan lebih banyak ketersediaan data dan penelitian tentang bagaimana virus menyebar di berbagai negara, kita dapat menambahkan fitur cerdas untuk meningkatkan dan mengoptimalkan prediksi ini dan menyesuaikannya untuk setiap geografi.” 

Peserta telah berhasil menggunakan ansambel lanjutan model machine learning seperti XGBoost dan LightGBM (ex1, ex2, ex3). Peserta juga telah mengidentifikasi sumber penting dari data eksternal yang berpotensi bisa membuat prediksi semakin akurat (ex1), termasuk ukuran populasi, kepadatan populasi, distribusi usia, tingkat merokok, indikator ekonomi, dan tanggal lockdown secara nasional. Dengan memeriksa kontribusi relatif dari berbagai fitur model yang menggunakan teknik seperti kepentingan fitur dan Nilai SHAP (SHapley Additive exPlanations), peserta mampu memperjelas faktor-faktor yang paling prediktif dalam memprediksi infeksi COVID-19 dan kematian. Ada banyak pekerjaan menarik yang dilakukan dengan menggunakan neural network dan mesin yang didorong gradien, dan kami sarankan Anda untuk memeriksa kode (Python/R), yang semuanya telah menjadi open source.

Data publik vs. COVID-19 

Kaggle juga menjadi host tantangan kurasi set data dengan tujuan menemukan, menguratori, dan membagikan set data COVID-19—terutama yang dapat berguna untuk memprediksi penyebaran virus. Pengajuan yang menjadi pemenang sejauh ini meliputi: 

Dengan mempertimbangkan kebijakan regional, tanggal pelaksanaan, dan protokol pengujian, Anda bisa membuat kesimpulan berbasis data yang jauh lebih baik.  

Sejalan dengan itu, penayang set data juga bisa dengan cepat menjalankan tugas mandiri atau tantangan di Kaggle. Misalnya, Roche Data Science Coalition (RDSC) baru-baru ini memublikasikan kumpulan set data terkait COVID yang tersedia untuk umum dan membuat tantanganyang berfokus pada upaya untuk menjawab pertanyaan paling mendesak yang diteruskan kepada mereka dari responden garis depan dalam layanan kesehatan dan kebijakan publik. Kaggle adalah platform gratis yang memungkinkan semua pengguna mengupload set data, menjadi host tantangan analisis data, dan memublikasikan notebook—dan kami mendorong data scientist dan penayang data untuk bersama-sama melawan COVID-19.

Kesimpulan

Data scientist di seluruh dunia bekerja sama untuk membantu komunitas medis mengalahkan COVID-19, dan kami membutuhkan bantuan Anda. Anda bisa terus mengikuti perkembangan tantangan kami di kaggle.com/covid19, dan melihat progres yang dibuat komunitas dalam mencapai tujuannya seperti yang dibahas di kaggle.com/covid-19-contributions.