Ditulis oleh Martin Pelikan, Giles Hogben, dan Ulfar Erlingsson dari tim Google Security and Privacy

Aplikasi mobile menghibur dan membantu kita, mempermudah komunikasi dengan teman dan keluarga, dan menyediakan fitur mulai dari peta hingga dompet elektronik. Namun aplikasi ini bisa saja meminta lebih banyak informasi pada perangkat daripada yang dibutuhkan untuk melakukan tugasnya, seperti data pribadi pengguna dan data sensor dari komponen, seperti pelacak GPS dan kamera.

Untuk melindungi pengguna kami dan membantu developer melalui lingkungan yang kompleks ini, Google menganalisis sinyal keamanan dan privasi untuk setiap aplikasi di Google Play. Kami kemudian membandingkan aplikasi tersebut dengan aplikasi lain dengan fitur serupa, yang dikenal sebagai functional peer. Membuat peer group memungkinkan kita untuk menyesuaikan perkiraan mengenai harapan pengguna dan menetapkan batasan yang mencukupi dari perilaku yang mungkin dianggap tidak aman atau mengganggu. Proses ini membantu mendeteksi aplikasi yang mengumpulkan atau mengirim data sensitif tanpa kegunaan yang jelas, dan mempermudah pengguna menemukan aplikasi yang menyediakan fungsionalitas yang tepat serta menghargai privasi mereka. Misalnya, sebagian besar aplikasi buku mewarnai tidak perlu mengetahui lokasi pengguna secara tepat untuk bisa berfungsi dan ini dapat dilakukan dengan menganalisis aplikasi buku mewarnai yang lainnya. Sebaliknya, aplikasi pemetaan dan navigasi perlu mengetahui lokasi pengguna, dan sering kali memerlukan akses sensor GPS.

Salah satu cara untuk membuat peer group aplikasi adalah membuat sekumpulan kategori konstan kemudian menetapkan setiap aplikasi ke dalam satu atau beberapa kategori, seperti fitur, produktivitas, dan game. Namun, kategori konstan terlalu kaku dan tidak fleksibel untuk menangkap dan mengikuti semakin banyak perbedaan dalam kumpulan aplikasi seluler yang berubah dengan cepat. Pemeriksaan dan pemeliharaan manual kategori tersebut juga merupakan tugas yang menjemukan dan rawan kesalahan.

Untuk mengatasi hal ini, Google mengembangkan algoritme machine-learning untuk mengelompokkan aplikasi seluler dengan kemampuan serupa. Pendekatan kami menggunakan deep learning tentang penyematan vektor untuk mengidentifikasi peer group aplikasi dengan fungsionalitas serupa, menggunakan metadata aplikasi, seperti keterangan teks, dan metrik pengguna, seperti penginstalan. Kemudian peer group digunakan untuk mengidentifikasi sinyal tidak lazim serta berpotensi berbahaya yang terkait dengan privasi dan keamanan, dari setiap izin yang diminta aplikasi dan perilaku yang diamatinya. Korelasi antara berbagai peer group dan sinyal keamanannya membantu berbagai tim di Google memutuskan aplikasi mana yang pantas dipromosikan dan aplikasi mana yang harus dilihat secara lebih cermat oleh pakar keamanan dan privasi kami. Kami juga menggunakan hasilnya untuk membantu developer aplikasi meningkatkan privasi dan keamanan aplikasi mereka.
Aplikasi dibagi menjadi beberapa kelompok dengan fungsionalitas serupa, dan dalam setiap kluster aplikasi yang serupa, batas dasar tertentu digunakan untuk menemukan sinyal privasi dan keamanan yang tidak lazim.

Teknik ini dibangun berdasarkan gagasan sebelumnya, seperti menggunakan peer group untuk menganalisis sinyal yang berkaitan dengan privasi, deep learning mengenai model bahasa agar peer group lebih baik, dan analisis data otomatis untuk membuat kesimpulan.

Banyak tim di Google berkolaborasi untuk membuat algoritme ini dan proses pengiringnya. Terima kasih untuk beberapa anggota penting, seperti Andrew Ahn, Vikas Arora, Hongji Bao, Jun Hong, Nwokedi Idika, Iulia Ion, Suman Jana, Daehwan Kim, Kenny Lim, Jiahui Liu, Sai Teja Peddinti, Sebastian Porst, Gowdy Rajappan, Aaron Rothman, Monir Sharif, Sooel Son, Michael Vrable, dan Qiang Yan.

Untuk informasi selengkapnya mengenai upaya Google untuk mendeteksi dan memberantas aplikasi yang berpotensi berbahaya (PHA) di Android, lihat Klasifikasi Tim Keamanan Google Android untuk Aplikasi yang Berpotensi Berbahaya.

Referensi


S. Jana, Ú. Erlingsson, I. Ion (2015). Apples and Oranges: Detecting Least-Privilege Violators with Peer Group Analysis. arXiv:1510.07308 [cs.CR].

T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, J. Dean (2013). Distributed Representations of Words and Phrases and their Compositionality. Advances in Neural Information Processing Systems 26 (NIPS 2013).

Ú. Erlingsson (2016). Data-driven software security: Models and methods. Proceedings of the 29th IEEE Computer Security Foundations Symposium (CSF'16), Lisboa, Portugal.