Machine learning (ML) unggul dalam banyak bidang dengan tujuan yang terdefinisi dengan baik. Tugas yang berisi jawaban benar atau salah akan membantu proses pelatihan dan memungkinkan algoritme untuk mencapai tujuan yang diinginkannya, apakah mengidentifikasi objek secara tepat dalam gambar atau memberikan terjemahan yang tepat dari satu bahasa ke bahasa lainnya. Namun, ada beberapa bidang ketika evaluasi objektif tidak tersedia. Misalnya, apakah keindahan sebuah foto diukur dengan nilai estetikanya, ini merupakan konsep yang sangat subjektif.
Foto profesional(?) Taman Nasional Jasper, Kanada.
Untuk mengeksplorasi bagaimana ML bisa mempelajari konsep subjektif, kami memperkenalkan sistem deep-learning eksperimental untuk pembuatan konten artistik. ML meniru alur kerja fotografer profesional, menjelajahi panorama lanskap Google Street View dan mencari komposisi terbaik, kemudian melakukan berbagai operasi pengeditan untuk membuat gambar yang indah secara estetis. Fotografer virtual kami "menjelajahi" ~40.000 panorama di daerah-daerah seperti Pegunungan Alpen, Banff dan Taman Nasional Jasper di Kanada, Big Sur di California dan Taman Nasional Yellowstone, dan menampilkan kreasi yang cukup mengesankan, beberapa foto bahkan mendekati kualitas profesional — sebagaimana dinilai oleh fotografer profesional.

Pelatihan Model
Meskipun estetika bisa dimodelkan menggunakan kumpulan data seperti AVA, menggunakannya secara sembarangan untuk memperindah foto bisa menyebabkan hilangnya beberapa aspek estetika, seperti membuat foto menjadi terlalu tinggi saturasi-nya. Namun, menggunakan pembelajaran terarah untuk mempelajari berbagai aspek dalam estetika dengan benar, mungkin memerlukan kumpulan data berlabel yang sulit dikumpulkan.

Pendekatan kami hanya mengandalkan kumpulan foto berkualitas profesional, tanpa perbandingan gambar sebelum/sesudah, atau label tambahan lainnya. Ini secara otomatis memecah estetika menjadi beberapa aspek, masing-masing dipelajari secara terpisah dengan contoh negatif yang dihasilkan oleh operasi gambar gabungan. Dengan menjaga operasi gambar ini semi-”orthogonal”, kita bisa meningkatkan komposisi, saturasi/tingkat HDR dan pencahayaan dramatis foto dengan pengoptimalan yang terpisah dan cepat:
Sebuah panorama (a) dipangkas menjadi (b), dengan tingkat saturasi dan HDR dinaikkan pada (c), dan penerapan masker dramatis pada (d). Setiap langkah ditunjukkan oleh satu aspek pembelajaran estetika.
Filter gambar tradisional digunakan untuk menghasilkan contoh pelatihan negatif bagi saturasi, detail HDR dan komposisi. Kami juga memperkenalkan sebuah operasi khusus bernama masker dramatis, yang diciptakan bersama-sama selagi belajar konsep pencahayaan dramatis. Contoh negatif dihasilkan dengan menerapkan kombinasi filter gambar yang mengubah kecerahan secara acak pada foto profesional, menurunkan kualitas tampilannya. Untuk pelatihan, kami menggunakan generative adversarial network (GAN), dalam hal ini model generatif membuat masker untuk memperbaiki pencahayaan contoh negatif, sementara model diskriminatif mencoba membedakan hasil yang disempurnakan dari foto profesional yang asli. Tidak seperti filter berbentuk tetap seperti vinyet, masker dramatis menambahkan penyesuaian kecerahan sadar-konten ke foto. Sifat kompetitif pelatihan GAN akan memberikan variasi saran yang bagus. Anda bisa membaca selengkapnya tentang rincian pelatihan di makalah kami.

Hasil
Beberapa kreasi sistem kami dari Google Street View ditunjukkan di bawah ini. Seperti yang Anda lihat, penerapan filter estetika secara tepat menciptakan beberapa hasil yang dramatis (termasuk gambar awal postingan ini!):
Taman Nasional Jasper, Kanada.
Interlaken, Swiss.
Park Parco delle Orobie Bergamasche, Italia.
Taman Nasional Jasper, Kanada.
Evaluasi Profesional
Untuk menilai seberapa sukses algoritme kami, kami merancang eksperimen seperti "Turing-test": kami memadukan kreasi kami dengan foto lain yang kualitasnya berbeda, dan menunjukkannya kepada beberapa fotografer profesional. Mereka diminta untuk memberikan skor kualitas untuk masing-masing foto, dengan standar yang ditetapkan seperti berikut:
  • 1: Point-and-shoot tanpa pertimbangan komposisi, pencahayaan dll.
  • 2: Foto bagus dari masyarakat umum tanpa latar belakang fotografi. Tidak ada seni artistik yang menonjol.
  • 3: Semi-pro. Foto sangat bagus yang memperlihatkan aspek artistik yang jelas. Fotografer berada di jalur yang benar untuk menjadi seorang profesional.
  • 4: Pro.
Pada bagan berikut, setiap kurva menunjukkan skor gambar dari fotografer profesional dalam kisaran skor prediksi tertentu. Untuk kreasi kami dengan skor yang diprediksi tinggi, sekitar 40% rating yang mereka dapatkan berada pada level "semi-pro" sampai "pro".
Skor diterima dari fotografer profesional untuk foto dengan skor prediksi yang berbeda.
Karya Selanjutnya
Panorama Street View berfungsi sebagai tempat uji coba project kami. Suatu hari teknik ini bisa membantu Anda untuk mengambil foto yang lebih baik di dunia nyata. Kami menyusun kumpulan pilihan foto yang dibuat untuk kepuasan kami. Jika Anda melihat foto yang disukai, Anda bisa mengkliknya untuk menampilkan panorama Street View di dekatnya. Apakah Anda akan membuat keputusan yang sama jika berada di sana serta memegang kamera pada saat itu?

Ucapan Terima Kasih
Karya ini dikerjakan oleh Hui Fang dan Meng Zhang dari Machine Perception di Google Research. Kami ingin mengucapkan terima kasih kepada Vahid Kazemi atas karya awalnya dalam memprediksi skor AVA menggunakan jaringan Inception, dan Sagarika Chalasani, Nick Beato, Bryan Klingner dan Rupert Breheny atas bantuan mereka dalam memproses panorama Google Street View. Kami ingin mengucapkan terima kasih kepada Peyman Milanfar, Tomas Izo, Christian Szegedy, Jon Barron dan Sergey Ioffe atas ulasan dan komentar mereka yang bermanfaat. Terima kasih banyak kepada fotografer profesional anonim kami!