TEMPO.CO, Seattle -
Wartawan TEMPO Daru Priyambodo mendapat undangan Microsoft untuk mengikuti program tahunan Microsoft Underground Tour. Bagian kedua tulisan ini memaparkan teknologi pengenalan suara sekaligus penerjemah yang dikembangkan Microsoft untuk Skype. Bagian 1 seri tulisan ini bisa dilihat di sini.
Olivier Fontana perlahan membesarkan volume speaker Skypenya. Di layar komputer, Dahlia, karyawan Microsoft kelahiran Timur Tengah yang berada di kantornya di Michigan, 3.000 kilometer dari Redmond, tampak tersenyum. Fontana, direktur penjualan Skype Microsoft, membuka percakapan dengan bahasa Inggris: “Selamat siang, Dahlia. Apa kabar di sana?”.
Hanya jeda sekitar sedetik, terdengar suara laki-laki berbahasa Arab mengucapkan selamat siang kepada Dahlia. Mesin suara Skype itu rupanya dengan cepat menerjemahkan suara Fontana dari bahasa Inggris ke bahasa Arab. Di Michigan sana, Dahlia pun menjawab dengan bahasa Arab: “Hi Fontana, kabar baik di sini. Cuaca sangat cerah”. Lagi-lagi mesin penerjemah bekerja dengan cepat. Jawaban Dahlia yang berbahasa Arab langsung diterjemahkan, dan muncul dalam bentuk suara berbahasa Inggris di speaker komputer Fontana.
Skype, semua kita tahu, adalah program computer untuk bercakap-cakap melalui telepon dan video menggunakan koneksi internet. Program ciptaan Niklas Zennstrom dan Janus Friis pada tahun 2002 ini segera populer. Pada 2006, pengguna aktif Skype di seluruh dunia sudah mencapai 100 juta orang. Tahun 2011, Microsoft membeli Skype seharga US $ 8,5 miliar (setara Rp 119 triliun dengan kurs sekarang) tunai. Jagat bisnis IT (information technology) gempar karena nilai pembelian ini sungguh dahsyat saat itu.
Setelah mengakuisisi Skype, Microsoft mengembangkan program itu untuk mendukung produk utama mereka seperti konsol game Xbox, perangkat deteksi gerak Kinect, platform email Outlook, dan system operasi Windows smartphone.
Dan sejak 5 tahun terakhir, Microsoft melangkah lebih jauh. Mereka ingin Skype tidak hanya menjadi alat telepon dan videophone bersuara dan gambar jernih, tapi juga menjadi penerjemah. Mimpi mereka, kelak Skype bisa digunakan sebagai alat komunikasi segala bangsa di dunia tanpa terkendala soal bahasa.
Microsoft tak main-main dengan ide ini. Dana jutaan dolar Amerika dikerahkan untuk mengembangkan Skype. Salah satu fokus utama mereka adalah membekali Skype dengan kemampuan yang disebut “deep learning”. Deep learning sebetulnya program riset yang juga dikembangkan perusahaan raksasa IT lain. Dia adalah salah satu cabang dari apa yang disebut “machine learning”, yaitu mesin atawa program computer yang mampu belajar sendiri untuk menyesuaikan diri dengan input penggunanya. Input bisa bermacam-macam bentuknya, mulai dari text, suara, gambar, hingga video.
Cara kerja Deep Learning kira-kira begini: Input data diproses oleh algorithma computer dengan kemampuan tinggi. Proses berlangsung dalam hitungan yang sangat cepat. Data yang masuk ini kemudian oleh algoritma tadi dipilah-pilah sesuai kategorinya, lalu siap untuk diproses lagi ketika ada input baru masuk.
Maka, dalam proses mengubah dan menerjemahkan suara, otak Deep Learning sebetulnya telah memiliki program dasar berbagai bahasa di dunia. Komputer akan bekerja ketika menerima input ucapan “Selamat datang” dalam bahasa Indonesia, maka sesuai setting yang ditetapkan, dia akan menerjemahkannya ke bahasa, misalnya, Inggris, menjadi “Welcome”.
Tapi Deep Learning tak hanya sampai di situ, karena dia mampu “membaca konteks percakapan” sehingga terjemahan tidak akan salah. Jadi, ketika seseorang mengucapkan kalimat “Saya sakit hati dia tidak datang”, algoritma tidak akan memprosesnya menjadi kalimat “I got heart pain he didn’t come”, namun sudah menjadi bahasa yang rapi sesuai konteksnya.
Proses itu memerlukan database yang luar biasa besar, sehingga konsep Deep Learning memerlukan bantuan server yang juga besar. Untuk inilah, digunakan Cloud Computing, yaitu server basis data yang terhubung secara online.
Kemampuan deep learning ini dirancang mirip dengan kemampuan otak manusia, sehingga algoritmanya mampu mengenali konteks sebuah percakapan, bahkan gaya bahasa masing-masing orang. Dia bahkan bisa “membuang” kata-kata yang tidak perlu diterjemahkan sehingga hasil terjemahan itu malah lebih rapi dari ucapan aslinya.
Fontana memberi contoh dengan sengaja menirukan gaya bahasa orang yang cenderung memakai “onomatope”, yaitu kata-kata tak bermakna seperti “mmm….eehhh….apa yaaa…”. Dicontohkannya sebuah kalimat: “Mmmhh…ho..ho..honey….I’ll be uhh…late for…errrr..dinner…” Skype mampu membuang semua onomatope tanpa makna itu menjadi kalimat yang bersih: “Sayang, aku akan telat untuk makan malam”.
Tak hanya konteks kalimat, Skype Translator juga diprogram untuk mengenali intonasi sebuah kalimat. Jadi, ketika seseorang bicara, intonasi terjemahannya sudah tidak lagi seperti suara robot yang berbicara dengan nada datar.
Skype versi translator ini sudah beredar dan diluncurkan ke public pada Agustus 2015 lalu. Namun proses penerjemahan tentu saja belum bisa semulus gaya bicara manusia. Perjalanan Deep Learning untuk bisa meniru manusia masih sangat panjang. Kesalahan-kesalahan masih sering terjadi. Toh ini tetap kemajuan besar, karena kemampuannya mengenali suara (voice recognition) sudah jauh lebih maju dibanding sebelumnya.
Bahasa lisan yang bisa diterjemahkan juga masih terbatas pada bahasa Inggris, Prancis, Spanyol, Itali, Jerman, Portugis (Brazil), Arab, dan Mandarin. Namun untuk bahasa tertulis (teks), program ini sudah mampu menerjemahkan hingga 40 bahasa.
Tidak hanya bahasa teks dan lisan, penerjemah ini juga diprogram untuk bisa mengubah suara menjadi bahasa isyarat. Jadi, ketika kita berbicara, suara diproses lalu ditampilkan terjemahannya dalam bentuk animasi manusia yang sedang memperagakan bahasa isyarat. Kemampuan ini sangat berguna untuk berkomunikasi dengan kalangan yang tak mampu mendengar.
Ambisi Microsoft mengembangkan alat penerjemah ini memang besar. Sekarang, mesin penerjemah mereka sudah digunakan oleh berbagai program di luar Microsoft, seperti dipakai di Twitter, Yelp, dan Linkedin. Microsoft memposisikan penerjemah ini sebagai program terbuka (open source) yang boleh dimodifikasi oleh programmer lain. Ini artinya, Microsoft menjadikan penerjemahnya sebagai platform, sehingga siapa pun bisa memodifikasinya.
Jika platform ini kelak digunakan di seluruh dunia, dampaknya sangat besar. Berbagai kegiatan yang selama ini terkendala kemampuan berbahasa akan teratasi. Mungkin saja kelak test TOEFL (Test of English as Foreign Language) untuk bersekolah di luar negeri tidak lagi perlu karena semua sudah diambil alih Microsoft Translator..:)
***
Microsoft Underground Tour (1): Misteri Gedung Nomor 7
Microsoft Underground Tour (3): Saat Virus Beraksi di Glodok