Seperti namanya, Speech to Text (STT) merupakan suatu sistem yang dapat mengubah suara menjadi tulisan atau teks. Sistem STT telah dilatih untuk mengenali suara manusia, memprosesnya, menafsirkannya, dan akan mengubah suara-suara ini menjadi tulisan, sehingga memungkinkan berbagai perangkat seperti ponsel pintar, tablet, komputer untuk memahami kebutuhan manusia. Teknologi untuk mengenali suara manusia dan “membacanya” ini dikenal juga dengan sebutan pengenalan suara atau voice recognition.
Pada prinsipnya sistem Speech to Text akan menerima masukan berupa suara manusia dan nantinya akan diubah menjadi teks. Meski terlihat sederhana, namun nyatanya cara kerja STT cukup tricky dan rumit. Proses kerja ucapan ke teks sederhana
Ada dua elemen penting jika kita ingin menggunakan teknologi STT, yaitu mikrofon untuk menangkap dan merekam suara, serta koneksi internet. STT memerlukan koneksi internet untuk terhubung ke server atau database
Saat kita berbicara melalui mikrofon, perangkat kita akan merekam suara yang kita sampaikan dan mengirimkannya ke server
Di server inilah sistem akan memecah audio ucapan yang direkam menjadi bagian-bagian kecil yang disebut fonem. Perintahnya, kombinasi dan konteks fonem inilah yang memungkinkan sistem menganalisis konteks dan sintaksis kata. Sistem akan menghubungkan pola dan mencocokkan kata yang ada di database dengan kata yang kita ucapkan menggunakan algoritma dan data masukan sebelumnya
Selanjutnya, sistem akan membuat hipotesis tentang apa yang sebenarnya dikatakan pengguna. Setelah menentukan apa yang kemungkinan besar akan dikatakan pengguna, sistem mentranskripsikan percakapan menjadi teks. Begitulah cara kerja sistem ucapan ke teks
KembaliProses rumit ini berlangsung cepat. Semakin sering kita berkomunikasi dan menggunakan sistem pidato ke teks, semakin pintar, sistem akan lebih akurat dan cepat dalam mengenali suara kita dan akan membuat lebih sedikit kesalahan dalam menangkap maksud kita. Ya, seperti anak kecil saat pertama kali belajar memahami apa yang dikatakan orang dewasa, sistem STT terus dilatih untuk memahami penggunaan bahasa pengguna. Sebenarnya bukan hanya bahasanya, tapi juga dialek, aksen, dan konteks bicaranya.
Kembali