Loading...

Definition of speech to text (STT)

Seperti namanya, Speech to Text (STT) merupakan suatu sistem yang dapat mengubah suara menjadi tulisan atau teks. Sistem STT telah dilatih untuk mengenali suara manusia, memprosesnya, menafsirkannya, dan akan mengubah suara-suara ini menjadi tulisan, sehingga memungkinkan berbagai perangkat seperti ponsel pintar, tablet, komputer untuk memahami kebutuhan manusia. Teknologi untuk mengenali suara manusia dan “membacanya” ini dikenal juga dengan sebutan pengenalan suara atau voice recognition.

#1 How speech to text (STT) works

Pada prinsipnya sistem Speech to Text akan menerima masukan berupa suara manusia dan nantinya akan diubah menjadi teks. Meski terlihat sederhana, namun nyatanya cara kerja STT cukup tricky dan rumit. Proses kerja ucapan ke teks sederhana

Ada dua elemen penting jika kita ingin menggunakan teknologi STT, yaitu mikrofon untuk menangkap dan merekam suara, serta koneksi internet. STT memerlukan koneksi internet untuk terhubung ke server atau database

Saat kita berbicara melalui mikrofon, perangkat kita akan merekam suara yang kita sampaikan dan mengirimkannya ke server

Di server inilah sistem akan memecah audio ucapan yang direkam menjadi bagian-bagian kecil yang disebut fonem. Perintahnya, kombinasi dan konteks fonem inilah yang memungkinkan sistem menganalisis konteks dan sintaksis kata. Sistem akan menghubungkan pola dan mencocokkan kata yang ada di database dengan kata yang kita ucapkan menggunakan algoritma dan data masukan sebelumnya

Selanjutnya, sistem akan membuat hipotesis tentang apa yang sebenarnya dikatakan pengguna. Setelah menentukan apa yang kemungkinan besar akan dikatakan pengguna, sistem mentranskripsikan percakapan menjadi teks. Begitulah cara kerja sistem ucapan ke teks

Kembali

Proses rumit ini berlangsung cepat. Semakin sering kita berkomunikasi dan menggunakan sistem pidato ke teks, semakin pintar, sistem akan lebih akurat dan cepat dalam mengenali suara kita dan akan membuat lebih sedikit kesalahan dalam menangkap maksud kita. Ya, seperti anak kecil saat pertama kali belajar memahami apa yang dikatakan orang dewasa, sistem STT terus dilatih untuk memahami penggunaan bahasa pengguna. Sebenarnya bukan hanya bahasanya, tapi juga dialek, aksen, dan konteks bicaranya.

Kembali