Pengenalan Pidato Python: Bagaimana Cara Menerjemahkan Pidato Ke Teks?



Blog ini membahas konsep pengenalan suara dengan python dengan contoh program yang menerjemahkan ucapan menjadi teks menggunakan pengenalan suara.

Pidato adalah alat komunikasi paling umum di seluruh dunia. Sebagian besar populasi di dunia mengandalkan ucapan untuk berkomunikasi satu sama lain. Misalkan kita sedang membangun model dan alih-alih pendekatan tertulis kita ingin sistem kita menanggapi ucapan, itu menjadi cukup sulit dan membutuhkan banyak data untuk diproses. Sistem pengenalan ucapan mengatasi penghalang ini dengan menerjemahkan ucapan ke teks. Di blog ini, kita akan membahas pengenalan suara modul dengan python . Berikut adalah daftarnya:

Bagaimana Pengenalan Ucapan Bekerja?

Sistem pengenalan ucapan pada dasarnya menerjemahkan ucapan yang diucapkan menjadi teks. Ada berbagai contoh kehidupan nyata dari sistem pengenalan suara. Misalnya-siri, yang menganggap ucapan sebagai masukan dan menerjemahkannya ke dalam teks.





Keuntungan menggunakan sistem pengenalan suara adalah dapat mengatasi hambatan literasi. Model pengenalan suara juga dapat melayani audiens yang melek huruf dan buta huruf, karena model ini berfokus pada ucapan yang diucapkan.

Kami juga dapat menginventarisir semua bahasa yang terancam punah di seluruh dunia menggunakan sistem pengenalan suara. Meskipun terlihat cukup menarik dan tidak rumit sama sekali, sistem pengenalan suara menghadapi banyak tantangan dalam pembuatannya.



Tantangan yang Dihadapi Oleh Pengakuan Pidato Sistem

Sistem pengenalan ucapan menjadi sulit dibuat karena kita memiliki begitu banyak sumber variabilitas dalam hal ucapan.

Gaya berbicara

Setiap individu memiliki gaya bicara yang bervariasi, termasuk aksen juga. Seperti yang kita ketahui, kita memiliki aksen yang berbeda untuk berbicara bahasa Inggris juga. Ada bahasa Inggris Amerika, Inggris British, dan begitu banyak aksen lain ketika berbicara bahasa yang paling umum di dunia. Pelafalan juga mempersulit sistem pengenalan ucapan untuk menerjemahkan ucapan secara keseluruhan.



mengurutkan array dalam program c ++

Lingkungan Hidup

Lingkungan juga menambahkan banyak kebisingan latar belakang ke sistem. Ruangan yang terisolasi dibandingkan dengan auditorium akan memiliki banyak variasi suara latar. Bahkan gema juga dapat menambahkan banyak noise di sistem.

Karakteristik pembicara

Suara orang tua mungkin tidak sama dengan suara bayi. Ciri-ciri tutur seseorang bergantung pada banyak faktor termasuk kekerasan dan kejelasan juga.

Batasan bahasa

Beberapa ucapan yang diucapkan mungkin tidak memiliki arti yang layak dalam hal terjemahan.

Setelah mengatasi tantangan ini, sistem pengenalan suara apa pun dapat dicapai untuk menerjemahkan ucapan ke teks. Sekarang setelah kita mengetahui cara kerja pengenalan ucapan, mari kita lihat perbedaannya yang tersedia untuk pengenalan suara dengan python.

Paket tersedia untuk pengenalan suara dengan python

  • apiai

  • Pengenalan suara

  • Google_speech_cloud

  • assemblyai

  • Pocketsphinx

  • Watson_developer_cloud

  • putih

Kami akan membahas detail paket SpeechRecognition di blog ini, mari kita lihat jalur memori untuk memahami bagaimana sistem pengenalan suara telah berevolusi selama bertahun-tahun.

Prototipe pertama dari pengenalan suara sebenarnya adalah sebuah mainan, bernama radio rex yang datang sekitar tahun 1920-an. Ada seekor anjing yang duduk di rumah anjing yang akan keluar begitu seseorang mengucapkan kata rex.

Satu-satunya masalah dengan model tersebut adalah bahwa pegas itu dipasang ke elektromagnet yang sensitif terhadap energi yang berkisar sekitar 500hz. Menjadi murni pendeteksi frekuensi, itu bisa disebut sebagai model pengenalan suara.

Pada tahun 1962, IBM membuat kotak sepatu model yang mampu mengenali kata-kata terisolasi dan juga melakukan beberapa operasi aritmatika juga.

Lalu datang PERAMPAS dari CMU, yang mampu mengenali ucapan terhubung dari kosakata 1000 kata. Sekitar tahun 1980-an orang mulai menggunakan model statistik dan salah satu paradigma pembelajaran mesin yang paling banyak digunakan adalah model markov tersembunyi.

Setelah pengenalan jaringan neural dalam, sebagian besar model pengenalan suara berfungsi di jaringan saraf. Kemungkinannya tidak terbayangkan dengan jaringan saraf, kosakata dapat mencapai hingga 10 ribu kata dan banyak lagi.

Bagaimana Cara Menginstal SpeechRecognition Dengan Python?

Untuk menginstal paket SpeechRecognition adalah python, jalankan perintah berikut di terminal dan itu akan diinstal di sistem Anda.

instalasi-pengenalan suara python-edureka

Pendekatan lain untuk ini, dapat menambahkan paket dari interpreter proyek jika Anda menggunakan

metode kelas pemindai di java

Paket ini memiliki kelas Pengenal yang pada dasarnya tempat keajaiban terjadi. Ini pada dasarnya adalah kelas yang digunakan untuk mengenali pidato. Berikut adalah tujuh metode yang dapat membaca berbagai sumber audio menggunakan API yang berbeda.

  • mengenali_bing ()
  • kenali_google ()
  • mengenali_google_cloud ()
  • mengenali_houndify ()
  • mengenali_ibm ()
  • mengenali_wit ()
  • mengenali_sphinx ()

Sekarang, recognition_sphinx juga dapat digunakan untuk menjalankan sistem pengenalan suara secara offline. Ini membutuhkan instalasi Pocketsphinx.

impor speechrecognition sebagai sr #instance of pengenal kelas r = sr.Recognizer ()

Mengambil Input Dari Mikrofon

Untuk menggunakan mikrofon, kita harus menginstal modul pyaudio juga. Kami menggunakan kelas mikrofon untuk mendapatkan ucapan masukan dari mikrofon alih-alih metode masukan lain seperti file audio.

Untuk sebagian besar proyek, kami dapat menggunakan mikrofon default. Tetapi jika Anda tidak ingin menggunakan mikrofon default,Anda bisa mendapatkan daftar nama mikrofon menggunakan metode list_microphone_names.

Untuk menangkap input dari mikrofon kami menggunakan metode mendengarkan.

impor speechrecognition sebagai sr r = sr.Recognizer () dengan sr.Microphone () sebagai sumber: audio = sr.listen (sumber)

Bagaimana Cara Menginstal Pyaudio Dengan Python?

Untuk menginstal Pyaudio di python, jalankan perintah berikut di terminal atau jika Anda menggunakan pycharm tambahkan paket dari penerjemah proyek di pengaturan.

Kasus Penggunaan

Kami akan membuat program menggunakan modul speechrecognition di python untuk mengenali ucapan dan menjalankan yang berikut ini:

  1. mengonversi ucapan menjadi teks
  2. buka URL menggunakan modul webbrowser
  3. meneruskan kueri menggunakan pengenalan ucapan untuk melakukan penelusuran di url

Berikut adalah program untuk pernyataan masalah di atas:

impor speech_recognition sebagai sr import webbrowser sebagai wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () dengan sr.Microphone () sebagai sumber: print ('[search edureka: search youtube]') print ('speak now') audio = r3.listen (source) jika 'edureka' di r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' dengan sr .Microphone () sebagai sumber: print ('search your query') audio = r2.listen (source) coba: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) kecuali sr.UnknownValueError: print ('error') kecuali sr.RequestError sebagai e: print ('gagal'.format (e)) jika' video 'di r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'dengan sr.Microphone () sebagai sumber: print (' search for a video ') audio = r2.listen (source) coba: get = r1.recognize_google (audio ) print (get) wb.get (). open_new (url + get) kecuali sr.UnknownValueError: print ('tidak bisa mengerti') kecuali sr.RequestError sebagai e: print (gagal mendapatkan hasil '. format (e) )

Anda akan mendapatkan hasil seperti yang ditunjukkan pada gambar. Jika Anda mengucapkan edureka, Anda akan diminta untuk mengucapkan kueri yang ingin Anda cari di url edureka yang telah kami tulis di variabel url. Jika Anda mengatakan python, Anda akan mendapatkan halaman web berikut dibuka di browser.

Di blog ini, kita telah membahas bagaimana kita dapat menggunakan pengenalan suara dengan python untuk menerjemahkan ucapan ke teks menggunakan paket pengenalan suara. telah menjadi kebutuhan saat ini untuk konsep seperti pengenalan ucapan atau kekesalan objek, dengan yang memberikan kemungkinan tak terbayangkan untuk sistem pengenalan ucapan tempat kami dapat melatih dan menguji data ucapan yang sangat besar untuk membangun sistem. Anda dapat mendaftar di untuk jaringan neural dalam untuk menguasai keterampilan Anda dan memulai pembelajaran Anda.

punya pertanyaan? sebutkan di komentar, kami akan menghubungi Anda kembali.