Selasa, 12 Januari 2010

Konversi dari teks ke ucapan (text to speech)

Konversi dari teks ke ucapan terdiri dari dua hal, yaitu :
1. mengubah dari teks ke fonem (text to fonem)
2. mengubah dari fonem ke ucapan (fonem to speech)

Teks ke fonem

Proses yang terjadi pada teks ke fonem adalah mengubah kalimat(teks) yang dimasukan dalam suatu bahasa tertentu yang berbentuk teks menjadi kode-kode bunyi yang biasanya diartikan menjadi kode fonem. Sedangkan kode fonem sendiri terdiri dari kode sampa, nilai duras dan nilai pitch (frekuensi dasar). Pada prinsipnya proses ini melakukan konversi dari symbo lsimbol tekstual menjadi symbol-simbol fonentik yang mempresentasikan unit bunyi terkecil dalam bahasa, sedangkan setiap bahsa memiliki atuaran cara pembacaannya. Hal ini yang menyebabkan implementasi unit converter teks ke fonem menjadi sangat spesifik terhadap suatu bahasa. Karena setiap bahasa memiliki jumlah fonem yang berbeda sehingga mempunyai kode sampa yang berbeda pula. Maka, dibutuhkan diphone database yang berbeda untuk tiap bahasa.





cotoh : kata ‘yo’ dikodekan dengan kode fonem dengan kode sebagai berikut :

‘y’ dikodekan ‘j 25 100 50 100’
‘o’ dikodekan ‘Q 25 100 50 100’

Pada contoh diatas memiliki arti bahwa pada huruf ‘y’ dan ‘o’ pada durasi 25 ms, pitchnya senilai 100 hz.Jika kode tersebut kita masukan ke dalam engine MBROLA maka suara yang akan dihasilkan masih berupa suara yang datar tanpa intonasi karena memiliki durasi dan pitch yang sama.


Fonem ke ucapan

MBROLA adalah Speech syntheizer yang menggunakan teknik penggabungan segmen bunyi berdasarkan pangkalan diphone (diphone concatenation), merupakan salah satu converter yang dibuat oleh TCTS Lab (TTS Research Team, Belgia), yang dapat beroprasi pada system operasi windows maupun yang lain, dan dapat menggunakan bahasa pemograman delphi, java, visual basic dan bahasa pemograman yang lain. Software ini digunakan untuk mengubah kode kode fonem menjadi suara/ ucapan.



Engine MBROLA hanya dapat membaca kode-kode fonem dalam file berextension ‘.pho’. Diphone database harus kita masukan untuk mendefinisikan jenis suara berprosodi seperti apa yang akan dikeluarkan. Diphone adalah gabungan dari dua buah fonem, dan menggunakan teknik diphone concatenation yang bekerja dengan menggabungkan segmen-segmen bunyi yang telah direkam sebelumnya.dan setipa segmen merupakan gabungan dari dua buah fonem (diphone). Teknik ini digunakan agar dapat menghasilkan tingkat kenaturalan yang tinggi. Prosodi dataset, seperti yang kita ketahui bahwa posodi adalah intonasi, dalam hal ini adalah intonasi suara yang dikeluarkan synthesizer MBROLA sesuai dengan pitch dan durasi yang tercantum pada kode fonemnya. Sedangakan model prosodi dataset adalah suatu model perbaikan ucapan yang dilakukan pada sistem texs to speech dengan penambahan kosakata serta memasukkan parameter dari durasi dan pitch yang diubah-ubah berdasarkan langkah-langkah percobaan, sehingga menghasilkan sistem text to spech yang memiliki intonasi pada kata yang diucapkan.

Pada bagian teks ke fonem, teks dijabarkan dalam bentuk kode fonem yang kemudian kode-kode fonem itu akan dikonversikan menjadi kode sampa yang akan dimengerti oleh synthesizar MBROLA. Dalam synthesizer MBROLA yang akan terjadi adalah, kode-kode sampa yang telah berisikan pitch dan durasi akan disuarakan, pastinya sesuai dengan bahasa yang dimengerti synthesizer MBROLA. Oleh sebab itu dalam pembutan sistem text to speech ini, sistem harus mengkonversi teks menjadi bahasa yang dikenali oleh MBROLA, sehingga dapat dibaca.

1 komentar:

  1. blognya penuh pembelajaran banget... tapi sulit buat ngeliat2 judul lainnya ,, alangkah baiknya jika judulnya ditampilkan di arsip blognya...

    BalasHapus