Pengolahan Suara

Pengertian pengolahan suara

Pengolahan suara adalah suatu study tentang :

• Sinyal suara (speech signal)

• Sistem pendengaran manusia (human hearing system)

• Metode-metode untuk pengolahan sinyal suara . Biasanya sinyal suara direpresentasikan secara digital (kasus khusus pengolahan sinyal digital (digital signal processing)

• Aspek pengolahan mencakup : analisa, produksi, manipulasi, penyimpanan (storage), dan transfer/transmisi

1

Klasifikasi pengolahan suara

• Speech/voice recognition (pengenalan suara) : analisa konten sinyal suara secara bahasa (linguistic content) dan mengubahnya dalam format yg dikenal oleh komputer

• Speaker recognition (pengenalan pembicara) : mendeteksi identitas pembicara (pemilik suara)

• Speech coding/compression (pengkodean/kompresi suara) : merepresentasikan sinyal suara secara efisien utk tujuan transmisi atau penyimpanan (storage)

• Speech synthesis (sintesis/pembuatan/produksi suara) : memproduksi suara buatan

• Speech enhancement : meningkatkan kejelasan informasi suara (intelligibility) mencakup konten secara bahasa, intonasi, identitas dan emosi pembicara

2

Sistem Komunikasi Digital

3

Urgensi pengkodean suara

• Komunikasi suara (speech communication) adalah metode berkomunikasi yang natural dan nyaman (comfort) sehingga menjadi layanan yang sangat dominan dalam jaringan telekomunikasi

• Representasi sinyal suara secara digital (digital speech) memungkinkan utk mendapatkan semua benefit sistem digital seperti: regenerasi sinyal, security (watermarking dan steganography), integrasi dengan sistem lain

• Beberapa sistem komunikasi memiliki kanal yang terbatas dlm penggunaan bandwidth dan power seperti komunikasi satelit, mobile/cellular system. Sehingga speech coding sangat penting/diperlukan.

4

Tujuan/Objective pengkodean suara

• Merepresentasikan sinyal suara secara efisien (menurunkan bitrate serendah mungkin) dengan tetap berusaha mempertahankan kualitas suara

• Contoh sistem Pulse Code Modulation (PCM) adalah pengkode suara (speech coder) yang pertama dijadikan standar (tahun 1972) untuk penggunaan pada PSTN, dengan bitrate 64 kb/s, menghasilkan kualitas suara dalam kategori excellent

• Pengkode suara yang dikembangkan setelah era PCM mampu bekerja pada bitrate yang jauh lebih rendah berkisar 16 kb/s hingga 8 kb/s, dengan kualitas suara lebih rendah tapi masih cukup bagus (kategori : good)

5

Rencana perkuliahan• Chapter 1: Introduction (minggu 1)

• Chapter 2: Coding strategies and standards (minggu 2-3)

• Chapter 3: Sampling and quantisation (minggu 4-5)

• Chapter 4: Speech signal analysis and modelling (minggu 6-7)

• Ujian Tengah Semester (minggu 8)

• Chapter 5: Efficient LPC quantisation methods (minggu 9-10)

• Chapter 6: Pitch estimation (minggu 11-12)

• Chapter 7: Analysis by synthesis LPC Coding (minggu 13-14)

• Ujian Akhir Semester (minggu 15/16)

Referensi : Digital Speech, Coding for low bitrate communication

sytems, A.M. Kondoz, John Wiley & Sons Ltd, second edition,

2004

6

Sistem Penilaian• Ujian Tengah Semester : 25%, Ujian Akhir Semester : 0%

• Tugas Matlab programming : 75%

1. speech recording (minggu 4)

2. PCM (minggu 6)

3. LPC (minggu 11)

4. Pitch prediction (minggu 13)

5. AbS LPC (minggu 15/16) (Sesuai jadual UAS)

Point-point penilaian tugas :

• Ketepatan waktu pengumpulan tugas: 25%

• Kualitas isi : 60%

• Tampilan/kerapihan: 15%

7

Chapter 2 Coding Strategies and Standards

8

Pulse Code Modulation (PCM)

• Pulse Code Modulation (PCM) dibuat pertama kali oleh Alec H. Reeves th 1938 awal dari era digital speech

• Benefit PCM: perfect signal reconstruction pada repeaters kompensasi redaman dg syarat error/noise level relatif kecil

• Th 1960 PCM telah diimplementasikan pada private dan public switched telephone networks (PSTN)

• Saat ini hampir semua PSTN telah aplikasikan PCM, sebagian besar menggunakan teknologi fiber optik

• Additional advantages of PCM: ketersediaan berbagai hardware yang berguna utk berbagai pemrosesan sinyal, seperti: error correction, encryption, multiplexing, dll

9

Kenapa Perlu Speech Coding ?

• Bandwidth yg diperlukan utk transmisi data PCM LEBIH BESARdari bandwidth sinyal analog

• Hal ini dapat diterima utk PSTN tapi tidak utk sistem2 yang memiliki keterbatasan bandwidth (bandwidth-restricted channels) seperti: komunikasi satelit dan mobile/cellular

• Engineering problem selalu memperhitungkan keuntungan dan kerugian (trade-off ) atau berbagai keterbatasan (constraint )

• Hal-hal inilah yang menjadi latar belakang dan motivasi dikembangkannya berbagai teknik utk pengkodean suara

10

Klasifikasi Speech Coder (lama)

• Waveform coders: bertujuan menghasilkan sinyal suara yang menyerupai sinyal suara yang asli. Contoh: PCM, adaptive differential PCM, dll

(Tipe speech coder yg ini tidak lagi dikembangkan. Artinya semua speech coder menggunakan suatu model tertentu utk memproduksi sinyal suara)

• Voice coders (vocoders): menggunakan model tertentu untuk memproduksi sinyal suara, sehingga reconstructed speech signal tidak selalu menyerupai sinyal suara yang asli

• Hybrid coders: menggunakan gabungan kedua teknik waveform dan vocoders. Contoh: code-excited linear prediction (CELP), multiband excitation (MBE)

11

Klasifikasi Speech Coder (baru)

• Waveform approximating coders: bertujuan menghasilkan sinyal suara yang menyerupai sinyal suara yang asli.

• Parametric coders : menggunakan model tertentu untuk memproduksi sinyal suara, sehingga reconstructed speech signal tidak selalu menyerupai sinyal suara yang asli

• Hybrid coders: menggunakan gabungan dua atau beberapa teknik speech coder. Teknik yang digunakan biasanya tergantung dari karakteristik input sinyal suara

12

Kualitas vs Bitrate

13

Parametric Speech Coder

• Sinyal suara dimodelkan dengan satu set parameters

• Fungsi encoder : ekstraksi parameter kuantisasi transmisi

• Fungsi decoder : invers kuantisasi speech reconstruction berdasarkan model yang digunakan di encoder

• Kualitas hasil reproduksi suara tidak bisa mencapai level excellent karena keterbatasan model yang digunakan

• Pengukuran signal-to-noise ration (SNR) is meaningless, seringkali SNR bernilai negatif (dB) mungkin karena sinyal hasil rekonstruksi tidak sefasa dg sinyal asli.

• Kualitas suara dievaluasi secara subyektif (listening test)

14

1. Speech coder berbasis linear prediction

• Berdasarkan sistem produksi suara manusia: vocal tract, glottal pulses, turbulent air flow, glottis, dll

• Menggunakan linear prediction (LP) filter

• Untuk suatu segment suara, dihitung LPC coefficients sbg parameter.

• Output LPC dinamakan dg sinyal eksitasi (excitation signal)

• Sinyal suara dikategorikan sbg: voice dan unvoiced Ini menjadi kelemahan utama karena seringkali suara manusia adalah gabungan dari voice dan unvoiced, terutama jika sudah tercampur noise.

15

2. Sinusoidal atau harmonic coder

• Sinyal suara diasumsikan sbg gabungan dari beberapa sinyal sinusoidal

• Parameter yg diekstrak: amplitudo, frekuensi dan fasa

• Frekuensi sinyal suara terdiri dari frekuensi dasar (fundamental frequnecy) dan frekuensi harmonis (harmonics)

• Pada decoder, dilakukan interpolasi thd amplitudo dan frekuensi agar tdk terjadi perubahan yang mendadak/tiba-tiba (smooth evolution)

• Kualitas suara yg dihasilkan cukup bagus (mendekati bentuk sinyal asli) pd high bitrate, tetapi kualitas menurun pada low bitrate

16

Waveform approximating Coder

• Bertujuan memperkecil perbedaan (error) antara reconstructed signal dengan sinyal suara yang asli.

• Contoh generasi awal: PCM dan ADPCM

• Teknologi terbaru menggunakan time domain analysis by synthesis seperti pada CELP sebuah closed-loop system yang bertujuan mencari satu set parameter , dari sejumlah besar parameter, yg akan menghasilkan error terkecil.

• Juga menggunakan perceptual weighting sehingga error kuantisasi tidak terdengar (inaudible)

17

Hybrid Coder

• Disebut juga dg multimode coder

• Menggabungkan beberapa teknik speech coder, switching berdasarkan karakteristik input sinyal suara

• Kelemahan: pada low bitrate, kualitas suara cenderung turun pada beberapa segment suara dibanding segment suara yg lain bukti bahwa pemodelan yg digunakan tdk sesuai utk semua segment suara

• Terdiri dari 2 mode: network or channel dependent dan source dependent

18

2.3 Algorithm Objectives and Requirements

19

Quality and Capacity (Bitrate)

• Memperbesar rasio kompresi (memperkecil bitrate) akan menurunkan kualitas sinyal suara, dan sebaliknya

• PSTN memiliki persyaratan kualitas suara yg lebih tinggi toll quality, ditentukan oleh ITU

• Private commercial networks dan military bisa kompromi dgn persyaratan kualitas suara utk dapatkan high coding efficiency

• Mobile radio sytem faktor utama yg menentukan adalah overall average qulity, ditentukan dari gabungan good and bad transmission condition

20

Coding Delay

• Coding delay terkait erat dengan persyaratan kualitas suara menimbulkan echo

• Coding delay: 1. algorithmic: buffering of speech signal for analysis; 2. computational: the time taken to process the stored speech samples

• PSTN application low delay is essential to minimize echo maksimum delay yg dibolehkan 5 ms

• Mobile and satellite systems substantial propagation delays already exist echo cancellation is employed. Delay dapat mencapai 65 ms

21

Channel and background noise robustness

• Mobile/wireless system sangat rentan thd random and burst errors persyaratan kualitas suara lebih rendah dibanding PSTN communication quality

• Forward error correction (FEC) biasanya digunakan

• Trade-off antara kualitas suara dan robustness biasanya sangat sulit utk dicapai harus ditentukan sejak awal proses disain speech coder

• Background noise dapat menurunkan kinerja speech coder sulit dalam melakukan parameter extraction

22

Complexity and Cost

• Sophisticated algorithms akan meningkatkan computational complexity

• Biaya (cost) utk aplikasi digital signal processor (DSP) chips saat ini telah jauh berkurang tapi biaya akibat complexity/power consumption tetap jadi persoalan

• Digital speech interpolation (DSI) menggunakan kanal komunikasi suara (dalam rentang waktu suara tdk aktif) utk komunikasi data

• Voice activity detector (VAD) digunakan pada speech coder untuk membatasi transmisis sehingga dapat menghemat daya

23

Tandem Connection and Transcoding

• Untuk end-to-end user, seringkali speech codec bekerja dalam suatu tandem connection dg codec yang sama atau codec berbeda

• Tandem connection biasanya menyebabkan degradasi kualitas yang bersifat kumulatif sehingga jika kinerja speech codec sangat bergantung pada suatu parameter tertentu, maka kumulasi error akan sangat besar persoalan ini masih dalam penelitian utk mencari solusi yang tepat

• Transcoding kedalam format yang berbeda juga menurunkan kualitas suara dan meningkatkan biaya operasional

24

2.4 Standard speech coders

25

ITU-T speech coding standard

• Awalnya utk aplikasi pada PSTN dgn bandwidth sinyal suara 3,4 kHz dan frekuensi sampling 8 kHz narrowband speech

• Wideband speech coding utk aplikasi integrated service digital network (ISDN) speech dg bandwidth 7 kHz, sampling 16 kH

• Trend berikutnya utk superwideband (bandwidth 15 kHz) dan fullband (bandwidth 20 kHz)

• Juga mulai mempertimbangkan multichannel

26

ITU-T narrowband speech coding standards

27

European Telecommunications Standards Institute (ETSI)

• Dikembangkan utk aplikasi sistem komunikasi seluler (mobile)

• Standard pertama: utk global system mobile (GSM) full-rate (FR) dg bitrate 13 kb/s, kemudian GSM half-rate (HR): 5,6 kb/s dan Enhanced full-rate (EFR): 12.2 kb/s

• Adaptive multi-rate (AMR): 4.75 – 12.2 kb.s (4 rates utk FR dan 4 rates utk HR) kombinasi dan optimal kombinasi source dan channel coding. Jika interferensi tinggi, more bits for channel coding

28

ETSI speech coding standards

29

North American Digital Cellular Telephony Standards

• Telecommunication Industries Association (TIA) bagian dari Electronic Industries Association (EIA) standard utk mobile communication berdasarkan code division multiple access (CDMA) dan time division multiple access (TDMA), teknologi yg digunakan di USA

• Interim Standard-96-A (IS-96-A): variable bitrates antara 0.8 – 8 kb/s

• IS-127: enhanced variable rate coder menggunakan teknologi noise reduction sebelum diproses dg speech coder

30

TIA/EIA speech coding standards

31

Secure Communications Telephony

• Kebanyakan distandard-kan oleh Department of Defense (DoD), USA

• Voice intelligibility jadi perhatian utama utk memberikan voice commands dalam keadaan darurat very low bitrate

• Federa Standard-1015 (FS-1015): menggunakan teknik LPC-10e dg bitrate 2.4 kb/s

• FS-1016: CELP coder pada bitrate 4.8 kb/s• NATO standard menggunakan mixed excitation

linear prediction (MELP): dual rates 1.2 dan 2.4 kb/s

32

DoD speech coding standards

33

Satellite Telephony

34

Menentukan Kualitas Speech Coder

• Signal-to-noise ration (SNR) digunakan utk speech codec jenis wave approximating biasanya valid utk bitrate > 16 kb/s

• Mean opinion score (MOS) digunakan utk parametric coder listening test high cost

35

Perbandingan Kinerja

36

Documents

Pengolahan Suara