Ch12 keywords of speech recognition keywords...Dynamic Time Warping: Type 1 j t(i-1) r(j) ⎪ ⎭ ⎪ ⎬ ⎫ ⎪ ⎩ ⎪ ⎨ ⎧ − − − − − − = − + ( 2, 1) ( 1, 1) (

Chapter12少量關鍵字語音辨識

Chapter12少量關鍵字語音辨識

目錄

實驗目的1

原理說明2

實驗步驟3

結果與討論4

實驗目的

藉由實習增進對辦識領域的認知以及對於語音辦識的興趣，並了解單晶片的基本運作以及程式的編寫。

語音辨識的分類

按照辨識字彙的多寡：少量字彙(數百字)、中量字彙(數千字)、大量字彙(數萬字)

按照使用對象：特定對象(Speaker Dependent)、不特定對象(Speaker Independent)

按照使用方式：不連續語音辨識、連續語音辨識

語音辨識系統方塊圖

前置處理(Pre-processing)

特徵擷取(Feature Extraction)

辨識(Decoding)

辨識模型或樣板語言模型

• Pre-amplifying

• Speech/Silence Segmentation

• Spectral or CepstralFeatures

• Pitch Contour

• Dynamic Time Warping

• Hidden Markov Models

•Grammar

•Syntatics

語音訊號

辨識結果

前處理

pre filter : 此部份預先將麥克風之類比信號預先濾除大於ADC之耐奎氏頻率之成分。

FIR filter : 由於人的語音信號頻率小於4KHZ，故此部分將ADC的輸出信號濾除至語音信號之耐奎氏頻率8KHZ，以消除高頻雜訊。

Nyquist Theorem

奈奎斯特定理：取樣速率> 2 * 受測訊號的最高頻率部份

奈奎斯特定理說明必須以高於受測訊號的最高頻率兩倍以上的速度進行取樣，才能正確地重建波型；

Zero Crossing Rate

在每個音框中，音訊通過零點的次數

一般而言，雜訊及氣音的過零率均大於有聲音（具有清晰可辨之音高，例如母音）。

是雜訊和氣音兩者較難從過零率來分辨，會依照錄音情況及環境雜訊而互有高低。但通常氣音的音量會大於雜訊。

Zero Crossing Rate

通常用在端點偵測，特別是用在估測氣音的啟始位置及結束位置。

可用來預估訊號的基頻，但很容易出錯，所以必須先進行前處理。

特徵截取流程圖

取樣與量化

將類比的（連續的）聲音波形數位化（離散化）

利於數位電腦進行處理

數位音頻的品質

取樣

量化

波形編碼

波形編碼的基本原理是在時間軸上對類比語音按一定的速率抽樣。

振幅分層量化，並用代碼表示。

解碼是將收到的數位序列經過解碼和濾波恢復成類比信號。

參數編碼

將信源信號在頻率域或其他正交變換域提取特徵參數。

解碼將特徵參數重建語音信號。

重建信號的波形與原語音信號的波形可能會有相當大的差別。

LPC

如：線性預測編碼（LPC）及其它各種改進型都屬於參數編碼。該編碼可壓縮到2Kbit/s-4.8Kbit/s，甚至更低，但語音品質只能達到中等，特別是自然度較低。

參數編碼特點：壓縮比大，計算量大，音質不高，廉價！

特徵參數擷取方法

語音訊號

語音訊號前處理

音框自相關演算Auto-correlation LPC分析

16階線性預估係數

倒頻譜分析

16階LPC導出的倒頻譜參數

LPC and LPC-derived cepstral coefficients:

特徵參數擷取方法

語音訊號

語音訊號前處理

音框FFT 梅爾刻度

濾波頻帶

16階梅爾刻度式倒頻譜

參數

log 餘弦轉換

Mel-scale frequency cepstral coefficients (MFCC)

混合編碼

波形編碼和參數編碼組合起來

保持波形編碼的高品質和參數編碼的低速率

辨識原理

語音識別分為

特定發音人識別（Speaker Dependent）

非特定發音人識別（Speaker Independent）

特定發音人識別（Speaker Dependent）

語音樣板由單個人訓練

對訓練人的語音命令識別準確率較高

其他人的語音命令識別準確率較低或不識別

非特定發音人識別（Speaker Independent）

語音樣板由不同年齡、不同性別、不同口音的人進行訓練

可以識別一群人的命令

Dynamic Time Warping (DTW)

Characteristics:Pattern-matching-based approachRequire less memory/computationSuitable for speaker-dependent recognitionSuitable for small to medium vocabularySuitable for microprocessor/chip implementation

Applications手機、車用電話、玩具、錄音筆

動態時間軸較準

訓練階段：建立各辨識單元之樣板。

使用階段：輸入語音的特徵圖樣與各樣板比對，最接近者即為辨識結果。

...

計算與辨識單元#1的樣板之距離

計算與辨識單元#2的樣板之距離

計算與辨識單元#M的樣板之距離

輸入語音之特徵圖樣

選擇最小值

辨識結果

Dynamic Time Warping: Type 1

j

t(i-1)

r(j)

⎪⎭

⎪⎬

⎫

⎪⎩

⎪⎨

⎧

−−−−−−

+−=

)1,2()1,1()2,1(

min

)()(),(

jiDjiDjiD

jritjiD

),( jiD

t: input LPCC matrix(Each row is a frame’s feature.)

r: reference LPCC matrixLocal paths: 27-45-63 degrees

DTW recurrence:

t(i)

Dynamic Time Warping: Type 2

j

t(i-1)

r(j)

⎪⎭

⎪⎬

⎫

⎪⎩

⎪⎨

⎧

−−−

−

+=

),1()1,1(

)1,(min

)(),(),(

jiDjiD

jiD

jritjiD

),( jiD

r(j-1)

t(i)

t: input LPCC matrix(Each row is a frame’s feature.)

r: reference LPCC matrixLocal paths: 0-45-90 degrees

DTW recurrence:

開發平台

凌陽SPEC061A單晶片

unSP IDE 2.6.2D

實作流程圖

SPEC061A 語音辨識系統實作

Trigger and tracking the speech event

Converting speech signals into speech features

Speech recognition

16-order FIR Filter: the frequency band ranges from 20Hz through 3400Hz


Endpoint Detection

Speech Signal


Fixed-point design for LPCCs featuresBecause SPCE061A lacks the FPU (Floating-point unit) hardware so that it does not have good computation performance on floating-point calculation. So we have to convert the floating-point to fixed-point.

Floatingto

Fix point

Durbin`s Recursive Procedure and Cepstrum

Coefficient

DTW


Dynamic Time Warping (DTW)

Euclidean DistanceSequences are aligned “one to one”.

“Warped” Time AxisNonlinear alignments are possible.

SPEC061A 聲控PCB功能簡介

SPEC061A 聲控PCB功能簡介

ICE 電壓源

IOB0~IOB7

IOB8~IOB15 IOA0~IOA7

IOA8~IOA15

硬體實現架構

語音辨識的困難

語音訊號的差異性大(說話速度、習慣、生理狀況、性別、年齡、地域等)語音訊號分段的困難

辨識率易受背景雜訊的影響

問題與討論

有哪些因素可使語音指令發聲點與麥克風距離越遠且辨識率達90%以上？

想要辨別愈多語音關鍵字，是否會影響判斷時間以及辨識率？

Documents

Ch12 keywords of speech recognition keywords...Dynamic Time Warping: Type 1 j t(i-1) r(j) ⎪ ⎭ ⎪ ⎬ ⎫ ⎪ ⎩ ⎪ ⎨ ⎧ − − − − − − = − + ( 2, 1) ( 1, 1) (