Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
「音響学入門ペディア」作成に向けて
Q4: ケプストラムって要するに何ですか?
岡本 拓磨情報通信研究機構
学生・若手フォーラム幹事会音響学入門ペディア編集委員会
1
What is cepstrum?
2013.3.13 ASJ Beginners Seminar 2013@Tokyo Univ. of Tech., Hachioji
email: okamoto (_at_) nict.go.jpHP: http://www.okamotocamera.com
声のしくみ
2声帯振動
/a/,/i/,/u/,/e/,/o/声道
音声
声道の形が変わると音が変わる
音響学的な「ケプストラム分析」の目的
3
声帯振動/a/,/i/,/u/,/e/,/o/声道
音声
ケプストラム分析
声帯振動 声道情報
声道スペクトル
細かな変化 滑らかな変化
音声スペクトル
複雑な変化
分ける
← ポイント
時間領域
音源信号と声道フィルタの畳み込み
周波数領域
音源スペクトルと声道スペクトルのかけ算
人の声のしくみ:信号処理として見ると
4ポイント1:時間領域の畳み込み→周波数領域のかけ算
声帯振動スペクトル 声道スペクトル 音声スペクトル
声帯振動信号 声道フィルタ 音声信号
⇤
⇥
=
=
FFT
h(t) s(t)a(t)
時間領域(縦軸真数軸)
音源スペクトルと声道スペクトルのかけ算
周波数領域(縦軸対数軸)
音源スペクトルと声道スペクトルの足し算
人の声のしくみ:信号処理として見ると
5ポイント2:対数領域ではかけ算が足し算になる
声帯振動スペクトル 声道スペクトル 音声スペクトル=
声帯振動スペクトル 声道スペクトル 音声スペクトル⇥ =
+log log log
log
前処理
6
0 10 20 30 40
−0.1
−0.05
0
0.05
0.1
0.15
Time [ms]
Ampl
itude
0 1000 2000 3000 4000 50000
100
200
300
400
500
Frequency [Hz]
Pow
er S
pect
rum
0 1000 2000 3000 4000 5000−6
−4
−2
0
2
4
Frequency [Hz]
Loga
rithm
ic P
ower
Spe
ctru
m [d
B]
/a/を切り出した時間信号 /a/のパワースペクトル /a/の対数パワースペクトル
s(t) FFT log|S(f)|2 log(|S(f)|2)
2つの成分に分けるには??
7
を
声帯振動 声道情報
声帯振動スペクトル 声道スペクトル
細かな変化 滑らかな変化
に分けたいと
最大のポイント
もし↑が時間信号だったら… 高周波数成分 低周波数成分
をもう一回フーリエ変換すれば分離できる!!log(|S(f)|2)
0 1000 2000 3000 4000 5000−6
−4
−2
0
2
4
Frequency [Hz]
Loga
rithm
ic P
ower
Spe
ctru
m [d
B]
/a/の対数パワースペクトルlog(|S(f)|2)
ケプストラム
8
0 1000 2000 3000 4000 5000−6
−4
−2
0
2
4
Frequency [Hz]
Loga
rithm
ic P
ower
Spe
ctru
m [d
B]
/a/の対数パワースペクトルlog(|S(f)|2)
を時間信号だと思ってFFT!!※ただ,実際は周波数領域の信号なのでIFFT
0 5 10 15 20−0.2
−0.15
−0.1
−0.05
0
0.05
0.1
0.15
0.2
Quefrency [ms]
Loga
rithm
ic A
mpl
itude
Spe
ctru
m
/a/のケプストラム
時間領域
ケプストラム分析
9
/a/のケプストラム
0 5 10 15 20−0.2
−0.15
−0.1
−0.05
0
0.05
0.1
0.15
0.2
Quefrency [ms]
Loga
rithm
ic A
mpl
itude
Spe
ctru
m
log(|S(f)|2) の低周波数成分 →
log(|S(f)|2) の高周波数成分 → 声帯振動
声道情報
ケプストラム分析による情報の分離
10
/a/のケプストラム
0 5 10 15 20−0.2
−0.15
−0.1
−0.05
0
0.05
0.1
0.15
0.2
Quefrency [ms]
Loga
rithm
ic A
mpl
itude
Spe
ctru
m
それぞれ0詰め
0 5 10 15 20−0.2
−0.15
−0.1
−0.05
0
0.05
0.1
0.15
0.2
Quefrency [ms]
Loga
rithm
ic A
mpl
itude
Spe
ctru
m
0 5 10 15 20−0.2
−0.15
−0.1
−0.05
0
0.05
0.1
0.15
0.2
Quefrency [ms]
Loga
rithm
ic A
mpl
itude
Spe
ctru
m
分離完了!!
0 1000 2000 3000 4000 5000−6
−4
−2
0
2
4
Frequency [Hz]
Loga
rithm
ic P
ower
Spe
ctru
m [d
B]
FFT
元に戻す
分離結果
11
/a/の声道パワースペクトル
0 1000 2000 3000 4000 50000
2000
4000
6000
8000
10000
Frequency [Hz]Po
wer
Spe
ctru
m
0 1000 2000 3000 4000 50000
0.02
0.04
0.06
0.08
0.1
0.12
0.14
Frequency [Hz]
Pow
er S
pect
rum
/a/の声帯振動パワースペクトル
いわゆるフォルマント周波数 → 音声認識などへ
Q4: ケプストラムって要するに何ですか?
12
(声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特性のフィルタを通過して観測された信号から両者を分離するために
観測信号の対数パワースペクトルをIFFTした信号
3つのポイント1. 時間領域の畳み込み演算は周波数領域ではかけ算2. 対数を取るとかけ算が足し算になる3. 周波数領域の信号であるが時間信号だと思ってFFT
正木信夫 (ATR-Promotions / 日本音響学会副会長)デモ機材提供
竹本浩典 (NICT)声道映像提供
Acknowledgements
13