13
「音響学入門ペディア」作成に向けて Q4: ケプストラムって要するに何ですか? 岡本 拓磨 情報通信研究機構 学生・若手フォーラム幹事会 音響学入門ペディア編集委員会 1 What is cepstrum? 2013.3.13 ASJ Beginners Seminar 2013@Tokyo Univ. of Tech., Hachioji email: okamoto (_at_) nict.go.jp HP: http://www.okamotocamera.com

「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

「音響学入門ペディア」作成に向けて

Q4: ケプストラムって要するに何ですか?

岡本 拓磨情報通信研究機構

学生・若手フォーラム幹事会音響学入門ペディア編集委員会

1

What is cepstrum?

2013.3.13 ASJ Beginners Seminar 2013@Tokyo Univ. of Tech., Hachioji

email: okamoto (_at_) nict.go.jpHP: http://www.okamotocamera.com

Page 2: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

声のしくみ

2声帯振動

/a/,/i/,/u/,/e/,/o/声道

音声

声道の形が変わると音が変わる

Page 3: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

音響学的な「ケプストラム分析」の目的

3

声帯振動/a/,/i/,/u/,/e/,/o/声道

音声

ケプストラム分析

声帯振動 声道情報

声道スペクトル

細かな変化 滑らかな変化

音声スペクトル

複雑な変化

分ける

← ポイント

Page 4: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

時間領域

音源信号と声道フィルタの畳み込み

周波数領域

音源スペクトルと声道スペクトルのかけ算

人の声のしくみ:信号処理として見ると

4ポイント1:時間領域の畳み込み→周波数領域のかけ算

声帯振動スペクトル 声道スペクトル 音声スペクトル

声帯振動信号 声道フィルタ 音声信号

=

=

FFT

h(t) s(t)a(t)

Page 5: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

時間領域(縦軸真数軸)

音源スペクトルと声道スペクトルのかけ算

周波数領域(縦軸対数軸)

音源スペクトルと声道スペクトルの足し算

人の声のしくみ:信号処理として見ると

5ポイント2:対数領域ではかけ算が足し算になる

声帯振動スペクトル 声道スペクトル 音声スペクトル=

声帯振動スペクトル 声道スペクトル 音声スペクトル⇥ =

+log log log

log

Page 6: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

前処理

6

0 10 20 30 40

−0.1

−0.05

0

0.05

0.1

0.15

Time [ms]

Ampl

itude

0 1000 2000 3000 4000 50000

100

200

300

400

500

Frequency [Hz]

Pow

er S

pect

rum

0 1000 2000 3000 4000 5000−6

−4

−2

0

2

4

Frequency [Hz]

Loga

rithm

ic P

ower

Spe

ctru

m [d

B]

/a/を切り出した時間信号 /a/のパワースペクトル /a/の対数パワースペクトル

s(t) FFT log|S(f)|2 log(|S(f)|2)

Page 7: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

2つの成分に分けるには??

7

声帯振動 声道情報

声帯振動スペクトル 声道スペクトル

細かな変化 滑らかな変化

に分けたいと

最大のポイント

もし↑が時間信号だったら… 高周波数成分 低周波数成分

をもう一回フーリエ変換すれば分離できる!!log(|S(f)|2)

0 1000 2000 3000 4000 5000−6

−4

−2

0

2

4

Frequency [Hz]

Loga

rithm

ic P

ower

Spe

ctru

m [d

B]

/a/の対数パワースペクトルlog(|S(f)|2)

Page 8: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

ケプストラム

8

0 1000 2000 3000 4000 5000−6

−4

−2

0

2

4

Frequency [Hz]

Loga

rithm

ic P

ower

Spe

ctru

m [d

B]

/a/の対数パワースペクトルlog(|S(f)|2)

を時間信号だと思ってFFT!!※ただ,実際は周波数領域の信号なのでIFFT

0 5 10 15 20−0.2

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

0.2

Quefrency [ms]

Loga

rithm

ic A

mpl

itude

Spe

ctru

m

/a/のケプストラム

時間領域

Page 9: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

ケプストラム分析

9

/a/のケプストラム

0 5 10 15 20−0.2

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

0.2

Quefrency [ms]

Loga

rithm

ic A

mpl

itude

Spe

ctru

m

log(|S(f)|2) の低周波数成分 →

log(|S(f)|2) の高周波数成分 → 声帯振動

声道情報

Page 10: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

ケプストラム分析による情報の分離

10

/a/のケプストラム

0 5 10 15 20−0.2

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

0.2

Quefrency [ms]

Loga

rithm

ic A

mpl

itude

Spe

ctru

m

それぞれ0詰め

0 5 10 15 20−0.2

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

0.2

Quefrency [ms]

Loga

rithm

ic A

mpl

itude

Spe

ctru

m

0 5 10 15 20−0.2

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

0.2

Quefrency [ms]

Loga

rithm

ic A

mpl

itude

Spe

ctru

m

分離完了!!

0 1000 2000 3000 4000 5000−6

−4

−2

0

2

4

Frequency [Hz]

Loga

rithm

ic P

ower

Spe

ctru

m [d

B]

FFT

元に戻す

Page 11: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

分離結果

11

/a/の声道パワースペクトル

0 1000 2000 3000 4000 50000

2000

4000

6000

8000

10000

Frequency [Hz]Po

wer

Spe

ctru

m

0 1000 2000 3000 4000 50000

0.02

0.04

0.06

0.08

0.1

0.12

0.14

Frequency [Hz]

Pow

er S

pect

rum

/a/の声帯振動パワースペクトル

いわゆるフォルマント周波数 → 音声認識などへ

Page 12: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

Q4: ケプストラムって要するに何ですか?

12

(声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特性のフィルタを通過して観測された信号から両者を分離するために

観測信号の対数パワースペクトルをIFFTした信号

3つのポイント1. 時間領域の畳み込み演算は周波数領域ではかけ算2. 対数を取るとかけ算が足し算になる3. 周波数領域の信号であるが時間信号だと思ってFFT

Page 13: 「音響学入門ペディア」作成に向けて Q4: ケプスト …abcpedia.acoustics.jp/bs13_q4.pdfQ4: ケプストラムって要するに何ですか? 12 (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特

正木信夫 (ATR-Promotions / 日本音響学会副会長)デモ機材提供

竹本浩典 (NICT)声道映像提供

Acknowledgements

13