Upload
crwys
View
30
Download
0
Embed Size (px)
DESCRIPTION
ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究. ー 狭帯域包絡線情報を用いた 個人性・伝送路特性の記述 -. 末廣一美,山田雄大(福島研究室). 様々な違いから生まれるコミュニケーションのバリア. A. 文化,言語,身体能力の 違いによる壁(バリア). メディア変換. 手話. 言語. ?. 手話. 言語. メディア:意図を伝える媒体. 個人差・利用状況 に合った 適応的なメディア変換. システムによる現状把握 が必要. 人の情報伝送路モデル. 3. ー. 聴取者. 話者. 音声. 3. □. - PowerPoint PPT Presentation
Citation preview
様々な違いから生まれるコミュニケーションのバリア
?
文化,言語,身体能力の
違いによる壁(バリア)
A
個人差・利用状況に合った
適応的なメディア変換システムによる現状把握が必要
メディア:意図を伝える媒体
メディア変
換手話 言語
手話 言語
I 話者 聴取者I~
3
□ 3ー
L L~P
P~
ILF
LPF PLG
LIG
人の情報伝送路モデル
音声
はメディアに依存しない →メディア間の相互変換が可能 ⇒情報源の持つ「特徴量」による「情報記述」
メディア間の相互変換
I
1)情報の特徴量を抽出することは可能?2)特徴量による「話者識別」「室種別類別」が可能?
)(IPILLP
FF )~
(~
PIPLLI
GG
-0.04-0.02
00.020.04
0 0.2 0.4 0.6 0.8 1time (s )
am
plit
ude
time (s )
-0.04-0.02
00.020.04
0 0.2 0.4 0.6 0.8
1
am
plit
ude )(
1nvb
)(1
neb
time (s )-30
-20
-10
0
0 0.2 0.4 0.6 0.8 1
ampl
itude
(dB)
)(1
ndb
39,3939,239,1
2,22,1
1,391,21,1
狭帯域包絡線情報を用いた話者識別
帯域を制限( 少ない特徴量で識
別 )↓
正解率の変化を調べる
音声時間波形を狭帯域に分割して包絡線を求める
人の聴覚メカニズム ⇒ 「狭帯域包絡線」を特徴量
0102030405060708090
100
1-39 6-31 6-14, 22-31Used Band Number
Acc
urac
y an
d R
atio
(%
)
fs 範囲 100% 25% 21%band 数 100% 67% 49%
88% 86% 81%C
全 39 帯域の正解率の比較
特徴量抽出,少ない特徴量でも識別可能重要帯域近傍調査:音響学会にて発表予定 (3 月 )
狭帯域包絡線情報を用いた室種別の類別
人の聴覚メカニズムは対象によって変化しない
室のインパルス応答の狭帯域包絡線を求める
狭帯域分割 ケプストラム 包絡線
)(nhrb )(qCrb )(qerb
39,3939,239,1
2,22,1
1,391,21,1
r
の類似度を調べる ↓
狭帯域包絡線情報で室種別の類別が可能か
r
同一室で異なる計測位置での の類似度r
00.10.20.30.40.50.60.70.80.9
1
AX
X ( Room type_Point Number )W1_1W1_2W1_3 W2_1W2_2W2_3 J_1 J_2 J_3
洋室 1 ( W1 )
洋室 2 ( W2 )
和室( J )
W1_1
W1_2
W1_3
AW2_1
W2_2W2_3
AJ_1J_2J_3
A
00.10.20.30.40.50.60.70.80.9
1
00.10.20.30.40.50.60.70.80.9
1
同一室では の類似度が高い
r
W :洋室, J :和室
洋室 1 と和室の の類似度r
W1_1 W1_2 W1_3 J_1 J_2 J_3X ( Room Type_Point Number )
11 WW
JJ
AX
種別の異なる室では類似度は低い
00.10.20.30.40.50.60.70.80.9
1:
:
W1_1W1_2W1_3
J_1J_2J_3
A
r容積の異なる洋室 1 と洋室 2 の の類似度
W1_1 W1_2 W1_3 W2_1 W2_2 W2_3
W1_1W1_2W1_3W2_1W2_2W2_3
X ( Room Type_Point Number )
00.10.20.30.40.50.60.70.80.9
1A
X
A
容積の異なる同一種別の室でも類似度は高い
WW :
まとめ【目的】 適応的メディア制御に必要な 「システムによる個人性・利用状況の識別」【手法】 狭帯域包絡線情報を特徴量とした 話者識別・室種別の類別【結果】 ・狭帯域包絡線情報を特徴量として用いた 話者識別の有効性を再検証 室種別類別できる可能性を示唆 ・個人性調査により少ない特徴量で識別可能
特徴量抽出・特徴量による情報の識別は可能
I 話者 聴取者I~
3
□ 3ー
L L~P
P~
ILF
LPF PLG
LIG
人の情報伝送路モデル
音声
言語野レベル
物理変換レベル
音響事象レベル
但し, は A から B への変換関数 は の逆変換関数
ABF
BAG ABF
)(IPILLP
FF )~
(~
PIPLLI
GG
物理変換レベル
言語野レベル
)()()( tctetv
)(tvb
)(tcb
)(teb
)(
)(
)( 2
1
tc
tc
tc
)(
)(
)( 2
1
te
te
te
time (ms)
amp.
(dB)
amp.
(dB)
amp.
(dB)
狭帯域包絡線間相関を用いた話者識別
021cc
021ee
200 400 600 800100012001400160018002000-1
-0.50
0.51
200 400 600 800100012001400160018002000-1
-0.50
0.51
200 400 600 800100012001400160018002000-1
-0.50
0.51
1/4 Oct. 分割した音声時間波形
ヒルベルト変換して求めた包絡線
dB 変換( -30dB で打ち切り)
狭帯域包絡線間相関係数
処理の流れ
b : 39 バンド
28.9Hz ~20749Hztime (s )
-0.04-0.02
00.020.04
0 0.2 0.4 0.6 0.8
1
am
plit
ude
-0.04-0.02
00.020.04
0 0.2 0.4 0.6 0.8 1time (s )
am
plit
ude
21 bb dd
)(1
nvb
)(1
neb
time (s )-30
-20
-10
0
0 0.2 0.4 0.6 0.8 1
ampl
itude
(dB)
)(1
ndb
time (s )
-0.04-0.02
00.020.04
0 0.2 0.4 0.6 0.8
1
-0.04-0.02
00.020.04
0 0.2 0.4 0.6 0.8 1time (s )
time (s )-30
-20
-10
0
0 0.2 0.4 0.6 0.8 1
)(2
nvb
)(2
neb
)(2
ndb
狭帯域包絡線間相関係数行列
39,3939,239,1
2,22,1
1,391,21,1
AX
帯域を制限↓
正解率の変化を調べ
る
正解率=識別候補が本人となった回数 / 識別条件数
識別候補: の最大値
AX
A XDB 識別対象
Consonant
登録語と識別語の音素分布 V : Vowel 母音
N : Nasal 鼻音Fl : Fricative voiceless
摩擦音(無声)Fv : Fricative voiced
摩擦音(有声)Sl : Stop voiceless
閉鎖音(無声)Sv : Stop voiced
閉鎖音(有声)Ca : Central approximant 中央近接音Q : Geminate consonant 促音-: Long vowel
長音
+:登録語(個数は上段の数)× :識別語(個数は下段の数)
N Fl Fv Sl Sv Ca
V N’nnymmysshhhy f z j k ky t tsppychggyd dybbyry y r wQ-
o
e
u
i
a
Vow
el
11 0 11 11 0 0 22 11 11 11 0 1 10 8 8 3 10 5 0
27
0 11 15 10
77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9
0 03 3
22 22 0 0 22 0 031 19 35 2 1 17 11
08
1111
0 0 11 1111 20 0 8
11 0 0 11 0 19 21 0
11 0
11 9
0 11 0 014 26 9 2
3368
11 2711 11
分布に偏りがない
A
X
帯域増加と平均正解率
重要帯域:帯域番号6~14,22~315 10 15 20 25 30 35
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Stop band number
C
6
14
2231
02 39
帯域減少と平均正解率
5 10 15 20 25 30 35
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Starting band number
C 614
22 31
01 38
重要帯域:帯域番号6~14,22~
帯域を 1 帯域づつ増加 帯域を 1 帯域づつ減少
帯域増加と帯域減少の平均正解率
重要帯域:帯域番号6~14,22~31
5 10 15 20 25 30 35
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Starting band number
C 614
22 31
01 385 10 15 20 25 30 35
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Starting band number
C 614
22 31
01 385 10 15 20 25 30 35
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Stop band number
C
6
14
2231
02 395 10 15 20 25 30 35
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Stop band number
C
6
14
2231
02 39
変化した点が同じ
1.4The first formant F 1 (kHz)
0.6
0.8
1.0
1.41.5
1.82.02.22.5
3.0
3.84.0
3.4
0.2 0.5 1.0
/e/
/i/
/u/
/o/
/a/
第 2フォルマント周波数の
1091Hz ~ 4000Hz( 帯域番号 22 ~ 30)
結果の検討(高い周波数範囲の検討)帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz )
The
sec
ond
form
ant
F 2
(kH
z)
前頭洞約 8cm3
上顎洞
蝶形骨洞
副鼻腔共振周波数約 3100Hz ~5400Hz( 帯域番号 28 ~ 31)
声帯音源基本周波数男性:約 100Hz ~ 150Hz女性:約 250Hz ~ 300Hz ( 帯域番号 6 ~ 14)
結果の検討(高い周波数範囲の検討)帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz )
副鼻腔共振周波数・声帯音源基本周波数
低い周波数範囲( 6 ~14 )
高い周波数範囲
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
A E K M N SA SB SC TA TB Y
TalkerAll
Band No.
+ 1-39
× 6-31
□ 6-14 22-31
CA
データによるばらつきの検討
識別語に共通性
88%86%83%
正解率が高い識別語 (ネットサーフィン:上段 )
正解率が低い識別語 (水戸黄門:下段 )
鼻音の継続時間母音の第 2フォルマント
0 0.2 0.4 0.6 0.8 1-15
-10
-5
0
am
plit
ud
e (
dB
) ne n'to s a fi
0 0.2 0.4 0.6 0.8 1-15
-10
-5
0
time( )s
mi mo n'to ko
am
plit
ud
e (
dB
)
平均時間 (s)
ne 0.132
n’ 0.109
平均時間 (s)
mi 0.096
mo 0.095
n’ 0.072
time( )s
「 i 」「 e 」「 a 」
「 o 」
70%75%80%85%90%
29
30 31 32 33
C
70%75%80%85%90%
10 11 12 13 14 15 16
C
70%75%80%85%90%
18 19 20 21 22 23 24
C
V(Band Number)
V(Band Number) V(Band Number)
6 - V
6 - V , 22- 31
6 - 14 , V- 31
70%75%80%85%90%
4 5 6 7 8
C
V(Band Number)
V -31
重要帯域近傍での平均正解率の変化
重要帯域を 7 - 11 , 22 - 31 に絞り込める
まとめ
0
10
20
30
40
50
60
70
80
90
100
1-39 6-31 6-14 22-31
%
band number
fs 範囲 100% 25% 21%band数 100% 67% 49%
88% 86% 83%C
平均正解率
fs 範囲
band 数
C平均正解率
fs 範囲
band 数
C
声帯音源基本周波数 約 100 ~ 300Hz 帯域番号 6 ~ 14
第 2 フォルマント周波数・副鼻腔共振周波数 約 1100Hz ~ 5400Hz 帯域番号 22 ~ 31正解率のばらつき 鼻音の継続時間 母音の第 2フォルマントに関連 周波数範囲で 21% ,帯域数で 49% に
制限
BandNo.
Center Freq.(Hz)
BandNo.
Center Freq.(Hz)
1 28.9 21 9172 34.4 22 1090.53 40.9 23 1296.84 48.6 24 1542.25 57.3 25 18346 68.1 26 21817 81 27 2593.78 96.3 28 3084.49 114.6 29 366810 136.3 30 436211 162.1 31 5187.412 192.7 32 6168.813 229.2 33 733614 272.6 34 8724.115 324.2 35 1037516 385.5 36 1233817 458.5 37 1467218 545.2 38 1744819 648.4 39 2074920 771.1
1/4オクターブバンドの中心周波数
1/4オクターブバンド狭帯域フィルタ
102
103
104-40
-35
-30
-25
-20
-15
-10
-5
0
Freq. (Hz)
am
plit
ud
e (
dB
)
周波数分解:21.5Hzフィルタ長:約46ms
音声の狭帯域包絡線を 100ms で区切る
⇒声帯音源波 約 4周期が対象
狭帯域フィルタ: FIRフィルタ長さ: 2048サンプル
: 44100Hz fs
登録語
1 )青い空 ( aoisora )2 )映画鑑賞 ( eigaka n‘shou )3 )石田一成 ( ishida issei )4 )マイホーム計画 ( mai ho-mu keikaku )5 )無人島探索 ( muji n’tou tansaku )
1 語 / 約 1 秒1 人 / 約 5 語計 55 語(登録者全員共通)
識別語:登録語と異なる語
1 )松坂大輔 ( matsuzaka daisuke )2 )メール機能 ( me-ru kinou )3 )目から鱗 ( mekara uroko )4 )水戸黄門 ( mito koumo n‘ )5 )モーニング娘( mo-ni n’gu musume )6 )中山きんにくん ( nakayama kin‘niku n’ )7 )ネットサーフィン ( netto sa-fi n‘ )8 )猫死んじゃった ( neko shi n’jatta )9 )猫踏んじゃった ( neko fu n‘jatta )10 )日本沈没 ( niho n’ chi n‘botsu )11 )忍たま乱太郎 ( ni n’tama ra n‘tarou )12 )ノストラダムス ( nosutora damusu )13 )のんびり屋 ( no n’biriya )14 )上田晋也 ( ueda shi n‘ya )
1 語 / 約 1 秒1 人 / 約 8 語計 82 語(登録者により異なる)
話者を識別するシステムに用いた登録語・識別語
30%
40%
50%
60%
70%
80%
90%
100%
1 2 3 4 5 6 7 8 9 10 11
number of subjective word
corr
ecti
ve ju
dgem
ent r
atio
netto sa-fi n'nosutora damusu
niho n' chi n'botsu
mo-ni n'gu musume
mito koumo n'
ueda shi n'ya
matsuzaka daisuke
no n'biriya
neko fu n'jattamekara urokonakayama kin'niku n'neko shi n'jatta
帯域制限( 6 ~ 14 , 22 ~ 31 )時の識別語の正解率