歌声と朗読音声の識別システム構築のための人間の識別能力の … · 歌声と朗読音声の識別システム構築のための人間の識別能力の調査

歌声と朗読音声の

識別システム構築のための

人間の識別能力の調査

大石康智1, 後藤真孝2 伊藤克亘1, 武田一哉1

1名古屋大学大学院情報科学研究科 2産業技術総合研究所

はじめに

• 歌声と朗読音声の自動識別手法の提案 – 歌声とその歌詞を朗読した音声の識別

特徴量

• 音色の違い MFCC

• 音高の変化の違い DF0

人間は,

• どの程度の音声信号長があれば識別可能か?

• どのような特徴を手がかりとして識別を行うのか?

朗読音声歌声

さてここで問題です

問題1 1秒の音声

問題2 500msの音声

問題3 250msの音声

みなさんは歌声と朗読音声の識別ができますか?

歌声データベース

• AISTハミングデータベース (歌声研究用音楽データベース)

–被験者がある曲の出だしとサビの部分を歌う

–またその歌詞を朗読する

–収録音声サンプルの長さ

• 歌声: 平均12.0秒

• 朗読音声: 平均7.0秒

収録被験者1名あたり計100サンプル (日本人75名)

(歌声: 25曲 x 2パート, 朗読音声: 25曲 x 2パート)

0 500 1000 1500 2000 50

55

60

65

70

75

80

85

90

95

100

聴取音声信号長 [ms]

正答

率 [

%]

総合的な正答率

朗読音声の正答率

歌声の正答率

• 音声信号長1秒の聴取により, 識別が可能

• 短時間(200ms)の場合でも正答率は70.0%

識別に必要な音声信号長の調査

識別に影響する音声信号の特徴の調査

• Random Splicing手法

–音声サンプルをある長さの断片に分割し，

ランダムに接合する

メロディのパターン，テンポ，リズムをマスク

ランダムに

並べ替え

① ② ③ ④ ③ ① ④ ②

音声サンプル

分割長250ms

分割長200ms

分割長125ms

(1秒)

識別に影響する音声信号の特徴の調査

• Filtering手法

–ローパスフィルタにより

音声信号の高調波成分を除去

音色，音質の低下

Low-pass フィルタカットオフ周波数

800Hz

音声サンプル

(1秒)

聴取実験

• 識別に必要な音声信号長の調査より

– 1秒の音声信号長があれば約100%識別可

1秒の音声信号に対して


–分割長(250ms，200ms，125ms)

• Filtering手法

• 被験者 10名

–聴取した音声が歌声か朗読音声か?

朗読音声歌声60

65

70

75

80

85

90

95

100

各音

声を

聴取

した

とき

の正

答率

[%]


65

70

75

80

85

90

95

100

各音

声を

聴取

した

とき

の正

答率

[%]

加工音声の聴取実験結果

原音

1

00

%

原音

99

.3%

Ra

nd

om

Sp

licin

g手法

(

25

0m

s)

94

.9%

R

an

do

m S

plic

ing手法

(

20

0m

s)

90

.0%

Ra

nd

om

Sp

licin

g手法

(

25

0m

s)

84

.3%

R

an

do

m S

plic

ing

(

20

0m

s)

76

.9%

Ra

nd

om

Sp

licin

g手法

(1

25

ms)

95

.0%

Ra

nd

om

Sp

licin

g

(1

25

ms)

70

.6%

• 分割長125msでは音高の変化，発声速度は「崩壊」 • 正答率は70.6% → 音声の音色による識別


65

70

75

80

85

90

95

100

各音

声を

聴取

した

とき

の正

答率

[%]


65

70

75

80

85

90

95

100

各音

声を

聴取

した

とき

の正

答率

[%]


65

70

75

80

85

90

95

100

各音

声を

聴取

した

とき

の正

答率

[%]

加工音声の聴取実験結果

原音

1

00

%

原音

99

.3%

Filt

eri

ng手法

98.9

%

Filt

eri

ng手法

86

.9%

• 分割長125msでは音高の変化，発声速度は「崩壊」 • 正答率は70.6% → 音声の音色による識別

音質は低下するが1秒の音声の音高の変化や発声速度の違いから

識別が可能なのではないか?

1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9時刻 [s]

1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9時刻 [s]

歌声の正答率低下に対する考察

n a N d e m a

• 音素(母音)の継続長の変化

N a N d e m a n e m a N a n

180ms 140ms 120ms

母音の平均継続長 146.7ms

母音の平均継続長

歌声: 146.7ms → 73.3ms

(朗読音声: 70ms→60ms)

それでも7割程度の正答率である理由

[仮説]

歌声の母音はスペクトルの高域が強いのではないか?

自動音声識別手法との比較

• 特徴量

音声の音色の違い: MFCC(12次)+DMFCC(12次)

音高の変化の違い: DF0

(D算出は50msの窓幅)

• 識別方法

16混合ガウス分布の事後確率による識別

Random Splicing手法

Filtering手法

MFCC+DMFCC

DF0

音声の音色の違いによる識別

音高の変化の違いによる識別



65

70

75

80

85

90

95

100

正答

率 [

%]

原音

100

%

Ran

dom

Spl

icin

g (2

50m

s) 9

4.9%

MFC

C+

DM

FC

C 8

7.7%

原音

99.

3%

Ran

dom

Spl

icin

g

(250m

s) 8

4.3

%

MFC

C+

DM

FC

C

70

.2%

音声認識 → MFCC(12次の係数)

次数の増加，LPCの使用，さらにスペクトル構造を表現する尺度



65

70

75

80

85

90

95

100

正答

率 [

%]

原音

100

%

Ran

dom

Spl

icin

g (2

50m

s) 9

4.9%

MFC

C+

DM

FC

C 8

7.7%

原音

99.

3%

Ran

dom

Spl

icin

g

(250m

s) 8

4.3

%

MFC

C+

DM

FC

C

70

.2%


65

70

75

80

85

90

95

100

正答

率 [

%]

原音

100

%

Filt

erin

g 98

.9%

Ran

dom

Spl

icin

g (2

50m

s) 9

4.9%

DF0

82.2

%

原音

99.

3%

Filt

erin

g 86

.9%

Ran

dom

Spl

icin

g

(250m

s) 8

4.3

%

DF0

76.8

%

Dの算出窓幅 → 50msと非常に短い

無声音でのF0の補間を考慮した長時間のD算出方法の検討



65

70

75

80

85

90

95

100

正答

率 [

%]

原音

100

%

Ran

dom

Spl

icin

g (2

50m

s) 9

4.9%

MFC

C+

DM

FC

C 8

7.7%

原音

99.

3%

Ran

dom

Spl

icin

g

(250m

s) 8

4.3

%

MFC

C+

DM

FC

C

70

.2%


65

70

75

80

85

90

95

100

正答

率 [

%]

原音

100

%

Filt

erin

g 98

.9%

Ran

dom

Spl

icin

g (2

50m

s) 9

4.9%

DF0

82.2

%

原音

99.

3%

Filt

erin

g 86

.9%

Ran

dom

Spl

icin

g

(250m

s) 8

4.3

%

DF0

76.8

%


65

70

75

80

85

90

95

100

正答

率 [

%]

原音

100

%

Filt

erin

g 98

.9%

Ran

dom

Spl

icin

g (2

50m

s) 9

4.9%

MFC

C+

DM

FC

C+

DF0

89.8

%

原音

99.

3%

Filt

erin

g 86

.9%

Ran

dom

Spl

icin

g

(250m

s) 8

4.3

%M

FC

C+

DM

FC

C+

DF0

73

.6%

細部にわたるスペクトル構造の抽出方法

Dの算出方法

まとめ

• 人間による音声信号の識別能力の調査

–識別に必要な音声信号長の調査

• 250msの音声信号: 78.3%

• 1sの音声信号: 99.7%

–識別に影響する音声信号の特徴の調査


• Filtering手法

• 歌声の正答率の低下

–聴取結果とシステムの性能との比較

• 聴取能力と自動識別手法の正答率の差は20%

今後の展開

• 聴取実験で誤識別されたサンプルの解析

• 特徴量の改善

–細部にわたるスペクトル構造の抽出方法

–無声音を考慮した長時間におけるDの算出方法

歌声データベース

• AISTハミングデータベース

(歌声研究用音楽データベース) – 日本人歌唱者75名分（男性37名, 女性38名）

– ‘RWC Music Database: Popular Music’から抜粋した合計25曲の

– 歌の出だしの部分とサビの部分を歌う，またその歌詞を朗読

– 1名あたり計100サンプル (歌声: 25曲 x 2パート, 朗読音声: 25曲 x 2パート)

– 音声サンプルの長さは歌声で約8秒, 朗読音声で約5秒

識別に必要な音声信号長の調査

• 評価セットの構成

時間長歌声朗読音声

100, 150, 200, 250,

500, 750, 1000ms 25サンプル 25サンプル

1250ms 20サンプル 20サンプル

1500, 2000ms 10サンプル 10サンプル

合計 215サンプル 215サンプル

識別に必要な音声信号長の特徴の調査

• 加工した音声の評価セットの構成

Random Splicing 手法

分割する長さ歌声朗読音声





Filtering 手法

歌声朗読音声


Random Splicingした音声に対する感想

• 歌声の伸ばす発声に着目

• 声の大きさの変動が大きければ歌声

• 女性音声の方が朗読音声と歌声の音高差が大きく識別しやすい

• 音声信号内のF0の変動が大きければ歌声

Filteringした音声に対する感想

• 発声速度，リズムの有無に着目

• 音高が持続する箇所がみられれば歌声

• イントネーションの違いに着目

0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8時刻 [s]

朗読音声の場合

• 音素(母音)の継続長の変化

0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8時刻 [s]

d m n a N e t a a a s a g e a t a n m N s a g a m a s a d

母音の平均継続長 70ms → 60ms

Fre

quency

0

1000

2000

3000

4000

5000

6000

7000

8000

Filtering手法による不正答の考察歌声

Filtering

朗読音声加工音声

女性音声男性音声60

65

70

75

80

85

90

95

100

各音

声を

聴取

した

とき

の正

答率

[%]

原音

(朗

読音

声)

100%

原音

(歌

声)

100%

原音

(歌

声)

98.6

%

原音

(朗

読音

声)

100%


65

70

75

80

85

90

95

100

各音

声を

聴取

した

とき

の正

答率

[%]

原音

(朗

読音

声)

100%

原音

(歌

声)

100%

Ran

dom

Spl

icin

g (朗

読音

声)

94.0

%

Ran

dom

Spl

icin

g

　　

　(歌

声)

74.0

%

Ran

dom

Spl

icin

g (朗

読音

声)

92.6

%

原音

(歌

声)

98.6

%

原音

(朗

読音

声)

100%

Ran

dom

Spl

icin

g

(歌

声)

80.5

%


65

70

75

80

85

90

95

100

各音

声を

聴取

した

とき

の正

答率

[%]

原音

(朗

読音

声)

100%

原音

(歌

声)

100%

Filt

erin

g (朗

読音

声)

98.2

%

Filt

erin

g (歌

声)

90%

Filt

erin

g (歌

声)

83.8

%

Filt

erin

g (朗

読音

声)

99.6

%

原音

(歌

声)

98.6

%

原音

(朗

読音

声)

100%


65

70

75

80

85

90

95

100

各音

声を

聴取

した

とき

の正

答率

[%]

原音

(朗

読音

声)

100%

原音

(歌

声)

100%

Filt

erin

g (朗

読音

声)

98.2

%

Ran

dom

Spl

icin

g (朗

読音

声)

94.0

%

Filt

erin

g (歌

声)

90%

Ran

dom

Spl

icin

g

　　

　(歌

声)

74.0

%

Filt

erin

g (歌

声)

83.8

%

Ran

dom

Spl

icin

g (朗

読音

声)

92.6

%

Filt

erin

g (朗

読音

声)

99.6

%

原音

(歌

声)

98.6

%

原音

(朗

読音

声)

100%

Ran

dom

Spl

icin

g

(歌

声)

80.5

%

性別ごとの音声からみた聴取実験結果

女性と男性による歌声，朗読音声の絶対的な音高の違い

本研究の目的

識別方法

– 言語情報の利用

音声認識により発声内容から音声を識別

– 非言語情報の利用

イントネーション, テンポ, 音色などから音声を識別

歌の歌い方，話し方というような

発声のスタイルの違いに着目

歌声とは

• 歌声の典型的な特徴

–基本周波数(以下, F0と呼ぶ)と強度が幅広く変化

– Singing Formant • オペラ歌手の歌声

• 喉頭の部分で共鳴を起こし, 深い響きを作り出す歌唱法

• 必ずしも素人の歌声に観測できるとは限らない

人間はたとえ素人の歌声であったとしても, 少しの聴取により話し声との識別が可能

• 発声の長さの違い

• テンポの違い

• 音高の変化の違い

従来研究

• 音楽と音声のカテゴリの識別手法

–周波数領域の特徴量

Spectral Centroid, MFCC, Harmonic Coefficient

–時間領域の特徴量

ゼロ交差回数

–周波数・時間の両者に着目した特徴量

Spectral Flux, 4-Hz Modulation Energy

混合音の音響特徴量の検討

–楽器の混合音や伴奏付きの歌声

歌声そのものの特徴は, まだ十分に議論されていない

本研究の目的

• 歌声と朗読音声の自動識別手法の提案

–発声機構による歌声の物理的な声質の明確化

–歌い方, 話し方という長時間に観測できる

発声のスタイルの違い

応用例

• 音声対話システムにおける発話検出

• 音声合成の精度の向上

• 自律型ロボットの聴覚的情景分析

• 歌声，話し声による楽曲検索システム

自動音声識別器をもつ楽曲検索システム

話し声

“イブズの「恋のver.2.4」を聞かせてください”

「恋のver.2.4」

歌声

“～線路は続くよ，どこまでも～”

「線路は続くよ」

検索システム

自動音声識別器をもつ楽曲検索システム

音声識別器

音声認識

曲名

アーティスト

RWC 100曲

単語辞書

曲名(+アーティスト)

視聴 ♪ ♪

シンボル列パターン

RWC 100曲

シンボル列

パターン

連続DPマッチング

歌声

話し声話し声

歌声ハミング検索入力方法

Fre

quen

cy [

Hz]

Singing Voice Spectrogram

0 2 4 6 80

1000

2000

3000

4000

Time [sec]

Fre

quen

cy [

Hz]

Speaking Voice Spectrogram

0 1 2 30

1000

2000

3000

4000

識別特徴量

局所的な特徴

大局的な特徴

局所的な特徴

大局的な特徴

Difference

• スペクトル包絡

• 高調波構造

• 韻律の動的変化

局所的な特徴による尺度

• スペクトル包絡の違い

– 100-msハミング窓を利用

– 10 msごとに算出

• 母音の長さの違い

–歌声：伸ばす発声

–朗読音声：音素が次々と変化

– 5点の回帰係数

Mel-Frequency Cepstrum Coefficients (MFCCs)

DMFCCs (MFCC derivatives)

a sh i t a w a

a sh i t a w a

大局的な特徴による尺度

• F0 推定

–優勢休止検出のためのF0推定手法(後藤ら)

– メディアンフィルタによる平滑化

• 韻律の変化の違い

–朗読音声のF0は下降

–歌声は曲のメロディの制約を受ける

DF0 (five-point regression)

歌声

朗読音声 F0

歌声，朗読音声の識別方法

• 16混合ガウス分布(GMM)による識別

識別器

歌声朗読音声

入力ベクトル系列

);(logmaxargˆ

1,dt

N

td

fd

x朗読音声歌声

),( 朗読音声歌声 ddは

MFCC, DMFCC, DF0ベクトルの分布に対するGMMのパラメータ

x(MFCC, DMFCC, DF0)

歌声

朗読音声

tx 1tx

or

Documents

歌声と朗読音声の 識別システム構築のための 人間の識別能力の … · 歌声と朗読音声の 識別システム構築のための 人間の識別能力の調査

歌声と朗読音声の識別システム構築のための人間の識別能力の … · 歌声と朗読音声の識別システム構築のための人間の識別能力の調査