1601 R&D 解説02（3校）02 1．はじめに日本国内において22.2ch音響を用いた8K放送を実現するために，2011年に総務省令第87号「標準テレビジョン放送等のうちデジタル

02

１．はじめに日本国内において22.2ch音響を用いた8K放送を実現するために，2011年に総務省令

第87号「標準テレビジョン放送等のうちデジタル放送に関する送信の標準方式」１）により，音声符号化方式の改定が行われた。これにより，それまでのデジタル放送のチャンネル数が最大5.1ch（５チャンネルおよび低域を強調する１チャンネル）までであったのに対して，高度BSデジタル放送および高度狭帯域・広帯域CS（Communications Satellite）デジタル放送における最大入力音声チャンネル数は22.2ch（22チャンネルおよび低域を強調する２チャンネル）とする改定が行われた。また，音声符号化方式は，高効率な非可逆圧縮符号化方式であるMPEG-4 AAC規格２）および可逆圧縮符号化方式であるMPEG-4 ALS規格３）に準拠する方式とすることが規定された。

この総務省令に対応して，電波産業会はARIB STD-B32「デジタル放送における映像符号化，音声符号化及び多重化方式」の改定４）を行った。この改定により，MPEG-4 AAC音声符号化方式５）に関しては，最大22.2chのマルチチャンネル音声モードに対応した，より詳細な仕様に関する追加規定が行われた。また，MPEG-4 ALS音声符号化方式に関しては，チャンネル数や予測次数などに関する制約条件の追加規定が行われた。

本稿では，これらの国際・国内の標準化動向を解説するとともに，2015年２月に標

音声符号化技術の標準化動向小森智康

22.2マルチチャンネル音響（以下，22.2ch音響）を用いた8Kスーパーハイビジョ

ン（以下，8K）放送を実現するために，国内では2011年に，総務省令により音声

符号化方式の改定が行われた。これにより，高度BS（Broadcasting Satellite）デ

ジタル放送等で22.2ch音響を用いた放送が可能となった。この総務省令では，デジ

タル放送の音声符号化方式はMPEG-4 AAC（Advanced Audio Coding）規格お

よび ALS（Audio Lossless Coding）規格に準拠する方式とすることが規定され

た。これに合わせて，電波産業会（ARIB：Association of Radio Industries and

Businesses）はARIB STD-B32の改定を行った。この改定により，デジタル放送に

おける音声符号化方式の最大音声入力チャンネル数は「22チャンネルおよび低域を

強調する２チャンネル」とされ，適用可能な技術方式としてMPEG-4 AAC規格および

ALS規格が追加された。本稿では，これらの標準化の動向や，最新の３次元立体音響

のための音声符号化方式等について解説する。

14 NHK技研 R&D/No.155/2016.1

上層：9ch

中層：10ch下層：3ch＋LFE2ch

TpFC

TpBC

TpSiL TpSiR

TpFRTpFL

TpBRTpBL

TpC

FC

BC

SiL SiR

FRFLFRcFLc

BRBL

BtFC

BtFRBtFLLFE2LFE1

１図　22.2ch 音響のチャンネル配置とチャンネルラベル

準化された最新の３次元立体音響のための音声符号化方式であるMPEG-H 3D Audioについても紹介する。

２．22.2ch音響の概要22.2ch音響は上層・中層・下層の３層のレイヤーに合計24個のチャンネルを配置す

る３次元立体音響方式である６）。聴取位置の上方に上層の９チャンネル，聴取者の耳の高さに中層の10チャンネル，聴取位置の下方に下層の３チャンネルを配置し，さらに２個の低域効果チャンネル（LFE：Low-Frequency Eff ects）を加えている。１図に，22.2ch音響のチャンネル配置とチャンネルラベルを示す。

NHKでは，22.2ch音響について，8K放送にふさわしい高臨場感音響方式の要求条件を定め，主観評価を通じて22.2ch音響がその要求条件に合致した方式であることを明らかにし，国内外の標準化に寄与してきた６）。

３．MPEG-4 AAC規格およびALS規格の概要３．１　音声の圧縮符号化技術

音声信号の圧縮符号化に用いる主要な符号化技術は，次の２通りに分類できる。（a）聴覚の特性を考慮して符号化する方法。この方法は，圧縮しても符号化により発

生する劣化が聴感上，全く分からないか，ほとんど分からなくすることができる。（b）波形の予測や統計的な手法を使って音声データに含まれる冗長性を除去する方

法。受信データから原信号を完全に再生できる場合には，ロスレス符号化と呼ぶ。AACは（a）の方法，ALSは（b）の方法に分類される。

３．２　MPEG-4 AACの概要MPEG-4 AACは，ISO/IEC（International Organization for Standardization

15NHK技研 R&D/No.155/2016.1

音声信号符号化

ビットストリーム

聴覚心理モデル

時間 ⇒ 周波数変換量子化符号化

ビットストリーム作成

２図　聴覚の性質を用いた音声符号化のブロック図

／ International Electrotechnical Commission：国際標準化機構／国際電気標準会議）14496-3 Subpart 4内で規格化された。MPEG-4 AACはMPEG-2 AAC（ISO/IEC 13818-7）７）をベースに拡張した規格であり，音楽などのオーディオ信号を効率よく符号化できるとともに，モノラルや2chステレオに加えて，22.2ch音響を含むマルチチャンネルの信号を扱うことができる。

MPEG-4 AACは，音声信号を周波数成分に分解して符号化する「周波数領域の圧縮符号化」の一種であり，マスキング＊１などの人の聴覚の性質を効果的に用いることにより，高能率な圧縮を行う技術である。聴覚の性質を用いた音声符号化のブロック図を２図に示す。音を周波数成分に分解する方法として，MPEG-4 AACではDCT（Discrete Cosine Transform）を用いて直接周波数領域の信号に変換して符号化する「変換符号化」法を採用している。変換符号化を行う際には，時間領域の信号を周波数領域の信号に変換する窓（ブロック）の長さは2,048サンプルを基本とし，細かな時間解像度が必要な場合は256サンプルのブロックに適応的に切り替えを行う。

MPEG-4 AACは複数のオーディオオブジェクトタイプ＊２を持つが，現在放送サービスに使用されているのは，デコーダーの回路規模と音質とのバランスがとれたLC（Low Complexity）のみである。

MPEG-4 AACを用いると，ステレオ信号を約1/12の128 ～ 144kbpsに圧縮しても，符号化により発生する劣化を聴感上ほとんど分からなくすることができる。３．３　MPEG-2 AACとMPEG-4 AACの相違点

MPEG-2 AAC（ISO/IEC 13818-7）とMPEG-4 AAC（ISO/IEC 14496-3 Subpart 4）は，音声信号を高能率に圧縮するツールとしてはほぼ同じものを使用しているが，MPEG-4 AACでは，PNS（Perceptual Noise Substitution）＊３と呼ばれる符号化ツールが追加されている。音声符号化の際に，音声信号を周波数領域の信号に変換したDCT係数を伝送するためには多くのビットレートを必要とするが，PNSはスケールファクターバンド＊４内の信号をバンド全体に対するノイズとして扱い，そのパワー情報などを送る。復号側では，この情報を用いて適正なレベルのノイズを挿入し，音声信号を再構成することによりビットレートを削減できる。３．４　MPEG-4 ALSの概要

MPEG-4 ALSは，ISO/IEC 14496-3：2007 Amd.2 MPEG-4 Audio Lossless Codingとして2006年３月に規格化された。

MPEG-4 ALSは，前述のロスレス符号化と呼ばれる方式の一種であり，線形予測技術を用いて過去の複数のサンプル値から予測分析を行うことにより，多チャンネル信号や高サンプリングレートの信号に対しても，原信号の波形データを完全に再現すること

＊１ある音が別の音によって隠され，聞こえなくなったり音量が小さく感じられる現象。

＊２MPEG-4オーディオにおける，使用可能なコーデックの違いや，含まれているツールの違いによる分類。

＊３ノイズ性の信号に対して，符号化時に波形情報を少ない情報量に置き換え，受信側でノイズ波形を挿入する符号化ツール。

＊４近い周波数のDCT係数をまとめたグループ。

16 NHK技研 R&D/No.155/2016.1

解説　02

音声入力信号

符号化ビットストリーム

線形予測符号化

可変長符号化

可変長符号化

ビットストリーム生成

線形予測パラメーター

予測残差

３図　MPEG-4 ALS の符号化・復号の基本構成

地上デジタル

テレビジョン放送

V-H

igh

マルチメディア放送

V-Low

マルチメディア放送

B

Sデジタル放送

高度

B

Sデジタル放送

狭帯域

C

Sデジタル放送

広帯域

C

Sデジタル放送

高度狭帯域

C

Sデジタル放送

高度広帯域

C

Sデジタル放送

音声入力フォーマット

標本化周波数32kHz44.1kHz48kHz

32kHz44.1kHz48kHz

32kHz以上

32kHz44.1kHz48kHz

48kHz 32kHz44.1kHz48kHz

32kHz44.1kHz48kHz

32kHz44.1kHz48kHz

48kHz

最大音声入力チャンネル数 5.1ch 5.1ch 5.1ch 5.1ch 22.2ch 5.1ch 5.1ch 22.2ch※１ 22.2ch

音声符号化方式

MPEG-2AAC 〇〇〇〇〇〇〇

MPEG-2BC※２〇

MPEG-4AAC 〇〇〇〇

MPEG-4ALS 〇〇〇〇

※１　運用規定で5.1chまでに制限。

※２　MPEG-1 レイヤー２と後方互換性のある符号化方式。　

のできる方式である。音声入力信号を分析して線形予測パラメーターと予測残差を算出し，それぞれの信号を可変長符号化することにより，符号化ビットストリームを生成する（３図）。原信号と比較すると予測残差の振幅は一般に小さくなるという特性を利用することで，圧縮前の15 ～ 70%程度のデータ量に圧縮することができる。

４．ARIB STD-B32の改訂高度BSデジタル放送における超高精細度テレビジョン放送に対応するために，ARIB

STD-B32においていくつかの改訂が行われた。音声入力信号として22.2chに対応したことに加え，MPEG-4 AAC方式により符号化された22.2ch音響を，5.1ch音響や2chステレオの受信機で復号する場合のダウンミックス＊５のパラメーター，およびこのパラメーターの伝送方式と，将来の放送サービスの拡張のために導入されたダイアログエンハンスメント＊６およびダイアログの差し替え機能＊７が規格化された。さらにMPEG-4 ALS方式に関しては，利用可能なパラメーターを一部制限している。本章では，これらの規格に関して説明する。

なお，MPEG-4音声符号化規格においては，サンプリング周波数やチャンネル数の選

１表　デジタル放送に適用される音声の技術方式

＊５マルチチャンネルの音響信号を，より少ないチャンネル数の音響信号に変換する方法。

＊６番組中のセリフなどのダイアログ（音声）の大きさを受信機側で調整することのできる機能。

＊７日本語・英語・解説放送など，番組のダイアログの種類を受信機側で切り替えることのできる機能。

17NHK技研 R&D/No.155/2016.1

チャンネル設定の個別番号チャンネル数

1 1ch （1/0）

2 2ch （2/0）

3 3ch （3/0）

4 4ch （3/1）

5 5ch （3/2）

6 5.1ch （3/2.1）

7 7.1ch （5/2.1）

11 6.1ch （3/0/3.1）

12 7.1ch （3/2/2.1）

13 22.2ch （3/3/3-5/2/3-3/0/0+2）

14 7.1ch （2/0/0-3/0/2-0/0/0+1）

0 3ch（2/1），4ch（2/2）または２音声（デュアルモノ）（1/0+1/0）の場合

・チャンネル数を，「上層(前方/側方/後方)－中層(前方/側方/後方)－下層(前方/側方/後方)＋LFE」で表す。

・割り当てチャンネルがない方向は0 と表記する。

・中層のみによる音声モードの場合は「中層(前方/側方/後方).LFE」，中層のみによるマルチチャンネルステレオの音声モードで側方のチャンネルがない場合は「中層(前方/後方).LFE」と略記する。

択範囲が広いが，総務省令・告示およびARIB標準規格においては，8K放送に用いるサンプリング周波数は48kHz，量子化ビット数は16ビット以上と規定されている。１表に，デジタル放送の各標準方式に適用される音声の技術方式を示す（平成23年総務省令第87号または平成23年総務省令第94号で規定）。

また，MPEG-4音声符号化規格では，2chステレオや5.1ch音響など一般的に用いられる音響システムごとに個別番号が割り当てられている。２表に，MPEG-4 AACおよびALSで使用可能なチャンネル設定の個別番号とチャンネル数を示す。なお22.2ch音響には，番号13が割り当てられている。４．１　AACのダウンミックス係数の伝送に関わる改訂

5.1chを超えるマルチチャンネルステレオ（チャンネル設定の個別番号＝7，11，12，13，14 の各音声モード）からダウンミックスによって２chステレオを得る場合は，一旦5.1chにダウンミックスしてから，２chステレオへダウンミックスする。5.1chから２chステレオへのダウンミックス係数＊８を伝送する場合，ISO/IEC 14496-3:2009/AMD 4に記載されたDSE（Data Stream Element）＊９を用いる。

なお，ダウンミックスに関する規格化に際し，NHKでは22.2chから5.1chへのダウンミックスを適正に行うために多数の番組素材を使用した実験８）を行い，推奨されるダウンミックス式とダウンミックス係数のデフォルト値を導出することで，ARIB STD-B32の改定に貢献した。４．２　AACのダイアログ制御機能に関わる改訂

（１）ダイアログエンハンスメント機能

ダイアログエンハンスメント機能は，ダイアログチャンネル（番組のセリフやナレーションを再生するチャンネル）とそれ以外の背景音チャンネルを番組ごとにフラグによって区別して，ダイアログチャンネルに割り当てられた信号のレベルを，背景音チャンネルの信号から独立して受信機で調節するための機能である。

２表　MPEG-4 AAC および ALS で使用可能なチャンネル設定の個別番号とチャンネル数

＊８マルチチャンネル信号を，少ないチャンネル数に変換・再配分する際の重みとなる値。

＊９AACの持つ信号伝送用のデータブロックの１つで，データを伝送するために使用する。

18 NHK技研 R&D/No.155/2016.1

解説　02

（２）ダイアログ信号の差し替え機能

ダイアログ信号の差し替え機能は，22.2chの音声信号とは別に差し替え用の追加ダイアログ信号（例えば英語やフランス語のダイアログ）（以下，差し替え音声）を22.2chと同一の音声ストリーム内のユーザー領域（DSE）を用いて伝送し，受信機でダイアログチャンネルにもともと割り当てられていた信号（以下，初期ダイアログ信号）と差し替える機能である。差し替えた音声は，放送局側で選択した１つあるいは複数のチャンネルで再生することができる。また，その場合には，各再生チャンネルの音声レベルも，放送局側でチャンネルごとに（FCは０dB，BtFCは－３dBなどのように）指定することができる。

ダイアログの差し替え機能を持つ受信機は，外部から与えられたダイアログの差し替え命令を受けて，例えば，もともとFCとBtFC（１図参照）に入っていた日本語のダイアログと，英語もしくはフランス語等のダイアログとを差し替える。なお，ダイアログのレベル制御については，ダイアログの差し替え処理後に実施可能である。

これらのダイアログ制御機能を追加する改訂に際し，NHKではMPEG-4 AACのシンタックス（符号化ビットストリームのデータの表現規則）の検討に基づいて，規格改訂案の作成に貢献した。また，同規格に準拠したコーデックの試作も行い，同機能が実現可能なことを示した９）。４．３　ALSのパラメーター

MPEG-4 ALS規格は最大65,536チャンネルに対応し，線形予測の次数も1,023次まで対応しているが，デジタル放送におけるMPEG-4 ALSの規格においては，最大チャンネル数は22.2ch，最大予測次数は15次などの制約条件を設けている。

５．将来の符号化方式MPEG-4 AACやALS以外の方式でも，5.1ch以上の再生チャンネル数を使用する３次

元立体音響方式が，近年，映画やホームシアターでの再生方式として採用されつつある。例えば，水平面の5.1chのスピーカーに加えて上層にスピーカーを配置するAuro-3Dや，オブジェクトと呼ばれる独立した音声チャンネルの音を他のチャンネルにミキシングして再生できるDolby Atomsなどの３次元立体音響方式がある。本章では，それらの方式のうち，国際標準化が進められている方式として，MPEG-H 3D Audioについて紹介する。５．１　MPEG Audio規格の最新動向：MPEG-H 3D Audio

MPEGにおいては，ハイビジョン映像を超える4Kや8KのUHD（Ultra High Defini-tion）映像に対応する次世代の音声符号化方式として，MPEG-H 3D Audio10）の規格化が進められている。

MPEG-H 3D Audioは，22.2ch音響のようなマルチチャンネルオーディオをより高能率に符号化し，小空間での現実的な数のスピーカー数（例えば10.1や8.1チャンネル）にレンダリング（各チャンネルのスピーカーに信号を再配分）して再生する技術である。

この規格の主なターゲットとしては，上方に配置されたスピーカーを使用するようなホームシアターをはじめ，パーソナルテレビやスマートホン，タブレット＋ヘッドホンなどの視聴形態が含まれる。

MPEG-H 3D Audioの特徴は，MPEG USAC（Unified Speech and Audio Coding）11）＊10

＊10スピーチ用と音楽用のコーデックを組み合わせた低ビットレート符号化。

19NHK技研 R&D/No.155/2016.1

マルチチャンネル＋レンダリング済みオブジェクト入力

符号化ビットストリームプリレンダラー

/ミキサー

オブジェクトメタデータ符号化

MPEG-H３D Audioコア符号化

マルチチャンネル入力

オブジェクト入力

HOA入力

OAM入力

SAOC符号化

HOA符号化

オブジェクト入力

HOA＋レンダリング済みオブジェクト入力

OAM情報

オブジェクト信号

補助情報

補助情報

SAOC伝送チャンネル

HOA伝送チャンネル

４図　MPEG-H ３D Audio 音声符号化のブロック図

およびMPEG SAOC（Spatial Audio Object Coding）12）＊11をベースにした高能率な符号化技術と，複数のレンダリング技術を採用していることである。レンダリングの方法としては，VBAP（Vector Base Amplitude Panning）13）＊12と呼ばれる方法を基本として，レンダリング済みの信号をヘッドホンや異なる配置のスピーカーチャンネルで再生するための技術を組み合わせている。

また，高次アンビソニックスHOA（Higher Order Ambisonics）14）と呼ばれる，音場を球面調和関数＊13の和として展開し，記録・再生する方式も採用されている。５．２　MPEG-H 3D Audioの音声符号化技術

４図にMPEG-H 3D Audio音声符号化のブロック図を示す。チャンネルベース＊14の信号として扱えるオブジェクトは，プリレンダラーにより，あらかじめレンダリングしてから符号化することで符号化効率を改善する。一方，受信機側で再生位置などを変える可能性のあるオブジェクトは，モノラル信号のまま符号化器に供給され，受信機側でレンダリングとミキシングが行われる。また，MPEG SAOC等の技術を利用して，複数のオブジェクトをまとめて扱い，伝送するチャンネル数を少数化して，データ数を減らすことにより，符号化効率を改善している。コア符号化のブロックでは，AACで採用されているSCE（Single Channel Element）＊15，CPE（Coupling Channel Element）＊16に加えて，QCE（Quad Channel Element）＊17を採用することで効率化を図っている。さらに，OAM（オブジェクトメタデータ）情報＊18も効率良く符号化することのできる方式となっている。

６．おわりに本稿では，8K放送を実現するための音声符号化技術の標準化動向として，総務省

令およびARIB規格の改定について述べ，高度BSデジタル放送等において，MPEG-4 AAC規格および ALS規格に準拠する方式により，22.2ch音響の放送サービスが可能となったことを紹介した。また，ARIB規格の改定に関しては，新たな放送サービスにつながるダウンミックスやダイアログ制御機能などについて説明した。さらに，３次元立体音響の最新の音声符号化方式であるMPEG-H 3D Audioに関して，標準化動向を解説した。NHKでは，今後もこうした国内外の標準化に寄与していく予定である。

＊11ダイアログと背景音を分離する技術を利用して，ダイアログなどのレベル調整を可能にしたマルチチャンネル符号化。

＊12１～３個のスピーカーを使用して，そのスピーカーを含む面内の任意の座標で音源を再生できるように，各スピーカーの振幅レベルを調整する方法。

＊13音場を表現することができる波動方程式を極座標上で表現する場合の基底関数。

＊14制作スタジオの信号をそのままスピーカーで再生すること。

＊15AACで規格化された信号伝送用のデータブロックの１つで，１チャンネル分の圧縮データから成る。

＊16符号化効率を上げるために，２チャンネル分を合わせた圧縮データから成るデータブロック。

＊17符号化効率を上げるために，４チャンネル分を合わせた圧縮データから成るデータブロック。

＊18オブジェクトの位置などを示す属性情報。

20 NHK技研 R&D/No.155/2016.1

解説　02

参考文献１）総務省令第87号，“標準テレビジョン放送等のうちデジタル放送に関する送信の標準方式”

（2011）

２） ISO/IEC 14496-3:2009，“Information Technology – Coding of Audio-visual Objects – Part 3: Audio”（2009）

３） ISO/IEC 14496-3:2005/Amd.2 2006，“Information Technology – Coding of Audio-visual Objects – Part 3: Audio Amendment 2: Audio Lossless Coding (ALS)，”New Audio Profiles and BSAC Extensions（2006）

４）電波産業会：“デジタル放送における映像符号化，音声符号化及び多重化方式，” ARIB STD-B32 3.3版（2015）

５） ISO/IEC 14496-3:2009/AMD 4:2013，“New Levels for AAC Profiles”（2013）

６）西口，小野，渡辺：“8Kスーパーハイビジョン音響制作システムの開発と標準化動向，”NHK技研R&D，No.148，pp.12-21（2014）

７） ISO/IEC 13818-7 :2006(E) ，“Information Technology – Generic Coding of Moving Pictures and Associated Audio Information – Part 7:Advanced Audio Coding (AAC)”（2006）

８） T. Sugimoto, S. Oode and Y. Nakayama：“Downmixing Method for 22.2 Multichannel Sound Signal in 8K Super Hi-Vision Broadcasting,” J. Audio Eng. Soc.（2015）

９）杉本，中山：“MPEG-4 AACを用いた22.2ch音声符号化・復号装置の開発，”音響学会秋季講演論文集，2-P-9（2015）

10） ISO/IEC 23008-3，“High Efficiency Coding and Media Delivery in Heterogeneous Environments – Part 3: 3D Audio”

11） ISO/IEC 23003-3:2012，“Information Technology – MPEG Audio Technologies – Part 3: Unified Speech and Audio Coding”（2012）

12） ISO/IEC 23003-2:2010，“Information Technology – MPEG Audio Technologies – Part 2: Spatial Audio Object Coding (SAOC)”（2010）

13） V. Pulkki：“Virtual Sound Source Positioning Using Vector Base Amplitude Panning，”J. Audio Eng. Soc.，Vol.45，pp.456-466（1997）

14） J. Daniel, R. Nicol and S. Moreau：“Further Investigations of High Order Ambisonics and Wavefield Synthesis for Holophonic Sound Imaging，”114th AES Conv. ，Amsterdam，The Netherlands（2003）

小こ

森もり

智とも

康やす

1994年入局。静岡放送局を経て，1997年から放送技術研究所において，音声符号化方式および人にやさしい音声放送サービスの研究に従事。現在，放送技術研究所テレビ方式研究部上級研究員。

21NHK技研 R&D/No.155/2016.1

Documents

1601 R&D 解説02（3校）02 1．はじめに 日本国内において22.2ch音響を用いた8K放送を実現するために，2011年に総務省令 第87号「標準テレビジョン放送等のうちデジタル

1601 R&D 解説02（3校）02 1．はじめに日本国内において22.2ch音響を用いた8K放送を実現するために，2011年に総務省令第87号「標準テレビジョン放送等のうちデジタル