AI音声認識を活用した次世代ビジネスの展開Deep Learning...

18 ビジネスコミュニケーション　2018 Vol.55 No.12

知　　　　　　　　　　　　　　　今

連載

知　　　　　　　　　　　　　　　今

連載

　コンピュータによる音声認識は古くからある技術で、NTTの研究所においても、数十年にわたって研究が続けられている。前回のレポートで Deep Learning（深層学習）の活用によって映像解析の精度が飛躍的に向上したことをお伝えしたが、音声認識の分野でも同様の取り組みが進んでいる。

Deep Learningを活用した音声認識の仕組みについて簡単に説明する。音声認識は、通常、音響モデル、言語モデル、単語リストの 3つを組み合わせて実現される（図 1）。音響モデルは、音声（音の波形）を入力にして、ニューラルネットでその音素を分析して出力する。図 1の例で言えば、「駅の近くの家」という音声を「ekinochikakunoie」または「ekinoshikakunoie」という音素列である可能性が高いと分析して出力する。言語モデルは、「駅」「液」「近く」

「知覚」「四角」「家」といった単語をリストとして持ちながら、上記の音素列を、「液の知覚の家」や「駅の四角の家」ではなく、「駅の近くの家」という文であることを、隣り

合わせる単語の出現確率等から判定して、音声認識結果を出力する。この仕組みを理解すれば、音声認識技術の実用化での課題についても理解できると思う。例えば、方言の音声認識に対応しようとすれば、標準語とは異なる音響モデルと言語モデルの組み込みが新たに必要になる。業界特有の用語が多く使われる業務での音声認識の場合にも、認識精度を向上させる際には個別の言語モデルの作成が必要になる。このようにして、「音声認識は個別のチューニングに時間がかかる」、「モデルのチューニングができる技術者が限られるので、一度に多くの案件には対応できない」といったビジネス推進上の課題が生まれている。研究面では、音声認識の全ての処

理を AIで行う方法として、雑音や方言等の音声のゆらぎも含めて音声の入力から認識結果の出力まで、一つの統合されたニューラルネットで処理をする End-Endの音声認識の研究も行われているが、現在はまだ実用化には至っていない。（Google

等で既に実装されている可能性が無いとは言えない）

音素の識別に Deep Learningが活用されたことで、音声認識の精度は近年大きく向上し、既に多くのサービスが世の中に展開されている。スマホに搭載されている Siri等の音声認識エンジンや Google Home

等の AIスピーカー、家電やカーナ

AI音声認識を活用したビジネスの拡大

AI音声認識を活用した次世代ビジネスの展開

本レポートでは、ビジネスの現場で実際にAI が活用されている事例を、そのビジネスインパクトや課題も含めてご紹介していく。今回は、Deep Learning（深層学習）により精度が向上したAI 音声認識を活用した実ビジネスの動向についてお伝えする。

NTTコミュニケーションズ株式会社アプリケーション＆コンテンツサービス部

AI 推進室長　三竹保宏

三竹レポート：ＡＩ活用の現場から (3)

音響モデル（音声から音素列を出力）

“ekinochikakunoie”

駅の近くの家

認識結果候補High

液の知覚の家“ekinoshikakunoie”

駅の四角の家Low

単語リスト

単語間の出現確率

言語モデル（音素列から言語を出力）

スコア

図 1　一般的な音声認識の仕組みのイメージ

音声認識におけるAI技術の活用

19ビジネスコミュニケーション　2018 Vol.55 No.12

知　　　　　　　　　　　　　　　今

連載

知　　　　　　　　　　　　　　　今

連載

ビ等での音声インターフェースが身近な例であるが、ビジネス向けの用途で、顧客からの電話での問い合わせに対応するコンタクトセンタ等でも音声認識の活用が進んでいる。コンタクトセンタで利用されている NTT研究所の音声認識エンジンは、人と人のやりとり（長文での自然発話）を対象とした汎用モデルをベースとして、NTTグループ各社のコンタクトセンタの通話データを活用して追加チューニングを行った「通信業界向け音声認識モデル」など、業界別モデルの構築も行われている。コンタクトセンタで音声認識を活用する用途としては、オペレーターの応対をスーパーバイザーが引き継ぐ際に、それまでの応対状況を目視で確認する用途や、応対中に禁止ワード等が発言された際にリアルタイムで検知する、といった用途で応対現場でのニーズがある。リアルタイム以外のニーズでは、応対状況をテキストデータで蓄積することで、後から応対内容を確認したい時に、通話録音データを聞き直すことなく、テキストベースで簡単に検索できることで業務効率化を図るニーズや、テキストデータから、オペレーター毎の応対時間や応対内容の分析をすることで、コンタクトセンタの運営の高度化／効率化に役立てるといったニーズがある。

NTTグループのサービスでは、オンプレミス型の Foresight Voice

Mining（NTTテクノクロス社）がリアルタイム型の音声認識サービスとして導入実績を拡大している。

NTTコムでは、リアルタイム以

ある。AI音声認識の今後の展開としては、技術面では、音声を文字列に変えるだけではなく、音声から推測できる感情や男性 /女性といった属性を付加情報として音声認識結果に追加する仕組みや、疑問文や肯定 /否定のトーンを音声から判定する仕組みの研究が既に進んでいる。音声認識の適用領域は広く、手と目を使わない／使えないシーンでの入力インターフェースとして、医療や介護の現場、建築現場、家事、育児、運転中、等々の様々なシーンでの活用が今後更に広がっていくことが想定される。コンタクトセンタ等での AIによる自動応対では、既に簡単なシナリオの応答は AI音声認識と AI自動応答システムの組み合わせで実現されているが、今後、人間の発話の意図や内容をより深く理解する AIシステムの開発が進めば、ロボットや Connected Carと連動したより高度な AI自動応答が実現することが期待される。＜AI活用のことなら下記へ＞ai-strategy-ac@ntt.com

外の利用ニーズを想定して、通話録音装置の音声ファイルをテキスト化して応対状況等のデータの見える化を行う COTOHA Voice Insight（仮称）を、2019年度当初に提供予定である。COTOHA Voice Insightは、クラウド上で動く COTOHA音声認識 API（2018年度内に商用提供予定）を利用する。COTOHA音声認識 APIは、コンタクトセンタ向けの活用だけではなく、COTOHA

Translator（AI翻訳）と組み合わせて、Web会議の中で音声認識した内容をリアルタイムで翻訳して多言語会議を可能にするソリューション（図２）や、店頭での販売員の顧客応対を音声認識でテキスト化して接客業務の向上に役立てるソリューション等への活用を予定している。実ビジネスでの課題としては、個別チューニングを行う際の稼働に加えて、音声データの収集が挙げられる。精度向上のチューニングに必要な学習データとなる音声データを、顧客の承諾を取り、個人情報の扱いに問題のない形で収集し蓄積する取り組みを継続的に進めていく必要が

リアルタイム音声認識＆AI翻訳

図 2　NTTコムにおけるWeb会議×音声認識×AI 翻訳のデモ画面

AI音声認識を活用した次世代ビジネスの展開Deep Learning...

Documents

特集音声認識用骨伝導マイクロホンの開発...デンソーテクニカルレビュー Vol.8 No.1 2003 －60－特集音声認識用骨伝導マイクロホンの開発＊1

ディープラーニングを利用した音声認識と音声合成 · -深層学習による音声合成 (2010~) -言語特徴量と音響特徴量との対応付けをDNNで学習

3.9.3 先進的音声翻訳研究開発推進センター統合システム開発室€¦ · ㅡ音声認識、音声合成エンジンの端末内組み込み電波の届かない状況でも音声認識と音声合成の機能が利用できるようになった。

髙木研究室 - takagi.inf.uec.ac.jp · キーワード:音声認識、パターン認識、機械学習 keywords: speech recognition, pattern recognition, machine learning 音声言語情報処理

小型・お手軽簡単！UART音声認識組込モジュール · 1 sr-mod100ユーザーズガイド型番：sr-mod100(rev.b) rev1.70 小型・お手軽簡単！uart音声認識組込モジュール

講座4「音声認識によるリアルタイム字幕作成シス …講座4「音声認識によるリアルタイム字幕作成システム構築マニュアル」活用講座

音声ビューア／音声認識サービス・音声ビューア、音声認識サービス併用でのご契約・ご利用が可能です。・ご契約期間は最低6ヶ月以上となります。

AEON MOBILE - イオンモバイル音声通話サービスをご契約の …...p. 1 AM20210115V 音声・シェア音声プランイオンモバイル音声通話サービスを

音声音響信号処理のための確率モデルと学習アルゴリズムibisml.org/archive/ibis2014/Kameoka2014IBIS11ver3.pdf · 音声・音楽・音響信号の認識・分析・合成・変換・分離問題

音声認識テレホンガイドシステム VS-ONT05

音声認識を用いた英語発音学習プログラムによる授 …...音声認識を用いた英語発音学習プログラムによる授業《実践報告》 15 2. 4 統計履歴

Node.js × 音声認識 - 東京Node学園 2012 LT枠 6番目

音声認識によるAR.Droneの制御 - Chukyo Ulang.sist.chukyo-u.ac.jp/classes/seminar/Papers/2015/...1 要旨題目音声認識によるAR.Droneの制御学籍番号 H412019

音声認識のための非線形音声強調happyoukai/2018/essay/岩本...音声認識のための非線形音声強調及川靖広研究室 4年岩本美緒 1. まえがき近年，音声認識システムによる自動テキスト化の技術

簡単！UART音声認識組込モジュール・コンデンサ …1 SR-MOD100Cユーザーズガイド型番：SR-MOD100C REV4.90 小型・お手軽簡単！UART音声認識組込モジュール

組込み向け音声認識ミドルウェア（システム開発者向け） 1/3 ......組込み向け音声認識ミドルウェア（システム開発者向け） 2/3 製品仕様

speechsurvey2014recog rev1 0 - JEITA - 音声入出力方 …jeita-speech.org/survey/JEITA_productsurvey2014recog.pdf音声認識・システム開発者向け製品製品カテゴリ

音声認識・合成aito/soundmedia/spoken...3 音声認識の基本的な考え方発音ごとに特有のパターンがある ⇒このパターンを捕らえれば認識が可能

音声認識と音声練習の学習過程を記録できる中国語課外学修 ...harp.lib.hiroshima-u.ac.jp/pu-hiroshima/file/12642...音声認識と音声練習の学習過程を記録できる

応用音響学 - 東京大学kameoka/aa/AA14_01.pdf · 信号推定、音声分析、音声符号化音声認識、音声合成その他の音響信号処理講義重点統計的信号処理の基礎

AI音声認識を活用した 次世代ビジネスの展開Deep Learning...

AI音声認識を活用した次世代ビジネスの展開Deep Learning...