2
10 ビジネスコミュニケーション 2018 Vol.55 No.8 連載 AI といえば、将棋や囲碁で人間 の名人に勝ったり、車を自動で運転 したり、無人の店舗を運営したり、 といったインパクトのある話題がま ず思い浮かぶかも知れない。AI ビジネスでの活用領域は多岐に亘る が、AI の仕組みやビジネス性を理 解しやすい実例として、今回は『AI 翻訳』を取り上げたいと思う。 和訳や英訳は誰もが一度は行った ことがあるかと思うが、まずは AI はそれをどうやるか、という仕組み を簡単に解説する。 コンピュータが行う翻訳は、数年 前まで、『統計的機械翻訳』(SMT: Statistical Machine Translation)と いう方式が主流であった(図 1)。 SMT を単純に言うと、英文和訳で あれば、英文を日本語の語順に並び 替えて、単語毎の訳を繋ぎ合せると いう方法である。膨大な訳文例をコ ンピュータに学ばせる(機械学習) ことで、翻訳する時の単語の並びの 入れ替わり方を確率で決めたり、tail には「服のすそ」という意味もあるが、 cat(猫)と一緒に使われたら訳語は 「尻尾」の確率が 100%、といった 計算処理をしている。 SMT には、単語の繋ぎ合わせで 訳文が不自然になったり、並び替え や単語訳を正しく行うチューニング の大変さといった問題があった。 この従来技術を塗り替えたのが『ニ ューラル機械翻訳』(NMT: Neural Machine Translation)である(図 2)。 これも単純化して言うと、英文和 訳であれば、英文を数字の列に数値 化する。数値が表しているものは、 英語の「文の意味」である。その数 値を日本語で表すとどうなるか、が 分かれば、和訳ができたことになる。 SMT の逐語訳による翻訳を、NMT は数値計算による翻訳に変えた。AI が語学を数学にして解いている。 少し学術的な話になってしまった が、幾層も繋がったニューラルネッ ト(人間の神経回路と似た伝達構造 のアルゴリズム)を使って、データ の持つ特徴量を自動で抽出するとい うことが、最近の AI ブームを牽引 する Deep Learning の仕組みである。 そして、その特徴量をより正しく求 められるようにするために、学習デ ータがとても重要になっている。 AI 翻訳における学習では、図 2 に示したような入力文と翻訳後の出 力文のセット(対訳データと言う) Deep Learning による AI 機械翻訳のイノベーション 本レポートでは、ビジネスの現場で実際に AI が活用されている事例を、そのビジネスインパクトや課題も含めてご紹介していく。 今回は、Deep Learning(深層学習)の活用が翻訳業務にもたらした破壊的イノベーションについてお伝えする。 NTT コミュニケーションズ株式会社 アプリケーション&コンテンツサービス部 AI 推進室長 三竹 保宏 三竹レポート :AI活用の現場から (1) 構文解析 語順並び替え 翻訳デコーディング 0.1 -0.2 0.03 ・・・ ・・・ He saw a cat with a long tail. ニューラルネットで文を数値化 特徴量の数値から訳文を生成 特徴量(=文意) 彼は長い尻尾の 猫を見た。 図 1 統計的機械翻訳技術イメージ 図 2 ニューラル機械翻訳技術イメージ Deep Learning 技術が変えた 翻訳の世界

Deep Learningによる AI機械翻訳のイノベーション€¦ · が、幾層も繋がったニューラルネッ ト(人間の神経回路と似た伝達構造 のアルゴリズム)を使って、データ

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Deep Learningによる AI機械翻訳のイノベーション€¦ · が、幾層も繋がったニューラルネッ ト(人間の神経回路と似た伝達構造 のアルゴリズム)を使って、データ

10 ビジネスコミュニケーション 2018 Vol.55 No.8

知               今

連載

知               今

連載

 

AIといえば、将棋や囲碁で人間の名人に勝ったり、車を自動で運転したり、無人の店舗を運営したり、といったインパクトのある話題がまず思い浮かぶかも知れない。AIのビジネスでの活用領域は多岐に亘るが、AIの仕組みやビジネス性を理解しやすい実例として、今回は『AI

翻訳』を取り上げたいと思う。和訳や英訳は誰もが一度は行ったことがあるかと思うが、まずは AI

はそれをどうやるか、という仕組みを簡単に解説する。コンピュータが行う翻訳は、数年前まで、『統計的機械翻訳』(SMT:

Statistical Machine Translation)という方式が主流であった(図 1)。

SMTを単純に言うと、英文和訳であれば、英文を日本語の語順に並び替えて、単語毎の訳を繋ぎ合せるという方法である。膨大な訳文例をコンピュータに学ばせる(機械学習)ことで、翻訳する時の単語の並びの入れ替わり方を確率で決めたり、tail

には「服のすそ」という意味もあるが、cat(猫)と一緒に使われたら訳語は「尻尾」の確率が 100%、といった

計算処理をしている。SMTには、単語の繋ぎ合わせで訳文が不自然になったり、並び替えや単語訳を正しく行うチューニングの大変さといった問題があった。この従来技術を塗り替えたのが『ニューラル機械翻訳』(NMT: Neural

Machine Translation)である(図 2)。これも単純化して言うと、英文和訳であれば、英文を数字の列に数値化する。数値が表しているものは、英語の「文の意味」である。その数値を日本語で表すとどうなるか、が分かれば、和訳ができたことになる。SMTの逐語訳による翻訳を、NMT

は数値計算による翻訳に変えた。AI

が語学を数学にして解いている。少し学術的な話になってしまったが、幾層も繋がったニューラルネット(人間の神経回路と似た伝達構造のアルゴリズム)を使って、データの持つ特徴量を自動で抽出するということが、最近の AIブームを牽引するDeep Learningの仕組みである。そして、その特徴量をより正しく求められるようにするために、学習データがとても重要になっている。

AI翻訳における学習では、図 2に示したような入力文と翻訳後の出力文のセット(対訳データと言う)

Deep LearningによるAI機械翻訳のイノベーション

本レポートでは、ビジネスの現場で実際にAI が活用されている事例を、そのビジネスインパクトや課題も含めてご紹介していく。今回は、Deep Learning(深層学習)の活用が翻訳業務にもたらした破壊的イノベーションについてお伝えする。

NTTコミュニケーションズ株式会社アプリケーション&コンテンツサービス部

AI 推進室長 三竹 保宏

三竹レポート :AI活用の現場から (1)

構文解析 語順並び替え 翻訳デコーディング

0.1-0.20.03・・・・・・

He saw a cat with a long tail.

ニューラルネットで文を数値化 特徴量の数値から訳文を生成

特徴量(=文意)

彼は長い尻尾の猫を見た。

図 1 統計的機械翻訳技術イメージ

図 2 ニューラル機械翻訳技術イメージ

Deep Learning技術が変えた翻訳の世界

Page 2: Deep Learningによる AI機械翻訳のイノベーション€¦ · が、幾層も繋がったニューラルネッ ト(人間の神経回路と似た伝達構造 のアルゴリズム)を使って、データ

11ビジネスコミュニケーション 2018 Vol.55 No.8

知               今

連載

知               今

連載

を大量に学習することで、中間にある特徴量の数値をチューニングする。翻訳の精度が出るかどうかは、学習量とチューニング次第である。

ここまで、仕組みの話が長くなったが、話をリアルな世界の翻訳ビジネスに戻す。

NTTコミュニケーションズでは、「ニューラル機械翻訳(NMT)」の仕組みを使った AI翻訳サービス「COTOHA Translator」を 2018年3月から提供している。

COTOHA Translatorは、NTTグループ企業の株式会社みらい翻訳とNTT研究所、そして国立研究開発法人情報通信研究機構(NICT)が連携して開発した AI翻訳エンジンをベースにしている。この翻訳エンジンは、上記の連携主体が持つ膨大な対訳データを学習しているので、図 3の比較結果にあるように、日英の翻訳精度では世界最高の水準を達成している。 人が行う翻訳との比較で言うと、翻訳の専門家にはかなわないが、TOEICで 900点を取るレベルのビジネスパーソンと日英の翻訳では同じレベル、という調査結果が出ている。AIの世界では、精度を出すために正確かつ大量の学習用データがいかに大切か、ということが分かる事例でもあると思う。次に AI翻訳をめぐるビジネス環

境についてお話しする。グローバル化された企業では、外国籍社員や海外のパートナー企業との資料共有、海外の論文やレポート等のタイムリーな情報収集等が日常

ても、お客様のニーズに合わせて順次サービスとして拡充していく方針である。通常、AIによる分析モデルを作

成するには、アルゴリズムの作成と学習用データの整備、データによる学習を通じた分析モデルのチューニング等々に多大な時間と稼働がかかる。個社別のソリューション毎に分析モデルを作成していると、1つの案件にかかるコストが高くなるとともに、分析モデルを作成・チューニングできる人材の稼働不足がボトルネックになる場合がある。

AI翻訳のように、高精度な 1つの学習済み AIモデルを様々な企業に横展開できるビジネスモデルは、AI活用サービスを早期に拡大していくという視点では分かりやすい事例と言える。学習済み翻訳モデルに、お客様の社内や業界に特有の対訳データを追加学習させて更に翻訳精度を上げていく取組みや、TV会議内の発言を翻訳して画面に表示するような他サービスと連携した取組み等を通じて、AI翻訳の実ビジネスでの活用範囲は今後も更に拡大していくことが見込まれる。<AI活用のことなら下記へ>[email protected]

業務として行われている。20名を超える社員が毎日、日本と米国のオフィス間の文書を翻訳しているという企業例もある。 

AI翻訳の COTOHA Translatorは、TOEIC 900点レベルのビジネスパーソンが平均7時間程度かかる翻訳を、同等の精度で約 2分で完了する。また、使い方の特長として、

Microsoft Officeや PDF形式のファイルを PC上でドラッグ &ドロップするだけで、翻訳されたファイルを作成することができる。日常的に社員が翻訳業務を行ったり、翻訳事業者に外注を行っているような企業では、AI翻訳を導入して、社員が最終的なチェックと手直しを行うという業務フローに変更することによって、翻訳にかかる稼働とコストを劇的に減らすとともに、より戦略的な業務に貴重な社員稼働をシフトすることが可能になる。

COTOHA Translatorは、サービス開始から約 3カ月で 100社を超えるお申込をいただき、日々ユーザーが増える AI活用の拡大事例となっている。今後は、インターネット経由ではなく、企業内閉域網(VPN)内でご利用いただく形態や、お客様の社内に専用の AI翻訳サーバーをオンプレミスで設置する形態につい

他NMT翻訳

Adequacy(情報伝達力) 3.8 3.6

Fluency(流暢さ) 4.2 3.8

日英翻訳 翻訳エンジン比較

TOEIC900点レベル

他NMT翻訳

図 3 AI 翻訳エンジン比較(5点満点 みらい翻訳社調査)

AI翻訳の実ビジネスでの活用