14
1 テクニカルコンサルタント / セールスエンジニア 堀田 稔 iKnowによる自然言語処理 0 1| InterSystems Corporation iKnowとは 1 InterSystems独自のテキスト探索(解析)機能 文章の中から、 セマンティックな (意味のある)単語の塊 = 「エンティティ」を特定する 言語構造だけを基に解析 (特殊な辞書は不要)

iKnow - InterSystems · 「Statistical Semantic入門~分布仮説からword2vecまで~」 10 18 ... 文書から

Embed Size (px)

Citation preview

1

テクニカルコンサルタント / セールスエンジニア 堀田稔

iKnowによる自然言語処理

0

1 | InterSystems Corporation

iKnowとは

1

InterSystems独自のテキスト探索(解析)機能

文章の中から、

セマンティックな(意味のある)単語の塊 = 「エンティティ」を特定する

言語構造だけを基に解析 (特殊な辞書は不要)

2

2 | InterSystems Corporation

昼食

カフェ茶屋町

機械翻訳質問応答

主要な方法論:

形態素解析 :単語という単位で検索するが、単語切り出しの精度によるミスヒット(見落とし)、未定義語の問題

N-gram : 「字面」の検索は100%にできるが、ノイズ(本来探したいものではない情報)が多い

人間が使用する言葉 =曖昧さ、変化

そもそも単語や字面が検索対象? たくさんの結果が欲しい?

→ 答えはNO ! 現在のコンテキスト・状況、意味や関連 曖昧さ、間違いを許容

→ 統計的アプローチ、機械学習、AI

→ そのような数理、統計的アプローチの基礎として、iKnowのエンティティは「単語」や「字面」にないメリットがある

自然言語処理

全文検索 …

全文検索梅田 ランチ

3 | InterSystems Corporation

iKnow on Data Platforms

データプラットフォーム

DB WebREST

ファイル デバイス 自然言語

REST XML JSON SQL

Web Java RPython

IoT

“数値化”

iKnow

“伝統的”アプリケーション データ解析・機械学習・AI

3

4 | InterSystems Corporation

従来のテキスト分析: トップダウン

4

“Bag-of-words” モデル

オントロジーや辞書がベース→ メンテナンスが必要

単語は文脈によって異なる意味を持つ→ 初出語、複合語への対応

※ オントロジー:概念体系

※ “Bag-of-words” : 文の構造に関係なく、単語の集合を解析対象にする手法

オントロジー 辞書

5 | InterSystems Corporation

iKnow : “コンセプトレベル”からのボトムアップ

5

iKnowは、文の構造そのものから、意味のある単語の塊(エンティティ)を抽出する

未定義語や新たな複合語、言い回しを発見

→ 知識(オントロジー・辞書)

オープン・エンド

発見的探索

4

6 | InterSystems Corporation

iKnowによるナレッジの成長サイクル

6

ナレッジ

ナレッジ

ナレッジ

iKnow

テキストデータ

機械学習

7 | InterSystems Corporation

iKnowのテキスト解析例

■例① 金メダリストの羽生結弦が今季最初の実戦に臨む

(形態素解析)

金 -メダリスト -の -羽生 -結 -弦 -が -今季 -最初 -の -実戦 -に -臨む

(iKnow)

■例② 米利上げが接近し、世界経済減速の懸念も広がるなかで、外国人投資家は慎重。

(形態素解析)

米 - 利上げ - が - 接近し、世界 - 経済 - 減速 - の - 懸念 -も -広がる – なかで、外国人 - 投資- 家 - は - 慎重。

(iKnow)

7

が に臨む

が接近し、 も広がる中で、 は

金メダリストの羽生結弦 今季最初の実戦

5

8 | InterSystems Corporation

より多くのコンテキスト情報

金メダリストの羽生結弦

世界経済減速の懸念

羽生結弦のことを知らなかったら?

世界経済の情勢を知らなかたら?

9 | InterSystems Corporation

iKnowに保存される要素

データソースファイル

DB…

ドメイン

ソース

センテンスセンテンスセンテンス

Dictionary Blacklist

エンティティ

パス(エンティティ・ベクター)

頻度スプレッドドミナンス近接度

メタデータ

オブジェクト

SQ

LR

EST

アプリケーション

6

10 | InterSystems Corporation

iKnowが標準で計算する数値

• 頻度(Frequency): エンティティが何回出現するか

• スプレッド(Spread) : エンティティが出現するソースの数

• ドミナンス(Dominance): エンティティの意味的な重要度

• 近接度(Proximity):2つのエンティティの関連度

11 | InterSystems Corporation

データ探索典型的な機能:

スマートな文書ナビゲーション

リッチなテキスト検索文書が何について書かれているのか?

東京都

東京都の小池知事

東京都議会

石原元東京都知事

豊洲市場

盛り土

東京オリンピッック・パラリンピックの予算

類似エンティティ

近接エンティティ

7

12 | InterSystems Corporation

トレンド分析書かれていることの特徴は何か、変化はないか?

0

1

2

3

4

5

6

13 | InterSystems Corporation

特徴分析文書の特徴を数理的に表現

東京都

文書A 2

東京都内 東京

文書B

0 1

0 4 0

東京都

文書A 3

東京都内 東京

文書B 4

東京

東京のホテル

秋の東京

8

14 | InterSystems Corporation

新たな例を抽出

エンティティからパターン抽出

情報抽出文書から構造化されたデータ抽出する (固有表現抽出など)

シード(最初に人が与える確実な例)

(東京都 , 小池)

(大阪府 , 松井)

(鳥取県 , 平井)(宮城県 , 村井)

(埼玉県, 上田)

(沖縄県 , 翁長)

(福島県 , 内堀)

(ニュージャージー州 , クリスティー)

“*の*知事”

15 | InterSystems Corporation

辞書によるマッチング

生活習慣病

糖尿病

2型糖尿病

脳梗塞

高血圧

= ナレッジ

9

16 | InterSystems Corporation

デモ

17 | InterSystems Corporation

(参考)word2vec「Statistical Semantic入門 ~分布仮説からword2vecまで~」http://www.slideshare.net/unnonouno/20140206-statistical-semantics/

10

18 | InterSystems Corporation

文脈

東京

で 大学に 通っています娘は私の

日本の 首都は です

150年前 は 江戸と 呼ばれていました

皇居は の 千代田区に あります

通勤電車がでは 混雑します大阪

大阪

19 | InterSystems Corporation

エンティティ1

エンティティ2

エンティティn

エンティティA エンティティB ・・・

・・・

Proximity

( 200 , 0, … 1023 )

( 20 , 150, … 53 )

( 0 , 1000, … 60 )すべての2エンティティ間のコサイン類似度

Proximityを用いた各エンティティの特徴ベクトル = 文脈からエンティティの特徴を計算

エンティティ1

エンティティ2

エンティティn

エンティティm

エンティティのクラスタリング、エンティティ間の距離

11

20 | InterSystems Corporation

類似エンティティの例

21 | InterSystems Corporation

デモ画面(1)

「ごはん」に類似するエンティティ

近接度をもとに計算した類似度

12

22 | InterSystems Corporation

デモ画面(2)

類似エンティティから作成した「エンティティ・セット」

「国名セット」のエンティティを含む文書

23 | InterSystems Corporation

デモ画面(3) : word2vecとの組み合わせ「東京」に類似するエンティティ

「喜び」に類似するエンティティ

「喜び」に類似し、かつ、「苦しみ」には類似しないエンティティ

13

24 | InterSystems Corporation

まとめ

InterSystemsは、データプラットフォームの不可欠な要素としてiKnowをご提供します。

iKnowは、非構造化データ(フリーテキスト)を構造化データ(数値など)と同様に扱うことを容易にします。

文書から「意味のある(複数)単語からなるエンティティ」を抽出することにより、従来からある形態素解析やN-gramにない価値を生み出します。

iKnowは、業界用語など特殊な辞書の助けを借りずに、文書に書かれている語句を浮かび上がらせ、発見型のアプリケーション開発をご支援します。

25 | InterSystems Corporation

Q & A

14

26 | InterSystems Corporation

iKnowによる自然言語処理