Upload
dangthuan
View
221
Download
1
Embed Size (px)
Citation preview
1
テクニカルコンサルタント / セールスエンジニア 堀田稔
iKnowによる自然言語処理
0
1 | InterSystems Corporation
iKnowとは
1
InterSystems独自のテキスト探索(解析)機能
文章の中から、
セマンティックな(意味のある)単語の塊 = 「エンティティ」を特定する
言語構造だけを基に解析 (特殊な辞書は不要)
2
2 | InterSystems Corporation
昼食
カフェ茶屋町
機械翻訳質問応答
主要な方法論:
形態素解析 :単語という単位で検索するが、単語切り出しの精度によるミスヒット(見落とし)、未定義語の問題
N-gram : 「字面」の検索は100%にできるが、ノイズ(本来探したいものではない情報)が多い
人間が使用する言葉 =曖昧さ、変化
そもそも単語や字面が検索対象? たくさんの結果が欲しい?
→ 答えはNO ! 現在のコンテキスト・状況、意味や関連 曖昧さ、間違いを許容
→ 統計的アプローチ、機械学習、AI
→ そのような数理、統計的アプローチの基礎として、iKnowのエンティティは「単語」や「字面」にないメリットがある
自然言語処理
全文検索 …
全文検索梅田 ランチ
3 | InterSystems Corporation
iKnow on Data Platforms
データプラットフォーム
DB WebREST
ファイル デバイス 自然言語
REST XML JSON SQL
Web Java RPython
IoT
“数値化”
iKnow
“伝統的”アプリケーション データ解析・機械学習・AI
3
4 | InterSystems Corporation
従来のテキスト分析: トップダウン
4
“Bag-of-words” モデル
オントロジーや辞書がベース→ メンテナンスが必要
単語は文脈によって異なる意味を持つ→ 初出語、複合語への対応
※ オントロジー:概念体系
※ “Bag-of-words” : 文の構造に関係なく、単語の集合を解析対象にする手法
オントロジー 辞書
5 | InterSystems Corporation
iKnow : “コンセプトレベル”からのボトムアップ
5
iKnowは、文の構造そのものから、意味のある単語の塊(エンティティ)を抽出する
未定義語や新たな複合語、言い回しを発見
→ 知識(オントロジー・辞書)
オープン・エンド
発見的探索
4
6 | InterSystems Corporation
iKnowによるナレッジの成長サイクル
6
ナレッジ
ナレッジ
ナレッジ
iKnow
テキストデータ
機械学習
7 | InterSystems Corporation
iKnowのテキスト解析例
■例① 金メダリストの羽生結弦が今季最初の実戦に臨む
(形態素解析)
金 -メダリスト -の -羽生 -結 -弦 -が -今季 -最初 -の -実戦 -に -臨む
(iKnow)
■例② 米利上げが接近し、世界経済減速の懸念も広がるなかで、外国人投資家は慎重。
(形態素解析)
米 - 利上げ - が - 接近し、世界 - 経済 - 減速 - の - 懸念 -も -広がる – なかで、外国人 - 投資- 家 - は - 慎重。
(iKnow)
7
が に臨む
が接近し、 も広がる中で、 は
金メダリストの羽生結弦 今季最初の実戦
5
8 | InterSystems Corporation
より多くのコンテキスト情報
金メダリストの羽生結弦
世界経済減速の懸念
羽生結弦のことを知らなかったら?
世界経済の情勢を知らなかたら?
9 | InterSystems Corporation
iKnowに保存される要素
データソースファイル
DB…
ドメイン
ソース
センテンスセンテンスセンテンス
Dictionary Blacklist
エンティティ
パス(エンティティ・ベクター)
頻度スプレッドドミナンス近接度
メタデータ
オブジェクト
SQ
LR
EST
アプリケーション
6
10 | InterSystems Corporation
iKnowが標準で計算する数値
• 頻度(Frequency): エンティティが何回出現するか
• スプレッド(Spread) : エンティティが出現するソースの数
• ドミナンス(Dominance): エンティティの意味的な重要度
• 近接度(Proximity):2つのエンティティの関連度
11 | InterSystems Corporation
データ探索典型的な機能:
スマートな文書ナビゲーション
リッチなテキスト検索文書が何について書かれているのか?
東京都
東京都の小池知事
東京都議会
石原元東京都知事
豊洲市場
盛り土
東京オリンピッック・パラリンピックの予算
類似エンティティ
近接エンティティ
7
12 | InterSystems Corporation
トレンド分析書かれていることの特徴は何か、変化はないか?
0
1
2
3
4
5
6
13 | InterSystems Corporation
特徴分析文書の特徴を数理的に表現
東京都
文書A 2
東京都内 東京
文書B
0 1
0 4 0
東京都
文書A 3
東京都内 東京
文書B 4
東京
東京のホテル
秋の東京
…
8
14 | InterSystems Corporation
新たな例を抽出
エンティティからパターン抽出
情報抽出文書から構造化されたデータ抽出する (固有表現抽出など)
シード(最初に人が与える確実な例)
(東京都 , 小池)
(大阪府 , 松井)
(鳥取県 , 平井)(宮城県 , 村井)
(埼玉県, 上田)
(沖縄県 , 翁長)
(福島県 , 内堀)
(ニュージャージー州 , クリスティー)
“*の*知事”
15 | InterSystems Corporation
辞書によるマッチング
生活習慣病
糖尿病
2型糖尿病
脳梗塞
高血圧
= ナレッジ
9
16 | InterSystems Corporation
デモ
17 | InterSystems Corporation
(参考)word2vec「Statistical Semantic入門 ~分布仮説からword2vecまで~」http://www.slideshare.net/unnonouno/20140206-statistical-semantics/
10
18 | InterSystems Corporation
文脈
東京
で 大学に 通っています娘は私の
日本の 首都は です
150年前 は 江戸と 呼ばれていました
皇居は の 千代田区に あります
通勤電車がでは 混雑します大阪
大阪
19 | InterSystems Corporation
エンティティ1
エンティティ2
エンティティn
エンティティA エンティティB ・・・
・・・
Proximity
( 200 , 0, … 1023 )
( 20 , 150, … 53 )
( 0 , 1000, … 60 )すべての2エンティティ間のコサイン類似度
Proximityを用いた各エンティティの特徴ベクトル = 文脈からエンティティの特徴を計算
エンティティ1
エンティティ2
エンティティn
エンティティm
エンティティのクラスタリング、エンティティ間の距離
11
20 | InterSystems Corporation
類似エンティティの例
21 | InterSystems Corporation
デモ画面(1)
「ごはん」に類似するエンティティ
近接度をもとに計算した類似度
12
22 | InterSystems Corporation
デモ画面(2)
類似エンティティから作成した「エンティティ・セット」
「国名セット」のエンティティを含む文書
23 | InterSystems Corporation
デモ画面(3) : word2vecとの組み合わせ「東京」に類似するエンティティ
「喜び」に類似するエンティティ
「喜び」に類似し、かつ、「苦しみ」には類似しないエンティティ
13
24 | InterSystems Corporation
まとめ
InterSystemsは、データプラットフォームの不可欠な要素としてiKnowをご提供します。
iKnowは、非構造化データ(フリーテキスト)を構造化データ(数値など)と同様に扱うことを容易にします。
文書から「意味のある(複数)単語からなるエンティティ」を抽出することにより、従来からある形態素解析やN-gramにない価値を生み出します。
iKnowは、業界用語など特殊な辞書の助けを借りずに、文書に書かれている語句を浮かび上がらせ、発見型のアプリケーション開発をご支援します。
25 | InterSystems Corporation
Q & A