Upload
kuhaku
View
4.719
Download
2
Embed Size (px)
DESCRIPTION
ぁ単語が行なっている処理内容のおおざっぱな紹介です(;´Д`)
Citation preview
Revision: 2014/04/04
@kuhaku
@sw_words
ぁ単語のお仕事 -単語カウント編-
1. ログ取得 2. 単語カウント 3. 単語マップ生成 1. 単語共起分布 2. コサイン類似度算出 3. MDSで座標決定 4. Flickr投稿 4. Twitter投稿
ぁ単語のお仕事-‐単語カウント編-‐ 2
@上海過去ログ検索CGIから1時間分のログを取得
ぁ単語のお仕事-‐単語カウント編-‐ 3
http://qwerty.on.arena.ne.jp/cgi-bin/bbs.cgi?
chk20121228.dat=checked&kwd=&s1=0&e1=0&s2=1&e2=0&ao=a&tt=a&alp=checked&btn=checked&g=checked&m=
g&k=%82%A0&sv=on
単語カウント
MeCab(形態素解析器)で投稿から名詞を抽出 ぁ単語のお仕事-‐単語カウント編-‐ 4
> 2014/04/04 (金) 20:51:13 ◆ ▼ > 魔女まんこカマンベール ベベとマミさんと3人で暮らしたい(;´Д`) 参考:2014/04/04(金)20時50分46秒
{魔女:1, まんこ:1, カマンベール:1,ベベ:1,マミ:1}
共起する単語の分布を各単語ごとにつくる
単語マップ生成(1) 単語共起分布
ぁ単語のお仕事-‐単語カウント編-‐ 5
{魔女:1, まんこ:1, カマンベール:1,ベベ:1,マミ:1}
魔女 = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1} マンコ = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1} カマンベール = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1} ベベ = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1} マミ = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1}
単語マップ生成(2) 距離算出
ぁ単語のお仕事-‐単語カウント編-‐ 6
単語分布同士のコサイン距離を求める
ベベ = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1} マミ = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:3,尻:2} 愛宕 = {艦これ:1,尻:1}
・ ・ ・
ベベ マミ 愛宕 ベベ 0 0.12 1 マミ 0.12 0 0.72 愛宕 1 0.72 0
0に近いほど関係が強い
単語マップ生成(3) 座標決定
単語同士の距離を元に多次元尺度構成法(MDS)で二次元空間に単語を配置
ぁ単語のお仕事-‐単語カウント編-‐ 7
固有値, 固有ベクトルを求めて対角化して
ぁ単語のお仕事-‐単語カウント編-‐ 8
単語マップ生成(4) Flickr投稿
単語マップ画像をFlickrに投稿
Twitter投稿
Twitterにカウント結果と単語マップのURLを投稿
ぁ単語のお仕事-‐単語カウント編-‐ 9
ぁ単語のお仕事-‐単語カウント編-‐ 10
1. ログ取得 2. カウント
cos(θ)
3. 類似度計算 4.単語マップ生成 と Flickr投稿
5. Twi3er投稿
これらのことを1分以内に完了させます!
Related URL • あやしいわーるど@qwerty
– h3p://qwerty.on.arena.ne.jp/ • MeCab
– h3p://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
• コサイン類似度 – h3p://www.cse.kyoto-‐su.ac.jp/~g0846020/keywords/cosinSimilarity.html
• MulRdimensional scaling – h3p://en.wikipedia.org/wiki/MulRdimensional_scaling
• Flickr – h3ps://www.flickr.com/
• Twi3er – h3ps://twi3er.com/
ぁ単語のお仕事-‐単語カウント編-‐ 11