11
Revision: 2014/04/04 @kuhaku @sw_words ぁ単語のお仕事 -単語カウント編-

ぁ単語のお仕事 単語カウント編

  • Upload
    kuhaku

  • View
    4.719

  • Download
    2

Embed Size (px)

DESCRIPTION

ぁ単語が行なっている処理内容のおおざっぱな紹介です(;´Д`)

Citation preview

Page 1: ぁ単語のお仕事 単語カウント編

Revision: 2014/04/04

@kuhaku

@sw_words

ぁ単語のお仕事 -単語カウント編-

Page 2: ぁ単語のお仕事 単語カウント編

1. ログ取得 2. 単語カウント 3. 単語マップ生成 1.  単語共起分布 2.  コサイン類似度算出 3.  MDSで座標決定 4.  Flickr投稿 4. Twitter投稿

ぁ単語のお仕事-­‐単語カウント編-­‐ 2

Page 3: ぁ単語のお仕事 単語カウント編

@上海過去ログ検索CGIから1時間分のログを取得

ぁ単語のお仕事-­‐単語カウント編-­‐ 3

http://qwerty.on.arena.ne.jp/cgi-bin/bbs.cgi?

chk20121228.dat=checked&kwd=&s1=0&e1=0&s2=1&e2=0&ao=a&tt=a&alp=checked&btn=checked&g=checked&m=

g&k=%82%A0&sv=on

Page 4: ぁ単語のお仕事 単語カウント編

単語カウント

MeCab(形態素解析器)で投稿から名詞を抽出 ぁ単語のお仕事-­‐単語カウント編-­‐ 4

>  2014/04/04 (金) 20:51:13  ◆  ▼ > 魔女まんこカマンベール ベベとマミさんと3人で暮らしたい(;´Д`) 参考:2014/04/04(金)20時50分46秒

{魔女:1, まんこ:1, カマンベール:1,ベベ:1,マミ:1}

Page 5: ぁ単語のお仕事 単語カウント編

共起する単語の分布を各単語ごとにつくる

単語マップ生成(1) 単語共起分布

ぁ単語のお仕事-­‐単語カウント編-­‐ 5

{魔女:1, まんこ:1, カマンベール:1,ベベ:1,マミ:1}

魔女 = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1} マンコ = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1} カマンベール = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1} ベベ = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1} マミ = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1}

Page 6: ぁ単語のお仕事 単語カウント編

単語マップ生成(2) 距離算出

ぁ単語のお仕事-­‐単語カウント編-­‐ 6

単語分布同士のコサイン距離を求める

ベベ = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:1} マミ = {魔女:1,マンコ:1,カマンベール:1,ベベ:1,マミ:3,尻:2} 愛宕 = {艦これ:1,尻:1}

・ ・ ・

ベベ マミ 愛宕 ベベ 0 0.12 1 マミ 0.12 0 0.72 愛宕 1 0.72 0

 0に近いほど関係が強い

Page 7: ぁ単語のお仕事 単語カウント編

単語マップ生成(3) 座標決定

単語同士の距離を元に多次元尺度構成法(MDS)で二次元空間に単語を配置

ぁ単語のお仕事-­‐単語カウント編-­‐ 7

固有値, 固有ベクトルを求めて対角化して

Page 8: ぁ単語のお仕事 単語カウント編

ぁ単語のお仕事-­‐単語カウント編-­‐ 8

単語マップ生成(4) Flickr投稿

単語マップ画像をFlickrに投稿

Page 9: ぁ単語のお仕事 単語カウント編

Twitter投稿

Twitterにカウント結果と単語マップのURLを投稿

ぁ単語のお仕事-­‐単語カウント編-­‐ 9

Page 10: ぁ単語のお仕事 単語カウント編

ぁ単語のお仕事-­‐単語カウント編-­‐ 10

1.  ログ取得 2.  カウント

cos(θ)

3.  類似度計算 4.単語マップ生成  と  Flickr投稿

5.  Twi3er投稿

これらのことを1分以内に完了させます!

Page 11: ぁ単語のお仕事 単語カウント編

Related  URL •  あやしいわーるど@qwerty  

–  h3p://qwerty.on.arena.ne.jp/  •  MeCab  

–  h3p://mecab.googlecode.com/svn/trunk/mecab/doc/index.html  

•  コサイン類似度  –  h3p://www.cse.kyoto-­‐su.ac.jp/~g0846020/keywords/cosinSimilarity.html  

•  MulRdimensional  scaling  –  h3p://en.wikipedia.org/wiki/MulRdimensional_scaling  

•  Flickr  –  h3ps://www.flickr.com/  

•  Twi3er  –  h3ps://twi3er.com/  

ぁ単語のお仕事-­‐単語カウント編-­‐ 11