The bursty dynamics of the twitter information network

Preview:

Citation preview

The Bursty Dynamics of the

Twitter Information Network

D1 臼井翔平

第一回とりらぼ輪読会 2014/5/31

Seth Myers Jure Leskovec

Stanford University

Abstruct

• Tweet,Retweet burstがネットワーク構造を変える事がある

このネットワーク構造の変化はどんなものか

ネットワークの変化を起こすバーストはどんなものか

• Retweetが引き起こすネットワーク構造変化をモデル化

Background

• ネットワークのダイナミクスは理解されていない

リンクの生成と削除

• 2つのダイナミクスに着目

情報共有のダイナミクス

ネットワークの進化

目的

• 情報共有がネットワーク構造の変化をもたらすか

• ネットワーク上での情報拡散の理解

burstの分析

Present work

• Information causes bursts in network

evolution

• Bursts of edge creations and deletions

• Modeling and predicting bursts

Present work

• Information causes bursts in network

evolution

• Bursts of edge creations and deletions

• Modeling and predicting bursts

Twitterのダイナミクス

• Followリンクの追加と削除

• 2011年11月のfollowerネットワークを収集

13,100,000ノード

1,700,000,000リンク

• 112,300,000リンクの追加(7%)

• 39,200,000リンクの削除(2.3%)

Twitterのダイナミクス

• 9%のリンクが変化している

• 3リンク追加される毎に1リンク削除

高いダイナミクス

成長するだけのネットワークではない

Twitterの情報共有

• 1,200,000,000ツイート

• 116,300,000リツイート

• TweetとRetweetがfollowerネットワークに影響を与える?

入次数との関係

入次数との関係がある

Retweetとnew Follow

• 入次数1000から2000のノード

Retweetが多い程new followerが多い

Tweet数とfollowの削除

• 入次数1000から2000のノード

tweetが多すぎるとfollowが減る

ユーザアクティビティとfollow

• 入次数が多いノードに関して関係あり?

Retweetとfollow

Tweetとunfollow

• 本当に関係があるかはわからない

時系列でみてみる

時系列での比較

• ユーザA(𝑑𝑖𝑛 = 266,842)

Retweetが増加した後followが増加

時系列での比較

• ユーザA(𝑑𝑖𝑛 = 218,045)

Retweetが増加してもfollowは増加しない

時系列での比較

• ユーザA(𝑑𝑖𝑛 = 112,988)

Retweetがなくてもfollowは増減

時系列での比較

• Retweetが増加した後にfollowが増加する事がある

• Retweetが増加した後常にfollowが増加するわけではない

• Retweetがなくてもfollowの増減はある

どんなRetweetがfollowは増加につながる?

変化後のネットワークの構造は?

Present work

• Information causes bursts in network

evolution

• Bursts of edge creations and deletions

• Modeling and predicting bursts

ノードのego-network

• あるノードをfollowしているノードのネットワーク

• Follow(Unfollow)バーストの前後でego-

networkが変化する?

Tweet similarity

• 2ノード間のtweet similarityをTF-IDFで定義

• 𝑡𝑓𝑖𝑑𝑓 = 𝑡𝑓 ∙ 𝑖𝑑𝑓

𝑡𝑓:単語の出現頻度

𝑖𝑑𝑓:逆文書頻度

Follower Tweet Similarity

• Tweet元ノードとfollowerのtweet similarity

Tweet-unfollow retweet-follow

Follower Tweet Coherence

• Tweet元ノードのfollower間のtweet similarity

Tweet-unfollow retweet-follow

ノード間類似度

• Follow, unfollow burst発生後

Retweet及びtweet元とfollowユーザの類似度が増加

Followユーザ間の類似度も増加

Ego-network全体の類似度が増加

Weakly connected components

• Ego-networkのコンポーネントの比

Tweet-unfollow retweet-follow

Edge density

• Ego-networkのリンク密度

Tweet-unfollow retweet-follow

ネットワークの性質

• Follow, unfollow burst発生後

• コンポーネント数の増加

新しいコミュニティからの参入が予想される

• リンク密度の増加

Followerがお互いにfollowし合う

これが類似度の上昇になっている

Follow burstを引き起こすtweet

• どのような場合にfollow burstが起きる?

• トークン:10回以上使われた単語

• 全てのトークンがretweet burstに含まれるが,全てがfollow burstを引き起こしてない

• あるトークン𝑡𝑜𝑘𝑖がfollow burstを引き起こす確率

事例

• “Occupy Wall Street”

movement

収入不平等に対する活動

• 少なくとも16個のトークンが活動に関わっている

事例

• “officer”を含むtweetはかなりfollowバーストをおこしやすい

• Followバーストを起こしやすいtokenが存在する

Present work

• Information causes bursts in network

evolution

• Bursts of edge creations and deletions

• Modeling and predicting bursts

Followバーストのモデリング

• Retweet burstの元tweetからfollow burstが起きるかどうかを予測する

• 2-hop neighborhoodだけを考える

Followの追加先の平均パス長は2.036

followバーストのアイディア

• より興味の近いノードを発見する事で起きる

Follow burst後に類似度が上がる

• 普段retweetしないノードがretweetすると発生

普段目に届かない

Tweet similarityのモデル化

• いくつかのユーザのtweet similarityの分布

おおむね正規分布

Tweet similarityのモデル化

• 𝑌𝑖𝑗:iのfollowerの類似度の平均と比べたjの

類似度

• 𝑆 𝑖, 𝑗 :iとjの類似度

Follow確率

• 𝑃𝑗,𝑖 = 𝑃 𝑗 𝑓𝑜𝑙𝑙𝑜𝑤 𝑖 𝑌𝑖𝑗)

≡ 𝐶 ∙ exp 𝛼 ∙ 𝑌𝑖𝑗

= 𝐶 ∙ exp𝛼

𝜎𝑖∙ 𝑙𝑛 𝑆 𝑖, 𝑗 − 𝜇𝑖

= 𝐶 ∙exp(𝑙𝑛 𝑆 𝑖, 𝑗 )

exp(𝜇𝑖)

𝛼𝜎𝑗

= 𝐶 ∙𝑆(𝑖, 𝑗)

exp(𝜇𝑖)

𝛼𝜎𝑗

Cと𝛼の最適化

• 実データとフィッティング

Follow burstの確率

• 新規followの期待値: 𝑗∈𝑁2(𝑖) 𝑃𝑗,𝑖

• Follow burstはそれまで知らなかったノードをretweetによって知る

𝑁𝑅𝑇(𝑖, [𝑡, 𝑡 + ∆𝑡)):区間[𝑡, 𝑡 + ∆𝑡)の間にfollowしている誰かがiのtweetをretweetしたノード集合

実験

• Retweetバーストデータ:400,000

内21%がfollowバースト

• followバースト確率を使ってランク付け

• Precision-recall曲線のAUCで評価

結果

既存手法より優れている

まとめ

• Retweetとfollowの関係を分析

retweetバーストが起こると,followバーストが起こる事がある

• Followバースト後のネットワークの特性を分析

Followバースト後にはユーザの類似度が増加

• Followバーストのモデル化

Retweetからfollowバーストの発生を高精度で推定

意見

• Follow burstを起こしやすいtokenがある

うん・・・

どういうtokenがburstしやすいっていうのは言えるんだろうか・・・ってか言ってどうするんだろう・・

• このモデルは一体何につかうんだろうか・・・

Retweetに対して広がった結果を使ってるから予測は無理

シミュレーションとかに使うってことなのかなぁ..

Recommended