29
ササササBlog サササササ 2005 ササササササササ ササ ササ サ ササ ササ サ ササ ササ ササ ササ

サーベイ: Blog 研究の現在 2005

  • Upload
    murray

  • View
    50

  • Download
    4

Embed Size (px)

DESCRIPTION

サーベイ: Blog 研究の現在 2005. 国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也. サーベイの目的. Blog 研究の動向 Blog をテーマとする論文( 2003 年以降) CiteSeer : 22 件( Blogs ) 11 件( Blogging ) CiNii : 18 件 Blog 研究は「研究」か? 書籍・解説・講演論文が大多数を占める 査読付き論文がほとんどない 手段としての Blog 扱いやすいデータセットとして Blog が使われている. サーベイの目的. - PowerPoint PPT Presentation

Citation preview

Page 1: サーベイ: Blog 研究の現在  2005

サーベイ:Blog 研究の現在 2005

国立情報学研究所

大向 一輝協力

沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也

Page 2: サーベイ: Blog 研究の現在  2005

サーベイの目的

Blog 研究の動向 Blog をテーマとする論文( 2003 年以降)

CiteSeer : 22 件( Blogs ) 11 件( Blogging ) CiNii : 18 件

Blog 研究は「研究」か? 書籍・解説・講演論文が大多数を占める

査読付き論文がほとんどない 手段としての Blog

扱いやすいデータセットとして Blog が使われている

Page 3: サーベイ: Blog 研究の現在  2005

サーベイの目的

研究にとっての Blog の位置づけ, Blog にとっての研究の位置づけを明確にしたい 各研究者が Blog をどう見ているかを知る 今後の Blog 研究の方向性を議論する

話題提供 Microformats

Page 4: サーベイ: Blog 研究の現在  2005

サーベイ対象

WWW2005 Second Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics (2005.5) 発表件数: 10 http://www.blogpulse.com/www2005-workshop.html

第 19 回人工知能学会全国大会 (2005.6) 発表件数: 7 (総数 280 以上) http://www-kasm.nii.ac.jp/jsai2005/schedule/

WWW2005 Developers’ Day - Microformats http://tantek.com/presentations/2005/05/what-are-microformats

/ その他

Page 5: サーベイ: Blog 研究の現在  2005

Blog 研究のトレンド( 2004 )

Weblogging Ecosystem WS Keynote より Blog Census Information (ブログ国勢調査) Link Diffusion (リンク構造分析) Ethnography ・ Cultural Studies (民俗学とカルチュラ

ル・スタディーズ) クローリング戦略・カテゴライズ スパム防止

Page 6: サーベイ: Blog 研究の現在  2005

Weblogging Ecosystem 2004

How can we measure the influence of the blogosphere? Blog 検索の方法論

Automatic Collection and Monitoring of Japanese Weblogs Web 日記からのエントリー抽出

Implicit Structure and the Dynamic of Blogspace トピック・引用関係の時系列分析(パターンマッチング)

BlogPulse: Automated Trend Discovery for Weblogs 機械学習・ NLP によるトレンド分析

Personal Knowledge Publishing Suite with Weblog RSS ・ FOAF を用いた情報流通

Mapping the Blogospere in America Blogger を地図上にマッピング

Blogs as “Protected Space” インタビューによる Blogger の心理研究

Page 7: サーベイ: Blog 研究の現在  2005

Blog研究のトレンド( 2005)

時系列分析 リンク構造 個人とそのつながり メタデータ Blogger の行動分析

Page 8: サーベイ: Blog 研究の現在  2005

時系列分析

Blog のリアルタイム性を利用 「 Instant Messaging to the Web 」 [Quan04]

ある瞬間のホットトピックを抽出することが目的 キーワード抽出 Blogger (個人)抽出

Page 9: サーベイ: Blog 研究の現在  2005

時系列分析

Discovering Important Bloggers Based on a Blog Thread Analysis [Nakajima(NICT)]

引用関係・ TrackBack から Blog エントリーの時系列スレッド構造を抽出 スレッドの分析から Agitator ・ Summarizer として機能している書き手

を発見 リンク数・スレッド内エントリー数の変化率・トピックの内容変化

Page 10: サーベイ: Blog 研究の現在  2005

時系列分析

Analyzing concerns of people using Weblog articles and real world temporal data [Fukuhara(NICT)]

Blog のエントリに含まれる単語の時系列的出現パターンの分類 トピックに共起するサブトピックの変遷

Page 11: サーベイ: Blog 研究の現在  2005

時系列分析

Weblog に おける語の広がり方に基づいたキーワード抽出 [ 岡田 (東京理大 )] 語の出現頻度が上昇傾向であるもの=ホットトピック コメントがつきやすい語=ホットトピック

Differences between Blogs and Web Diaries [Fujiki(東工大 )] BlogWatcher (バースト)を利用したホットトピックの抽出 Blog ・ Web 日記をデータセットとした場合の比較

Page 12: サーベイ: Blog 研究の現在  2005

リンク構造分析

Blog環境に特化したネットワーク分析手法の導入 PageRank の限界

リンクスパム CMS による大量のリンク生成

情報提供者・評価者としての「個人」 個人を評価するアルゴリズム コミュニティ発見

Page 13: サーベイ: Blog 研究の現在  2005

リンク構造分析

Extracting Latent Weblog Communities: A Partitioning Algorithm for Bipartite Graphs [Ishida(東京農大 )] 引用元( Blog )と引用先を分離し, 2 分グラフを構築

ポータル向けにリンクが集中してしまう 大量のアフィリエイトリンクなどにより,巨大な 2 分グラフ

ができてしまう 関連性が最も弱い要素をつなぐパス( WP )を作成し,そのパス

の Betweenness を用いてクラスタリング

Page 14: サーベイ: Blog 研究の現在  2005

リンク構造分析

The EigenRumor Algorithm for Ranking Blogs [Fujimura(NTT)] Blog (個人が特定可能な世界)に適したランキング手法の提案

コンテンツ間リンクを「情報提供者 -コンテンツ」「情報評価者 -コンテンツ」リンクに分割

情報提供者としての評価・情報評価者としての評価・コンテンツの評価を固有ベクトル法で計算

Page 15: サーベイ: Blog 研究の現在  2005

個人とそのつながり

Blog は「個人」を代表する 複数のコンテンツをまとめる主体 読み手・書き手・編集者を兼ねる Blogger同士のつながり→ソーシャルネットワーク

個人の存在を考慮する手法には適用しやすい 協調フィルタリング アクセス制御

Page 16: サーベイ: Blog 研究の現在  2005

個人とそのつながり

blogger の嗜好を利用した協調フィルタリングによる Web 情報推薦システム [ 小原 ( 東京電大 )]

1Blog= 1ユーザとみなして協調フィルタリングを適用 ニュースへのリンクの有無から計算

コールドスタート問題を回避実世界の社会ネットワークに基づく情報共有システム [ 森 ( 東大 )] 抽出・構築された社会ネットワークを利用したアクセス制御

Page 17: サーベイ: Blog 研究の現在  2005

メタデータ

Blogツール=メタデータ生成器 標準的な RSS 以外のメタデータを付加したい アプリケーションとともに設計 例

位置情報 コンテキスト 実世界でのコミュニケーションイベント

Page 18: サーベイ: Blog 研究の現在  2005

メタデータ

Learning Contextualised Weblog Topics [Avesani(IRST)] Blog のエントリーをコンテキストごとに読みたい

例:分散型アマゾンレビュー 同一コンテキストをどのように判別するか Tag を利用しても表記のゆれが残る

ローカルコンテキストを利用したカテゴリ名マッチング Aさんの「 Blog 」と Bさんの「 Blogging 」を統一 Syntactic ・ Semantic ・ Inductive な手法が必要

Page 19: サーベイ: Blog 研究の現在  2005

メタデータ

GIS & Blogosphere [Hurst(Intelliseek)] Blog マイニングシステムと GISシステムをつなぐ Livejournal ・ Xanga から Blog を収集

ユーザが半手動で位置を登録 Livejournal : Given の地名セット Xanga : Metro ( Tag のようなもの)

地名のマッチング 曖昧性が高い(複数候補にマッチする)

Page 20: サーベイ: Blog 研究の現在  2005

メタデータ

タグ付けされた場所に基づいたコミュニケーション支援 [上松 (横国大 )] ランドマーク・地名の Folksonomy GPS携帯電話を用いることで絶対位置とのリンク付けActionLog[沼 ( 総研大 )] 実世界でのイベント情報メタデータ(タイトル・時刻)を利用したコ

ンテンツ作成支援

Page 21: サーベイ: Blog 研究の現在  2005

Blogger の行動分析

Blog がつくりだす人々の振るまいを分析 ミクロ分析 マクロ分析

Page 22: サーベイ: Blog 研究の現在  2005

Blogger の行動分析

Weblogネットワークの特徴とユーザの行動に関する分析 [ 古川 (東京理科大 )]

Blog 間の関係と,書き手の閲覧行動との相関 ブックマーク・コメント・ TrackBack ・定期的閲覧・内容的類似性

機械学習による決定木の作成 定期的に閲覧している Blogger がまた閲覧しているものは,自

分にとっても有用である 内容的類似性は大きな影響を与えない

Page 23: サーベイ: Blog 研究の現在  2005

Blogger の行動分析

The Political Blogosphere and the 2004 U.S. Election: Divided They Blog [Glance(Intelliseek)]

アメリカ大統領選における右派・左派の Blog の記事の傾向を分析 同派内リンクは多く,派を越えるリンクは少ない 同派内の記事の類似性は高く,派を越えると低い

Page 24: サーベイ: Blog 研究の現在  2005

Blog 研究の今後

ここまでのまとめ リアルタイム性

時系列分析 個人性・コミュニケーション性

リンク構造 個人とそのつながり

インフラストラクチャー メタデータ

結果としての人の振る舞い Blogger の行動分析

Blog は「情報を必要な人にできるだけ速く届けるためのメディア」 SNS ・その他ソーシャルウェアを含む

Page 25: サーベイ: Blog 研究の現在  2005

Blog 研究の今後

「情報を必要な人にできるだけ速く届けるためのメディア」の使用前・使用後 小さな Webではない

工学系:どうやって実現するか (メタ)データ アプリケーション

セマンティック Web の出番? 社会系:何が実現されたか

書き手のモダリティ・振る舞い 国際的な分析

Page 26: サーベイ: Blog 研究の現在  2005

Microformats

XHTML に付加するためのメタデータ・フレームワーク 「小文字のセマンティック Web 」の一種 例: XFN ( XHTML Friends Network )

<a href=http://i2k.example.org rel="friend met">

Microformats Family XFN hCalendar :カレンダー・イベント情報( iCalendar ) hCard :アドレス帳( vCard ) hReview :レビュー RelNoFollow :検索エンジンのリンク評価禁止

Page 27: サーベイ: Blog 研究の現在  2005

Microformats

用途ごとに仕様を決める XMDP : XHTML Metadata Profiles

語彙の説明 コンテンツ本体への埋め込み

ネームスペースのようなもの<head profile=“http://gmpg.org/xfn/11”>

メタデータ

<a href=http://i2k.example.org rel=“CC by-sa” rel=“nofollow”>

Page 28: サーベイ: Blog 研究の現在  2005

Microformats

Less Syntax XHTML タグのアトリビュートのみ class=“***” rel=“***”

Less Semantics エージェントによる概念の自動発見は不可能 そもそも既知の問題だけを対象としている

Application Dependent Microformats を認識できるアプリケーションがなければ意味がな

い(ただし害もない) セマンティック Webも同じ

セマンティック Webへの道 相互運用性があればなんとかなる リンクへの rel要素の付加は RDF のモデルと同じ? まずはメタデータの絶対量が増えることが重要

Page 29: サーベイ: Blog 研究の現在  2005

まとめ

Blog 研究の現在 2005 Web 研究 != Blog 研究 になりはじめてきた

コミュニケーションメディアとしての Blog 即時性 個人性 コミュニケーション・インタラクション

コミュニティを支えるメタデータ Microformats とセマンティック Web

恐れるに足らず(たぶん味方) UI ・ UE が引き起こすインパクトは侮れない

Continue to 「 Blog 研究の現在 2006 」…