42
1 シシシシシシシシシシシシ シシシシシシシシシシシシシシシシシシシ 9 シシ TensorFlow シシシ シ 5 シ 06/19/2022 Singularity Copyright 2016 Singularity Inc. All rights reserved Singularity シシシシ シシシシシ シシ シシ

賢くなる自動フィードアグリゲータの制作 9月号

Embed Size (px)

Citation preview

Page 1: 賢くなる自動フィードアグリゲータの制作 9月号

1 05/03/2023

シンギュラリティ株式会社

賢くなる自動フィードアグリゲータの制作 9月号

TensorFlow 勉強会 第 5 回

Singularity Copyright 2016 Singularity Inc. All rights reserved

Singularity 株式会社 代表取締役近藤 昭雄

Page 2: 賢くなる自動フィードアグリゲータの制作 9月号

2 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

自己紹介

Page 3: 賢くなる自動フィードアグリゲータの制作 9月号

3 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

居酒屋出身の組み込みエンジニア

Page 4: 賢くなる自動フィードアグリゲータの制作 9月号

4 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Android の SDK がリリースされてから人生が変わった

Page 5: 賢くなる自動フィードアグリゲータの制作 9月号

5 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Android SDKが発表された当日にAndroid情報まとめ wiki開設

Page 6: 賢くなる自動フィードアグリゲータの制作 9月号

6 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

2008/02/05Armadillo-500に Androidをポーティング、

Youtubeにビデオ公開

Page 7: 賢くなる自動フィードアグリゲータの制作 9月号

7 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

2009/12/01開発に携わった Androidアプリスポットメッセージ」が ADC2のソーシャル部門で入賞

Page 8: 賢くなる自動フィードアグリゲータの制作 9月号

8 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

2010年Android温泉グループ創設、

Androidなんとか部をいっぱい作る

Page 9: 賢くなる自動フィードアグリゲータの制作 9月号

9 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Androidなんとか部

Page 10: 賢くなる自動フィードアグリゲータの制作 9月号

10 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

2010/09/04執筆、取りまとめをした

「 Android Hacks」がオライリー社より出版

Page 11: 賢くなる自動フィードアグリゲータの制作 9月号

11 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

2016/07/15「死ぬ前に後悔したくない」

Singularity株式会社設立

Page 12: 賢くなる自動フィードアグリゲータの制作 9月号

12 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

本題

Page 13: 賢くなる自動フィードアグリゲータの制作 9月号

13

概要 動機 賢くなる自動フィードアグリゲータとは 要素技術

トピックモデル LDA Word2Vec 、 Doc2Vec RSS Slack スマホアプリ

実装 今後の展望

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 14: 賢くなる自動フィードアグリゲータの制作 9月号

14

動機

最近、情報収集が面倒になってきてませんか?

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 15: 賢くなる自動フィードアグリゲータの制作 9月号

15

動機• 以前の情報収集方法

• Yahoo Pipes があった

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 16: 賢くなる自動フィードアグリゲータの制作 9月号

16

動機• 現在の (個人的な )情報収集方法

• はてブニュース• RSS に全文がない

• Google Alert• SNS(Twitter 、 Facebook)• 某巨大掲示板とても面倒な上に情報キャッチまでがとても遅い!新しい情報はすぐに知りたい!

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 17: 賢くなる自動フィードアグリゲータの制作 9月号

17

動機• そもそもネット上の情報量が増えた

      http://www.nikkei.com/article/DGXNASDD070EU_X00C13A6TJ0000/

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 18: 賢くなる自動フィードアグリゲータの制作 9月号

18

動機• そもそもネット上の情報量が増えた

       喜連川優「情報爆発のこれまでとこれから」 , 電子情報通信学会誌 ,Vol.94,No8,2011

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 19: 賢くなる自動フィードアグリゲータの制作 9月号

19

動機• そもそもネット上の情報量が増えた

• 2012 年の調査では 2012 年に作成および複製されるデータは 2.8 ゼッタバイトに達する• 5 エクサバイト

• 今まで人間によって話されたすべての言葉• 175 エクサバイト

• 2010 年の 1 年間にインターネットに流れたデータの量※http://www.amy.hi-ho.ne.jp/kido/howmuchinfo.htm

       喜連川優「情報爆発のこれまでとこれから」 , 電子情報通信学会誌 ,Vol.94,No8,2011

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 20: 賢くなる自動フィードアグリゲータの制作 9月号

20

動機

自分だけで情報をフィルタするのはもはや限界!!!

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 21: 賢くなる自動フィードアグリゲータの制作 9月号

21

動機• 巡回するだけで1日が終わってしまう• 自動で巡回して欲しい情報を勝手にピックアップしてプッシュ通知して欲しい• 読んだ後に評価 (いいね!、イマイチ )をして、ピックアップする記事を学習して質を高めて欲しい

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 22: 賢くなる自動フィードアグリゲータの制作 9月号

22

動機• もう SmartNewsとが Gunosyがあるやん?

• 欲しい情報だけは取れない• ジャンルも多くて見るの大変• 自分が欲しいキーワードの最新情報は取れない

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 23: 賢くなる自動フィードアグリゲータの制作 9月号

23

動機• Googleのニュースアプリでキーワード設定できるよ

• 一致する単語が出てこないと引っかからない• おそらく Google Alert と同じ実装

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 24: 賢くなる自動フィードアグリゲータの制作 9月号

24

動機• そのものズバリのキーワードが入った記事だけじゃなくて、好みを学習して関連語も拾って欲しい

• 例)「 Singularity 」のキーワードを設定すると「人工知能」「 AI 」「 AGI 」「汎用人工知能」「ナノテク」「不老不死」「サイボーグ」「ロボット」「攻殻機動隊」 とかも拾ってきたり。05/03/2023

Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 25: 賢くなる自動フィードアグリゲータの制作 9月号

25

動機

何故か世の中にまだ存在しない (公開されていない? )

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 26: 賢くなる自動フィードアグリゲータの制作 9月号

26

動機

「未来を予測する最善の方法は、それを発明してしまうことだ」

By. Alan Curtis Kay

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 27: 賢くなる自動フィードアグリゲータの制作 9月号

27

賢くなる自動フィードアグリゲータとは• キーワードと RSSフィード (複数 )を入力• 関連語も含めて記事を収集し RSSを生成• 新着記事をプッシュ通知

• アプリ、 Slack など• 読んだ記事の評価による学習

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 28: 賢くなる自動フィードアグリゲータの制作 9月号

28

要素技術• RSSの整形、生成、記事の全文の取得• 文書の分類、トピックの抽出• 文書の関連度を測定• Push通知• 学習

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 29: 賢くなる自動フィードアグリゲータの制作 9月号

29

要素技術• トピックモデル

• 文書集合からトピックを抽出、推定する

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

岩田具治 著「トピックモデル」より

Page 30: 賢くなる自動フィードアグリゲータの制作 9月号

30

要素技術• LDA(Latent Dirichlet Allocation)

• 文書中の単語の「トピック」を確率的に求める言語モデル• 教師なしで文書のトピックを推定• 決めた分割数で文書を分類する

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 31: 賢くなる自動フィードアグリゲータの制作 9月号

31

要素技術• BoW(Bag Of Words)

• 文書の構造は考えずにひたすら単語をカウントする• 文書の特徴をベクトル化する

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

あの壺はいい物だあの 壺 は いい 物 だ

あの その あれ … 壺 … いい 悪い … 物1 0 0   1   1 0   1

Page 32: 賢くなる自動フィードアグリゲータの制作 9月号

32

要素技術• Word2Vec

• 文書中の単語の意味構造をベクトル化• 単語が類似度を算出可能

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 33: 賢くなる自動フィードアグリゲータの制作 9月号

33

要素技術• Doc2Vec

• 文書の類似度が算出可能

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 34: 賢くなる自動フィードアグリゲータの制作 9月号

34

要素技術• RSSの整形、生成、記事の全文の取得

• Plagger• 文書の分類、トピックの抽出• 文書の関連度を測定

• Word2Vec 、 Doc2Vec• Push通知

• 何とでもなる• 学習

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 35: 賢くなる自動フィードアグリゲータの制作 9月号

35

実装• RSSの整形、生成、記事の全文の取得

• Plagger• 「それ Plagger でできるよ」で一世風靡• RSS が存在しないサイトも RSS 化• 最近全然更新されていない• 環境構築だけでひと苦労• 最近の記事がほとんどない• perlbrew を使って何とか環境は構築できた

• そもそも RSS で全文吐いて欲しい!• 誰か扱いやすいもの知りませんか?

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 36: 賢くなる自動フィードアグリゲータの制作 9月号

36

実装• 文書の分類、トピックの抽出

• gensim• LDA も Word2Vec も比較的簡単に扱える• 試しに Wikipedia でコーパス作成• 英語 Wikipedia のデータだけで 13GB• データの前処理だけで3時間以上かかって中断 (昨日 :9/26 の夕方 )

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 37: 賢くなる自動フィードアグリゲータの制作 9月号

37

実装• 文書の分類、トピックの抽出

• トピックモデル、 BoW• RSS で取ってきたデータのカテゴリ分けを実験

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 38: 賢くなる自動フィードアグリゲータの制作 9月号

38

実装

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 39: 賢くなる自動フィードアグリゲータの制作 9月号

39

実装• RSSの整形、生成、記事の全文の取得• 文書の分類、トピックの抽出→イマココ

• トピックの関連度を測定• Push通知• 学習

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 40: 賢くなる自動フィードアグリゲータの制作 9月号

40

今後の展望• 俺得ローカルサービスから一般公開を目指す• 個人が育てて賢くなった RSSを他人も使えるようにする• 生成した RSSをさらに入力データにして、どんどん賢くする• カッコいい名前をつける• 次の開催までにはプロトタイプを

05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

Page 41: 賢くなる自動フィードアグリゲータの制作 9月号

41 05/03/2023Singularity Copyright 2016 Singularity Inc. All rights reserved

ご静聴ありがとうございました!

Page 42: 賢くなる自動フィードアグリゲータの制作 9月号

42

お問い合わせご興味のある企業・団体・個人様は、以下までお問い合わせくださ

い。

シンギュラリティ株式会社

http://snglrty.net東京都港区浜松町  2-7-15 三電舎ビル 6F

Tel 03-5425-2545代表取締役 近藤昭雄

E-mail: [email protected]/03/2023

Singularity Copyright 2016 Singularity Inc. All rights reserved