SmartNews の Webmining を支えるプラットフォーム

SmartNews の Webmining を支えるプラットフォーム

第48回データマイニング+WEB ＠東京( #TokyoWebmining 48th ) ーAWS上での分析基盤アーキテクチャ最前線祭りー

西岡悠平 (スマートニュース株式会社)

マネージャデータサイエンス・マシンラーニング担当スマートニュース

● 2003年京都大学大学院情報学研究科複雑系科学コース修了。

● ネットワーク機器メーカーに入社、 2005年上半期の未踏ソフトウェア創造事業

「スーパークリエータ」に認定される。

● その後、株式会社四次元データ Web技術研究部を経て、2008年に楽天株式会社に入社。レ

コメンデーションエンジンをはじめとした先端技術の研究開発をリードする。

● 2014年9月にスマートニュース社入社。

西岡悠平

アイスブレイク

後ほど、アップロード

1. Overview

2. News Engine

a. History & Overview

b. Inside News Engine

3. News Engine + Analytics

Agenda

Overview

SmartNews　の紹介

Engineer Scientist

http://aws.amazon.com/jp/solutions/case-studies/smartnews/

today's main topic

today's sub topic

News Engine

News EngineHistory and Overview

スタートアップあるある

創業者が偉大すぎる

Crowsnest

[Ref]SmartNews Compass Keynote Sessionhttp://about.smartnews.com/ja/compass_2014/

News Engine History● 2011.5 - Crowsnest release

● 2012.12 - SmartNews release

● 2013 - 2014 ... fork して改善し続けたが○ Crowsnest 部分、辛い部分も増えてきて、アーキテクチャ刷新したかった・・・。

たぶん、どの会社もたどる道・・・。

● 2015.3○ SmartNews News Office で初めて Tokyo WebMining ！○ 自分も参加。Tokyo Web運営者でもある小宮氏 (SmartNews)から「発表しろ」プレッシャー。○ 発表を決める (刷新を決める )。発表に間に合うように、アーキテクチャの刷新を始める。

● 2015.4 - 7 Platform 刷新

● 2015.8.1 今日

CrowsnestSmartNews APIアプリ

Before After

Monolithic Microservices

DevelopOriginal Database & Queue

Use Manged Servicesas much as possilble

DynamoDB CloudSearch Kinesis

Seasar Spring Boot

[告知]Seasar Conference 20152015年9月26日(土)

● Great Eco System● Microservices Friendly

API ( Swagger UI )

(ref) http://petstore.swagger.io 22

アルゴリズムの改善

プラットフォームの面倒

アルゴリズムにまつわる話( deploy や test )

アルゴリズムの改善

Managed Service

プラットフォームの面倒

アルゴリズムにまつわる話

Before After

News EngineInside News Engine

ArticleAnalysis

Scorer

News Ranking

News Engine System Overview

metadata

score(a)

(d) (e)

DataImporter

(f) (g)

Crawler

external signals

internal signals

article inventory article index

(a)Crawler

● マナーを守って

● 秘伝のタレがギッシリ○ (例) robots.txt で OutOfMemory Error

(b)Article Analysis

HTML Article Analysis

Metadata(Structured Data)

pipeline process- title- content- thumbnail- category- (person)- (location)

● Natural Language Processing

● Machine Learning

● Apache UIMA vs. Original Framework

(b)Article Analysis - Classification

Globally Scalable Web Document Classification Using Word2Vechttp://www.slideshare.net/kouheinakaji/smart-news-documentclassification?qid=c9b6df62-1fdd-4bf8-9543-bff0fba92dac&v=default&b=&from_search=2

(c)Scorer

ScoreTop-N

in CloudSearch

Ranking Process

スコアリングの詳細は極秘

internal signals

exnternal signals

(d) article inventoryURL

metadata

features for score

{a: 3, b:4....}

良いところ● scalable● stable● JSON で複雑なデータ構造を扱える● 要素の中身を atomic に変更可能

出来ないこと● 高度な検索

(e) DynamoDB から CloudSearch へ

TransformerFilterFilterTransformerFilterTransformerCosumer Uploader

byte stream JSON Objectfor DynamoDB

JSON Object for CloudSearch SDF format

DataImporterService

DocuentConverterService

IRecordProcessr called by Worker

(f) CloudSearch - Basic

... ...

Filter Sortby score function top-n

High Score

Low Score

(f) CloudSearch - score functionExamples

● relevence x popularity : (0.3*popularity)+(0.7*_score)

● decay : pow(e, _time - created)

(例) http://www.slideshare.net/AmazonWebServices/enrich-search-user-experience-using-amazon-cloudsearch-svc302-aws-reinvent-2013

(f) CloudSearch - personalization

feature.1 feature.2 ... feature.n

doc.1 0.8 0.7 ... 0.3

doc.2 0.2 0.6 ... 0.7

... ... ... ... ...

doc.n 0.4 0.5 ... 0.3

= { feature.1 : 0.6, feature.2, ... feature.n : 0.7}

[exression] user_feature_1 x doc_feature_1 + user_feature_2 x doc_feature_2 .. + user_feaure_n xdoc_feature_n

e.g. ) 0.6 x 0.8 + 0.2 X 0.7 + ... + 0.7 x 0.3

(f) CloudSearch 残念なこと

(1) partial update が出来ない

(2) instance 数の変更時の挙動

(3) Solr のプラグイン( dedupe 処理など ) 使えない

(g) News Ranking API● top-n に対して

○ より詳細な scoring ■ ( CloudSearch の score, その他の要素)

○ Diversification○ Context

image similarity

Engine + Analytics

News Engine

Analytics

improve

ad-hocanalysis

reporting

Presto Hive Spark

Hive MetaStore

Data in S3 (RCfile, JSONー2012年からのログ)

SparkSQL/MLlibSmartNews UDF, UDAF(user defined function)Chartio / Shib

ad-hocanalysis reporting pre-process model

creationrealtimeanalysis

StreamingData

news engine

Azkaban

SparkHive Spark

Spark MLlib

● Collaborative filtering○ ALS (Alternating Least Squares)

Pre Processon Hive SpakSQLData

in S3 RDD ALS MLlibon Spark

Apache Spark on EMRhttp://www.slideshare.net/smartnews/aws-meetupapache-spark-on-emr

Spark Straeming for News Engine

Signals Scorer

Kinesis

Advanced Scorer

● Spark 1.3 は厳しい● Spark 1.4 からが良い

Summary

良質な情報を届けるために

● プラットフォームを進化させている

● より良質な情報を探すアルゴリズム開発に集中できるようになってきている

人材募集

こんなプラットフォームの上で、

ガツガツとアルゴリズムを作りたい人!

もちろんプラットフォームを進化させる人も!

SmartNews の Webmining を支えるプラットフォーム

Engineering

Spring で実現する SmartNews のニュース配信基盤

20130727 cv machine_learning@tokyo webmining

SmartNews Improves Its Security Posture and Decreases ... · SmatNws Akamai Case Study 3 SmartNews Improves Its Security Posture and Decreases Network Downtime with Akamai Enterprise

Stream Processing in SmartNews #jawsdays

動画配信プラットフォームOn AWS

Twitter、Facebook、Instagram、SmartNewsアプリからご覧 ......Twitter、Facebook、Instagram、SmartNewsなどのアプリ内から、Today's Style診断サイトのトップ画

Tokyo webmining統計学部第2回

Tokyo Webmining Talk1

Webmining Survey

Tokyo webmining資料LT20140726用

Unity講座資料３dプラットフォームgame

SmartNews TechNight vol5 SmartNews Ads大図解

Apache cassandraと apache sparkで作るデータ解析プラットフォーム

20160708 データ処理のプラットフォームとしてのpython 札幌

Webmining ppt

SpringOne Platform 2016 報告会「A Lite Rx API for the JVM」/ 井口貝 @ SmartNews, Inc

【20 g-4】ここまでできる！開発プラットフォームとしてのkintone　#devsumi2015

NLP in SmartNews

Suicide ideation of individuals in online social networks tokyo webmining

行政と市民によるオープンデータ共創支援プラットフォーム LinkData.org