35
by 実実実 ! 実実実実 × 実実実実 実実実 実実実実実実実実実実実 x 実実実実 Meetup

実践的! 人工知能X機械学習 〜iettyの場合〜

Embed Size (px)

Citation preview

Page 1: 実践的! 人工知能X機械学習 〜iettyの場合〜

by

実践的 ! 人工知能 × 機械学習

   の場合

今日から始める人工知能 x 機械学習 Meetup

Page 2: 実践的! 人工知能X機械学習 〜iettyの場合〜

2

自己紹介 • 大浜 毅美 ( おおはま たけみ )– 1973 年生まれ。東京都出身、つくば育ち。中央区佃在住

• お部屋探されサイト     開発責任者 技術本部長– 2016 年 4 月に JOIN 。やっと三ヶ月が過ぎたところ。

• これまでの経歴– 日経リサーチ

• システム開発部、集計解析部、情報技術室を経て研究開発部リーダー– アンケートシステム開発、 Blog 分析の事業立ち上げ

» Blog 分析システム構築で初めて SVM と Bayesian network に触れる– Yahoo! Japan

• 要素技術開発部 企画– Y!J 研究所のプランナとして、自然言語処理、顔認識あたりを担当

– GROUPON Japan• ビジネスインテリジェンス部 マネージャー

– 売上予測モデル、ユーザクラスタリング等を手掛ける

– マーケティングアプリケーションズ• 執行役員 CTO

– アンケートシステムと市場調査会社向けシステムの開発

• 学術領域– 社会心理学、心理統計法専攻

• 学生の頃は多変量解析 &SEM をやりこむ。• 人工知能学会、行動軽量学会所属

Page 3: 実践的! 人工知能X機械学習 〜iettyの場合〜

3

チャットで話しながらお部屋が決められる

サービス紹介

Page 4: 実践的! 人工知能X機械学習 〜iettyの場合〜

4

「徒歩 0 秒の不動産屋さん」オンラインで不動産賃貸の店舗と同じサービスを受けられる

「お部屋探されサイト」膨大な情報を検索して探すのではなく、アドバイザーが探して提案利用者は提案された物件に「気になる」か「内見する」をクリックするだけ

「チャットでいつでもプロに相談」10 時~ 23 時まで、アドバイザーが質問に対応

サービスの特徴

Page 5: 実践的! 人工知能X機械学習 〜iettyの場合〜

5

今日の想定参加者

大学で統計やったけど、しばらく離れている方

手元にデータはあるけどやり方が分からない方

興味はあるけど、手元にデータが無い業界の方

Page 6: 実践的! 人工知能X機械学習 〜iettyの場合〜

6

実践的 ! 人工知能 × 機械学習

    の場合

Page 7: 実践的! 人工知能X機械学習 〜iettyの場合〜

7

の前に、

私たちはなぜ、「不動産 xIT 」に人工知能を持ち込もうとしているのか

Page 8: 実践的! 人工知能X機械学習 〜iettyの場合〜

8

通販アマゾンで(ほぼ)買えない 10 のもの

銃器 アルコール

不動産 ペット

自動車 ガソリン

宝くじ たばこ

度付きメガネ 中古衣料

2013 年 8 月

http://jp.wsj.com/articles/SB10001424127887323779204579042021326405900

Page 9: 実践的! 人工知能X機械学習 〜iettyの場合〜

9

銃器 アルコール

不動産 ペット

自動車 ガソリン

宝くじ たばこ

度付きメガネ 中古衣料

2016 年 7 月

アマゾンで買えるようになったもの

Page 10: 実践的! 人工知能X機械学習 〜iettyの場合〜

10

「不動産」は Amazon でも、まだ売ってない。

楽天でも売ってないヤフオクだと、競売物件だけは売ってる

Page 11: 実践的! 人工知能X機械学習 〜iettyの場合〜

高すぎてポチれない売買だと数千万、賃貸でも 2 年契約で最低 6万×24 か月 =144万円1ページの物件情報だけでは怖くて買えない

規制が強い「宅建業法」で対面での重要事項説明が義務付けられている

検索、レコメンデーションといった重要要素技術が未発達不動産特有の困難さがあり、他の商品の手法を転用できない

11

なぜ、 EC で不動産は売ってないのか

Page 12: 実践的! 人工知能X機械学習 〜iettyの場合〜

お買い上げは通常お一人様おひとつのみ投資用を除けば、一世帯で一軒だけ。

在庫は常に一つきり同じ立地、部屋番の商品はひとつしか無い契約されたらしばらく再販できない

商品点数は世帯の数と同数以上全商品、属性・特徴が全く異なる

12

不動産物件検索・レコメンデーションの課題

画像引用元 : Hadoop でレコメンドシステムを作ろうhttp://gihyo.jp/dev/serial/01/recommend_hadoop/0006

書籍の購買履歴

商品詳細ページの作成単価がとても高い重要な属性を掲載しきれない購買ベースの共起・相関が測定できない

不動産の購買履歴

恵比寿 12万

月島 20万

広尾 8万

恵比寿 20万

豊洲 12万

高井戸 7万

Page 13: 実践的! 人工知能X機械学習 〜iettyの場合〜

集客だけの IT化検索、一覧表示、詳細表示可能なサイトは存在する

SUUMO, HOME’S, …ただし、「購入する」ボタンは存在しない

「資料請求する」ボタン

詳細情報の提供・内見は電話とメールと店舗「資料請求する」と電話がかかってくる「ある呼び」の横行「資料」は紙と FAX

店舗での「接客」詳しい情報は店舗に行ってから、口頭でユーザと物件のマッチングは営業の勘と経験頼み最後は「内見」で自身で現物を見て購買 (契約 )へ

13

結果として : 不動産業界の現状

膨大な物件情報(全部紙 )

http://www.document.suzuyo.co.jp/toranomaki/?p=762画像引用元 : 不動産賃貸の文書管理

Page 14: 実践的! 人工知能X機械学習 〜iettyの場合〜

14

不動産が遅れてるのは分かった。

でもそれって、不動産だけの話し?

Page 15: 実践的! 人工知能X機械学習 〜iettyの場合〜

15

マクロ視点での考察

A 農業 ,林業 J 金融業 ,保険業B 漁業 K 不動産業 ,物品賃貸業C 鉱業 .採石業 ,砂利採取業 L 学術研究 , 専門・技術サービス業

D 建設業 M 宿泊業 ,飲食店E 製造業 N 生活関連サービス業,娯楽業

F 電気・ガス・熱供給・水道業 O 教育学習支援業

G 情報通信業 P 医療、福祉

H 運輸業 ,郵便業 Q 複合サービス事業

I 卸売業・小売業 R サービス業(他に分類されないもの)

日本標準産業分類 既にだいぶ入り込んでいる。 これから。

もうちょっとかかる。今、熱い。 (AirBnB, Uber)

FinTech, HealthTech, EduTech などの流れ同様、不動産 xIT は、「今」始まったばかり。

Page 16: 実践的! 人工知能X機械学習 〜iettyの場合〜

16

私たちはなぜ、「不動産 xIT 」に人工知能を持ち込もうと

しているのか

従来のやり方では IT化できそうにないから。

Page 17: 実践的! 人工知能X機械学習 〜iettyの場合〜

17

の場合

実践的 ! 人工知能 × 機械学習ietty の場合

Page 18: 実践的! 人工知能X機械学習 〜iettyの場合〜

18

「引っ越し先の希望条件」を登録する (10項目程度 )

日々、人工知能や人間 ( アドバイザ ) が選んだ物件情報が送られてくる。

気に入った物件があれば「内見する」を  クリックする

実際に部屋の下見 & 賃貸契約ができる

の使い方

ココ !

人工知能の

Page 19: 実践的! 人工知能X機械学習 〜iettyの場合〜

19

   では、既に人工知能がビジネスの根底で使われています。

Page 20: 実践的! 人工知能X機械学習 〜iettyの場合〜

20

自動物件提案のしくみ

恵比寿 12万

月島 20万

広尾 8万

恵比寿 20万

豊洲 12万

高井戸 7万

ユーザ

不動産 DB

ろぼってぃくん

恵比寿

10万2LDK

成城8万

1R

白金

3LDK

50万

ユーザが希望条件を登録

ユーザの代わりに毎日検索

結果を送信

一見、普通の検索と変わらないように見えますが、

Page 21: 実践的! 人工知能X機械学習 〜iettyの場合〜

21

白金で、 3LDK で、家賃 6万ぐらい

がいいなあ…

ンナモンアルカ -

と、つっこみはしませんが、お客様は大体、住む家に関しては最初大きな夢を見ています。

希望イメージの厳しい検索条件を緩和しつつ、納得感のある物件を提案する高難易度ミッション

よくある例

Page 22: 実践的! 人工知能X機械学習 〜iettyの場合〜

22

まず、ユーザの「希望条件」どおりで物件をマッチングするここは通常の検索ロジックとあまり変わらない。SQL で書けるレベルただし、家賃だけは「希望より下回る」ものについては気にせず提案している大抵の場合は、これだけではすぐ紹介できる物件が足りなくなる

「希望条件」の緩和を行いつつ、マッチする物件を探索する築年数、駅徒歩、広さ、設備、、、希望駅から路線を探索し、近隣の駅を紹介する場合も

ある程度まで条件を広げても無ければ重要項目以外すべて外して探索「家賃」と「希望駅」周辺 3駅まで、という以外の条件をすべてはずしてマッチングそれでもなければチャットに「条件に沿う物件がありませんでした」として、手動提案に切り替える

自動物件提案の詳細

人工知能活躍の場 !!

分類的には、ルールベースの人工知能

Page 23: 実践的! 人工知能X機械学習 〜iettyの場合〜

23

つまり、現在使われているのは「弱い AI 」

ここをいかに強化していくかを日々研究中 !

Page 24: 実践的! 人工知能X機械学習 〜iettyの場合〜

24

購買 ( 賃貸契約 ) データ通常、不動産の購買行動は一人あたり数年に 1度程度しか発生しない不動産ではほぼ利用不可能

人間による物件提案データ不動産営業員 ( アドバイザ ) による提案データ蓄積されれば、人工知能のための学習データとして利用可能

提案された物件に対するユーザ評価データ提案に対しての「気になる」「内見したい」等のユーザフィードバック評価は強制ではないため、広大なスパースデータ (疎データ )

物件の属性データ住所、最寄り駅、家賃、間取り、設備、内装等

ユーザの属性データ性別、ライフステージ、家族構成、希望物件のイメージ等

「物件提案 (レコメンデーション ) 」のためのデータ

Page 25: 実践的! 人工知能X機械学習 〜iettyの場合〜

25

コンテンツベース・フィルタリングが可能に

ユーザと物件のマッチング : アイデア 1

物件に属性データに基づくクラスタリング (教師なし学習 ) を適用

恵比寿

日比谷線

有楽町線

20万

7-8万

恵比寿 12万

月島 20万

広尾 8万

恵比寿 20万

豊洲 12万

高井戸 7万

恵比寿 12万

月島 20万

広尾 8万

恵比寿 20万

豊洲 12万

高井戸 7万

ユーザ評価データだけではマッチング困難だが…

Page 26: 実践的! 人工知能X機械学習 〜iettyの場合〜

26

クラスタリング協調フィルタリング

ユーザと物件のマッチング : アイデア 2物件とユーザの双方に属性ベースのクラスタリングを実施

適切なクラスタを作成することで、さらに協調フィルタリングが利用可能に

恵比寿

日比谷線

有楽町線

20万

7-8万

恵比寿 12万

月島 20万

広尾 8万

恵比寿 20万

豊洲 12万

高井戸 7万

男性 20代

女性 20代

転職

ハイクラス

男性 30代

Page 27: 実践的! 人工知能X機械学習 〜iettyの場合〜

27ハイブリッド・クラスタリングによる協調フィルタリング

ユーザと物件のマッチング : アイデア 3ユーザ評価データをクラスタリングに利用し、その結果をフィルタリングに利用する

1度目のクラスタリングでシミュレーションを行い、ユーザ x 物件の評価データを作りなおす

2度目のクラスタリングで、より精度の高いユーザ潜在クラスタと物件潜在クラスタを作成

恵比寿

日比谷線

有楽町線

20万

7-8万

恵比寿 12万

月島 20万

広尾 8万

恵比寿 20万

豊洲 12万

高井戸 7万

男性 20代

女性 20代

転職

ハイクラス

男性 30代

潜在クラス A

潜在クラス C

潜在クラス B

潜在クラス E

潜在クラス D

潜在クラス A

潜在クラス C

潜在クラス B

潜在クラス D

ユーザー潜在クラスタ物件潜在クラスタ

Page 28: 実践的! 人工知能X機械学習 〜iettyの場合〜

バリエーションデータを評価データではなく、手動提案データに変えてみる

クラスタリングを SOM(自己組織化マップ)等に変えてみる。またはカーネル多変量解析を利用して非線形でやってみる

属性に主成分分析や因子分析を行い、情報圧縮してからクラスタリングを行う

試行錯誤してます。

Page 29: 実践的! 人工知能X機械学習 〜iettyの場合〜

29

物件提案の現状とある期間の物件提案に対する評価 (延べ 10万人換算*)

提案受信ユーザ累計 100,000  

 自動提案受信ユーザ数 99,499  

  自動提案評価ユーザ 953 0.96%

  自動提案 [ 内見する ] ユーザ 68 0.07%

 手動提案受信ユーザ数 936  

 手動提案評価ユーザ 221 23.58%

  手動提案 [ 内見する ] ユーザ 40 4.28%

手動提案は引っ越し確度の高いユーザや自動では提案の難しいユーザのみ対応

守備範囲が異なるため単純比較はできないが、まだまだ人間の方が精度が高い

「アドバイザの精度の高い接客と人工知能のカバレッジの広い対応」の 2 つを上手く組み合わせたサービスが重要

*傾向をつかむためのイメージです。実測値とは異なります。

Page 30: 実践的! 人工知能X機械学習 〜iettyの場合〜

30

新手法、実験準備中 !

でも、どれが良いかどうやって調べる?

Page 31: 実践的! 人工知能X機械学習 〜iettyの場合〜

31

分割法 (ホールドアウト法 )手持ちのデータを 2 つに分割 (可能なら時系列で ) 。片方のデータでモデル作成を行い、もう片方のデータでどの程度当たるか検証する。

K-hold交差法 (Cross-Validation, K-hold)データを K個に分割し、そのうち 1 つを検証用に残し、それ以外 (K-1) をモデル作成に用いる上記を K回繰り返し、平均して指標とする。

ROC曲線と AUCROC: モデルからの推定値 ( 量的変数 ) と正解データ (2値 ) から、

  真陽性 ( ちゃんと当たった ) と偽陽性 ( 不正解のものを正解と  間違えている ) の割合をプロットしたもの

AUC: ROC の線の下側の面積を求めたもの。   1 なら完璧、 0.5 なら無関係 ( ランダム )

学術での効果測定

https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF

Page 32: 実践的! 人工知能X機械学習 〜iettyの場合〜

32

プロフェッショナルによる評価 !「不動産のプロ」に見てもらい、直観とあっているかどうかチェックこの段階でだめなら、すぐやり直し。

実戦投入 !!出来上がって、良さそうならまずはリリース

従来型より悪そうならすぐやめる

A/B テスト !!!同時に複数のモデルをユーザを変えて稼働させるユーザ ID が偶数番なら従来型、奇数番なら新型、など1週間ぐらいやって、結果を比較して良いほうを全体にリリース

ベンチャー企業での効果測定

いいからさっさと入れとけ !

Page 33: 実践的! 人工知能X機械学習 〜iettyの場合〜

33

ベンチャー企業で人工知能に取り組むメリット

必要なデータが常に入手可能足りないデータがあれば、自分でコード書いて足せばよい。

すぐに実践投入し、確実な効果測定ができる今より悪くはならない、という信念をもって。

その成果が直接利益を生む失敗=損失、という緊張感とともに。

Page 34: 実践的! 人工知能X機械学習 〜iettyの場合〜

34

人手が足りません !クリーニングから考察まで、全部ひとりです

何でもできるデータサイエンティストになれます。興味がある方、ぜひ一緒にやりましょう!

ベンチャー企業で人工知能に取り組む デ メリット

Page 35: 実践的! 人工知能X機械学習 〜iettyの場合〜

ご清聴、ありがとうございました!

▲宣伝▲ ここから ietty に登録すると仲介手数料半額でお引越しできます!