Upload
takemiohama
View
902
Download
3
Embed Size (px)
Citation preview
by
実践的 ! 人工知能 × 機械学習
の場合
今日から始める人工知能 x 機械学習 Meetup
2
自己紹介 • 大浜 毅美 ( おおはま たけみ )– 1973 年生まれ。東京都出身、つくば育ち。中央区佃在住
• お部屋探されサイト 開発責任者 技術本部長– 2016 年 4 月に JOIN 。やっと三ヶ月が過ぎたところ。
• これまでの経歴– 日経リサーチ
• システム開発部、集計解析部、情報技術室を経て研究開発部リーダー– アンケートシステム開発、 Blog 分析の事業立ち上げ
» Blog 分析システム構築で初めて SVM と Bayesian network に触れる– Yahoo! Japan
• 要素技術開発部 企画– Y!J 研究所のプランナとして、自然言語処理、顔認識あたりを担当
– GROUPON Japan• ビジネスインテリジェンス部 マネージャー
– 売上予測モデル、ユーザクラスタリング等を手掛ける
– マーケティングアプリケーションズ• 執行役員 CTO
– アンケートシステムと市場調査会社向けシステムの開発
• 学術領域– 社会心理学、心理統計法専攻
• 学生の頃は多変量解析 &SEM をやりこむ。• 人工知能学会、行動軽量学会所属
3
チャットで話しながらお部屋が決められる
サービス紹介
4
「徒歩 0 秒の不動産屋さん」オンラインで不動産賃貸の店舗と同じサービスを受けられる
「お部屋探されサイト」膨大な情報を検索して探すのではなく、アドバイザーが探して提案利用者は提案された物件に「気になる」か「内見する」をクリックするだけ
「チャットでいつでもプロに相談」10 時~ 23 時まで、アドバイザーが質問に対応
サービスの特徴
5
今日の想定参加者
大学で統計やったけど、しばらく離れている方
手元にデータはあるけどやり方が分からない方
興味はあるけど、手元にデータが無い業界の方
6
実践的 ! 人工知能 × 機械学習
の場合
7
の前に、
私たちはなぜ、「不動産 xIT 」に人工知能を持ち込もうとしているのか
8
通販アマゾンで(ほぼ)買えない 10 のもの
銃器 アルコール
不動産 ペット
自動車 ガソリン
宝くじ たばこ
度付きメガネ 中古衣料
2013 年 8 月
http://jp.wsj.com/articles/SB10001424127887323779204579042021326405900
9
銃器 アルコール
不動産 ペット
自動車 ガソリン
宝くじ たばこ
度付きメガネ 中古衣料
2016 年 7 月
アマゾンで買えるようになったもの
10
「不動産」は Amazon でも、まだ売ってない。
楽天でも売ってないヤフオクだと、競売物件だけは売ってる
高すぎてポチれない売買だと数千万、賃貸でも 2 年契約で最低 6万×24 か月 =144万円1ページの物件情報だけでは怖くて買えない
規制が強い「宅建業法」で対面での重要事項説明が義務付けられている
検索、レコメンデーションといった重要要素技術が未発達不動産特有の困難さがあり、他の商品の手法を転用できない
11
なぜ、 EC で不動産は売ってないのか
お買い上げは通常お一人様おひとつのみ投資用を除けば、一世帯で一軒だけ。
在庫は常に一つきり同じ立地、部屋番の商品はひとつしか無い契約されたらしばらく再販できない
商品点数は世帯の数と同数以上全商品、属性・特徴が全く異なる
12
不動産物件検索・レコメンデーションの課題
画像引用元 : Hadoop でレコメンドシステムを作ろうhttp://gihyo.jp/dev/serial/01/recommend_hadoop/0006
書籍の購買履歴
商品詳細ページの作成単価がとても高い重要な属性を掲載しきれない購買ベースの共起・相関が測定できない
不動産の購買履歴
恵比寿 12万
月島 20万
広尾 8万
恵比寿 20万
豊洲 12万
高井戸 7万
集客だけの IT化検索、一覧表示、詳細表示可能なサイトは存在する
SUUMO, HOME’S, …ただし、「購入する」ボタンは存在しない
「資料請求する」ボタン
詳細情報の提供・内見は電話とメールと店舗「資料請求する」と電話がかかってくる「ある呼び」の横行「資料」は紙と FAX
店舗での「接客」詳しい情報は店舗に行ってから、口頭でユーザと物件のマッチングは営業の勘と経験頼み最後は「内見」で自身で現物を見て購買 (契約 )へ
13
結果として : 不動産業界の現状
膨大な物件情報(全部紙 )
http://www.document.suzuyo.co.jp/toranomaki/?p=762画像引用元 : 不動産賃貸の文書管理
14
不動産が遅れてるのは分かった。
でもそれって、不動産だけの話し?
15
マクロ視点での考察
A 農業 ,林業 J 金融業 ,保険業B 漁業 K 不動産業 ,物品賃貸業C 鉱業 .採石業 ,砂利採取業 L 学術研究 , 専門・技術サービス業
D 建設業 M 宿泊業 ,飲食店E 製造業 N 生活関連サービス業,娯楽業
F 電気・ガス・熱供給・水道業 O 教育学習支援業
G 情報通信業 P 医療、福祉
H 運輸業 ,郵便業 Q 複合サービス事業
I 卸売業・小売業 R サービス業(他に分類されないもの)
日本標準産業分類 既にだいぶ入り込んでいる。 これから。
もうちょっとかかる。今、熱い。 (AirBnB, Uber)
FinTech, HealthTech, EduTech などの流れ同様、不動産 xIT は、「今」始まったばかり。
16
私たちはなぜ、「不動産 xIT 」に人工知能を持ち込もうと
しているのか
従来のやり方では IT化できそうにないから。
17
の場合
実践的 ! 人工知能 × 機械学習ietty の場合
18
「引っ越し先の希望条件」を登録する (10項目程度 )
日々、人工知能や人間 ( アドバイザ ) が選んだ物件情報が送られてくる。
気に入った物件があれば「内見する」を クリックする
実際に部屋の下見 & 賃貸契約ができる
の使い方
ココ !
人工知能の
19
では、既に人工知能がビジネスの根底で使われています。
20
自動物件提案のしくみ
恵比寿 12万
月島 20万
広尾 8万
恵比寿 20万
豊洲 12万
高井戸 7万
ユーザ
不動産 DB
ろぼってぃくん
恵比寿
10万2LDK
成城8万
1R
白金
3LDK
50万
ユーザが希望条件を登録
ユーザの代わりに毎日検索
結果を送信
一見、普通の検索と変わらないように見えますが、
21
白金で、 3LDK で、家賃 6万ぐらい
がいいなあ…
ンナモンアルカ -
と、つっこみはしませんが、お客様は大体、住む家に関しては最初大きな夢を見ています。
希望イメージの厳しい検索条件を緩和しつつ、納得感のある物件を提案する高難易度ミッション
よくある例
22
まず、ユーザの「希望条件」どおりで物件をマッチングするここは通常の検索ロジックとあまり変わらない。SQL で書けるレベルただし、家賃だけは「希望より下回る」ものについては気にせず提案している大抵の場合は、これだけではすぐ紹介できる物件が足りなくなる
「希望条件」の緩和を行いつつ、マッチする物件を探索する築年数、駅徒歩、広さ、設備、、、希望駅から路線を探索し、近隣の駅を紹介する場合も
ある程度まで条件を広げても無ければ重要項目以外すべて外して探索「家賃」と「希望駅」周辺 3駅まで、という以外の条件をすべてはずしてマッチングそれでもなければチャットに「条件に沿う物件がありませんでした」として、手動提案に切り替える
自動物件提案の詳細
人工知能活躍の場 !!
分類的には、ルールベースの人工知能
23
つまり、現在使われているのは「弱い AI 」
ここをいかに強化していくかを日々研究中 !
24
購買 ( 賃貸契約 ) データ通常、不動産の購買行動は一人あたり数年に 1度程度しか発生しない不動産ではほぼ利用不可能
人間による物件提案データ不動産営業員 ( アドバイザ ) による提案データ蓄積されれば、人工知能のための学習データとして利用可能
提案された物件に対するユーザ評価データ提案に対しての「気になる」「内見したい」等のユーザフィードバック評価は強制ではないため、広大なスパースデータ (疎データ )
物件の属性データ住所、最寄り駅、家賃、間取り、設備、内装等
ユーザの属性データ性別、ライフステージ、家族構成、希望物件のイメージ等
「物件提案 (レコメンデーション ) 」のためのデータ
25
コンテンツベース・フィルタリングが可能に
ユーザと物件のマッチング : アイデア 1
物件に属性データに基づくクラスタリング (教師なし学習 ) を適用
恵比寿
日比谷線
有楽町線
20万
7-8万
恵比寿 12万
月島 20万
広尾 8万
恵比寿 20万
豊洲 12万
高井戸 7万
恵比寿 12万
月島 20万
広尾 8万
恵比寿 20万
豊洲 12万
高井戸 7万
ユーザ評価データだけではマッチング困難だが…
26
クラスタリング協調フィルタリング
ユーザと物件のマッチング : アイデア 2物件とユーザの双方に属性ベースのクラスタリングを実施
適切なクラスタを作成することで、さらに協調フィルタリングが利用可能に
恵比寿
日比谷線
有楽町線
20万
7-8万
恵比寿 12万
月島 20万
広尾 8万
恵比寿 20万
豊洲 12万
高井戸 7万
男性 20代
女性 20代
転職
ハイクラス
男性 30代
27ハイブリッド・クラスタリングによる協調フィルタリング
ユーザと物件のマッチング : アイデア 3ユーザ評価データをクラスタリングに利用し、その結果をフィルタリングに利用する
1度目のクラスタリングでシミュレーションを行い、ユーザ x 物件の評価データを作りなおす
2度目のクラスタリングで、より精度の高いユーザ潜在クラスタと物件潜在クラスタを作成
恵比寿
日比谷線
有楽町線
20万
7-8万
恵比寿 12万
月島 20万
広尾 8万
恵比寿 20万
豊洲 12万
高井戸 7万
男性 20代
女性 20代
転職
ハイクラス
男性 30代
潜在クラス A
潜在クラス C
潜在クラス B
潜在クラス E
潜在クラス D
潜在クラス A
潜在クラス C
潜在クラス B
潜在クラス D
ユーザー潜在クラスタ物件潜在クラスタ
バリエーションデータを評価データではなく、手動提案データに変えてみる
クラスタリングを SOM(自己組織化マップ)等に変えてみる。またはカーネル多変量解析を利用して非線形でやってみる
属性に主成分分析や因子分析を行い、情報圧縮してからクラスタリングを行う
試行錯誤してます。
29
物件提案の現状とある期間の物件提案に対する評価 (延べ 10万人換算*)
提案受信ユーザ累計 100,000
自動提案受信ユーザ数 99,499
自動提案評価ユーザ 953 0.96%
自動提案 [ 内見する ] ユーザ 68 0.07%
手動提案受信ユーザ数 936
手動提案評価ユーザ 221 23.58%
手動提案 [ 内見する ] ユーザ 40 4.28%
手動提案は引っ越し確度の高いユーザや自動では提案の難しいユーザのみ対応
守備範囲が異なるため単純比較はできないが、まだまだ人間の方が精度が高い
「アドバイザの精度の高い接客と人工知能のカバレッジの広い対応」の 2 つを上手く組み合わせたサービスが重要
*傾向をつかむためのイメージです。実測値とは異なります。
30
新手法、実験準備中 !
でも、どれが良いかどうやって調べる?
31
分割法 (ホールドアウト法 )手持ちのデータを 2 つに分割 (可能なら時系列で ) 。片方のデータでモデル作成を行い、もう片方のデータでどの程度当たるか検証する。
K-hold交差法 (Cross-Validation, K-hold)データを K個に分割し、そのうち 1 つを検証用に残し、それ以外 (K-1) をモデル作成に用いる上記を K回繰り返し、平均して指標とする。
ROC曲線と AUCROC: モデルからの推定値 ( 量的変数 ) と正解データ (2値 ) から、
真陽性 ( ちゃんと当たった ) と偽陽性 ( 不正解のものを正解と 間違えている ) の割合をプロットしたもの
AUC: ROC の線の下側の面積を求めたもの。 1 なら完璧、 0.5 なら無関係 ( ランダム )
学術での効果測定
https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF
32
プロフェッショナルによる評価 !「不動産のプロ」に見てもらい、直観とあっているかどうかチェックこの段階でだめなら、すぐやり直し。
実戦投入 !!出来上がって、良さそうならまずはリリース
従来型より悪そうならすぐやめる
A/B テスト !!!同時に複数のモデルをユーザを変えて稼働させるユーザ ID が偶数番なら従来型、奇数番なら新型、など1週間ぐらいやって、結果を比較して良いほうを全体にリリース
ベンチャー企業での効果測定
いいからさっさと入れとけ !
33
ベンチャー企業で人工知能に取り組むメリット
必要なデータが常に入手可能足りないデータがあれば、自分でコード書いて足せばよい。
すぐに実践投入し、確実な効果測定ができる今より悪くはならない、という信念をもって。
その成果が直接利益を生む失敗=損失、という緊張感とともに。
34
人手が足りません !クリーニングから考察まで、全部ひとりです
何でもできるデータサイエンティストになれます。興味がある方、ぜひ一緒にやりましょう!
ベンチャー企業で人工知能に取り組む デ メリット
ご清聴、ありがとうございました!
▲宣伝▲ ここから ietty に登録すると仲介手数料半額でお引越しできます!