27
Hoang Anh Tuan CTO Admicro VCCORP [email protected] 1

Data scientist vccorp 2016

Embed Size (px)

Citation preview

Page 1: Data scientist vccorp 2016

Hoang  Anh  Tuan  CTO  Admicro  -­‐  VCCORP  [email protected]  

1  

Page 2: Data scientist vccorp 2016

Nội  dung  � Giới  thiệu  về  VCCORP  � Những  thách  thức  tại  VCCORP  � Những  bài  toán  chính  

2  

Page 3: Data scientist vccorp 2016

1.  Giới  thiệu  về  VCCORP  

3  

Page 4: Data scientist vccorp 2016

4  

Overview

ü  First  mover  DNA  ü  50%  YoY  Growth  

ü  33M  web  audience  

ü  22M  mobile  audience  

ü  1,600  employees  

Investors

1.  Giới  thiệu  về  VCCORP  

Page 5: Data scientist vccorp 2016

1.  Big  Data  ở  VCCORP  � Bắt  đầu  sớm  từ  2007  với  dự  án  Baamboo  search.  � Từ  năm  2009,  bắt  đầu  thử  nghiệm  xây  dựng  hệ  thống  Big  Data  phục  vụ  hệ  thống  quảng  cáo.  

� Hiện  nay  được  nghiên  cứu  phát  triển  xây  dựng  các  sản  phẩm  phục  vụ  cho  các  hệ  thống  � Quảng  cáo  � Nội  dung  số  �  Thương  mại  điện  tử  �  Game  

� Nhân  sự  hiện  tại:  60  người  

5  

Page 6: Data scientist vccorp 2016

2.  Những  thách  thức  ở  VCCORP  � Tự  xây  dựng  và  làm  chủ  công  nghệ  (in  house)  �  Lượng  dữ  liệu  và  quy  mô  dữ  liệu  lớn  �  Số  lượng  bài  toán  cần  xử  lý  lớn,  trải  rộng  trên  nhiều  lĩnh  vực  

�  Luôn  phải  sáng  tạo  mới,  đáp  ứng  bài  toán  mới,  đặc  thù  riêng  

� Nhân  lực  chưa  đủ  

6  

Page 7: Data scientist vccorp 2016

2.  Qui  mô  dữ  liệu  

7  

Page 8: Data scientist vccorp 2016

3.  Những  nhóm  bài  toán  chính  � Nhận  diện  hành  vi  người  dùng  Internet  � Tối  ưu  hóa  quảng  cáo  � Core  NLP  và  ứng  dụng  � Hệ  thống  phân  phối,  gợi  ý  tin  tức  � Recommendation  Engine  

8  

Page 9: Data scientist vccorp 2016

3.1.  Nhận  diện  hành  vi  người  dùng  Internet  � Bao  gồm  các  bài  toán  

� Demographic:  giới  tính,  nhóm  tuổi  �  Behavioral:  sở  thích,  thói  quen  �  Cross  devices:  nhận  diện  cùng  1  người  dùng  trên  nhiều  thiết  bị  

9  

Page 10: Data scientist vccorp 2016

Demographic  -­‐  Behavioral  � Nhận  diện  theo  giới  tính:  nam/nữ.  � Nhận  diện  theo  nhóm  tuổi:  dưới  18,  từ  18  –  24,  từ  25  –  34,  từ  35  –  49,  trên  50.  

� Nhận  diện  theo  sở  thích:  tập  12  sở  thích  cơ  bản.  � Kết  quả:  

� Độ  chính  xác  nhận  diện  giới  tính:  82.5%  � Độ  chính  xác  nhận  diện  nhóm  tuổi:  67.5%  

10  

Page 11: Data scientist vccorp 2016

Demographic  -­‐  Behavioral  

11  

Page 12: Data scientist vccorp 2016

Cross  Device  

12  

Page 13: Data scientist vccorp 2016

Cross  devices  � Giải  pháp:  xây  dựng  thuật  toán  đoán  nhận  người  dùng  dựa  trên  các  thói  quen  về:  �  IP  � Website  �  Sở  thích,  thói  quen  � Demographic  �  Time  frame  

� Kết  quả:  độ  chính  xác  68%  

13  

Page 14: Data scientist vccorp 2016

3.2.  Tối  ưu  hóa  quảng  cáo  � Áp  dụng  các  kỹ  thuật  tiên  tiến  nhất  trên  thế  giới:  

�  Personalization  �  Audience  Targeting  Platform  �  Real  Time  Bidding  �  Retargeting  �  Contextual  Targeting  

14  

Page 15: Data scientist vccorp 2016

15  

PersonalizaYon  

Page 16: Data scientist vccorp 2016

Audience  TargeYng  Pla[orm  �  Lựa  chọn  tập  khách  hàng  mục  tiêu  theo  các  tiêu  chí:  

� Web  site  �  Location  � Nam/nữ  � Nhóm  tuổi  �  Retargeting  �  Sở  thích/thói  quen  

� Tạo  ra  được  tập  khách  hàng  đúng  mục  tiêu  

16  

Page 17: Data scientist vccorp 2016

Real  Time  Bidding  � Đấu  giá  quảng  cáo  theo  thời  gian  thực  � Người  mua  quảng  cáo  lựa  chọn  giá  mua  tại  từng  thời  điểm,  theo  nhu  cầu,  khả  năng.  

�  Lợi  ích:  � Mua  theo  nhu  cầu  �  Kiểm  soát  được  giá  mua  � Hiệu  quả  cao  

17  

Page 18: Data scientist vccorp 2016

RetargeYng  � Đeo  bám  người  dùng  Internet  trên  các  hệ  thống  sau  khi  họ  xem  sản  phẩm  của  nhà  quảng  cáo.  

� Độ  phủ  rộng,  phủ  đến  tập  người  dùng  lớn.  � Hiệu  suất  quảng  cáo  cao:  gấp  từ  4  –  20  lần  quảng  cáo  thông  thường.  

� Cung  cấp  hệ  thống  Dynamic  Retargeting  

18  

Page 19: Data scientist vccorp 2016

Contextual  TargeYng  � Giải  pháp  quảng  cáo  theo  ngữ  cảnh,  nội  dung  của  bài  viết.  

� Khách  hàng  có  thể  lựa  chọn  từ  khóa,  nội  dung  muốn  quảng  cáo  và  quảng  cáo  của  khách  hàng  sẽ  được  ưu  tiên  hiển  thị  tại  các  nội  dung  này.  

� Ví  dụ:  ngân  hàng  A  có  thể  lựa  chọn  các  nội  dung  nói  về  họ,  hoặc  các  từ  khóa  về  họ  như  ngân  hàng  bán  lẻ,  hệ  thống  ATM…  

� Hiệu  suất  quảng  cáo:  hiệu  suất  cao,  đúng  ngữ  cảnh.  

19  

Page 20: Data scientist vccorp 2016

3.3.  CORE  NLP  � Tokenizer:  98.8%  � POS  Tagging:  94.50%  � NER:  84.8%  � Coreference:  57%  � Dependency  Grammar:  73%  � Chunking:  83%  

20  

Page 21: Data scientist vccorp 2016

SenYment  Analysis  

21  

Page 22: Data scientist vccorp 2016

SenYment  Analysis  � Thuật  toán:  sử  dụng  kết  quả  của  NLP,  ứng  dụng  Machine  Learning  

� Kết  quả:  độ  chính  xác  70%  

22  

Page 23: Data scientist vccorp 2016

3.4.  Phân  phối  và  gợi  ý  Yn  tức  � Personalization  cho  news  � Các  bài  toán  xử  lý:  

�  Event  detection  �  Trending  detection  �  Breaking  news  detection  

� Áp  dụng  thử  nghiệm  trên  các  báo  lớn:  dantri,  kenh14,  soha…  

23  

Page 24: Data scientist vccorp 2016

3.5.  RecommendaYon  Engine  �  Xây  dựng  hệ  thống  gợi  ý  mua  hàng  cho  các  trang  thương  mại  điện  tử  

�  Đưa  ra  gợi  ý  dựa  trên  các  thông  tin  �  Lịch  sử  mua  hàng  và  thói  quen  sử  dụng  Internet  �  Thông  tin  về  sản  phẩm  và  người  mua  

�  Thuật  toán  áp  dụng:  �  NER  +  Deep  Neural  Network  �  Knowledge  Network  thông  tin  sản  phẩm  �  Collaborative  filtering  

�  Kết  quả:  40%  sản  lượng  website  đến  từ  hệ  thống  gợi  ý  mua  hàng  

24  

Page 25: Data scientist vccorp 2016

Kết  quả  RE  

25  

Page 26: Data scientist vccorp 2016

Và  thêm  nữa…  

26  

Page 27: Data scientist vccorp 2016

Thanks  

27