Upload
tuan-hoang
View
213
Download
0
Embed Size (px)
Citation preview
Hoang Anh Tuan CTO Admicro -‐ VCCORP [email protected]
1
Nội dung � Giới thiệu về VCCORP � Những thách thức tại VCCORP � Những bài toán chính
2
1. Giới thiệu về VCCORP
3
4
Overview
ü First mover DNA ü 50% YoY Growth
ü 33M web audience
ü 22M mobile audience
ü 1,600 employees
Investors
1. Giới thiệu về VCCORP
1. Big Data ở VCCORP � Bắt đầu sớm từ 2007 với dự án Baamboo search. � Từ năm 2009, bắt đầu thử nghiệm xây dựng hệ thống Big Data phục vụ hệ thống quảng cáo.
� Hiện nay được nghiên cứu phát triển xây dựng các sản phẩm phục vụ cho các hệ thống � Quảng cáo � Nội dung số � Thương mại điện tử � Game
� Nhân sự hiện tại: 60 người
5
2. Những thách thức ở VCCORP � Tự xây dựng và làm chủ công nghệ (in house) � Lượng dữ liệu và quy mô dữ liệu lớn � Số lượng bài toán cần xử lý lớn, trải rộng trên nhiều lĩnh vực
� Luôn phải sáng tạo mới, đáp ứng bài toán mới, đặc thù riêng
� Nhân lực chưa đủ
6
2. Qui mô dữ liệu
7
3. Những nhóm bài toán chính � Nhận diện hành vi người dùng Internet � Tối ưu hóa quảng cáo � Core NLP và ứng dụng � Hệ thống phân phối, gợi ý tin tức � Recommendation Engine
8
3.1. Nhận diện hành vi người dùng Internet � Bao gồm các bài toán
� Demographic: giới tính, nhóm tuổi � Behavioral: sở thích, thói quen � Cross devices: nhận diện cùng 1 người dùng trên nhiều thiết bị
9
Demographic -‐ Behavioral � Nhận diện theo giới tính: nam/nữ. � Nhận diện theo nhóm tuổi: dưới 18, từ 18 – 24, từ 25 – 34, từ 35 – 49, trên 50.
� Nhận diện theo sở thích: tập 12 sở thích cơ bản. � Kết quả:
� Độ chính xác nhận diện giới tính: 82.5% � Độ chính xác nhận diện nhóm tuổi: 67.5%
10
Demographic -‐ Behavioral
11
Cross Device
12
Cross devices � Giải pháp: xây dựng thuật toán đoán nhận người dùng dựa trên các thói quen về: � IP � Website � Sở thích, thói quen � Demographic � Time frame
� Kết quả: độ chính xác 68%
13
3.2. Tối ưu hóa quảng cáo � Áp dụng các kỹ thuật tiên tiến nhất trên thế giới:
� Personalization � Audience Targeting Platform � Real Time Bidding � Retargeting � Contextual Targeting
14
15
PersonalizaYon
Audience TargeYng Pla[orm � Lựa chọn tập khách hàng mục tiêu theo các tiêu chí:
� Web site � Location � Nam/nữ � Nhóm tuổi � Retargeting � Sở thích/thói quen
� Tạo ra được tập khách hàng đúng mục tiêu
16
Real Time Bidding � Đấu giá quảng cáo theo thời gian thực � Người mua quảng cáo lựa chọn giá mua tại từng thời điểm, theo nhu cầu, khả năng.
� Lợi ích: � Mua theo nhu cầu � Kiểm soát được giá mua � Hiệu quả cao
17
RetargeYng � Đeo bám người dùng Internet trên các hệ thống sau khi họ xem sản phẩm của nhà quảng cáo.
� Độ phủ rộng, phủ đến tập người dùng lớn. � Hiệu suất quảng cáo cao: gấp từ 4 – 20 lần quảng cáo thông thường.
� Cung cấp hệ thống Dynamic Retargeting
18
Contextual TargeYng � Giải pháp quảng cáo theo ngữ cảnh, nội dung của bài viết.
� Khách hàng có thể lựa chọn từ khóa, nội dung muốn quảng cáo và quảng cáo của khách hàng sẽ được ưu tiên hiển thị tại các nội dung này.
� Ví dụ: ngân hàng A có thể lựa chọn các nội dung nói về họ, hoặc các từ khóa về họ như ngân hàng bán lẻ, hệ thống ATM…
� Hiệu suất quảng cáo: hiệu suất cao, đúng ngữ cảnh.
19
3.3. CORE NLP � Tokenizer: 98.8% � POS Tagging: 94.50% � NER: 84.8% � Coreference: 57% � Dependency Grammar: 73% � Chunking: 83%
20
SenYment Analysis
21
SenYment Analysis � Thuật toán: sử dụng kết quả của NLP, ứng dụng Machine Learning
� Kết quả: độ chính xác 70%
22
3.4. Phân phối và gợi ý Yn tức � Personalization cho news � Các bài toán xử lý:
� Event detection � Trending detection � Breaking news detection
� Áp dụng thử nghiệm trên các báo lớn: dantri, kenh14, soha…
23
3.5. RecommendaYon Engine � Xây dựng hệ thống gợi ý mua hàng cho các trang thương mại điện tử
� Đưa ra gợi ý dựa trên các thông tin � Lịch sử mua hàng và thói quen sử dụng Internet � Thông tin về sản phẩm và người mua
� Thuật toán áp dụng: � NER + Deep Neural Network � Knowledge Network thông tin sản phẩm � Collaborative filtering
� Kết quả: 40% sản lượng website đến từ hệ thống gợi ý mua hàng
24
Kết quả RE
25
Và thêm nữa…
26
Thanks
27