Upload
bitworks-software
View
231
Download
0
Embed Size (px)
Citation preview
Разработка рекомендательной системы с использованием коллаборативной фильтрации
Александр Браневский Bitworks Software
Что будет?
2
User1 artist1 playcount User1 artist2 playcount User2 artist2 playcount User3 artist3 playcount ...
Постановка задачи
artists
user
s
3
1.5 GB
❏ Кластеризация
❏ Факторизация матрицы
4
Иерархическая Сильные компоненты связности
Подходы
5
Кластеризация
● User7
● User6
● User3
● User5
● User1
● User8
● User9
● User4
● User6
● User11
● User12
● User10
Поиск сильных компонент связности
User1
(artist1,count)
(artist2,count)
(artist3,count)
User2
(artist1,count)
(artist2,count)
(artist3,count)
user1❏ artist1,count❏ artist2,count❏ artist5,count
user2❏ artist5,count❏ artist7,count❏ artist9,count
user3❏ artist2,count❏ artist3,count❏ artist4,count
dist < avg
dist < avg
dist >= avg
6
Поиск сильных компонент связности
G (V,E)
7
u,v C : u v, v u
❏ Кластеризация
❏ Факторизация матрицы
8
Иерархическая Сильные компоненты связности
Подходы
9
Иерархическая кластеризация
10
Иерархическая кластеризация
11
Иерархическая кластеризация
Плюсы:
❏ Высокая точность кластеризации
Минусы:
❏ Асимптотика O(N3)
12
Иерархическая кластеризация
13
Иерархическая кластеризация
ClusterA ClusterBbest
ClusterB ClusterCbest
ClusterС ClusterDbest
A
B
C
D
ClusterD ClusterCbest
В худшем случае получаем все тот же O(N3)
❏ Кластеризация
❏ Факторизация матрицы
14
Иерархическая Сильные компоненты связности
Подходы
15
Факторизация матрицы
artists
user
s
5
3
1
7
user
s
artists
1.62
2.56
2.95 2.72
2.48
1.03
4.79 4.4 1.66
2.556.74
2.636.967.55
7.31
16
user
s
items
X
Y
Xu,Yi
Факторизация матрицы
17
W
s1s2
s3
t
abc
=
t1
a * s1b * s2c * s3
=
col space of X
Qi
Qproji
Факторизация матрицы
18
col space of X
Qi
Qproji
Qi - Qproji
Факторизация матрицы
19
Факторизация матрицы в спарке
20
Входные параметры
❏ ранг❏ количество итераций❏ скорость обучения❏ параметр
регуляризации
21
Голосование моделей❏ model_1
❏ model_2
❏ model_3
❏ model_4
❏ model_1 recommendations❏ model_2 recommendations❏ model_3 recommendations❏ model_4 recommendations
collect most frequent recommendations
22
Оценка моделей
❏ Root Mean Square Error (RMSE)
❏ Вероятностная
Positive user predictions: user 1 5 7 9 4 5 9
artists already has
user 0 2 8 6 4 3 4
random not rated artist
Negative user predictions:
count = 0for (int i = 0; i < n; ++i)
count += pos[i] > neg[i];ans = count / n;
23
Примеры рекомендаций
❖ Rap
24
Примеры рекомендаций
❖ experimental ❖ techno❖ electronica❖ trance
25
Примеры рекомендаций
❏ The Streets❏ Queen❏ Simple Plan❏ Wednesday 13❏ The Killers❏ Hoobastank❏ Comedy❏ Pain❏ Green Day
❏ Red Hot Chili Peppers,13❏ Good Charlotte,13❏ Muse,13❏ System of a Down,15❏ Linkin Park,24❏ blink-182,22❏ The Offspring,19
❖ rock ❖ metal❖ alt. rock❖ pop rock
26
Примеры рекомендаций
❏ Kenny Rogers❏ Night Ranger❏ Megadeth❏ Warrant❏ John Williams & The Boston
Pops
❏ Metallica,25❏ AC/DC,24❏ Guns N' Roses,21 ❏ Ozzy Osbourne,21❏ Black Sabbath,19❏ Pantera,17❏ Iron Maiden,25
❖ rock ❖ gram - metal❖ pop❖ metal
27
Примеры рекомендаций
❏ 鬼束ちひろ❏ 安室奈美恵❏ Imogen Heap❏ Dir en grey❏ ガゼット❏ 三上ちさこ❏ CORE OF SOUL❏ Jorane❏ 矢井田瞳❏ Tori Amos
❏ Malice Mizer,14❏ 宇多田ヒカル ,15❏ L'Arc~en~Ciel,21❏ 椎名林檎,18❏ 浜崎あゆみ ,19❏ Gackt,23❏ 久石譲,11
❖ ??
28
Проблемы
❏ нет “онлайновости”
❏ синонимия (фильмы для детей, детские фильмы)
❏ “нечестные” оценки
❏ белые вороны
29
Сферы применения
❏ рекомендательные системы, сервисы (lastfm, imdb, kinopoisk, youtube, amazon)
❏ новостные сайты
❏ социальные сети
30
Спасибо за внимание!