ITMO RecSys course. Autumn 2014. Lecture 5

Рекомендательные системы Лекция №5: Deep learning

Андрей Данильченко

НИУ ИТМО, 13 декабря 2014

Как построить модель естественного языка?

Language probabilistic model

p(w1T ) = p(wt |w1

t−1)t=1

Текст — это последовательность слов. Тогда можно записать:

Если использовать только последние n слов, то получим n-gram model:

p(wt |w1t−1) ≈ p(wt |wt−n+1

t−1 )

где — последовательность слов w1T w1,w2…wT( )

Как обучать такие модели?

•  Введем вектора слов •  Выразим вероятность следующего слова через

вектора предыдущих •  Обучим вектора и параметры модели,

максимизируя правдоподобие

Feedforward NN language model

Что происходит в сети?

x = C wt−1( ),C wt−2( ),!,C wt−n+1( )( )C

W y = b+Wx +U tanh d +Hx( )

p wt |wt−1,!,wt−n+1( ) =exp ywt( )exp yi( )

Backprop для NNLM

x(k) =C wt−k( )x = x(1), x(2),!, x(n−1)( )o = d +Hxa = tanh(o)

yj = bj + aUj

yj = yj + xWj

если есть прямые связи

Forward:

pj = exp yj( )s = s+ pj

pj =pjs

3.  (если есть прямые связи)

Backward: ∂L∂yj

= δ j == wt( )− pj

bj = bj +ε∂L∂yj

∂L∂x

=∂L∂x

+∂L∂yj

∂L∂a

=∂L∂a

+∂L∂yj

Wj =Wj +ε∂L∂yj

Uj =Uj +ε∂L∂yj

∂L∂ok

= 1− ak2( ) ∂L∂ak

; ∂L∂x

=∂L∂x

+ "H ∂L∂o

d = d +ε ∂L∂o; H = H +ε

∂L∂o

C(wt−k ) =C(wt−k )+ε∂L∂x(k)

│ Сама NNLM — обучение │ с учителем.

│ Вектора слов — обучение │ без учителя!

Recurrent NN Language Model

x t( ) = w t( )+ s t −1( )

sj t( ) =σ xi t( )ujii∑"

yk t( ) = g sj t( )vkjj∑"

где g — softmax.

Input layer:

Context layer:

Output layer:

А можно проще?

Continuous bag of words

wt−1wt−2wt−3 wt+1 wt+2 wt+3

projection

output

Hierarchical softmax

Обычный softmax — слой размера . Но вместо линейного слоя можно использовать дерево! Таким образом, вместо связей получается .

Vlog2 V!" #$

Одно из самых удачных представлений: коды Хаффмана.

Skip-gram model

wt−1wt−2wt−3 wt+1 wt+2 wt+3

projection

output

Behind the model…

Цель сети: максимизировать логарифм вероятности 1T

log p wt+ j |wt( )−c≤ j≤c, j≠0∑

Простая skip-gram модель задает эту вероятность как

p wO |wI( ) =exp !vwO

TvwI( )exp !vw

TvwI( )w=1

где — «выходной» вектор слова !vwO — «входной» вектор слова vwI

Behind the model (2)…

Для skip-gram с иерархическим softmax это можно переписать как

p wO |wI( ) =σ !vn(w, j )vwI( )

L(w)−1

σ − "vn(w, j )vwI( )j=1

L(w)−1

если n w, j +1( ) = ch n w, j( )( )

иначе

где L w( ) длина пути в дереве для слова w

n w, j( ) j-й узел в пути от корня к , то есть w n w,1( ) = rootn(w,L(w)) = w

ch n( ) произвольный узел-ребенок n

Negative sampling

logσ !vwOTvwI( )+ EwI ~Pn w( ) logσ − !vwi

TvwI( )#$

Будем обучать модель с таким objective (вместо H-SM):

Negative sampling

TvwI( )#$

положительные примеры

Negative sampling

TvwI( )#$

выберем k примеров по популярности

Negative sampling

TvwI( )#$

будем обучать их как негативные

Subsampling of frequent words

p wi( ) =1− tf wi( )

Выкинем слова из обучающего множества с вероятностью:

где — частота слова f wi( )

— параметр (обычно ) t ~10−5

Semantic relationships = vector operations

X = vector "biggest"( )− vector "big"( )+vector "small"( )

X = vector "red"( )− vector "green"( )+vector "vert"( )

X ≈ "smallest"

X ≈ "rouge"

тут примерное равенство означает ближайший к X элемент V

Модели NLP можно применять к любым естественным языкам. Это могут быть любые последовательности, создаваемые человеком. Например, плейлисты.

│ Казалось бы, причем тут │ рекомендации?..

Как получить вектора более длинных сущностей?

Phrase vectors

В качестве слов в CBOW и Skip-Gram можно передавать все, что хочется. Например, частотные фразы. Выделение частотных фраз можно сделать так:

score wi,wj( ) =count wiwj( )−δ

count wi( )× count wj( )

Теперь добавим результаты к словам и запустим word2vec!

doc2vec: document vector clustering Chinese Restaurant Process

•  выбираем стол с ближайшей суммой векторов (по косинусам) •  с вероятностью n/(n+1) садимся за него, иначе за новый •  или садимся за него, если sim(v,C) > 1/(n+1)

Вектор документа — сумма векторов наиболее репрезентативного кластера (например, по tf-idf).

Paragraph vector: distributed memory

wt−1wt−2d wt+1 wt+2

projection

output

Paragraph vector: distributed BoW

projection

output

wt−1wt−2 wt+2wt+1wt

В качестве документа может выступать что угодно, например, пользователь…

│ Казалось бы, причем тут │ рекомендации?..

А где же “deep” learning?

Music content-based recommender

Low-level: signal, MFCC, tempo

High-level: genre, mood, epoch, instrument

Content-based recommender

Semantic gap!

Сверточные сети

Идея: вместо обучения полносвязной сети давайте смотреть на «окрестности» и вводить связи только там. Это реализуется операцией свертки. В нашем случае все просто:

s = xicii∑

Архитектура

Где активируются фильтры?

14 242 250 253

14 — vibrato singing 242 — ambience 250 — vocal thirds 253 — bass drums

Фильтр 37 — китайский язык!

│ Можно обучать что │ угодно! │ Например, вектора SVD.

Удачи! Андрей Данильченко группа разработки рекомендательных систем, Яндекс danilchenko@yandex-team.ru

http://www.4ducks.ru/itmo-rs-2014-lecture-5.html

ITMO RecSys course. Autumn 2014. Lecture 5

Education

Hpc visualization (itmo 2010)

ITMO Physiopathologie, métabolisme, nutrition ... · ITMO Physiopathologie, métabolisme, nutrition - 2 - DIX PRIORITES SCIENTIFIQUES Interactions gènes-fonctions-environnement

Temporal Diversity in RecSys - SIGIR2010

ITMO Circulation, métabolisme et nutrition Journée

Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

User-driven Approaches to Recsys

FnT CF Recsys Survey

State of RecSys: Recap of RecSys 2012

ITMO RecSys course. Autumn 2014. Lecture 4

ITMO University Strategy - 2027

ITMO: 10 ошибок, которые закроют для вас зарубежные рынки

RecSys Challenge 2016

ITMO RecSys course. Autumn2014. Lecture1

Orthogonal query recommendation (RecSys 2013)

ITMO UNIVERSITY 2017 - Times Higher Education · innovation clusters in Saint Petersburg Two business incubators, up-to-date innovation labs, ITMO University FabLab, two startup accelerators

Main recsys factorisation

Sistemas(Híbridosde( Recomendación(dparra.sitios.ing.uc.cl › classes › recsys-2014-2 › pdfs › ... · Sistemas(Híbridosde(Recomendación(IIC3633(RecSys(2do(semestre2014

ITMO pdf TEst

Double-degree Master's Program in Computational Science: Experiences of ITMO ... · Double-Degree Master's Program in Computational Science: Experiences of ITMO University and University

Programming ITMO University of 2027show.ifmo.ru/images/presentations/198/dorozhnaya_karta... · 2017. 11. 2. · ITMO 5-100: Archive 2013-2017 To: Quality results from the last five