11
Машинное обучение в рекламной системе MAIL.RU Игорь Кретинин

Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

  • Upload
    ontico

  • View
    739

  • Download
    0

Embed Size (px)

DESCRIPTION

Доклад Игоря Кретинина на HighLoad++ 2014.

Citation preview

Page 1: Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Машинное обучение в рекламной системе MAIL.RU

Игорь Кретинин

Page 2: Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Данные и признаки• Пользователь: поток энергии и информации

• Интернет: среда распространения и хранения данных (текст, картинки, видео)

• Наши данные: логи активности пользователей в Интернете

• Извлекаемая информация: посещённые url

• Признаки: токены в представлении bag-of-words {token: count}

• Трансформация TF-IDF

• Разметка: специальные социологические исследования, контрольные группы пользователей, анкетирование, слежение в соц. сетях

Page 3: Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Матрицы признаков• Корзина токенов как документ

• Выборка данных о пользователях как корпус документов

• Разреженные (sparse) матрицы большой размерности

• Словарь токенов ~106

• (пользователи x признаки) ~ (105 x 106)

• Тематическое моделирование (Latent Dirichlet Allocation) сжимает размерность пространства признаков из словарной (~106) в тематическую (~103)

Page 4: Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Тематическое моделированиеgame*0.088 mult-games.ru*0.064 igra*0.059 igri*0.046 igry*0.026 games*0.013 igrydljadevochek2.ru*0.025 play*0.017 igroflot.ru*0.016 flashdozor.ru*0.013 playpack.ru*0.008 …

irkutsk.drom.ru*0.346 nirvana.fm*0.105 bratsk.drom.ru*0.091 badanga.ru*0.055 angarsk.drom.ru*0.031 ust-ilimsk.drom.ru*0.016 agentstvo-prazdnik.com*0.016 auto*0.014 …

superjob.ru*0.353 vacancy*0.127 rabota*0.109 resume*0.065 myupdate.ru*0.051 clients*0.031 vacancies*0.011 menedzher*0.009 services.fms.gov.ru*0.007 views*0.007 newsdoor.ru*0.007 …

odezhda*0.174 obuv*0.141 aksessuary*0.090 detskaya*0.041 plate*0.020 zhenskaya*0.018 tufli*0.009 kurtka*0.009 novye*0.008 shuba*0.007 sapogi*0.006 verhnyaya*0.006 …

soccer.ru*0.211 api.oktools.ru*0.045 gooool.org*0.036 footballhd.ru*0.035 vk.flirchi.ru*0.025 euro-football.ru*0.024 translyaciya*0.019 players*0.019 loveradio.ru*0.018 pryamaya*0.015 …

dojki.com*0.650 порно*0.039 женщины*0.013 зрелые*0.013 секс*0.011 жены*0.009 мамки*0.009 чужие*0.009 молодые*0.008 девочки*0.008 домашнее*0.007 …

Page 5: Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Машинное обучение• Классификация, регрессия, кластеризация (LogisticRegressor, SVM,

RandomForest, RBM, NeuralNets)● Функция потерь (log, hinge, zero-one,

huber) и регуляризация (L1, L2, ElasticNet)

● Метрика качества (AUC, Precision/Recall, ConfusionMatrix)

● Кросс-валидация

● Тестирование

Page 6: Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Бинарная классификация пользователей

● LDA-преобразование признаков: уменьшение размерности

● T-SNE сжатие в 2D● Классы не разделимы: нужны

дополнительные признаки● Логистическая регрессия в пространстве

токенов

Page 7: Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Бинарная классификация: AUC ~ 0.75

Page 8: Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Распределение пользователей hh.ru

Page 9: Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Мультиклассовая задача

Page 10: Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Заключение• Данные — признаки — классификатор — ансамбль

• «Хорошие данные» лучше «хорошего классификатора»

• Признаки (фичи) и их семантические связи — ключ к решению проблемы

• Не все модели одинаково полезны

• Важно: кросс-валидация, холд-аут, тестовая выборка

• Шаг вперёд: глубокое обучение на основе байесовских и нейронных сетей

Page 11: Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Спасибо за внимание!