Upload
alexey-tokar
View
217
Download
0
Embed Size (px)
Citation preview
Алексей ТокарьРуководитель группы разработки в направлении медиасервисов
Когда тексты – не только слова
2
Типы повседневных задач
Алгоритмические
ТехнологическиеИнфраструктурные
3
Постановка задачи
Дано:• 1.000.000 фильмов• 250 тегов
4
Постановка задачи
Дано:• 1.000.000 фильмов• 250 тегов
Задача:• разметить каждый фильм в среднем десятью
тегами
5
Постановка задачи
Дано:• 1.000.000 фильмов• 250 тегов
Задача:• разметить каждый фильм в среднем десятью
тегами
Проблема:• вручную это займет год ежедневной работы
Классификация
7
Популярные способы классификации
• нейронные сети
8
Популярные способы классификации
• нейронные сети• генетические алгоритмы
9
Популярные способы классификации
• нейронные сети• генетические алгоритмы• деревья принятия решений
10
Популярные способы классификации
• нейронные сети• генетические алгоритмы• деревья принятия решений• наивный байесовский классификатор
11
Популярные способы классификации
• нейронные сети• генетические алгоритмы• деревья принятия решений• наивный байесовский классификатор
• кластеризация
12
Почему байесовский классификатор
• Элементарен, чтобы оценить нашу модель• Удобен, так как не требует эвристик в виде
черных списков• Эффективен при достаточной обученности• Отлично подходит для текстовых данных
13
Наивный байесовский классификатор
Pr(T|W) — вероятность, что тег характеризует сообщение, при условии, что оно содержит это слово
Pr(W|T) — вероятность появления слова в сообщениях, отмеченных этим тегом
Pr(W|~T) — вероятность появления слова в сообщениях, если они к этому тегу не относятся
14
От сайта к индексу
Crawler
Splitter Lemmer
INDEX
15
Наиболее значащие слова
мультик
Смотреть с детьмидетямбелкадочьпираты
Злодеизлодейхулиганыорангутангёж
Животныеживотныебелкаобезьяна
16
Предложенные роботом:• животные• дружба• смотреть с детьми• цирк• злодеи• проклятия• разные страны
Не предложены:• пираты• Земля• природные катаклизмы
Ледниковый период 4
Предложенные роботом:• наши дни• романтика• расследования• любовь• Франция• смотреть с девушкой
Не предложены:• криминал• флирт
Девушка из Монако
19
Результаты
• Полнота прогнозирования – робот пропускает 2-3 тега, предложенных редакцией
• Точность классификации– робот ошибается на 1-2 тега
• Время работы всего несколько часов
20
Что можно сделать в будущем
• Исключение редких слов• Удаление предлогов и местоимений• Отсечение слов, составляющих шум• Распараллеливание
Алексей Токарь
Руководитель группы разработки в направлении медиасервисов
Спасибо :)