Ольга Мегорская "Качество поиска: экспертные оценки и исследование пользовательского поведения"

Я.Субботник, Алматы, 15 октября 2011 года

Руководитель группы асессоров Ольга Мегорская

Качество поиска: экспертные оценки и исследование пользовательского поведения

Оценка качества поиска

2

Зачем это нужно?

• Как наши внедрения влияют на качество?

• Улучшили по одному классу: не испортили ли по другому?

• Где есть «проблемные точки»?

3

Что для этого нужно?

• «Человеческие» оценки качества выдачи

• Формальные метрики качества поиска

• Понимание пользователя

4

Экспертные оценки: асессоры

5

Кто такие асессоры? • Обычные пользователи

• Есть в каждом регионе присутствия Яндекса

• В Казахстане у нас тоже есть команда

6

• Случайные запросы из потока

• Документы, нашедшиеся по этим запросам

• Оценки

Как работают асессоры?

7

Как работают асессоры?

8

Шкала релевантности Vital однозначно на первом месте

Useful дает авторитетный, очень полный и полезный ответ на запрос

Relevant+ отвечает на запрос

Relevant- имеет отношение к запросу, но в полной мере на запрос не отвечает

Irrelevant не отвечает на запрос

9

Для чего используются оценки асессоров? • Настройка поисковых алгоритмов

• Оценка качества поиска

10

Настройка поиска

11

Обучаем робота отличать хорошие документы от плохих

1. У нас есть набор для обучения – N яблок и M груш.

2. У Робота есть факторы: форма; цвет; вкус

12

Определяем признаки для набора

13

OMG! 14

Аналогично с релевантностью документов:

1. У робота – факторы

2. У нас - оценки асессоров

3. Робот ищет закономерности

4. Для любого неоцененного документа из Веба робот знает факторы:

Документ Х: Есть слова запроса; на документ кликают; на документ ссылаются.

Вероятно, Документ Х Релевантен запросу

15

Оценка: метрики качества поиска

16

Пример метрики: Pfound • Гипотеза:

• Пользователь идет сверху вниз

• Останавливается, если:

Нашел

Устал.

17

Правильно, левый!

Исторический график Pfound

Показывает, как внедрения влияют на качество поиска

Опечаточная врезка

18

Что не улавливает Pfound? • Проблему разнообразия выдачи

19

Разнообразие объектов: [Наполеон]

artclassic.edu.ru 20

Разнообразие потребностей:

[Название фильма]

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Старые

фильмы

Фильмы в

прокате

Будущие

фильмы

Другое

Отзывы/рецензии

Кадры/фото

Трейлер

Общая информация

Смотреть онлайн

Скачать

21

Понимание пользователей

22

Исследование пользовательского поведения:

• Пользовательские сессии

• Переформулировки и клики

• Эксперименты на выдаче

• Классификация запросов

23

Анализ сессий: Что хотел этот пользователь?

24

А этот?

25

Эксперименты на выдаче: • Выкатываем экспериментальный алгоритм на n% пользователей

• Смотрим на несколько метрик:

— Доля некликнутых

— Средняя позиция первого клика

— Еще 100500 других

26

Выделение тематик запросов: • Выбираем интересующие нас группы пользователей

• Составляем автоматический классификатор запросов

• Смотрим на распределение разных тематик запросов для разных групп пользователей

27

Выделение тематик запросов:

Пользователи Android VS пользователи IPhone

Android

IPhone

28

Битва титанов: Android vs. iPhone :

29

Битва титанов: iPhone vs. Android :

30

Спасибо!

31

Руководитель группы асессоров

[email protected]

Ольга Мегорская

mailto:[email protected]



Technology

Ольга Мегорская "Качество поиска: экспертные оценки и исследование пользовательского поведения"