21
Владислав Шабанов, [email protected] Поиск@mail.ru: что там внутри? Серебряные пули, полупули и другие боеприпасы современного поисковика

23apr.rif2010 -shabanov

Embed Size (px)

Citation preview

Page 1: 23apr.rif2010 -shabanov

Владислав Шабанов, [email protected]

Поиск@mail.ru: что там внутри?Серебряные пули, полупули и другие боеприпасы современного поисковика

Page 2: 23apr.rif2010 -shabanov

www.mail.ru www.mail.ru 2

Учёт гиперссылок при ранжировании - серебряная пуля:

• улучшает выдачу сразу по очень большому количеству запросов;

• можно реализовать небольшой группой разработчиков.

но ...

Page 3: 23apr.rif2010 -shabanov

www.mail.ru

www.mail.ru

3

Учёт гиперссылок при ранжировании - серебряная пуля:

• этой пуле уже 10 лет и она плохо разит, большую часть ссылок сегодня можно и нужно игнорировать.

Где взять другие пули?

Page 4: 23apr.rif2010 -shabanov

www.mail.ru www.mail.ru

4

Социальное ранжирование

Поиском пользуются живые люди. Из того, как они ищут, можно очень многому научиться.

Проанализирем их поведение и применим полученные знания в поисковой машине.

Page 5: 23apr.rif2010 -shabanov

www.mail.ru

• Запрос война и мир – книга или фильм?

www.mail.ru 5

Какие ещё запросы подают пользователи?

Куда они переходят по этому запросу?

Книга!

Page 6: 23apr.rif2010 -shabanov

www.mail.ru

• А как на счёт запроса гордость и предубеждение ?

www.mail.ru 6

Чаще переходят на сайты, относящиеся к категории “кино”

Фильм!

Page 7: 23apr.rif2010 -shabanov

www.mail.ru

• Какие невезучие самые невезучие?

www.mail.ru 7

Добудем список актёров, режиссёров и т. д.

Удалим тех, кто был в нескольких фильмах

Проанализируем поведение пользователей

Page 8: 23apr.rif2010 -shabanov

www.mail.ru

• Как быть с запросом девушка с конём ?

www.mail.ru 8

Посмотрим, на какие сайты уходят по запросам, содержащим всем известные слова

А по каким ещё запросам уходят на эти же сайты?

Тут картинки не будет ;)

Page 9: 23apr.rif2010 -shabanov

www.mail.ru 9

Можно ли с помощью анализа поведения уточнить ранжирование?Если по какому-нибудь запросу мы всё время показываем результат, но в него никто не кликает, его неплохо бы убрать.

Наоборот, если много пользователей часто кликают в какой-то из результатов, неплохо бы поднять его повыше

Page 10: 23apr.rif2010 -shabanov

www.mail.ru 10

Много, много непокою принесёт оно с собою

Официальные сайты иностранных компаний мало кому нужны. В них не кликают!

Page 11: 23apr.rif2010 -shabanov

www.mail.ru 11

Много, много непокою принесёт оно с собою

Люди реагируют на естественные раздражители. Если в поле зрения попадает такой результат, то в него обязательно кликнут, не глядя на дату

Page 12: 23apr.rif2010 -shabanov

www.mail.ru 12

Много, много непокою принесёт оно с собою

По запросу видео хочется увидеть крупные видео-хостинги. Однако, если туда пробирается порно-сайт, все выбирают именно его!

Page 13: 23apr.rif2010 -shabanov

www.mail.ru 13

Пример одной поисковой сессии пользователя:

• стихи есенина о природе

• порно

• психология взаимоотношений мужчины и женщины

• сайт знакомств

Page 14: 23apr.rif2010 -shabanov

www.mail.ru 14

Поэтому:• Если данных по какому-нибудь запросу мало, на

всякий случай выбрасываем.

• Если сессия пользователя выглядит странно, на всякий случай выбрасываем.

• Если в результатах есть раздражители, будем обрабатывать отдельно.

Page 15: 23apr.rif2010 -shabanov

www.mail.ru 15

Поэтому:• Ну. и, наконец, если сомневаемся в каком-либо

результате, то пробуем: поместим его на какое-нибудь место, через пару часов поместим другой, сравним поведение.

Социальное ранжирование похоже на работу системы контекстной рекламы: ротация результатов внизу списка, измерение кликабельности, анализ факторов, отсев роботов.

Page 16: 23apr.rif2010 -shabanov

www.mail.ru 16

Что завтра?

• Имея под боком социальную сеть и почту, можно сделать отдельные "социальные добавки" в ранжирование для мужчин и женщин, для молодых и постарше, для людей с высшим образованием и для людей без образования.

Page 17: 23apr.rif2010 -shabanov

www.mail.ru 17

Глубокий анализ сайтов

Раньше внутри поисковой машины страница веб-сайта представлялась как огромная телеграмма. Просто длинная строка из слов, предложений и т. д. Кроме того,разные страницы сайта обрабатываются одним и тем же алгоритмом. При этом теряется очень много информации.

Page 18: 23apr.rif2010 -shabanov

www.mail.ru 18

Глубокий анализ сайтовНужно разбираться, что за страницу мы обрабатываем:

● Если это новость, то надо извлечь и учесть в ранжировании её дату.

● Если это страница "контакты", то её также надо обработать особо.

● Из сообщений на форумах можно извлекать число ответов или число просмотров.

Page 19: 23apr.rif2010 -shabanov

www.mail.ru 19

Людям нравятся коктейли

Запросцветы

Page 20: 23apr.rif2010 -shabanov

www.mail.ru 20

Людям нравятся коктейли

Page 21: 23apr.rif2010 -shabanov

www.mail.ru

Спасибо!