Upload
andreyborue
View
532
Download
5
Embed Size (px)
Citation preview
Поисковые технологииЧасть 1. Основы и особенности.
�1
Поисковые технологии. Особенности
ЗадачиПоиск товаров 2Поисковые подсказки2Листинги товаров2Фильтры для товаровИ все это с учетом различных параметров
доступности товаров в регионах присутствия�2
Поисковые технологии. Особенности
Полнотекстовый поискМорфология (формы слова): склонения, спряжения 2
Синонимы2
Стоп-слова2
Опечатки, раскладка клавиатуры, транслитерация2
Словоформы2
Ранжирование результатов2
Снятие омонимии2
Применение кворума
�3
�4
Поисковые технологии. Особенности
«Одинаковые» фразыЧехол для телефона / Телефонный чехол2
Обложка для телефона / Телефонная обложка2
Кейс для телефона / Телефонный кейс2
Защита для телефона / Телефонная защита2
Защитная крышка 2
Защитный чехол2
Задняя крышка2
Бампер2
…
�5
Поисковые технологии. Особенности
Словоформы
chuggington2
chugington2
чаггингтон2
чагингтон2
чагинтон
�6
Поисковые технологии. Особенности Опечатки, транслитерация, раскладка
apple2
aple2
эпл2
эппл2
фззду2
‘ggk2
‘gk
�7
Поисковые технологии. Особенности
Синонимы видеотелефон2 микротелефон2 евротелефон2 телефончик2 мобила2 мобильный телефон2 мобильник2 сотик2 радиотелефон2 сотовик2 сотовый телефон
�8
Поисковые технологии. Особенности
Омонимия
�9
«Телефон»
Проводные телефоны Игрушечные телефоны Мобильные телефоны
Поисковые технологии. Особенности
Омонимия«Эти типы стали есть в прокатном цехе»
Эти типы стали (варианты металлопроката) есть (имеются в наличии) в прокатном цехе.2
Эти типы (неприятные автору личности) стали (начали) есть (принимать пищу) в прокатном цехе.2
Эти типы стали (варианты металлопроката) есть (надлежит принимать в пищу) в прокатном цехе
�10
�11
Поисковые технологии. Особенности
Как же понять их желания?
�12
Поисковые технологии. Особенности
Преобразование фразы
�13
Запрос Стоп-слова Словоформы Морфология
Чехольчик для моего айфона2
Чехольчик для айфона2
Чехол для айфона2
(Чехол|кейс|обложка) для iphone
Поисковые технологии. Особенности
Странные запросы
ovunq ъйум2
,hfcktn gfyljhf c xthyjq igbytkm.b pjkjnjvx2
Smoby Кухня электронная miniTefal Cook tronic c водой2
Бальшой ваза для рассадки цветов
�14
Поисковые технологии. Особенности
Поисковые угадывалки
Исправить опечатки2
Использовать кворум2
Искать по разным колонкам2
Использовать «звездочки»
�15
«Xt[jkmmxbr lkz fqajyf»
Поисковые технологии. Особенности
ОпечаткиРасстояние Левенштейна – минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую2
Телефрн => Телефон2
Словари триграмм – поиск по совпадениям групп по три символа2
Ентер => __е _ен ент нте тер ер_ р__2
Энтер => __э _эн энт нте тер ер_ р__
�16
Поисковые технологии. Особенности
Кворум
Искать одновременно все слова2
Искать только некоторые из них2
Вопрос: какой процент кворума использовать?
�17
Поисковые технологии. Особенности
КолонкиНазвание товара - 102
Название бренда - 12
Доп. поисковые слова - 12
Артикул - 52
Название типа товара - 12
Значение свойств - 12
Теги товара - 12
Префикс названия товара - 12
Краткое описание - 12
Полное описание - 12
Доп. поисковые слова всех категорий - 12
Названия всех категорий - 1
�18
Название товара - 202
Название бренда - 152
Доп. поисковые слова - 602
Артикул2
Штрихкод
Поисковые технологии. Особенности
Звездочки
Искать по средней части слов (*телефон*)2
Искать по началу слов (телефон*)2
Искать по концу слов (*телефон)
�19
Поисковые технологии. Особенности
Поисковые гипотезы
�20
Коррекция Кворум Колонки Звездочка
1 - - несколько -
2 - - все -
3 - - несколько в начале
4 да - несколько -
5 да - все -
6 - да все -
7 да да все -
Поисковые технологии. Особенности
Оценка качества
Асессор –- это эксперт, оценивающий релевантность документов в результатах поиска, которые нашла поисковая система по случайным запросам.
�21
Поисковые технологии. Особенности
Метрики оценки качестваMAP - Учитывает количество релевантных в первых N документах и взаиморасположение. Чем выше, тем лучше.2
P - Учитывает наличие релевантных в первых N. Чем выше, тем лучше.2
R - Отношение найденных релевантных к оцененным релевантным.2
J - Количество оцененных в выдаче. Не является метрикой качества поиска. Чем ниже эти показатели, тем менее достоверны остальные оценки.2
C - Условные экспериментальные метрики. 3 класса запросов. 1 - выдача на запрос хорошая, улучшать уже лень. 2 - неплохо бы перевести в класс 1. 3 - ни одного релевантного в первых 20, то есть, запрос не работает.
�22
Поисковые технологии. Особенности
Сравнение результатов
�23
Поисковые технологии. Особенности
Сложности оценки
Меняется ассортимент2
Меняется статистика продаж2
Этим нужно заниматься постоянно (каждый день)
�24
Поисковые технологии. Особенности
Фильтры в поискеДоступность к продаже в регионе пользователя2
Шильдику (ликвидация, суперцена, товар дня)2
Бренду2
Наличию в магазине2
Куче свойств2
Категории
�25
Поисковые технологии. Особенности
Листинги это частный случай поиска
�26
с другим способом сортировки результатов
Поисковые технологии. Особенности
Ранжирование
В независимости от способа поиска надо отсортировать результаты
�27
Поисковые технологии. Особенности
Текстовое ранжированиеКоличество искомых слов в документе2
Количество уникальных искомых слов в документе2
Порядок искомых слов в документе2
Частота вхождения искомых слов в документ2
Частота вхождения искомых слов во всю коллекцию2
….
�28
Поисковые технологии. Особенности
Факторы ранжирования
�29
Поисковые технологии. Особенности
Наше ранжированиеПо релевантности полнотекстового поиска2
По статистике продаж и просмотров (частичное решение омонимии)2
По цене2
По наличию в конкретном регионе или магазине2
По маржинальности2
По наличию шильдика2
По новизне2
По коэффициентам заданым вручную
�30
Поисковые технологии. Особенности
Ранжирование
Индивидуально для каждой категории2
На него влияет много факторов: остатки на складах, цены, новые товары, …
�31
Поисковые технологии. Особенности
Ранжирование при поиске
�32
expr(‘sum(lcs*user_weight)*1000+bm25’) + 2statistic_view + 2
statistic_purchase * 300
Поисковые технологии. Особенности Ранжирование в листингах
�33
statisticView количество просмотров товара за неделю
statisticPurchase количество продаж товара за неделю
added время добавления товара
label наличие шильдика
score коэффициент заданный вручную
marginality разница между закупочной и розничной ценой
stock остатки этого товара
conversion формула учитывающая просмотры и продажи
Поисковые технологии. Особенности
Фильтры
Основаны на текущей поисковой выдаче со всеми исправлениями и другими особенностями
�34
В поиске В каталоге
Поисковые технологии. Особенности
Спасибо
�35
Андрей Борю