Алгоритмы автоматизированного составления и...

Preview:

DESCRIPTION

Алгоритмы автоматизированного составления и группировки семантических ядер (Николай Хиврин)

Citation preview

Николай Хиврин, CEO ALTWeb Group

Алгоритмы автоматизированного составления и

группировки семантических ядер

1. Составление базы запросов

2. Составление семантического ядра

3. Группировка семантического ядра

Над чем работаем?

Есть ли смысл в базе запросов

без привязки к регионам?

1. Страна

2. Федеральный округ, штат и т.п.

3. Область

4. Город

Проблема регионов

1. В какие вышестоящие регионы входит

2. Количество жителей и проникновение интернета

3. Удаленность от других регионов

4. Область на карте

Что важно знать о регионе

1. Популярность запроса в поисковых системах

2. Наличие запроса в подсказках

3. Доля геонезависимых результатов

4. Доля коммерческих сайтов

5. Доля спектральных результатов

Что нужно знать по каждому региону

Источники данных

1. Статистика запросов поисковых систем

2. Поисковые подсказки

3. Результаты поиска

4. Счетчики посещаемости на сайтах

5. Данные из популярных плагинов для браузеров

Получение региональных результатов поиска

Яндекс: таблица соответствия LR базе регионов

Google: домен поисковой системы + IP из региона

Количество запросов

1. Яндекс обрабатывает 200 млн запросов в сутки из

которых 25-50% приходится на ботов

2. Более 25% запросов являются уникальными

(набираются менее 1 раза в месяц)

Попадание в базу имеет смысл при статистике не

менее 5 запросов в месяц

Т.е. в измеряемую популярность может попасть

не более 100 млн запросов в сутки

Количество запросов

100 млн запросов * 30 дней = 3 млрд запросов в месяц

Если бы запросы набирались равномерно по 5 раз в месяц,

то их всего было бы 600 млн штук, но есть и популярные

запросы

Для России полная база запросов ~50 млн штук

Англоязычные запросы ~110 млн штук

Случайные запросы (хвост)

Для запросов без статистики можно делать вероятностные

проверки, т.е. проводить тесты на нахождение сайта в

поиске по случайному запросу

Составление семантического ядра

1. Поиск запросов из видимости конкурентов

2. Поиск запросов по маске

3. Статистика поисковых переходов конкурентов (закрытые

данные)

Поиск запросов по всем конкурентам

Размеры семантических ядер

1. Крупнейшие E-Commerce проекты с широким спектром

товаров ~1 млн запросов

2. Крупный портал, большой E-Commerce 50-500к запросов

3. Портал, многопрофильный бизнес 10-50к запросов

4. Сайт в конкурентной нише 1-10к запросов

5. Ниша с низкой конкуренцией 100-1000 запросов

Подходы к кластеризации

1. Руками, по логической структуре сайта и морфологии

2. Автоматически

Автоматическая кластеризация

1. Поиск общих сайтов и страниц по запросам в результатах

поиска

2. Морфологический анализ запросов с учетом IDF (inverse

document frequency) на большой коллекции документов

купить sony vaio svl2413z1r

sony vaio svl2413z1r

купить sony vaio pro 13

Вычислительные сложности

Матрица совместимости пар запросов на 1000000^2 значений

1 2 3 4 … 1000000

1 + - + +

2 -

3

4

1000000

Транзитивность

Если запрос A подходит B, а запрос B подходит запросу C

То подходит ли запрос A к запросу C?

Алгоритм пошаговой кластеризации

1. Последовательно смягчаем критерии кластеризации

1. Последовательно выбираем запросы из семантики

1. Относим запрос к уже существующему кластеру

(запрос совместим со всеми или частью слов из

кластера)

2. Порождаем новый кластер

Есть ли смысл в кластеризации без

последующего мониторинга?

Задачи мониторинга

1. Поиск новых запросов и их кластеризация

2. Многоуровневая кластеризация или фильтрация (пример:

все запросы со словом “купить” или все запросы, по которым

пусть страницы начинается с “/for_home/”)

3. Изменение средневзвешенных значений по кластеру:

позиция, трафик, конверсия

Оценка объема данных

Запросов – 50 000 000

Регионов – 30

Глубина анализа – 100 позиций

Поисковых систем – 2

Частота обновления – 4 суток

===

27 375 млрд элементов в год

Хранение позиций

~30 байт на элемент с учетом индексации

===

821 Tб в год

Но самое сложное – хранение путей релевантных страниц (!)

Есть ли смысл в кластеризации без

автоматизации продвижения?

Есть ли смысл в кластеризации без

интеграции с аналитикой?

Вопросы

Николай Хиврин

CEO ALTWeb Group

http://www.megaindex.org/khivrin

http://facebook.com/khivrin

Recommended