Phrase Search

Поиск фраз в документах РСЯДмитрий Агафонов

Я.Субботник, Москва, 18 апреля 2009 года

Яндекс – много разных поисков.

Для пользователей.

А ещё есть внутренние поиски.

Их тоже много.

Сегодня – про один из них.

Подробно!

Наш план

● О чём речь● Кому это интересно● Много букв (картинки будут)● Ваши вопросы● Мои ответы

О чём

Контекстная реклама: клиенты и площадки.

Клиенты дают рекламу.

Площадки дают место.

От клиентов – рекламные материалы. Много.

От площадок – документы в Интернете. Очень много.

Надо связать их эффективно. И быстро.

О чём

Процесс привязки большой и сложный.

Одна из задач – найти фразу в документе и определить её релевантность.

Несколько миллионов фраз. Надо найти все!

Время на размышление для одного документа: 20ms.

Как это сделать?

О чём

У нас это решение нашей конкретной задачи.

Общие применения алгоритма:

● Поиск коллекции наборов объектов во множестве объектов

● Определение релевантности данных заданным признакам

● Классификация

● Обратный поиск

Кому интересно● Разработчикам

● Менеджерам

● Алгоритмистам

● И мне тоже

Тем, кто решал подобную задачу или будет решать.

Поехали!

Что в пути

● Задача● Решение

– Собрать индекс из фраз

– Обработать документы

Задача

Вроде всё просто● Есть много фраз

● Есть один документ

Найти фразы в документе.

Посчитать их релевантность.

На входе ⇐

Коллекция фраз. Фраза это:

– Множество слов

– Дополнительные условия

Документ это:

– Большое множество слов● Позиция слова

● Вес слова

– Дополнительные условия

На выходе ⇒

Найденные фразы + релевантность каждой фразы.

Фраза найдена если:

– Документ содержит все слова фразы

– Слова фразы находятся недалеко друг от друга

– Дополнительные условия фраз и документа соответствуют

Порядок слов не важен.

Пример на буквах

Это две фразы:

● a c h

● d f p u

Это документ: a b c d e f g h i j k l m n o p q r s t u v w x y z

Нашли.

Но фраза d f p u слишком размазана по документу.

Решение

Две части решения

● Собрать фразы в индекс● Обработать документ

А сначала пара особенностей.

«Людям» = «человеку»

Посимвольно «людям» ≠ «человеку».

Есть леммер!

«людям» (люди, человек)

«человеку» (человек)

Набор лемм слова – каноническая форма слова.

Или далее просто «слово».

У слова несколько формОсновная – ЛеммаИногда не одна

неизвестный японский автор

Два приёма● Сделать всё числами

– Слова

– Леммы

– Фразы

– Всё остальное

● Все числа упорядочить

Сборка индекса

На входе ⇐

Этапы сборки индекса● Подготовить фразы

● Построить индекс

Всего 11 простых действий :-)

Фразы● Берём слова фраз

«c a b»

«b a»

«a c»

«b e d»

● Считаем частоты слов

«c a b»

«b a»

«a c»

«b e d»

a – 3

b – 3

c – 2

d – 1

e – 1

● Считаем частоты слов

● Переставляем слова во фразах по убыванию частоты

«c a b»

«b a»

«a c»

«b e d»

a – 3

b – 3

c – 2

d – 1

e – 1

«a b c»

«a b»

«a c»

«b d e»

Индекс

«a b c»

«a b»

«a c»

«b d e»

Строим дерево фраз

Индекс

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e»

Находим терминальные узлы

Индекс

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e»

корневой терминальный остальные

Красим узлы по типам

Индекс

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e»

Проводим вертикальные уровни

Индекс

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e»

Нумеруем узлы слева направо и сверху вниз

Индекс

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e»

Запоминаем диапазоны номеров дочерних узлов

Индекс

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e»

Делаем таблицуСлово → Узлы дерева

a 1b 2, 3c 4, 6d 5e 7

Индекс

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e»

Делаем таблицуЛемма → Слова

a 1b 2, 3c 4, 6d 5e 7

α a, bβ eγ c, dδ bε a, c

люди → (люди,человек)

человек → (человек), (люди,человек)

Индекс готов!

Теперь документ

Что делать с документом● Подготовить документ

● Найти терминальные узлы в индексе

● Проверить расстояния между словами фраз

● Посчитать релевантность

Есть кто живой? :-)

Что делать с документом● Подготовить документ

● Найти терминальные узлы в индексе

● Проверить расстояния между словами фраз

Готовим документ

На входе ⇐

Готовим вообще

Надо чтобы «людям» из документа = «человеку» в индексе. Поэтому не подходит поиск в индексе по словам из документа. Надо искать через леммы.

Преобразуем документ в таблицу:

Лемма → Список словопозиций с весами

Оригинал документа больше не нужен.

Готовим для индекса

В узлах индекса слова, а не леммы.

Преобразуем документ в другую таблицу:

Слово в индексе → Словопозиции и веса

Мы перевели документ в пространство слов индекса. Теперь всё найдём!

Первая таблица Лемма → Список словопозиций с весами может понадобиться для другого индекса.

α a, bβ eγ c, dδ bε a, c

лемма � слова

Ищем в индексе(особая поисковая магия)

ПоискЭто – разреженный интервал поиска™

a 1:5 2:7 9:4b 3:9 8:4c 5:6e 4:3 7:1

Это документ

слова, позиции и веса

0 1 2 3 4 5 6 7

Поиск

a 1b 2, 3c 4, 6d 5e 7

1 2 3 4 6 7

Берём таблицу слова → узлы индекса

a 1:5 2:7 9:4b 3:9 8:4c 5:6e 4:3 7:1

Делаем из документа список узлов индекса

Поиск

1 2 3 4 6 7

1.Начинаем в корне, с пустым интервалом поиска.

2.В каждом узле:

● Обрезаем интервал от начала и до номера текущего узла включительно.

● Если есть диапазон номеров дочерних узлов, добавляем его в интервал.

● Если узел терминальный, добавляем его фразы в список найденных.

3.Находим нижнюю границу пересечения интервала с документом. Это следующий узел.

Пример

1 2 3 4 6 7

Пришли в узел 0

Добавляем в пустой интервал диапазон 1-2

0 1 2 3 4 5 6 7

Пример

1 2 3 4 6 7

Удаляем из интервала 1

Добавляем диапазон 3-4

0 1 2 3 4 5 6 7

Пример

1 2 3 4 6 7

Добавляем 5

0 1 2 3 4 5 6 7

Пример

1 2 3 4 6 7

Добавляем 6

Нашли фразу «a b»!

0 1 2 3 4 5 6 7

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e»

Пример

1 2 3 4 6 7

Добавлять нечего

Нашли фразу «a c»!

0 1 2 3 4 5 6 7

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e»

Пример

1 2 3 4 6 7

Удаляем из интервала 5-6

Добавлять снова нечего

Нашли фразу «a b c»!

Всё! 01-2

0 1 2 3 4 5 6 7

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e» a b c e

Заметки к поиску● Двигаемся по двум упорядоченным спискам чисел –

высокая скорость поиска.

● В узлах можно проверять соответствие дополнительных условий фраз, «проходящих» через узел, и условий документа – можно не заходить в лишние ветки.

● Для более сложных индексов и документов интервал поиска действительно становится разреженным, т. е. зелёные и серые участки вперемешку.

1 2 3 4 6 70 1 2 3 4 5 6 7

Наш план

● О чём речь● Кому это интересно● Много букв (картинки будут)● Ваши вопросы● Мои ответы

Осталось чуть-чуть

● Проверить расстояния между словами найденных фраз

Пример на буквах

Это две фразы:

● a c h

● d f p u

Это документ: a b c d e f g h i j k l m n o p q r s t u v w x y z

Нашли.

Но фраза d f p u слишком размазана по документу.

Проверка расстояний

Мы знаем слова найденных фраз и их позиции в документе.

Делаем список словопозиций.

Привязываем позиции к фразам.

Проверяем за один проход.

a 1:5 2:7 9:4b 3:9 8:4c 5:6e 4:3 7:1

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e»

Релевантность

У слов найденных фраз есть веса в документе.

Вычислить релевантность фраз можно, например, по TF-IDF. Или другим методом.

a 1:5 2:7 9:4b 3:9 8:4c 5:6e 4:3 7:1

i. «a b c»

ii. «a b»

iii. «a c»

iv. «b d e»

Вопросы?

Дмитрий АгафоновСтарший разработчик

111033, Россия, Москва,ул. Самокатная, д. 1, стр. 21.

+7 (495) 739-00-00+7 (495) 739-70-70 — факс

daga@yandex-team.ru

Phrase Search

Documents

Secure Phrase Search for Intelligent Processing of ... · 1998 IEEE INTERNET OF THINGS JOURNAL, VOL. 6, NO. 2, APRIL 2019 Secure Phrase Search for Intelligent Processing of Encrypted

Phrase Structure and Parsing as Search · Phrase Structure Grammars and Parsing Heads and Phrases Desirable Properties of a Grammar A Fragment of English Heads and Phrases Noun (N):

ڌتځقتڂڍا فاٱ ڃ بيٱ ڌٍكڄٽآ ٸڍا٩ ٻڄى تپي٭ایل-آموزشی-کسب... · SEO versus SEM 40 Search Phrase Nr of search results Organic search results

Pharaoh: a Beam Search Decoder for Phrase-Based Statistical

Exit International · Easily found with search websites like The best search phrase would be The best search phrase would be “Free Web Proxy” Other websites like track and maintain

Searching the ASRS Database Using QUORUM Keyword … · NASA/TM--2001-210913 Searching the ASRS Database Using QUORUM Keyword Search, Phrase Search, Phrase Generation, and Phrase

How to Rank in the search engines for the search phrase Wisconsin employment-law

TUmarketplace Document Search Update - Temple University...Aug 10, 2020 · • Search for an exact match: Put a phrase inside quotes. For example, "Fisher Scientific" • Exclude

static-content.springer.com10.1186/s136… · Web viewA slash appearing after a search word/phrase in OVID databases indicates search within ... or player* or athlet* or spectator*

SEO SURVIVAL a glossary by · 2019. 4. 12. · SEO (Search Engine Optimization) is simply a way of getting more traﬃc from search engines, like Google. When you search a phrase

Sample Client Report - Esotech...Including paid search. 110 82.5 55 27.5 ... AdWords Search Volume Columns: Local Volume: average monthly search volume in the US for this word or phrase

An Efficient Fast Phrase Search with Nth-Gram For Encrypted Cloud Storage

Pharaoh: a Beam Search Decoder for Phrase-Based

€¦ · 5 Conduct A Basic Search Enter a keyword or phrase into the search bar on the top of the homepage and click GO Hint: The search engine supports advanced search techniques

How to rank in search engines for the keyword phrase internet marketing services

Phrase Identification from Queries and Its Use for Web Search

LITERATURE SEARCH TIPS FORENSIC TOXICOLOGISTS2. Public Search Engines & Literature Database ‐Google 7 Queries Exact phrase: double quote ‐“driving under the influence of fentanyl”

The PostgreSQL Conference - PGCon 2020 - Some recent … · 2020. 1. 4. · Full-text search in PostgreSQL ... Phrase search - internals Phrase search has overhead, since it requires

SEARCH - Juniper Networks · Like a Boss SEARCH Quotation Marks (“ ”) Asterisk (*) Minus Sign (–) Site: operator inurl: operator Tilde (~) Search for an exact phrase. “data

Poetry Resources - About the Initiativeabout.galileo.usg.edu/docs/materials_docs/poetryresources.pdf · Poetry Resources Literary Reference Center ... Search Mode: Boolean\phrase