Upload
computer-science-club
View
1.641
Download
3
Tags:
Embed Size (px)
Citation preview
Анализ поисковых запросов
Павел Браславский
Санкт Петербург, р ур ,ноябрь‐декабрь 2010
План на ноябрьПлан на ноябрь
• Введение
• Характеристики потока запросовХарактеристики потока запросов
• Данные для анализа
• Сегментация
• Тематическая классификацияТематическая классификация
• Близкие запросы
• Практические задания
2Павел Браславский ‐ Анализ запросов
ВВЕДЕНИЕ
Павел Браславский ‐ Анализ запросов 3
Предварительные замечанияПредварительные замечания
Л б МП• Логи запросов – «опыт» и богатство МП• Современный поиск: «меньше информации, больше
контекста»контекста»• Мало открытых данных ( проблема для
академических исследований)• Проблемы с персональными данными (приватность)• Очень короткие тексты – сложность анализа
ф б• Недостаток информации компенсируется большими объемами данных (веб)
Павел Браславский ‐ Анализ запросов 4
Статистика запросов к ЯндексуСтатистика запросов к Яндексу
Павел Браславский ‐ Анализ запросов 5
Прямой эфирПрямой эфир
6Павел Браславский ‐ Анализ запросов
Личная история запросовЛичная история запросов
Павел Браславский ‐ Анализ запросов 7
Статистика слов запросовСтатистика слов запросов
Павел Браславский ‐ Анализ запросов 8
Павел Браславский ‐ Анализ запросов 9
Павел Браславский ‐ Анализ запросов 10
Traffic Volume Over a DayTraffic Volume Over a Day
8% 8%Note the drop in query volume during off-
6% 6%
Note the drop in query volume during offpeak time, and its subsequent rise throughout the remainder of the day.
4%% of Daily
Traffic4%
2% 2%
Total QueriesDistinct Queries
0%0 6 12 18 24
Hour of Day
0%Distinct Queries
Павел Браславский ‐ Анализ запросов 11[Beitzel]
Динамика запросовДинамика запросов
htt //i t d /
12Павел Браславский ‐ Анализ запросов
http://interes.yandex.ru/
Несколько цифрНесколько цифр
• Длина запроса 2‐3 слова
• Поисковая сессия в среднем 3 запросаПоисковая сессия в среднем 3 запроса
• 2‐3% сформулированы как вопрос
• 12‐15% запросов содержат опечатки
Павел Браславский ‐ Анализ запросов 13
Запросы вопросыЗапросы – вопросы
http://company.yandex.ru/facts/researches/ya_search_2009.xml
Павел Браславский ‐ Анализ запросов 14
Классификация запросов / информационных потребностей (Broder, 2002)
Павел Браславский ‐ Анализ запросов 15Baeza‐Yates
Category BreakdownCategory Breakdown
• Query lists for each category formed by a team of human dit
Sampled Categorized Query Stream Breakdown
Personal Finance
3%editors
• Query stream classified by exactly matching each query
Computing9%
Research & Learn
Travel5%
Other16%
exactly matching each query to category lists
Learn9%
Entertainment13%
Shopping
Sports3%
5%
Games5%
Holidays1%
Porn10%
pp g13%
Health5%
Home5%
US Sites3%
Павел Браславский ‐‐ Анализ запросов 16[Beitzel]
Category Popularity Over a DayCategory Popularity Over a Day
Categorical Coverage Over TimeP ornEnt ert ainm entGam esHealt hP ersonal FinanceShopping
3%
4%
ge 6%
7%
8%
olum
e
ShoppingM usicUSSit esVol u m e
2%
3%
age
Cove
rag
4%
5%
6%
e of
Tot
al V
o
1%Per
cent
a
1%
2%
3%
Per
cent
age
0%0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Hour of Day
0%
17[Beitzel]Павел Браславский ‐ Анализ запросов
Category Popularity Over Six MonthsCategory Popularity Over Six Months
Holidays2%
Sept Oct Nov Dec Jan
Shoppingy
1%
pp g
2%Sports Government
0%
1%% ofTotalQueryStream
0%Sept Oct Nov Dec Jan Feb
Months
18[Beitzel]Павел Браславский ‐ Анализ запросов
Pearson Correlations for Selected Categories Over A Day
0.5
1.00 6 12 18 24
0 5
1.0Personal Finance 0.0
Music
0.0
0.5
Entertainment Movies1.0
1.0 0.0
0.5
ComputingGames
0.0
0.5
0 6 12 18 24
Porn Government
PearsonCorrelation
19
Hour of Day
[Beitzel]Павел Браславский ‐ Анализ запросов
Источники и типы данныхИсточники и типы данных
Ji l 2010
Павел Браславский ‐ Анализ запросов 20
Jiang et al. 2010
Какая информация у нас есть?Какая информация у нас есть?
• текст запроса
• времявремя
• IP география
• Cookie (уникальный) пользователь
• клики на результатах поискаклики на результатах поиска
• (персональные данные, соцдем)
Павел Браславский ‐ Анализ запросов 21
Данные ( методы)Данные ( методы)
• отдельные запросы
• список запросовсписок запросов
• + время
• + сниппеты/документы
• + клики+ клики
• …Яндекс: ~6 Кбайт/запрос + ~0,5 Кб/клик
Павел Браславский ‐ Анализ запросов 22
Доступные данныеДоступные данные
• Excite 1997, 1999, 2001
• AOL 2006AOL 2006
• ИМАТ 2004
• MSN Search query Log excerpt (RFP 2006 dataset))
• …
23Павел Браславский ‐ Анализ запросов
Excite 1997Excite 1997
З (16 б 1997 )• Запросы за один день (16 сентября 1997 г.)• userId, timeStamp, query• ~1M запросов (много повторов)1M запросов (много повторов)
0C6B5395895CD808 970916125351 henri rousseau0C6B5395895CD808 970916125511 henri rousseau+tigerg949946B881F137F0 970916115517 "pharmacy"949946B881F137F0 970916115550 prescriptions91A98BC9BEDCF053 970916075435 australian+chat+victoria61305D2ADC74BC78 970916095742 dailyplanet61305D2ADC74BC78 970916095846 dailyplanet61305D2ADC74BC78 970916095846 dailyplanet33D1A0D49E8DB2AB 970916144916 maizehighschool33D1A0D49E8DB2AB 970916144951 maize high schoolFCBB8401805D783F 970916212508 warez strata studio proFCBB8401805D783F 970916212541 warez mac12FE04344578F249 970916202819 "midwife conference"12FE04344578F249 970916202924 midwifery477CC4190EF76EB4 970916165602 nrwmac477CC4190EF76EB4 970916172706 npac477CC4190EF76EB4 970916175242 nrwmac
Павел Браславский ‐ Анализ запросов 24
ИМАТ 2004ИМАТ 2004
й * %• 7 дней * 10% от 5‐10 миллионов запросов в день 3,5 Гб
<UID1><запрос1> <время> <найдено документов> <номер страницы>
<URL1> <время выбора><URL1> <время выбора><URL2> <время выбора>...
<запрос2> <время> <найдено документов> <номер страницы><запрос2> <время> <найдено документов> <номер страницы><URL1> <время выбора><URL2> <время выбора> ...
...<UID2>
...http://company yandex ru/academic/grant/datasets description xml
Павел Браславский ‐ Анализ запросов 25
http://company.yandex.ru/academic/grant/datasets_description.xml
AOL 2006AOL 2006
• Большой скандал!!!
• ~20M web queries from ~650k users over20M web queries from 650k users over three months
AnonID Query QueryTime ItemRank ClickURL993 myspace.co 01.03.2006 12:13993 myspace.com 01.03.2006 12:13993 googl 01.03.2006 15:03
h b dk d h // h b dk d993 chasebadkids.net 03.03.2006 16:55 1 http://www.chasebadkids.net
1268 ozark horse blankets 01.03.2006 17:39 8 http://www.blanketsnmore.com1268 www.ghostrockranch.com 04.03.2006 13:581268 openrangeht.zachsairforce.com 09.03.2006 22:381268 sstack.com 11.03.2006 0:171268 b 12 03 2006 18 591268 www.mecab.org 12.03.2006 18:591268 www.raindanceexpress.com 18.03.2006 20:131268 www.victoriacostumiere.com 19.03.2006 0:261268 osteen‐schaztberg.com 21.03.2006 17:55
1268 osteen‐schatzberg.com 21.03.2006 17:55 1 http://www.osteen‐schatzberg.com
Павел Браславский ‐ Анализ запросов 26
1268 osteen‐schatzberg.com 21.03.2006 17:55 2 http://www.osteen‐schatzberg.com
MSN Search query Log excerptMSN Search query Log excerpt• 15 million queries• 15 million queries • Sampled over one month • Queries from the US site (mostly English)
Per query attributes included: • Session ID • Time‐stampTime stamp• Query string • Number of results on results page • Results page number p g
Data per query for each result clicked: • URL • Associated query • Position on results page • Time‐stamp
Павел Браславский ‐ Анализ запросов 27
СЕГМЕНТАЦИЯ ЗАПРОСОВ
28Павел Браславский ‐ Анализ запросов
Сегментация запросовСегментация запросов
Сегментация:
1 поиск1. поиск
2. дальнейшая обработка запросов
международный почтамт | москвамолодежный отдых | в турцииофициальный сайт | автоваз
вечерняя москва vs пицца москваофициальный сайт | автовазКупить | кроссовки | Nike Zoom BBмагазин | рыбачьте с намиирина круг | пусть сейчас я плачу| слушать сбербанк россии | в алтайском крае
банк москвы vs банки москвы
сбербанк россии | в алтайском крае знак зодиака | близнецынино катамадзе | билеты Смысл названия | рассказа | матренин двор
| | | б
29
Сергей Тармашев | Корпорация | скачать | бесплатно
Павел Браславский ‐ Анализ запросов
Сегментация: подходыСегментация: подходы
• похоже на выделение устойчивых словосочетаний• + микросинтаксис• лог vs корпус текстов• ML (больше признаков, более богатое описание)• внешние ресурсы (Wikipedia)р ур ( p )• эвристики ([дима билан] [димабилан])
Павел Браславский ‐ Анализ запросов 30
Сегментация на основе логаСегментация на основе лога
conn(S) = freq(S)*I(w1…wn‐1;w2…wn)
msdn library visual studio
34259: (msdn library)[5110] (visual studio)[29149]29149: msdn[47658] library[209682] (visual studio)[29149]29149: msdn[47658] library[209682] (visual studio)[29149]5110: (msdn library)[5110] visual[23873] studio[53622]41: (msdn library visual studio)[41]7: msdn[47658] (library visual studio)[7]0: msdn[47658] library[209682] visual[23873] studio[53622]
Risvik et al. WWW2003
Павел Браславский ‐ Анализ запросов 31
Сегментация на основеMLСегментация на основе ML
нино | катамадзе | билеты
(0, 1, 0, 1, 1, 0) (1, 1, 0, 1, 0, 1)
Bergsma and Wang, 2007
Павел Браславский ‐ Анализ запросов 32
g g,
Сегментация: «наивный подход»Сегментация: «наивный подход»
На основе веб‐корпуса n‐грамм
Hagen at al SIGIR2010
Павел Браславский ‐ Анализ запросов 33
Hagen at al. SIGIR2010