Upload
yaevents
View
275
Download
0
Embed Size (px)
Citation preview
Автоматический сбор данных по примерамВладимир БатыгинРазработчик
Я.Субботник, Санкт-Петербург, 26 февраля 2011
План
● Введение● Singlepage● Алгоритм● Итоги
2
Глава 1.Введение
3
5
6
Вёрстка
7
Вёрстка
Разнообразна
8
Вёрстка
Разнообразна Часто изменяется
9
Специализированные парсеры
На каждый сайт – свой
10
Нужна армия
11
Общие алгоритмы
Предполагают наличие на странице регулярной структуры
12
13
MDR
Требования
14
Требования
15
● Простая настройка● Простая поддержка
Требования
● Простая настройка● Простая поддержка● Высокие показатели полноты и точности
16
Глава 2.SinglePage
17
Управляемая экстракция1. Пользователь задает примеры
2. Система автоматически извлекает данные со всего сайта
18
Преимущества
● Быстрая настройка
● Не требуется разбираться в структуре страницы
● Структурированное извлечение нужной информации
● Устойчивость к изменениям вёрстки
19
Ограничения● Отдельная страница на каждый объект● Группа страниц с однотипной вёрсткой
20
Глава 3.Алгоритм
21
Взгляд внутрь1. По примерам строим шаблоны (один атрибут – один шаблон)
2. Применяем шаблоны к остальным (подходящим) страницам
22
23
Интерфейс
24
Построение шаблона
25
Построение шаблона
Для каждого атрибута строится отдельный шаблон
26
27
28
//ul/li[3]/span
29
30
//ul/li[3]/span
31
//ul/li[3]/span Size=20 quad laser...
TreePattern
32
TreePattern
Homeworld: Size: Weapon:
Corellia 26, 7 meters long quad laser cannons ...
33
Построение TreePattern
34
Построение TreePattern
35
Построение TreePattern
36
Построение TreePattern
37
38
Проблема
39
Проблема
Необязательный узел
<h1>
<span>
Driod Control Ship
?
[Target]
40
Поиск вхождений
41
Множественные вхождения
4 комбинации
Выбираем лучшую
42
Применение шаблона к сайту
43
Кластеризация
44
Применяем шаблоны
Не применяем шаблоны
Все страницы
Глава 4.Итоги
45
Статистика
Время создания < 20 мин
Полнота: 88% Точность: 92%
46
Happy End?
47
Нерешенные задачи
● Динамический контент
● Плагин для браузера
48
ЗаключениеПолуавтоматические методы:
● По качеству данных и универсальности сравнимы со сбором «в ручную»
● Сложность и время настройки минимальны
49
50
P.S. Экономьте Ваше время!
50
Вопросы
51
Батыгин ВладимирРазработчик
111033, Россия, Санкт-Петербург,Свердловская наб., д. 44.