Автоматический сбор данных по примерам

Preview:

Citation preview

Автоматический сбор данных по примерамВладимир БатыгинРазработчик

Я.Субботник, Санкт-Петербург, 26 февраля 2011

План

● Введение● Singlepage● Алгоритм● Итоги

2

Глава 1.Введение

3

5

6

Вёрстка

7

Вёрстка

Разнообразна

8

Вёрстка

Разнообразна Часто изменяется

9

Специализированные парсеры

На каждый сайт – свой

10

Нужна армия

11

Общие алгоритмы

Предполагают наличие на странице регулярной структуры

12

13

MDR

Требования

14

Требования

15

● Простая настройка● Простая поддержка

Требования

● Простая настройка● Простая поддержка● Высокие показатели полноты и точности

16

Глава 2.SinglePage

17

Управляемая экстракция1. Пользователь задает примеры

2. Система автоматически извлекает данные со всего сайта

18

Преимущества

● Быстрая настройка

● Не требуется разбираться в структуре страницы

● Структурированное извлечение нужной информации

● Устойчивость к изменениям вёрстки

19

Ограничения● Отдельная страница на каждый объект● Группа страниц с однотипной вёрсткой

20

Глава 3.Алгоритм

21

Взгляд внутрь1. По примерам строим шаблоны (один атрибут – один шаблон)

2. Применяем шаблоны к остальным (подходящим) страницам

22

23

Интерфейс

24

Построение шаблона

25

Построение шаблона

Для каждого атрибута строится отдельный шаблон

26

27

28

//ul/li[3]/span

29

30

//ul/li[3]/span

31

//ul/li[3]/span Size=20 quad laser...

TreePattern

32

TreePattern

Homeworld: Size: Weapon:

Corellia 26, 7 meters long quad laser cannons ...

33

Построение TreePattern

34

Построение TreePattern

35

Построение TreePattern

36

Построение TreePattern

37

38

Проблема

39

Проблема

Необязательный узел

<h1>

<span>

Driod Control Ship

?

[Target]

40

Поиск вхождений

41

Множественные вхождения

4 комбинации

Выбираем лучшую

42

Применение шаблона к сайту

43

Кластеризация

44

Применяем шаблоны

Не применяем шаблоны

Все страницы

Глава 4.Итоги

45

Статистика

Время создания < 20 мин

Полнота: 88% Точность: 92%

46

Happy End?

47

Нерешенные задачи

● Динамический контент

● Плагин для браузера

48

ЗаключениеПолуавтоматические методы:

● По качеству данных и универсальности сравнимы со сбором «в ручную»

● Сложность и время настройки минимальны

49

50

P.S. Экономьте Ваше время!

50

Вопросы

51

Батыгин ВладимирРазработчик

111033, Россия, Санкт-Петербург,Свердловская наб., д. 44.

vbatygin@yandex-team.ru

Recommended