Александр Коваленко "Оценка черной магии"

Preview:

DESCRIPTION

Александр Коваленко "Оценка черной магии" Первый Я.Субботник в Санкт-Петербурге О докладе: Сервисы Яндекса работают с огромными объемами данных, для обработки которых используются различные алгоритмы. Но объемы информации растут, ее содержимое меняется, а сами алгоритмы постоянно улучшаются. Поэтому очень важно постоянно контролировать качество их работы. В докладе речь пойдет об одном из наших инструментов оценки качества сложных алгоритмов.

Citation preview

Оценка черной магииАлександр КоваленкоРуководитель группы

Я.Субботник, Санкт-Петербург, 26 февраля 2011 года

Оглавление

2

●Задача оценки

●Прототип

●Универсальная система

●Эпилог

Задача оценки

3

4

5

Поиск по 17 150 160 предложениям от 5 536 магазинов

Поиск по 930 160 объявлениям с 324 сайтов

Поиск по 623 265 объявлениям c 62 сайтов

Поиск по 2 544 067 279 картинкам и фотографиям

Белая магия

public String left(String str, int len) { if (str == null) { return null; } if (len < 0) { return EMPTY; } if (str.length() <= len) { return str; } return str.substring(0, len); }

6

Черная магия

7

Было: Санкт-Петербург, Московский пр., 182а

Стало: индекс:страна:регион:город:улица:дом:литер:

196105РоссияСанкт-ПетербургСанкт-ПетербургМосковский проспект182А

8

Пример: до улучшения

9

Название: Ресторан ЧеремшаАдрес: Санкт-Петербург, поселок Солнечное, 2-я Боровая ул., 16, ...

Название: Солнечное небоАдрес: Москва, улица Земляной Вал, ...

Пример: после улучшения

10

Название: Ресторан ЧеремшаАдрес: Санкт-Петербург, поселок Солнечное, ...

Название: Солнечное небоАдрес: Москва, поселок Солнечное, Земляной Вал, ...

11

Но если...

12

Прототип

13

14

15

Что хотели

16

Простой инструмент для оценки одного из алгоритмов

Что получилось

17

Полноценная система оценки различных алгоритмов

18

Системы оценки нужны!

Универсальная система

19

21

Сервис 1

Сервис 2

Сервис 5

Сервис 3

Сервис 4

22

Сервис 1

Сервис 2

Сервис 5

Сервис 3

Сервис 4

23

Сервис 1

Сервис 2

Сервис 5

Сервис 3

Сервис 4

24

Системаоценки

Сервис 1Сервис 2

Сервис 5

Сервис 3

Сервис 4

25

Системаоценки

Сервис 1Сервис 2

Сервис 5

Сервис 3

Сервис 4

Универсальность по типам алгоритмов

26

Выделим наиболее общие классы алгоритмов:

● Унификация

● Кластеризация

● Классификация

● Экстракция

● ...

Унификация

27

страна:город:улица:дом:литер:

РоссияСпбМосковский пр-т.д.182а

страна:город:улица:дом:литер:

РоссияСанкт-ПетербургМосковский проспект182А

Кластеризация

28

29

Что нужно для оценки?

Данные для опытов

30

Эталон

31

Инструменты

32

33

Как это работает?

Запускаем алгоритм

34

Алгоритм

Сравниваем с эталоном

35

Показываем результаты

36

37

Алгоритм

39

Немного подробностей

Данные

40

Корпус

Данные

41

Сущность

индекс:страна:регион:город:улица:дом:литер:

196105РоссияСанкт-ПетербургСанкт-ПетербургМосковский проспект182А

Данные

42

ЭталонПроблема: где взять?

Варианты:

— «Псевдоэталон»

— Использовать готовый («а вдруг завалялся?..»)

— Взять и сделать

Данные

43

Результат

Метрики

44

Комплексные:

— Полнота по сущностям

— Точность

Единичные:

— Полнота по атрибутам

— Корректность значений

Унификация

Статистика

45

Алгоритм 1

Алгоритм 2

Алгоритм 3

...

Цифры

46

Цифры

47

Цифры

48

Графики

49

Эпилог

50

51

Сервис 1

Сервис 2

Сервис 5

Сервис 3

Сервис 4

Системаоценки

Сервис 1Сервис 2

Сервис 5

Сервис 3

Сервис 4

VS

Вопросы

52

Александр КоваленкоРуководитель группы

195027, Россия, Санкт-Петербург,Свердловская набережная, д. 44

alex-kovalenko@yandex-team.ru

Recommended