45
MACHINE LEARNING

2GIS Machine learning DevDay

Embed Size (px)

Citation preview

Page 1: 2GIS Machine learning DevDay

MACHINE LEARNING

Page 2: 2GIS Machine learning DevDay

МАШИННОЕ ОБУЧЕНИЕ ДЛЯ АНАЛИЗА ТЕКСТОВИ ВЕБ-МАЙНИНГА

Page 3: 2GIS Machine learning DevDay

ИВАН БОНДАРЕНКО

АЛЕКСАНДР РАДИОНОВ

Page 4: 2GIS Machine learning DevDay

ТЕОРИЯ

Page 5: 2GIS Machine learning DevDay

ВИДЫ ML• Статистические методы

• Нейронные сети

• Рассуждения по аналогии

• Деревья решений

• Генетические алгоритмы

Page 6: 2GIS Machine learning DevDay

ИЗВЛЕЧЕНИЕ ФАКТОВС САЙТОВ

• Сайты с однотипной структурой

• Разная структура

Page 7: 2GIS Machine learning DevDay

NAMED ENTITY RECOGNITION

• Определяем классы извлекаемых сущностей

• Размечаем учебный и тестовый корпус

• Обучаем алгоритм

• Извлекаем факты из новых страниц

Page 8: 2GIS Machine learning DevDay

ЧТО РАСПОЗНАЁМ?

Page 9: 2GIS Machine learning DevDay

ЧТО РАСПОЗНАЁМ?

ADDR_HOUSE

ADDR_HOUSEADDR_STREET

ADDR_STREET

ADDR_CITY

ADDR_CITY

SCHEDULE

TEL

EMAIL

ORG

Page 10: 2GIS Machine learning DevDay

КАК РАЗМЕЧАЕМ?

Page 11: 2GIS Machine learning DevDay

КОРПУС• 10 асессоров

• Свыше 20 тыс сущностей 11 классов

• 9 тыс организаций

• 8 тыс адресов

• 500 расписаний

• …

Page 12: 2GIS Machine learning DevDay

BIO-ФОРМАТBegin, Inside, Outside

Минздрав B-ORGМосковской I-ORGобласти: I-ORGул. B-ADDR_STREETБольшая I-ADDR_STREETПолянка, I-ADDR_STREETд. B-ADDR_HOUSE42/2 I-ADDR_HOUSE1 Oэтаж O

Page 13: 2GIS Machine learning DevDay

CONDITIONAL RANDOM FIELDS

y0

y1

y2

yT-1

yT

yT-2

x1

x2

xT-1

xT

xT-2

- вектор признаков t-го слова- класс t-го слова

Page 14: 2GIS Machine learning DevDay

CONDITIONAL RANDOM FIELDS

- признаки t-го слова- класс t-го слова

Page 15: 2GIS Machine learning DevDay

ОЦЕНКА КАЧЕСТВА

Page 16: 2GIS Machine learning DevDay

ПОЛНОТА 69.06ТОЧНОСТЬ 90.69

Page 17: 2GIS Machine learning DevDay

ПРАКТИКА

Page 18: 2GIS Machine learning DevDay
Page 19: 2GIS Machine learning DevDay
Page 20: 2GIS Machine learning DevDay

ДАННЫЕ

Page 21: 2GIS Machine learning DevDay

ДАННЫЕ

Page 22: 2GIS Machine learning DevDay

ШИНЫ

Page 23: 2GIS Machine learning DevDay

ДАННЫЕ

Page 24: 2GIS Machine learning DevDay

ДАННЫЕ

Page 25: 2GIS Machine learning DevDay

РЕГУЛЯРКИ

(?<=\s|[,\(])RE[\s|\-]?(0[0-9]{2})(?=\s|[,\)])

\s?[VZ]?\s?R\s?([0-9]{2}[\.,][0-9]{1,2})

Page 26: 2GIS Machine learning DevDay

РЕГУЛЯРКИ

Сотни :(

Полнота ~ 50%

RegEx-Hell

Page 27: 2GIS Machine learning DevDay

ПИОНЕР

Лексикографические признакиМорфологияСловариКорни

Суффиксы / ПрефиксыОпциональные слова

Page 28: 2GIS Machine learning DevDay

ПОЛНОТА 93.74ТОЧНОСТЬ 97.14

Page 29: 2GIS Machine learning DevDay

ПОЛНОТА 95.61ТОЧНОСТЬ 97.52

*

* регулярки ~ 50

Page 30: 2GIS Machine learning DevDay
Page 31: 2GIS Machine learning DevDay

ЧТО ХОТИМ

• Сверять данные по существующим фирмам

• Искать новые

Page 32: 2GIS Machine learning DevDay

НАМ ПРИХОДИТСЯ

• Скачивать много сайтов

• Рендерить страницы в браузере

• Извлекать новые ссылки

• Распознавать сущности

Page 33: 2GIS Machine learning DevDay

КАК ДЕЛАЕМ

• Docker для контейнеров

• Kubernetes для оркестрирования

Page 34: 2GIS Machine learning DevDay

KUBERNETES

Page 35: 2GIS Machine learning DevDay

АРХИТЕКТУРА

Downloader

Scheduler

Extractor

KAFKA Saver

Page 36: 2GIS Machine learning DevDay

DOWNLOADER

• Консольный браузер на базе WebKit

• Расстановка ComputedStyle

Page 37: 2GIS Machine learning DevDay

DOWNLOADER

<h1> Machine Learning</h1>

Page 38: 2GIS Machine learning DevDay

DOWNLOADER

<h1 dgis-ner-left="230" dgis-ner-top="347" dgis-ner-width="980" dgis-ner-height="122"> Machine Learning</h1>

Page 39: 2GIS Machine learning DevDay

EXTRACTOR

Extractor PioNER

POD

RestKafka

Metrics

Page 40: 2GIS Machine learning DevDay

PIONER

• Сборка, тестирование, обучение на коммит

• Сборка Docker, публикация тоже

• Мониторинг качества

Page 41: 2GIS Machine learning DevDay

КАЧЕСТВО

Page 42: 2GIS Machine learning DevDay

КАЧЕСТВО

Page 43: 2GIS Machine learning DevDay

СКОРОСТЬ

Все сайты из 2ГИС выкачиваются и распознаются за 4 дня

Page 45: 2GIS Machine learning DevDay

WE MACHINE LEARNING