2GIS Machine learning DevDay

Preview:

Citation preview

MACHINE LEARNING

МАШИННОЕ ОБУЧЕНИЕ ДЛЯ АНАЛИЗА ТЕКСТОВИ ВЕБ-МАЙНИНГА

ИВАН БОНДАРЕНКО

АЛЕКСАНДР РАДИОНОВ

ТЕОРИЯ

ВИДЫ ML• Статистические методы

• Нейронные сети

• Рассуждения по аналогии

• Деревья решений

• Генетические алгоритмы

ИЗВЛЕЧЕНИЕ ФАКТОВС САЙТОВ

• Сайты с однотипной структурой

• Разная структура

NAMED ENTITY RECOGNITION

• Определяем классы извлекаемых сущностей

• Размечаем учебный и тестовый корпус

• Обучаем алгоритм

• Извлекаем факты из новых страниц

ЧТО РАСПОЗНАЁМ?

ЧТО РАСПОЗНАЁМ?

ADDR_HOUSE

ADDR_HOUSEADDR_STREET

ADDR_STREET

ADDR_CITY

ADDR_CITY

SCHEDULE

TEL

EMAIL

ORG

КАК РАЗМЕЧАЕМ?

КОРПУС• 10 асессоров

• Свыше 20 тыс сущностей 11 классов

• 9 тыс организаций

• 8 тыс адресов

• 500 расписаний

• …

BIO-ФОРМАТBegin, Inside, Outside

Минздрав B-ORGМосковской I-ORGобласти: I-ORGул. B-ADDR_STREETБольшая I-ADDR_STREETПолянка, I-ADDR_STREETд. B-ADDR_HOUSE42/2 I-ADDR_HOUSE1 Oэтаж O

CONDITIONAL RANDOM FIELDS

y0

y1

y2

yT-1

yT

yT-2

x1

x2

xT-1

xT

xT-2

- вектор признаков t-го слова- класс t-го слова

CONDITIONAL RANDOM FIELDS

- признаки t-го слова- класс t-го слова

ОЦЕНКА КАЧЕСТВА

ПОЛНОТА 69.06ТОЧНОСТЬ 90.69

ПРАКТИКА

ДАННЫЕ

ДАННЫЕ

ШИНЫ

ДАННЫЕ

ДАННЫЕ

РЕГУЛЯРКИ

(?<=\s|[,\(])RE[\s|\-]?(0[0-9]{2})(?=\s|[,\)])

\s?[VZ]?\s?R\s?([0-9]{2}[\.,][0-9]{1,2})

РЕГУЛЯРКИ

Сотни :(

Полнота ~ 50%

RegEx-Hell

ПИОНЕР

Лексикографические признакиМорфологияСловариКорни

Суффиксы / ПрефиксыОпциональные слова

ПОЛНОТА 93.74ТОЧНОСТЬ 97.14

ПОЛНОТА 95.61ТОЧНОСТЬ 97.52

*

* регулярки ~ 50

ЧТО ХОТИМ

• Сверять данные по существующим фирмам

• Искать новые

НАМ ПРИХОДИТСЯ

• Скачивать много сайтов

• Рендерить страницы в браузере

• Извлекать новые ссылки

• Распознавать сущности

КАК ДЕЛАЕМ

• Docker для контейнеров

• Kubernetes для оркестрирования

KUBERNETES

АРХИТЕКТУРА

Downloader

Scheduler

Extractor

KAFKA Saver

DOWNLOADER

• Консольный браузер на базе WebKit

• Расстановка ComputedStyle

DOWNLOADER

<h1> Machine Learning</h1>

DOWNLOADER

<h1 dgis-ner-left="230" dgis-ner-top="347" dgis-ner-width="980" dgis-ner-height="122"> Machine Learning</h1>

EXTRACTOR

Extractor PioNER

POD

RestKafka

Metrics

PIONER

• Сборка, тестирование, обучение на коммит

• Сборка Docker, публикация тоже

• Мониторинг качества

КАЧЕСТВО

КАЧЕСТВО

СКОРОСТЬ

Все сайты из 2ГИС выкачиваются и распознаются за 4 дня

WE MACHINE LEARNING