Принципы излечения и структурирования информации из...

Preview:

Citation preview

Принципы извлечения и структурирования информации

из описательного текста

Евгений Ветров

Пустой Слайд

Data Mining Extraction

Извлечение ХарактеристикСтруктурирование

Семантическая Разметка

The Rock

Demo

Next Challenge

Результат• ~ 0.015 ER• В продакшене (beta)

Первый Шаг

PoS

PoS TaggingПродаю /Verb квартиру /Noun недалеко /Adverb от /Preposition Таганки /Proper_Noun

Семантический анализ предложений

Стилистика ОЧЕНЬ важна

Стилистика. Case #1

Стилистика. Case #2

Divide et Impera• Выделение предложений• Выделение фраз

TokenizationПродаю двухкомнатную квартиру 50 кв.Продаю /wordдвух /numberквартиру /word50 /numberкв /word. /point

Форматирование текста

Punctuation Hell• 10,000 рублей• 2.5 млн• 20,40,30 и 15 м2

Значение где-то рядом

Вариации имени свойстваапартаменты = квартира = кв.кв. = квадратный метркомната = комн. = ком. = к.

Синонимы и акронимы• Словари и Тезаурусы• Частотный Анализ

Частотный анализ

Частотный анализ

Boolean FeaturesПродажа… ипотека

Продажа… ипотека невозможна

Self descriptive values

Исключения из правил• Ленинская площадь 20• на 1-ом этаже спортзал

Верификация результата• Инварианты10 этаж 5 этажного дома• Регрессионный анализ

Типы ошибок извлечения• Характеристика не извлечена• Неправильное значение хар-ки• Несуществующая хар-ка

Наборы данных

• Обучающий набор• Тестовый набор

ИТОГО

• Ориентированность на домен

• Статистика

Спасибо!

Буду рад ответить на ваши вопросы:Евгений Ветров – eugene@choister.net

Recommended