25
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год

Data Mining - lecture 1 - 2014

Embed Size (px)

DESCRIPTION

Data Mining - Lecture 1

Citation preview

Page 1: Data Mining - lecture 1 - 2014

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Data Mining

Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук

Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год

Page 2: Data Mining - lecture 1 - 2014

ПЛАН КУРСА• Введение в Data Mining • Узнаем больше о своих данных • Подготовка данных (preprocesing) • Хранилища данных • Поиск шаблонов в данных • Методы классификации • Методы кластеризации

Page 3: Data Mining - lecture 1 - 2014

ВВЕДЕНИЕ В DATA MINING

Page 4: Data Mining - lecture 1 - 2014

ЧТО ТАКОЕ DATA MINING

• Data mining (с англ.) - добыча данных

• Data mining - поиск знаний (или интересных шаблонов и закономерностей) в данных

• Data mining - процесс поиска интересных шаблонов и новых знаний из большого количества данных

Page 5: Data Mining - lecture 1 - 2014

ПРОЦЕСС ПОЛУЧЕНИЯ ЗНАНИЙ ИЗ ДАННЫХ

ШаблоныData miningХранилищеданных

файлы

БД

Знание

Page 6: Data Mining - lecture 1 - 2014

ОСНОВНЫЕ ЭТАПЫ• Очистка данныхудаление шумов и противоречивых данных

• Интеграция данныхобъединение данных из различных источников данных

• Выбор данныхтолько данные, имеющие отношение к поставленной задаче

• Трансформация данныхпредставление данных в формах, удобных для анализа и аггрегаций

• Data mining применение различных методов для выделение шаблонов данных

• Изучение шаблонов идентификация важных шаблонов, содержащих новые знания

• Презентация знаний использование визуализации и других техник представления полученных знаний

Page 7: Data Mining - lecture 1 - 2014

КАКИЕ ШАБЛОНЫ МОГУТ БЫТЬ НАЙДЕНЫ?

• описательныеОписательные шаблоны характеризуют свойства данных в анализируемом наборе данных

• предсказывающие Предсказывающие шаблоны позволяют используя анализируемый набор данных делать предсказания для других наборов данных

Page 8: Data Mining - lecture 1 - 2014

ОПИСАНИЕ КЛАССА ИЛИ КОНЦЕПЦИИ

Описание некоторого класса или концепции с помощью краткого и выразительного набора терминов

• Такое описание может быть получено:

• при помощи характеризации данных, путем краткого представления данных рассматриваемого класса (target class) в общих терминах

• путем сравнения рассматриваемого класса с одним или несколькими альтернативными классами - дискриминация данных

Page 9: Data Mining - lecture 1 - 2014

ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ

• Менеджер по продажам рассматривает такую задачу: Описать характеристики клиентов, которые потратили больше $5000.

• Результат: возраст 40-50 лет, работающие и имеющие высший кредитный рейтинг

Page 10: Data Mining - lecture 1 - 2014

ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ• Менеджер по продажам рассматривает такую задачу: Сравнить характеристики пользователей, покупающих некоторую группу товаров часто (чаще 2 раз в месяц), и пользователей, которые покупают очень редко (менее 3 раз в год).

• Результат: 80% частых покупателей данной группы товаров имеют возраст 20-40 лет и высшее образование, в то время как 60% нечастых покупателей - пенсионеры или люди до 18 лет и без высшего образования. При более детальном анализе, например, можно сказать, что отличия двух рассматриваемых групп - уровень дохода.

Page 11: Data Mining - lecture 1 - 2014

ЧАСТЫЕ ШАБЛОНЫШаблоны, которые часто встречаются в данных:

• подмножества Пример: хлеб и молоко покупаются вместе

• последовательностиПример: сначала покупается ноутбук, потом цифровая камера, а потом карта памяти

• структурные шаблоны (могут включать в себя последовательности и подмножества) Пример: покупается ноутбук вместе с чехлом, потом сканер, принтер или мфу, причем если купили принтер или мфу - то покупается бумага ежемесячно.

Page 12: Data Mining - lecture 1 - 2014

ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ

• Менеджер рассматривает такую задачу: Найти товары, которые часто покупаются вместе.

• Результат:покупка(X, “компьютер”) => покупка(X, “ПО”) [supp = 1%, conf = 50%]т.е. 1% всех покупок включает компьютер и ПО вместе, в 50% случаев при покупке компьютера покупается и ПО.

• supp(A) - относительное количество случаев, когда правило A выполняется (support)

• conf(A=>B) - относительное количество случаев, когда выполняется B после A (confidence). conf(A=>B) = p(B|A)

Page 13: Data Mining - lecture 1 - 2014

ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ

• Классификация - процесс поиска модели (или функции), которая описывает и отличает классы или концепции в данных

• Пример: возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”)возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) возраст(X, “средний”) => class(X, “C”)возраст(X, “старый”) => class(X, “C”)

Page 14: Data Mining - lecture 1 - 2014

ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ

• Регрессионный анализ - статистическая методология, используемая для численного предсказания.

• При классификации предсказывают сатегории (дискретные и без определенного порядка), а модели регрессии - непрерывные функции

• Пример:

0

5

10

15

20

0 3 6 9 12

Page 15: Data Mining - lecture 1 - 2014

КЛАСТЕРНЫЙ АНАЛИЗ• Кластерный анализ - процесс анализа данных без использования информации о их классах (например, когда такой информации просто нет)

• Пример:

0

5

10

15

20

0 3 6 9 12

Page 16: Data Mining - lecture 1 - 2014

ПОИСК АНОМАЛИЙ• Данные могут содержать элементы, которые не отвечают общему поведению или модели данных - аномалии (outliers).

• Пример: 100

40

1

Page 17: Data Mining - lecture 1 - 2014

КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТ ИНТЕРЕСИнтересные шаблоны должны:

• быть легко понимаемы для человека

• быть верными и для тестовых данных с некоторой степенью достоверности (valid)

• быть потенциально полезными в решении рассматриваемой задачи (useful)

• нести новое знание для исследователя (novel)

• давать возможность предпринимать дейсвие на основе полученного знания (actionable)

Page 18: Data Mining - lecture 1 - 2014

ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ

Data Mining

Machine LearningСтатистика

Базы данных

Хранилища данных

Информационный поиск

Приложения

HPвычисления

Алгоритмы

Визуализация

Распознание шаблонов

Page 19: Data Mining - lecture 1 - 2014

СТАТИСТИКА• Статистика изучает вопросы сбора, анализа, интерпретации и презентации данных

• Статистическая модель - это набор математических функций , описывающий поведение объектов в рассматриваемом классе в терминах случайных переменных и их вероятностные распределения

• Статистические модели могут быть результатом Data Mining

• Статистические методы применяются для проверки и обоснования результатов Data Mining

Page 20: Data Mining - lecture 1 - 2014

MACHINE LEARNING

• Machine Learning рассматривает вопросы как компьютер может учиться (или улучшать свою эффективность) основываясь на данных

• Supervised learning - обучение с учителем. Рассматриваются в основном задачи классификации. И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е (классифицированные) данные.

• Unsupervised learning - самостоятельное обучение. Рассматриваются в основном задачи кластеризации.

Page 21: Data Mining - lecture 1 - 2014

ОСНОВНЫЕ ПРОБЛЕМЫ DATA MINING

• Разработка методологий

• Взаимодействие с пользователем

• Эффективность и масштабируемость

• Разнообразие типов данных

• Data Mining и общество

Page 22: Data Mining - lecture 1 - 2014

РАЗРАБОТКА МЕТОДОЛОГИЙ

Исследователи, разрабатывая новые методы, учитывают следующие аспекты:

• Получение новых типов знаний

• Получение данных в пространствах многих измерений

• Интеграция методов из многих дисциплин

• Обработка зашумленных и неполных данных

Page 23: Data Mining - lecture 1 - 2014

ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ

Пользователь играет одну из важных ролей в процессе Data Mining. Основными вопросами исследований являются:

• Как взаимодействовать с системой Data Mining?

• Как интегрировать предметные знания пользователей в процесс Data Mining?

• Как представить и визуализировать результаты?

Page 24: Data Mining - lecture 1 - 2014

ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ

Вопросы эффективности и масштабируемости всегда рассматриваются при сравнении различных алгоритмов Data Mining.

• Ал г о р и тмы до лжны бы т ь эффе к т и в ными и л е г к о масштабируемыми , чтобы иметь возможность добывать информацию из огромного количества данных. Время выполнения должно быть предсказуемо, ограничено и приемлемо для приложений

• Map/Reduce. Часто применяется техника разделения данных на части , каждая из которых обрабатывается параллельно несколькими процессами (с возможностью взаимодействия). После обработки полученные шаблоны объединяются.

Page 25: Data Mining - lecture 1 - 2014

ЛИТЕРАТУРА

• https://ru.wikipedia.org/wiki/Data_mining

• Дюк В.А., Самойленко А.П. Data Mining. Учебный курс

• Ситник В. Ф., Краснюк М. Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. посібник.

• J. Han, M. Kamber, J. Pei Data Mining: Concepts and Techniques