Data Mining - lecture 1 - 2014

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Data Mining

Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук

Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год

ПЛАН КУРСА• Введение в Data Mining • Узнаем больше о своих данных • Подготовка данных (preprocesing) • Хранилища данных • Поиск шаблонов в данных • Методы классификации • Методы кластеризации

ВВЕДЕНИЕ В DATA MINING

ЧТО ТАКОЕ DATA MINING

• Data mining (с англ.) - добыча данных

• Data mining - поиск знаний (или интересных шаблонов и закономерностей) в данных

• Data mining - процесс поиска интересных шаблонов и новых знаний из большого количества данных

ПРОЦЕСС ПОЛУЧЕНИЯ ЗНАНИЙ ИЗ ДАННЫХ

ШаблоныData miningХранилищеданных

файлы

БД

Знание

ОСНОВНЫЕ ЭТАПЫ• Очистка данныхудаление шумов и противоречивых данных

• Интеграция данныхобъединение данных из различных источников данных

• Выбор данныхтолько данные, имеющие отношение к поставленной задаче

• Трансформация данныхпредставление данных в формах, удобных для анализа и аггрегаций

• Data mining применение различных методов для выделение шаблонов данных

• Изучение шаблонов идентификация важных шаблонов, содержащих новые знания

• Презентация знаний использование визуализации и других техник представления полученных знаний

КАКИЕ ШАБЛОНЫ МОГУТ БЫТЬ НАЙДЕНЫ?

• описательныеОписательные шаблоны характеризуют свойства данных в анализируемом наборе данных

• предсказывающие Предсказывающие шаблоны позволяют используя анализируемый набор данных делать предсказания для других наборов данных

ОПИСАНИЕ КЛАССА ИЛИ КОНЦЕПЦИИ

Описание некоторого класса или концепции с помощью краткого и выразительного набора терминов

• Такое описание может быть получено:

• при помощи характеризации данных, путем краткого представления данных рассматриваемого класса (target class) в общих терминах

• путем сравнения рассматриваемого класса с одним или несколькими альтернативными классами - дискриминация данных

ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ

• Менеджер по продажам рассматривает такую задачу: Описать характеристики клиентов, которые потратили больше $5000.

• Результат: возраст 40-50 лет, работающие и имеющие высший кредитный рейтинг

ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ• Менеджер по продажам рассматривает такую задачу: Сравнить характеристики пользователей, покупающих некоторую группу товаров часто (чаще 2 раз в месяц), и пользователей, которые покупают очень редко (менее 3 раз в год).

• Результат: 80% частых покупателей данной группы товаров имеют возраст 20-40 лет и высшее образование, в то время как 60% нечастых покупателей - пенсионеры или люди до 18 лет и без высшего образования. При более детальном анализе, например, можно сказать, что отличия двух рассматриваемых групп - уровень дохода.

ЧАСТЫЕ ШАБЛОНЫШаблоны, которые часто встречаются в данных:

• подмножества Пример: хлеб и молоко покупаются вместе

• последовательностиПример: сначала покупается ноутбук, потом цифровая камера, а потом карта памяти

• структурные шаблоны (могут включать в себя последовательности и подмножества) Пример: покупается ноутбук вместе с чехлом, потом сканер, принтер или мфу, причем если купили принтер или мфу - то покупается бумага ежемесячно.

ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ

• Менеджер рассматривает такую задачу: Найти товары, которые часто покупаются вместе.

• Результат:покупка(X, “компьютер”) => покупка(X, “ПО”) [supp = 1%, conf = 50%]т.е. 1% всех покупок включает компьютер и ПО вместе, в 50% случаев при покупке компьютера покупается и ПО.

• supp(A) - относительное количество случаев, когда правило A выполняется (support)

• conf(A=>B) - относительное количество случаев, когда выполняется B после A (confidence). conf(A=>B) = p(B|A)

ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ

• Классификация - процесс поиска модели (или функции), которая описывает и отличает классы или концепции в данных

• Пример: возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”)возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) возраст(X, “средний”) => class(X, “C”)возраст(X, “старый”) => class(X, “C”)

ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ

• Регрессионный анализ - статистическая методология, используемая для численного предсказания.

• При классификации предсказывают сатегории (дискретные и без определенного порядка), а модели регрессии - непрерывные функции

• Пример:

0

5

10

15

20

0 3 6 9 12

КЛАСТЕРНЫЙ АНАЛИЗ• Кластерный анализ - процесс анализа данных без использования информации о их классах (например, когда такой информации просто нет)

• Пример:

0

5

10

15

20

0 3 6 9 12

ПОИСК АНОМАЛИЙ• Данные могут содержать элементы, которые не отвечают общему поведению или модели данных - аномалии (outliers).

• Пример: 100

40

1

КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТ ИНТЕРЕСИнтересные шаблоны должны:

• быть легко понимаемы для человека

• быть верными и для тестовых данных с некоторой степенью достоверности (valid)

• быть потенциально полезными в решении рассматриваемой задачи (useful)

• нести новое знание для исследователя (novel)

• давать возможность предпринимать дейсвие на основе полученного знания (actionable)

ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ

Data Mining

Machine LearningСтатистика

Базы данных

Хранилища данных

Информационный поиск

Приложения

HPвычисления

Алгоритмы

Визуализация

Распознание шаблонов

СТАТИСТИКА• Статистика изучает вопросы сбора, анализа, интерпретации и презентации данных

• Статистическая модель - это набор математических функций , описывающий поведение объектов в рассматриваемом классе в терминах случайных переменных и их вероятностные распределения

• Статистические модели могут быть результатом Data Mining

• Статистические методы применяются для проверки и обоснования результатов Data Mining

MACHINE LEARNING

• Machine Learning рассматривает вопросы как компьютер может учиться (или улучшать свою эффективность) основываясь на данных

• Supervised learning - обучение с учителем. Рассматриваются в основном задачи классификации. И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е (классифицированные) данные.

• Unsupervised learning - самостоятельное обучение. Рассматриваются в основном задачи кластеризации.

ОСНОВНЫЕ ПРОБЛЕМЫ DATA MINING

• Разработка методологий

• Взаимодействие с пользователем

• Эффективность и масштабируемость

• Разнообразие типов данных

• Data Mining и общество

РАЗРАБОТКА МЕТОДОЛОГИЙ

Исследователи, разрабатывая новые методы, учитывают следующие аспекты:

• Получение новых типов знаний

• Получение данных в пространствах многих измерений

• Интеграция методов из многих дисциплин

• Обработка зашумленных и неполных данных

ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ

Пользователь играет одну из важных ролей в процессе Data Mining. Основными вопросами исследований являются:

• Как взаимодействовать с системой Data Mining?

• Как интегрировать предметные знания пользователей в процесс Data Mining?

• Как представить и визуализировать результаты?

ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ

Вопросы эффективности и масштабируемости всегда рассматриваются при сравнении различных алгоритмов Data Mining.

• Ал г о р и тмы до лжны бы т ь эффе к т и в ными и л е г к о масштабируемыми , чтобы иметь возможность добывать информацию из огромного количества данных. Время выполнения должно быть предсказуемо, ограничено и приемлемо для приложений

• Map/Reduce. Часто применяется техника разделения данных на части , каждая из которых обрабатывается параллельно несколькими процессами (с возможностью взаимодействия). После обработки полученные шаблоны объединяются.

ЛИТЕРАТУРА

• https://ru.wikipedia.org/wiki/Data_mining

• Дюк В.А., Самойленко А.П. Data Mining. Учебный курс

• Ситник В. Ф., Краснюк М. Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. посібник.

• J. Han, M. Kamber, J. Pei Data Mining: Concepts and Techniques

https://ru.wikipedia.org/wiki/Data_mining

Education

Data Mining - lecture 1 - 2014