Upload
abba
View
100
Download
1
Embed Size (px)
DESCRIPTION
ВАРИАЦИОННЫЕ МЕТОДЫ КЛАССИФИКАЦИОННОГО АНАЛИЗ ДАННЫХ. Бауман Е.В.(ВАВТ,ИПУ), Дорофеюк А.А.(ИПУ). 2. Задачи структурного (классификационного) анализа данных. 1. Классификация . Разбить множество объектов на группы схожих. 2. Группировка параметров . - PowerPoint PPT Presentation
Citation preview
ВАРИАЦИОННЫЕ МЕТОДЫ КЛАССИФИКАЦИОННОГО
АНАЛИЗ ДАННЫХ
Бауман Е.В.(ВАВТ,ИПУ),Дорофеюк А.А.(ИПУ)
Задачи структурного (классификационного)
анализа данных1. Классификация.
Разбить множество объектов на группы схожих.
2. Группировка параметров. Набор параметров, описывающих систему, необходимо разбить на группы связанных и выделить из каждой группы наиболее существенный параметр.
2
3. Кусочная аппроксимация. Требуется так разбить пространство входных параметров, чтобы сложная во всем пространстве зависимость выходного параметра от вектора входных была простой в пределах каждой области.
Постановка задачи.
• 1). Классифицируемое множество объектов.
• 2). Класс допустимых классификаций.
• 3). Критерий качества классификации.
4
5
произвольное множество Xс законом распределения XAAP , .
Размытой классификацией множества X на r классовназывается вектор-функция xhxhxH r,...,1( xhi - функция принадлежности к i-му классу) такая, что
для любого x значение xH принадлежит некоторому
множеству Vт.е.rVxH R)( .
Класс допустимых классификаций: V
1). Классифицируемое множество объектов:
2). Класс допустимых классификаций.
За критерий качества принимается произвольный выпуклый
функционал H , определенный на rPXL ,2
6
maxVH
H
Задача построения размытой классификации
3). Критерий качества классификации.
Виды функционалов
1. Классификация евклидова пространства
mRX с заданным законом распределения )(xP
,1
21
r
i Xii xdPxhxH
где
Xi
Xi
xdPxh
xdPxxh
i - среднее i-го класса.
7
mxxX ,...,1 - н а б о р п а р а м е т р о в , о п и с ы в а ю щ и хп о в е д е н и е n о б ъ е к т о в . m
jxP 1 .
,,1 1
2
r
i
m
ji
tij xhfxH
г д е ij fx , - к о э ф ф и ц и е н т к о р р е л я ц и и м е ж д у
п а р а м е т р о м jx и ф а к т о р о м if , р а в н ы м
.,maxarg1
m
ji
tj
f
i xhfxf
2. Экстремальная группировка параметров8
3. Кусочно-линейная аппроксимация9
mRX - пространство входных параметров
)(xP xyy
с заданным законом распределения
- выходной параметр.Д л я к а ж д о г о i - г о к л а с с а к л а с с и ф и к а ц и и H с п о м о щ ь ю
л и н е й н о й р е г р е с с и и с т р о и т с я л и н е й н а я ф у н к ц и я
ii dxc , .
Ф у н к ц и о н а л к а ч е с т в а а п п р о к с и м а ц и и :
.,1
23
r
i Xiii xdPxhdxcxyH
Виды размытости классификации
1. Четкая классификация
.,1;0:1
1
r
iii xhxhV
10
2. Размытая классификация по Беждеку
.10,,1;0:1
2
r
iii xhxhV
11
r
iii aarxhaxhV
1
2223 11,1;0:
12
3. Классификация с размытыми границами
,1;;...;;;0: 1214
k
kkki xhV
13
4. Качественная размытая классификация
.10,1
r
ii xh
5. Классификация с перекрывающимися классами
14
),...,(:,..., 115 kr iihhHV
),...,(,0),...,(,
1
11
k
kki iii
iiih
FH - о п о р н а я к xfxfxF r,...,1 , е с л и
r
iii
VhhF xfhxHx
r1,...,
maxarg1
Т е о р е м а 1 . П у с т ь HH max и
HgradF . Т о г д а HHF
15
Вид оптимальной классификации
16
Алгоритм классификации при известном законе
распределения (конечная выборка объектов)
...0 H nnn HgradFH...
...1 nFn HHТеорема 2. - выпуклый, ограниченный в силу алгоритма nH слабо сходится кстационарной точке функционала.
Критерий качества классификации, зависящий
от моментов классов
Пусть xz отображение множества X в kRZ.Z - спрямляющее пространство.
xdPxhpXii , xdPxhxzM
Xii
rrMpMpH ,,...,, 11 .
HH4 (1) - выпуклая функция r(k+1)-мерного вектора.
17
kiirr RcRdcdcd ,,,,...,, 1
11
H - л и н е й н а я с в е к т о р о м , е с л и
r
iiii
Vhh
dxzchxHr
1,...,
,maxarg1
Т е о р е м а 1 . П у с т ь HH max и
Hgrad , . Т о г д а
HH
.
18Вид оптимальной
классификации функционала (1)
Классификация по бесконечной выборке
объектов
,...,...,1 nxxS в ы б о р к а п о AP .З а д а ч а . П о S м а к с и м и з и р о в а т ь H .
О г р а н и ч е н и я н а з а к о н р а с п р е д е л е н и я :1 ) . ,0: AxzPA2 ) . .00,, dxzcPdc
19
Алгоритм n
nin
nin
ni xh 11111 , n
ninn
nin
ni xhxzmm 11111 , n
rnr
nnn mm ,,..,, 11 , nn grad ,
nHH n .
Здесь ni - оценка n
ip , nim - оценка n
iM ,n - оценка nH .
20
Сходимость алгоритма
Теорема 3. - дважды непрерывно дифференци-руема и сильно выпукла
SCHнп
nn
нп
nn
....
limlim
SC - стационарное значение функции ;если при этом число классов равно 2, то
0.2
limнп
nn
nH
21
Система анализа данных«АНАЛИТИК»
• Вид обрабатываемых данных. Куб данных - таблица «объекты-параметры», развернутая во времени.
• Основные модули: предобработки, экстремальной группировки параметров, классификации объектов, анализа множества полученных классификаций, кусочной аппроксимации и рекуррентных алгоритмов.
• Выдача результатов: в том числе на карту.
22
Схема обработки данных в системе «АНАЛИТИК»
Исходные данные Предобработка Экстремальная группировка параметров
Интегральныепоказатели
Информативныепараметры
Одномернаяклассификация
Многомернаяклассификация
Качественныеинтегральныепоказатели,Лингвистическоеописание данных
Описания классификаций,функции принадлежностей
Анализ множества полу-ченных классификаций
Кусочная аппроксимацияМодели зависимостей
Рекуррентные алгоритмы
23
Развертка куба данных
параметры в
р е м
я
о б ъ е к т ы
параметры |
время
объекты
о б ъ е к т ы - в р е м я
параметры
T пароб-вр
Tпар-вроб
24
Предобработка
• Выбор текущего подкуба данных• Создание производных показателей• Описательная статистика• Выявление выбросов в данных• Заполнение пропусков в данных• Нормирование данных
25
Группировка параметров
парвр-обT - выявление структуры набора параметров вне
зависимости от времени.вр-пар
обT учитывает сдвиг времени параметров друготносительно друга.Результаты: группы параметров +интегральные показатели (информативныедля классификации).
26
Классификация объектов
парвр-обT - выявление режимов работы объектов, не
зависящих от времени. В результате один объект вразные моменты времени может попасть в разныеклассы.
вр-паробT в один класс попадают объекты, с
одинаковой динамикой изменения показателейработы.Результаты: функции принадлежностейобъектов к классам + центры классов.
27
Кусочная аппроксимация
Используется только парвр-обT .
Начальное разбиение входов – результатыклассификации.Результаты: функции принадлежностейобъектов к классам + регрессионные моделизависимостей внутри классов.
28
Анализ множества полученных классификаций
За счет большого числа свободных параметровалгоритмов получается много результирующихклассификаций.С помощью классификационных методов можноструктурировать это множество.Результат: набор информативныхклассификаций
29
Рекуррентные алгоритмы
Если данные об исследуемой системе поступают
последовательно во времени (например, статистические
данные о деятельности предприятий), то используются
рекуррентные алгоритмы классификации и кусочной
аппроксимации, позволяющие корректировать
решающие правила и локальные модели в соответствии
с новой информацией.
30