58
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características através de Nearest Shrunken Centroids

Seleção de Características através de Nearest Shrunken Centroids

  • Upload
    virgil

  • View
    22

  • Download
    0

Embed Size (px)

DESCRIPTION

Seleção de Características através de Nearest Shrunken Centroids. Diego Ricardo de Araujo Departamento de ciência da computação Instituto de ciência exatas Universidade federal de juiz de fora. - PowerPoint PPT Presentation

Citation preview

Page 1: Seleção de Características através de  Nearest  Shrunken Centroids

DIEGO RICARDO DE ARAUJO

DEPARTAMENTO DE C IÊNCIA DA COMPUTAÇÃO

INSTITUTO DE C IÊNCIA EXATASUNIVERSIDADE FEDERAL DE JU IZ DE FORA

Seleção de Características através de

Nearest Shrunken Centroids

Page 2: Seleção de Características através de  Nearest  Shrunken Centroids

2

IntroduçãoClassificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

Page 3: Seleção de Características através de  Nearest  Shrunken Centroids

4

Descoberta de Conhecimento em Bases de Dados

Crescente fluxo de dados Dados coletados e acumulados

rapidamente

Transformação de informação em conhecimento útil

Page 4: Seleção de Características através de  Nearest  Shrunken Centroids

5

Descoberta de Conhecimento em Bases de Dados

Pré-processamento: dados preparados para mineração

Mineração de dados: extração de conhecimento através de métodos inteligentes

AvaliaçãoApresentação: representação e

visualização do conhecimento para o usuário

Page 5: Seleção de Características através de  Nearest  Shrunken Centroids

7

Mineração de Dados

Análise de grandes base de dados

Extração de padrões de interesse do modelo de dados Conjunto de dados Domínio de conhecimento Métodos de mineração Avaliação de padrões

Page 6: Seleção de Características através de  Nearest  Shrunken Centroids

8

Mineração de Dados

Page 7: Seleção de Características através de  Nearest  Shrunken Centroids

9

Introdução

Classificação de DadosSeleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

Page 8: Seleção de Características através de  Nearest  Shrunken Centroids

11

Processo de classificaçãoTreinamento

Aprendizado de conhecimento a partir de amostras com classes conhecidas

Page 9: Seleção de Características através de  Nearest  Shrunken Centroids

12

Processo de classificaçãoTeste

Avaliação do conhecimento descoberto pelo treinamento através da predição de classe de amostras desconhecidas

Page 10: Seleção de Características através de  Nearest  Shrunken Centroids

14

Avaliação dos Métodos de Classificação

Acurácia: índice de exatidão de classificação de amostras desconhecidas

Desempenho: velocidade e custo computacional referente a utilização do classificador

Page 11: Seleção de Características através de  Nearest  Shrunken Centroids

15

Avaliação dos Métodos de ClassificaçãoRobustez: capacidade de realizar predições

corretas a partir de conjuntos de dados com amostras incompletas ou com ruído

Escalabilidade: eficiência do modelo de conhecimento a partir de uma grande quantidade de dados

Interpretabilidade: compreensão do modelo de conhecimento extraído do modelo de dados

Page 12: Seleção de Características através de  Nearest  Shrunken Centroids

17

Método Nearest Centroid

Centróide

Centro de distribuição de um conjunto de amostras Amostras de treinamento: centróide geral Amostras de determinada classe: centróide de

classe

Page 13: Seleção de Características através de  Nearest  Shrunken Centroids

18

Método Nearest CentroidMatematicamente

Seja um espaço p-dimensional, sendo p o numero de atributos i = 1, 2, ... , p presentes num conjunto de dados composto de n amostras j = 1, 2, ... , n

xij a expressão do i-ésimo atributo da amostra j. Cada amostra está associada a uma classe k, pertencente a um conjunto discreto de K classes, Ck = (1, 2, ... ,K)

A cada classe k, estão associadas nk amostras que compõem o modelo de dados.

Page 14: Seleção de Características através de  Nearest  Shrunken Centroids

19

Método Nearest Centroid

Matematicamente O i-ésimo componente dos centróides

Geral

De classekCi ijik nxx

k/

nxx n

j iji /1

Page 15: Seleção de Características através de  Nearest  Shrunken Centroids

20

Método Nearest Centroid

Função de distância

Sendo

Classificação

k

12

2** log2

p

i i

ikik s

xxx

22 1

k Ci

ikijik

xxKn

s nnkk / 11

K

k k

Page 16: Seleção de Características através de  Nearest  Shrunken Centroids

21

Introdução

Classificação de Dados

Seleção de CaracterísticasSistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

Page 17: Seleção de Características através de  Nearest  Shrunken Centroids

22

Seleção de Características

Teoria Maior quantidade de atributos: maior

poder de discernimento

Prática Informações irrelevantes confundem e

retardam os sistemas de aprendizado

Page 18: Seleção de Características através de  Nearest  Shrunken Centroids

23

Seleção de Características

Motivação

Existência de bases de dados com alto nível dimensional que acarretam alto custo computacional (baixo desempenho) e/ou pouca acurácia no processo de mineração de dados

Page 19: Seleção de Características através de  Nearest  Shrunken Centroids

24

Seleção de Características

Eliminação de atributos irrelevantes/redundantes do modelo de dados

Busca da melhoria do processo de descoberta de conhecimento

Page 20: Seleção de Características através de  Nearest  Shrunken Centroids

26

Método Nearest Shrunken Centroid

Distância estatística

Sendo

ik

iikik sm

xxd

nnm kk /1/1

ikikiik dsmxx

Page 21: Seleção de Características através de  Nearest  Shrunken Centroids

27

Método Nearest Shrunken Centroid

Função de limiarização suave

ikikik ddsignd .'

Page 22: Seleção de Características através de  Nearest  Shrunken Centroids

28

Método Nearest Shrunken Centroid

Dessa forma

Se dado atributo i, ∃∆ tal que ∀k tem-se d’ik = 0, então o i-ésimo componente dos centróides são eliminados pois não interferem na tarefa de classificação

ikikiik dsmxx ''

k

12

2** log2

p

i i

ikik s

xxx

Page 23: Seleção de Características através de  Nearest  Shrunken Centroids

29

Shrunken Centroids

Page 24: Seleção de Características através de  Nearest  Shrunken Centroids

30

Introdução

Classificação de Dados

Seleção de Características

Sistema InteligenteTestes Comparativos

Resultados

Considerações Finais

Page 25: Seleção de Características através de  Nearest  Shrunken Centroids

31

Sistema Inteligente

Page 26: Seleção de Características através de  Nearest  Shrunken Centroids

32

Sistema Inteligente

File: arquivo físico da base de dados *.arff *.dat

Sample: amostra da base de dados. Composta por seus atributos (values) e identificada por sua classe

Page 27: Seleção de Características através de  Nearest  Shrunken Centroids

33

Sistema Inteligente

DataBase: representação da base de dados. Composta de um conjuntos de amostras (samples)

Centroid: centróide de um conjunto de amostras

Page 28: Seleção de Características através de  Nearest  Shrunken Centroids

34

Sistema Inteligente

NearestCentroidClassifier: classificador NSC Conjunto de treinamento: trainingSet Conjunto de teste: testSet Centróides de classe: classCentroids Centróide geral: overallCentroids Classificação de amostra: classify(sample)

Page 29: Seleção de Características através de  Nearest  Shrunken Centroids

35

Sistema Inteligente

Shrinker Seleção de características Realiza a redução dos centróides

shrinkCentroids() NearestCentroidClassifier searchDelta() crossValidation() de kfolds

Page 30: Seleção de Características através de  Nearest  Shrunken Centroids

36

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos Resultados

Considerações Finais

Page 31: Seleção de Características através de  Nearest  Shrunken Centroids

38

Metodologia

Sub-divisão das bases de dados Testes de classificação

75% conjunto de treinamento 25% conjunto de teste

Seleção de características Dados originais Dados reduzidos

Page 32: Seleção de Características através de  Nearest  Shrunken Centroids

39

MetodologiaValidação Cruzada

Page 33: Seleção de Características através de  Nearest  Shrunken Centroids

40

Metodologia

Validação Cruzada

Neste trabalho convencionou-se a utilização de validação cruzada de 10 folhas como ponto de partida para o processo de avaliação de classificação

Page 34: Seleção de Características através de  Nearest  Shrunken Centroids

41

Metodologia

Bases de dados utilizadas Breast Colon Glasses Iris Leukemia Lymphoma Prostate

Page 35: Seleção de Características através de  Nearest  Shrunken Centroids

42

Metodologia

Classificadores utilizados NSC

Weka: suíte de mineração de dados Naive-Bayes SMO Multilayer Perceptron J48 Random Forest

Page 36: Seleção de Características através de  Nearest  Shrunken Centroids

43

Testes ComparativosPor Base de Dados

Page 37: Seleção de Características através de  Nearest  Shrunken Centroids

44

Breast

Page 38: Seleção de Características através de  Nearest  Shrunken Centroids

45

Colon

Page 39: Seleção de Características através de  Nearest  Shrunken Centroids

46

Glasses

Page 40: Seleção de Características através de  Nearest  Shrunken Centroids

47

Iris

Page 41: Seleção de Características através de  Nearest  Shrunken Centroids

48

Leukemia

Page 42: Seleção de Características através de  Nearest  Shrunken Centroids

49

Lymphoma

Page 43: Seleção de Características através de  Nearest  Shrunken Centroids

50

Prostate

Page 44: Seleção de Características através de  Nearest  Shrunken Centroids

51

Testes ComparativosPor Classificador

Page 45: Seleção de Características através de  Nearest  Shrunken Centroids

52

NSC

Page 46: Seleção de Características através de  Nearest  Shrunken Centroids

53

Naive-Bayes

Page 47: Seleção de Características através de  Nearest  Shrunken Centroids

54

SMO

Page 48: Seleção de Características através de  Nearest  Shrunken Centroids

55

Multilayer Perceptron

Page 49: Seleção de Características através de  Nearest  Shrunken Centroids

56

J48

Page 50: Seleção de Características através de  Nearest  Shrunken Centroids

57

Random Forest

Page 51: Seleção de Características através de  Nearest  Shrunken Centroids

58

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

ResultadosConsiderações Finais

Page 52: Seleção de Características através de  Nearest  Shrunken Centroids

59

Resultados

Média por Base de Dados

Média por Classificador

Page 53: Seleção de Características através de  Nearest  Shrunken Centroids

60

Resultados

Numero de Atributos x Desempenho Grande redução do número de atributos Ganho considerável de desempenho

Maiores índices Bases de dados de alto nível dimensional

Page 54: Seleção de Características através de  Nearest  Shrunken Centroids

61

Resultados

Acurácia Perda pouco significativa de acurácia Melhores índices

Base de dados: Leukemia (+2,22%) Classificador: Multilayer Perceptron (+0,96%)

Piores índices Base de dados: Breast (-8%) Classificador: Random Forest (-3,43%)

Page 55: Seleção de Características através de  Nearest  Shrunken Centroids

62

Resultados

Desempenho x Acurácia Ganho de desempenho e de acurácia

Bases de dados de alto nível dimensional

Page 56: Seleção de Características através de  Nearest  Shrunken Centroids

63

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

Page 57: Seleção de Características através de  Nearest  Shrunken Centroids

64

Considerações Finais

Ganho considerável de desempenho

Queda pouco significativa de acurácia

Melhores resultados em bases de dados de alto nível dimensional

Page 58: Seleção de Características através de  Nearest  Shrunken Centroids

65

Considerações Finais

Trabalhos Futuros

Estudos comparativos

Outros métodos de seleção de características

Variação da proporção entre número de amostras de treinamento e teste