Upload
talles-nascimento-rodrigues
View
88
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCOEngenharia da ComputaçãoDocente: Rosalvo NetoEquipe: Raymundo Saraiva
Talles Nascimento Thaminne Felix
Simulação WEKA - Câncer de mama
Conclusao
Atualmente, a segunda maior causa de morte entre as mulheres é o cancer de mama, perdendo apenas para o cancer de pulmao. Muitos experimentos usando mineraçao de dados e aprendizado de máquina sao realizados em conjuntos de dados médicos com múltiplos classificadores e técnicas de seleçao de recursos. O uso de mineraçao de dados na medicina está aumentando devido à melhora na eficiência das abordagens dos sistemas de classificaçao e previsao. Para cada caso e grupo de dados deve-se encontrar o melhor classificador e sua melhor configuraçao, o que nao é uma tarefa fácil, pois deve-se simular as várias situações possíveis para encontrar um valor de melhor precisao.
Algo que merece atençao logo de início sao os missing values. Se eles nao forem tratados, a simulaçao pode sofrer uma variaçao perceptível. Por exemplo, no KNN com Cross-validation e K=1, com missing values AUC_ROC = 0.628, tratando os missing values AUC_ROC = 0,621. Os dados entao devem ser tratados no início de qualquer conjunto de simulações.
Nessa simulaçao foram utilizados dois classificadores, O MLP (Multi Layer Perceptron) e o KNN (K-Nearest Neighbors), ambos com o houldout de 66% e o Cross-validation com 10 folds. Com o auxílio da matriz de confusao, ferramenta usada para descrever a precisao dos classificadores ou a quantidade de previsões corretas, algumas observações sao tomadas. Primeiramente, nota-se que a melhor precisao é obtida usando-se o KNN com Cross-validation para K=8 (melhor configuraçao) com 73.7762%, apesar dele possuir a menor área na curva ROC dentre as melhores configurações para os outros classificadores (ROC = 0.664), como por exemplo o MLP com holdout que possui a maior área na curva ROC dentre todos os outros (ROC = 0.719). Isso mostra que para esse caso e esse conjunto de dados, o classificador KNN usando Cross-validation é superior. Contudo os algoritmos usados, MLP e KNN nao obtiveram uma taxa de precisao alta, dificultando a confiança nesses métodos e nas configurações apresentadas. Talvez, essa taxa de precisao tenha sido baixa pelo pequeno tamanho da amostra utilizada para treinamento.
Especificaçao do projeto e critérios de avaliaçao
1- Explicaçao do Problema (O que é? Quais sao as variáveis?) (1,0 ponto)
A segunda maior causa de morte entre as mulheres é o cancer de mama, perdendo apenas para o cancer de pulmao. O uso de mineraçao de dados na medicina está aumentando devido à melhora na eficiência das abordagens dos sistemas de classificaçao e previsao. Além da importância em ajudar os médicos a tomarem decisões, encontrar maneiras para melhorar o quadro do paciente, diminuir custos com tratamento e aprimorar os estudos clinicos. Esse conjunto de dados de cancer de mama é um conjunto de aprendizado de máquina padrao. Ele contém 10 atributos que descrevem os casos de 286 mulheres que tiveram cancer de mama e sobreviveram. Dentre estas, em 85 delas o cancer retornou dentro de 5 anos.
Variável Descriçao
Age Idade do paciente em anos
Menopause
Período na vida em que a mulher cessa a mensturaçao
Tumor-size
Tamanho do tumor na mama
inv-nodes Tamanho do nódulo na parte principal de mama
Node-caps
Presença ou nao do nódulo no seio
Deg-malig
Estágio do cancer
Brest Indica em qual mama o cancer está se desenvolvendo
Breast quad
Porçao do seio com cancer: central, inferior/superior direita/esquerda
Irradiate Presença ou ausência de cancer
class Cancer recorrente ou nao recorrente
2- Influência dos parâmetros2.1- RNA: Taxa de aprendizado. Utilizar 10 taxas com holdout. Avaliar AUC_ROC. (1,5 pontos)
A primeira etapa consistiu-se no pré-processamento dos dados, assim, os missing values foram eliminados através do próprio software WEKA. A segunda parte foi a seleçao do RNA para avaliar a amostra, fixou-se entao os valores de HL (hidden layers - camadas ocultas) igual a 1, TT (training time - tempo de treinamento) de 100 e holdout de 66%. Iniciou-se, entao, a etapa de tentativa e erro para encontrar o LR (learning rate - taxa de aprendizado) com a maior área. Percebeu-se que os valores eram consideravelmente próximos, variando na segunda casa decimal apenas. O LR foi variado de 0,1 a 1,0. Os resultados mantiveram bem próximos, sem anormalidades visíveis, a maior área encontrada, foi de 0,719 com LR de 0,7. Concluiu-se assim, que os valores nao trabalham com proporcionalidade, pois a maior taxa estava ao redor dos valores médios de LR. Para melhor vizualizaçao dos resultados e ainda na busca de um padrao, outras simulações foram feitas com diferentes TT e variando o LR. Os resultados sao mostrados abaixo em forma de tabela (Tabela 1) e gráficos (Figura 1 e 2).
Tabela 1: Testes com HL = 1 variando o tempo de treinamento (TT)
Figura 1: Gráfico Taxa de Aprendizado pela Área sob a Curva
Figura 2: Maior área atingida
2.2- KNN -> Número de vizinhos - K. Utilizar 10 valores de K com holdout. Avaliar AUC_ROC. (1,5 pontos)
A área sobre a curva ROC resultante da classificaçao k-Nearest Neighbors algorithm - KNN com Holdout 66% da amostra para treinamento foi analisada para diferentes valores de k, que representa o número de elementos “próximos” a serem comparados. A área ROC é uma
medida discriminativa da eficácia do teste KNN em classificar pacientes com ou sem cancer de mama. A maior área foi verificada para k = 1 na qual cada novo indivíduo do treinamento é comparado com aquele com maior valor dentre as caracteristicas similares, isto é, idade (age), menopausa (menopause), etc. Este novo elemento terá o mesmo diagnóstico que seu “vizinho” mais próximo. Assim, a classificaçao foi mais eficaz para k = 1. Os resultados obtidos experimentalmente estao dispostos na tabela abaixo.
K 1 2 3 4 5 6 7 8 9 10
AUC_ROC
0.678 0.652 0.651 0.659 0.652 0.656 0.643 0.632 0.644 0.662
Tabela 2: KNN com Holdout 66%
Figura 3: KNN com Holdout
3- Diferença da estimativas do erro
3.1 - Para a melhor configuraçao da RNA, avaliar a AUC_ROC com holdout e cross validation 10. (1,5 pontos)
Com as simulações da questao anterior foi possível entender que os parâmetros nao obedecem uma lógica visível. O intuito agora é verificar se a melhor configuraçao se aplica para os dois métodos. O primeiro passo foi escolher os maiores valores de área da configuraçao passada e aplicá-las com o Cross Validation (CV) de 10. Os valores sao mostrados nas figuras a seguir. A figura 5 mostra o gráfico da área encontrada com o CV fixado pela área com holdout
de 66%, os valores apresentam a mesma configuraçao quanto LR, TT e HL. Os resultados encontrados foram similares, mas o CV nao auxiliou no crescimento da curva, provando o método da questao anterior mais aceitável.
Tabela 3: Área do Cross Validation dos melhores resultados da questao anterior (2.1)
Figura 4: Gráfico Área com CV por Área RNA
3.2 - Para a melhor configuraçao do KNN, avaliar a AUC_ROC com holdout e cross validation 10. (1,5 pontos)
A área AUC_ROC decorrente do classificaçao KNN mais uma vez foi analisada, mas com técnica de cross validation com 9 partições para treinamento e 1 para teste. Os valores obtidos estao listados abaixo.
K 1 2 3 4 5 6 7 8 9 10
AUC_ROC
0.621 0.647 0.644 0.657 0.663 0.656 0.659 0.664 0.655 0.663
Tabela 4: KNN com Cross validation
Figura5: KNN com Cross Validation
Note que o cross validation foi menos eficaz ao classificar os casos de cancer de mama utilizando o KNN do que com o Holdout. Mesmo 90% da amostra sendo a base de treinamento, o índice pessoas diagnosticadas corretamente foi menor. Para a melhor configuraçao com holdout o valor da área ROC foi de 0.678, k = 1, enquanto que com cross validation 0.664, k = 8
Referências
http://research.ijcaonline.org/volume101/number10/pxc3897611.pdf
http://www.csie.ntu.edu.tw/~p88012/AI-final.pdf
http://ijcit.com/archives/volume1/issue1/Paper010105.pdf
McLachlan, Geoffrey J.; Do, Kim-Anh; Ambroise, Christophe (2004). Analyzing microarray gene expression data. Wiley.