Cancer de mama usando Weka e MLP/KNN

UNIVERSIDADE FEDERAL DO VALE DO SÃO FRANCISCOEngenharia da ComputaçãoDocente: Rosalvo NetoEquipe: Raymundo Saraiva

Talles Nascimento Thaminne Felix

Simulação WEKA - Câncer de mama

Conclusao

Atualmente, a segunda maior causa de morte entre as mulheres é o cancer de mama, perdendo apenas para o cancer de pulmao. Muitos experimentos usando mineraçao de dados e aprendizado de máquina sao realizados em conjuntos de dados médicos com múltiplos classificadores e técnicas de seleçao de recursos. O uso de mineraçao de dados na medicina está aumentando devido à melhora na eficiência das abordagens dos sistemas de classificaçao e previsao. Para cada caso e grupo de dados deve-se encontrar o melhor classificador e sua melhor configuraçao, o que nao é uma tarefa fácil, pois deve-se simular as várias situações possíveis para encontrar um valor de melhor precisao.

Algo que merece atençao logo de início sao os missing values. Se eles nao forem tratados, a simulaçao pode sofrer uma variaçao perceptível. Por exemplo, no KNN com Cross-validation e K=1, com missing values AUC_ROC = 0.628, tratando os missing values AUC_ROC = 0,621. Os dados entao devem ser tratados no início de qualquer conjunto de simulações.

Nessa simulaçao foram utilizados dois classificadores, O MLP (Multi Layer Perceptron) e o KNN (K-Nearest Neighbors), ambos com o houldout de 66% e o Cross-validation com 10 folds. Com o auxílio da matriz de confusao, ferramenta usada para descrever a precisao dos classificadores ou a quantidade de previsões corretas, algumas observações sao tomadas. Primeiramente, nota-se que a melhor precisao é obtida usando-se o KNN com Cross-validation para K=8 (melhor configuraçao) com 73.7762%, apesar dele possuir a menor área na curva ROC dentre as melhores configurações para os outros classificadores (ROC = 0.664), como por exemplo o MLP com holdout que possui a maior área na curva ROC dentre todos os outros (ROC = 0.719). Isso mostra que para esse caso e esse conjunto de dados, o classificador KNN usando Cross-validation é superior. Contudo os algoritmos usados, MLP e KNN nao obtiveram uma taxa de precisao alta, dificultando a confiança nesses métodos e nas configurações apresentadas. Talvez, essa taxa de precisao tenha sido baixa pelo pequeno tamanho da amostra utilizada para treinamento.

Especificaçao do projeto e critérios de avaliaçao

1- Explicaçao do Problema (O que é? Quais sao as variáveis?) (1,0 ponto)

A segunda maior causa de morte entre as mulheres é o cancer de mama, perdendo apenas para o cancer de pulmao. O uso de mineraçao de dados na medicina está aumentando devido à melhora na eficiência das abordagens dos sistemas de classificaçao e previsao. Além da importância em ajudar os médicos a tomarem decisões, encontrar maneiras para melhorar o quadro do paciente, diminuir custos com tratamento e aprimorar os estudos clinicos. Esse conjunto de dados de cancer de mama é um conjunto de aprendizado de máquina padrao. Ele contém 10 atributos que descrevem os casos de 286 mulheres que tiveram cancer de mama e sobreviveram. Dentre estas, em 85 delas o cancer retornou dentro de 5 anos.

Variável Descriçao

Age Idade do paciente em anos

Menopause

Período na vida em que a mulher cessa a mensturaçao

Tumor-size

Tamanho do tumor na mama

inv-nodes Tamanho do nódulo na parte principal de mama

Node-caps

Presença ou nao do nódulo no seio

Deg-malig

Estágio do cancer

Brest Indica em qual mama o cancer está se desenvolvendo

Breast quad

Porçao do seio com cancer: central, inferior/superior direita/esquerda

Irradiate Presença ou ausência de cancer

class Cancer recorrente ou nao recorrente

2- Influência dos parâmetros2.1- RNA: Taxa de aprendizado. Utilizar 10 taxas com holdout. Avaliar AUC_ROC. (1,5 pontos)

A primeira etapa consistiu-se no pré-processamento dos dados, assim, os missing values foram eliminados através do próprio software WEKA. A segunda parte foi a seleçao do RNA para avaliar a amostra, fixou-se entao os valores de HL (hidden layers - camadas ocultas) igual a 1, TT (training time - tempo de treinamento) de 100 e holdout de 66%. Iniciou-se, entao, a etapa de tentativa e erro para encontrar o LR (learning rate - taxa de aprendizado) com a maior área. Percebeu-se que os valores eram consideravelmente próximos, variando na segunda casa decimal apenas. O LR foi variado de 0,1 a 1,0. Os resultados mantiveram bem próximos, sem anormalidades visíveis, a maior área encontrada, foi de 0,719 com LR de 0,7. Concluiu-se assim, que os valores nao trabalham com proporcionalidade, pois a maior taxa estava ao redor dos valores médios de LR. Para melhor vizualizaçao dos resultados e ainda na busca de um padrao, outras simulações foram feitas com diferentes TT e variando o LR. Os resultados sao mostrados abaixo em forma de tabela (Tabela 1) e gráficos (Figura 1 e 2).

Tabela 1: Testes com HL = 1 variando o tempo de treinamento (TT)

Figura 1: Gráfico Taxa de Aprendizado pela Área sob a Curva

Figura 2: Maior área atingida

2.2- KNN -> Número de vizinhos - K. Utilizar 10 valores de K com holdout. Avaliar AUC_ROC. (1,5 pontos)

A área sobre a curva ROC resultante da classificaçao k-Nearest Neighbors algorithm - KNN com Holdout 66% da amostra para treinamento foi analisada para diferentes valores de k, que representa o número de elementos “próximos” a serem comparados. A área ROC é uma

medida discriminativa da eficácia do teste KNN em classificar pacientes com ou sem cancer de mama. A maior área foi verificada para k = 1 na qual cada novo indivíduo do treinamento é comparado com aquele com maior valor dentre as caracteristicas similares, isto é, idade (age), menopausa (menopause), etc. Este novo elemento terá o mesmo diagnóstico que seu “vizinho” mais próximo. Assim, a classificaçao foi mais eficaz para k = 1. Os resultados obtidos experimentalmente estao dispostos na tabela abaixo.

K 1 2 3 4 5 6 7 8 9 10

AUC_ROC

0.678 0.652 0.651 0.659 0.652 0.656 0.643 0.632 0.644 0.662

Tabela 2: KNN com Holdout 66%

Figura 3: KNN com Holdout

3- Diferença da estimativas do erro

3.1 - Para a melhor configuraçao da RNA, avaliar a AUC_ROC com holdout e cross validation 10. (1,5 pontos)

Com as simulações da questao anterior foi possível entender que os parâmetros nao obedecem uma lógica visível. O intuito agora é verificar se a melhor configuraçao se aplica para os dois métodos. O primeiro passo foi escolher os maiores valores de área da configuraçao passada e aplicá-las com o Cross Validation (CV) de 10. Os valores sao mostrados nas figuras a seguir. A figura 5 mostra o gráfico da área encontrada com o CV fixado pela área com holdout

de 66%, os valores apresentam a mesma configuraçao quanto LR, TT e HL. Os resultados encontrados foram similares, mas o CV nao auxiliou no crescimento da curva, provando o método da questao anterior mais aceitável.

Tabela 3: Área do Cross Validation dos melhores resultados da questao anterior (2.1)

Figura 4: Gráfico Área com CV por Área RNA

3.2 - Para a melhor configuraçao do KNN, avaliar a AUC_ROC com holdout e cross validation 10. (1,5 pontos)

A área AUC_ROC decorrente do classificaçao KNN mais uma vez foi analisada, mas com técnica de cross validation com 9 partições para treinamento e 1 para teste. Os valores obtidos estao listados abaixo.

K 1 2 3 4 5 6 7 8 9 10

AUC_ROC

0.621 0.647 0.644 0.657 0.663 0.656 0.659 0.664 0.655 0.663

Tabela 4: KNN com Cross validation

Figura5: KNN com Cross Validation

Note que o cross validation foi menos eficaz ao classificar os casos de cancer de mama utilizando o KNN do que com o Holdout. Mesmo 90% da amostra sendo a base de treinamento, o índice pessoas diagnosticadas corretamente foi menor. Para a melhor configuraçao com holdout o valor da área ROC foi de 0.678, k = 1, enquanto que com cross validation 0.664, k = 8

Referências

http://research.ijcaonline.org/volume101/number10/pxc3897611.pdf

http://www.csie.ntu.edu.tw/~p88012/AI-final.pdf

http://ijcit.com/archives/volume1/issue1/Paper010105.pdf

McLachlan, Geoffrey J.; Do, Kim-Anh; Ambroise, Christophe (2004). Analyzing microarray gene expression data. Wiley.

Software

Cancer de mama usando Weka e MLP/KNN