Upload
alexandremotta3
View
10
Download
1
Embed Size (px)
DESCRIPTION
Exercícios Computacionais
Citation preview
COC 786 Anlise Inteligente de Dados
Exerccios Computacionais - 2004
A avaliao da disciplina COC 786 ser realizada a partir de um relatrio contendo as
concluses obtidas com o desenvolvimento de 4 exerccios computacionais:
Exerccio 01: Caracterizao e visualizao de bases de dados. Exerccio 02: Classificao supervisionada por mtodos estatsticos. Exerccio 03: Classificao supervisionada por mtodos inteligentes. Exerccio 04: Classificao no supervisionada.
A cada exerccio computacional corresponde um ou mais scripts Matlab que abordam
tpicos vistos em aula e que sero distribudos ao longo do curso. A relao entre
exerccios, scripts, tpicos e datas previstas de apresentao so as seguintes:
Ex. Scipts Tpicos Data
01 vebase.m Caracterizao e Prprocessamento 09/03/2004 02 Bayes.m
disclinear.m Mtodos Estatsticos de Classificao
Supervisionada 30/03/2004
03 rede1.m fuzzy1.m nfuzzy1.m
Redes Neurais Sistemas Fuzzy
Sistemas Neuro-Fuzzy
20/04/2004 11/05/2004 25/05/2004
04 kmeans.m fcmeans.m kohonen.m
Anlise de Agrupamentos 18/05/2004
O aluno dever escolher pelo menos um script correspondente a cada exerccio e realizar
as alteraes necessrias para realizar a anlise das seguintes bases de dados:
well: 6 atributos e 3 classes, (sem descrio)
diabetes: 8 atributos e 2 classes,
glass: 9 atributos e 7 classes,
cancer : 9 atributos e 2 classes,
heart: 14 atributos e 2 (ou 4) classes
Cada conjunto de dados (exceto o primeiro) formado por um arquivo .data
contendo os dados e um arquivo .names contendo uma descrio do problema.
os dois ltimos dois conjuntos de dados possuem valores incompletos, necessitam de um
pre-tratamento (retirar os registros contendo valores incompletos).
Cada exerccio deve ser executado sobre os 4 conjuntos de dados. Desta forma, considerando ao menos 1 script por exerccio e 4 conjuntos de dados, o relatrio dever conter as concluses sobre, no mnimo, 16 experimentos computacionais. Entretanto recomenda-se fortemente que sejam realizados um nmero maior de experimentos computacionais visando uma anlise exploratria do desempenho dos diversos algoritmos nas diversas bases de dados.
Para evitar erros irrecuperveis, aconselhvel criar um subdiretrio para cada conjunto
de dados, alterar os scripts no interior de cada subdiretrio.
O objetivo do Exerccio 01 explorar os conjuntos de dados visando entender melhor a base. Um objetivo secundrio a familiarizao com o ambiente Matlab e a sua
programao. O roteiro sugerido para o exerccio o seguinte:
1. Avaliar o efeito da normalizao das variveis sobre os grficos.
2. Verificar a correlao entre variveis atravs dos grficos de projeo.
3. Avaliar o efeito do nmero de divises sobre os histogramas.
4. Estimar quais variveis podem ser melhores para a classificao.
Observem que estes conjuntos de dados possuem um nmero grande de atributos, de
forma que pode ser muito trabalhoso realizar todas as combinaes 2 a 2 nos grficos de
projeo. Esta uma dificuldade real que encontrada frequentemente na pratica. Uma
sada pode ser a reduo do numero de atributos atravs da ACP.
Para os demais exerccios, o roteiro sugerido para cada um dos conjuntos de dados o
seguinte:
1. Particionar (aleatoriamente) o conjunto de dados em conjuntos de treinamento e
teste. A validao cruzada o procedimento mais indicado, entretanto tendo em
vista que isso pode aumentar consideravelmente o volume de trabalho, pode-se
particionar a base nas propores de aproximadamente 70% e 30%,
respectivamente para treinamento e teste.
2. Executar cada classificador para o conjunto de treinamento e salvar os parmetros
correspondentes.
3. Gerar o cdigo do classificador para o conjunto de teste, lendo os parmetros
registrados no passo anterior.
4. Executar os passos 2 e 3 examinando diversas alternativas de classificadores
(observe que o classificador utilizado na fase de testes deve ser o mesmo que foi
utilizado para o treinamento)
5. Explicar (na medida do possvel) o comportamento dos classificadores, baseando-
se na teoria e nos resultados obtidos no Exerccio 01.
Uma vez que a visualizao de dados dever facilitar a interpretao dos resultados dos
classificadores, mais interessante realizar a seqncia de exerccios para cada base de
dados que executar cada exerccio para todas as bases de dados.
Os relatrios devero ser entregues at o dia 04/06/2004, preferivelmente em formato PDF, (ou MS Word) embora verses impressas tambm sero aceitas. Os relatrios
entregues em PDF ou MS Word ou sero posteriormente compilados em um nico
volume e disponibilizados aos demais alunos.