3
COC 786 – Análise Inteligente de Dados Exercícios Computacionais - 2004 A avaliação da disciplina COC 786 será realizada a partir de um relatório contendo as conclusões obtidas com o desenvolvimento de 4 exercícios computacionais: Exercício 01: Caracterização e visualização de bases de dados. Exercício 02: Classificação supervisionada por métodos estatísticos. Exercício 03: Classificação supervisionada por métodos “inteligentes”. Exercício 04: Classificação não supervisionada. A cada exercício computacional corresponde um ou mais scripts Matlab que abordam tópicos vistos em aula e que serão distribuídos ao longo do curso. A relação entre exercícios, scripts, tópicos e datas previstas de apresentação são as seguintes: Ex. Scipts Tópicos Data 01 vebase.m Caracterização e Préprocessamento 09/03/2004 02 Bayes.m disclinear.m Métodos Estatísticos de Classificação Supervisionada 30/03/2004 03 rede1.m fuzzy1.m nfuzzy1.m Redes Neurais Sistemas Fuzzy Sistemas Neuro-Fuzzy 20/04/2004 11/05/2004 25/05/2004 04 kmeans.m fcmeans.m kohonen.m Análise de Agrupamentos 18/05/2004 O aluno deverá escolher pelo menos um script correspondente a cada exercício e realizar as alterações necessárias para realizar a análise das seguintes bases de dados: well: 6 atributos e 3 classes, (sem descrição) diabetes: 8 atributos e 2 classes, glass: 9 atributos e 7 classes, cancer : 9 atributos e 2 classes, heart: 14 atributos e 2 (ou 4) classes

Exercícios Computacionais

Embed Size (px)

DESCRIPTION

Exercícios Computacionais

Citation preview

  • COC 786 Anlise Inteligente de Dados

    Exerccios Computacionais - 2004

    A avaliao da disciplina COC 786 ser realizada a partir de um relatrio contendo as

    concluses obtidas com o desenvolvimento de 4 exerccios computacionais:

    Exerccio 01: Caracterizao e visualizao de bases de dados. Exerccio 02: Classificao supervisionada por mtodos estatsticos. Exerccio 03: Classificao supervisionada por mtodos inteligentes. Exerccio 04: Classificao no supervisionada.

    A cada exerccio computacional corresponde um ou mais scripts Matlab que abordam

    tpicos vistos em aula e que sero distribudos ao longo do curso. A relao entre

    exerccios, scripts, tpicos e datas previstas de apresentao so as seguintes:

    Ex. Scipts Tpicos Data

    01 vebase.m Caracterizao e Prprocessamento 09/03/2004 02 Bayes.m

    disclinear.m Mtodos Estatsticos de Classificao

    Supervisionada 30/03/2004

    03 rede1.m fuzzy1.m nfuzzy1.m

    Redes Neurais Sistemas Fuzzy

    Sistemas Neuro-Fuzzy

    20/04/2004 11/05/2004 25/05/2004

    04 kmeans.m fcmeans.m kohonen.m

    Anlise de Agrupamentos 18/05/2004

    O aluno dever escolher pelo menos um script correspondente a cada exerccio e realizar

    as alteraes necessrias para realizar a anlise das seguintes bases de dados:

    well: 6 atributos e 3 classes, (sem descrio)

    diabetes: 8 atributos e 2 classes,

    glass: 9 atributos e 7 classes,

    cancer : 9 atributos e 2 classes,

    heart: 14 atributos e 2 (ou 4) classes

  • Cada conjunto de dados (exceto o primeiro) formado por um arquivo .data

    contendo os dados e um arquivo .names contendo uma descrio do problema.

    os dois ltimos dois conjuntos de dados possuem valores incompletos, necessitam de um

    pre-tratamento (retirar os registros contendo valores incompletos).

    Cada exerccio deve ser executado sobre os 4 conjuntos de dados. Desta forma, considerando ao menos 1 script por exerccio e 4 conjuntos de dados, o relatrio dever conter as concluses sobre, no mnimo, 16 experimentos computacionais. Entretanto recomenda-se fortemente que sejam realizados um nmero maior de experimentos computacionais visando uma anlise exploratria do desempenho dos diversos algoritmos nas diversas bases de dados.

    Para evitar erros irrecuperveis, aconselhvel criar um subdiretrio para cada conjunto

    de dados, alterar os scripts no interior de cada subdiretrio.

    O objetivo do Exerccio 01 explorar os conjuntos de dados visando entender melhor a base. Um objetivo secundrio a familiarizao com o ambiente Matlab e a sua

    programao. O roteiro sugerido para o exerccio o seguinte:

    1. Avaliar o efeito da normalizao das variveis sobre os grficos.

    2. Verificar a correlao entre variveis atravs dos grficos de projeo.

    3. Avaliar o efeito do nmero de divises sobre os histogramas.

    4. Estimar quais variveis podem ser melhores para a classificao.

    Observem que estes conjuntos de dados possuem um nmero grande de atributos, de

    forma que pode ser muito trabalhoso realizar todas as combinaes 2 a 2 nos grficos de

    projeo. Esta uma dificuldade real que encontrada frequentemente na pratica. Uma

    sada pode ser a reduo do numero de atributos atravs da ACP.

    Para os demais exerccios, o roteiro sugerido para cada um dos conjuntos de dados o

    seguinte:

    1. Particionar (aleatoriamente) o conjunto de dados em conjuntos de treinamento e

    teste. A validao cruzada o procedimento mais indicado, entretanto tendo em

    vista que isso pode aumentar consideravelmente o volume de trabalho, pode-se

    particionar a base nas propores de aproximadamente 70% e 30%,

    respectivamente para treinamento e teste.

  • 2. Executar cada classificador para o conjunto de treinamento e salvar os parmetros

    correspondentes.

    3. Gerar o cdigo do classificador para o conjunto de teste, lendo os parmetros

    registrados no passo anterior.

    4. Executar os passos 2 e 3 examinando diversas alternativas de classificadores

    (observe que o classificador utilizado na fase de testes deve ser o mesmo que foi

    utilizado para o treinamento)

    5. Explicar (na medida do possvel) o comportamento dos classificadores, baseando-

    se na teoria e nos resultados obtidos no Exerccio 01.

    Uma vez que a visualizao de dados dever facilitar a interpretao dos resultados dos

    classificadores, mais interessante realizar a seqncia de exerccios para cada base de

    dados que executar cada exerccio para todas as bases de dados.

    Os relatrios devero ser entregues at o dia 04/06/2004, preferivelmente em formato PDF, (ou MS Word) embora verses impressas tambm sero aceitas. Os relatrios

    entregues em PDF ou MS Word ou sero posteriormente compilados em um nico

    volume e disponibilizados aos demais alunos.