Análise da Qualidade do Vinho

Analise da Qualidade do Vinho(Wine Quality)Aristidis de Jesus OrnaiUniversidade de Evora

[email protected]

ResumoA qualidade do vinho e essencial no crescimento economico do produto numa fabrica. Nenhuma

fabrica deixa de pensar que o seu produto e melhor do que os da concorrencia. Muitas vezes nos naoseremos capaz de provar um vinho antes de comprar, mas a informacao esta disponıvel nos rotulosdo vinho para ajudar a decidir, mas vamos precisar de uma certa quantidade de conhecimento sobreos produtores. Pode-se perguntar o que e que faz existir um vinho de melhor qualidade do que ooutro? Tecnicamente, a qualidade do vinho tem dois principais factores que sao a viticultura, que ea forma que as uvas sao cultivadas e vinificacao, que e como eles sao posteriormente transformadosem vinho.

Nos sistemas de classificacao de qualidade dentro da Uniao Europeia existe alguma orientacao,por exemplo,o Country Wine e o Table Wine. A comparacao entre os dois, o Country Winequalitydeve ser de melhor qualidade do vinho de Tabel Wine devido as leis de producao de vinho. Em regrageral, quanto maior a escala de qualidade, melhor o vinho deve ser. Como acontece em qualquerindustria, sempre havera variacao nos produtos, aqueles que se orgulham do seu produto em produzirvinho excepcional na categoria de qualidade e aqueles que fazem apenas o suficiente para permanecerdentro dos seus limites. Vinhos produzidos fora da Europa nao estao sujeitos a um controlo muitorigoroso, torna-se mais defıcil para o consumidor identificar os melhores vinhos. Forcas do mercado,ou seja, o preco e frequentemente e o unico guia, estabelecendo se o produtor de vinho tem uma boareputacao. Muitas vezes os vinhos feitos a partir de boa qualidade.

O objectivo deste artigo e investigar e comparar varias classificacoes num conjunto de dados daqualidade do vinho(Wine Quality). O Weka(Waikato Environment for Analysis Knowledge) versao3.6 baseando em java, e a ferramenta utilizada. A comparacao de algoritmos tera como base o valormedio de precisao e recall, bem como o tempo necessario para construir a velocidade do tempo naescolha do modelo. Os algoritmos utilizados sao: Naive bayes, LibSVM, IBK, JRip, OneR e J48.No fim conclui-se que o algoritmo que tem um desempenho superior e o IBK.

1 Introducao

Baseia-se no artigo Vitivinicultura-Diagnostico Sectorial, historicamente, os vinhos portugueses semprecaracterizaram-se por uma grande variedade de uvas regionais, o que da um sabor especial ao produtode cada regiao. Na perspectiva de desenvolvimento, Portugal e um paıs com um precioso potencial paraa producao de vinhos de qualidade, onde crescem as boas condicoes climaticas e geologicas. No anode 2008/2009 os vinhos com denominacao de origem protegida representam 74% da producao total.Em grande parte, este valor ficou a dever-se ao peso que os vinhos do Porto detem nesta categoria.A tendencia no periodo 2000-2009 tem sido de estabilizacao em todos os tipos de vinhos produzidosem Portugal. Por exemplo, falando-se de vinho do Porto, importa assinalar que no ano 2000-2005 ovinho licoros com a designacao de origem protegida Porto registou um ligeiro decrescimo em materiade produto exportado, em volume e em valor, tendencia esta que se manteve ate ao ano 2009. Todavia,no ano de 2010, as exportacoes no Douro crescerem 10% no primeiro semestre. Com esse produto,podemos manter e aumentar com o suporte de investimento em novas tecnologias, para obter a sua maiorqualidade de crescimento no mercado economico.

Este artigo de qualidade do vinho e modelado numa abordagem de classificacao que preserva aordem da notas. O conjunto de dados do vinho tem um total de 4898 instancias, com 11 atributos maiso atributo de output. A implementacao desses dados e testar e comparar o desempenho entre variosalgoritmos diferentes.

1

[email protected]

Aristidis Jesus

Tabela 1: Nome de atributo, Valor e Tipo

Atributos Valor TipoFixedAcidity [4.6,15.9] REAL

VolatileAcidity [0.12,1.58] REALCitricAcid [0.0,1.0] REAL

ResidualSugar [0.9,15.5] REALChlorides [0.012,0.611] REAL

FreeSulfurDioxide [1.0,72.0] REALTotalSulfurDioxide [6.0,289.0] REAL

Density [0.99007,1.00369] REALPH [2.74,4.01] REAL

Sulphates [0.33,2.0] REALAlcohol [8.4,14.9] REAL

2 Dados

2.1 Os Tipos de Dados

O conjunto de dados da qualidade do vinho esta disponıvel no Machine Learning Repository-UCI. Estesdados sao publicos e disponıveis para pesquisa, criado pelos seguintes autores: Paulo Cortez(Univ.Minho), Antonio Cerdeira, Fernando Almeida, Telmo Matos e Jose Reis no ano de 2009 em Porto-Portugal. Baseando-se na referencia (UCI), criaram dois conjuntos de dados que sao amostras do Redwine e White wine. Nesses dados existem 4898 instancias e nenhum dos valores sao perdidos. A tabela1 construida com 11 atributos que foram identificados como variavel input baseado em physicochemicale mais uma variavel de output baseando em dados sensoriais. O quality e uma variavel de output, umaclasse em que o valor varia de 0 a 10, o que na pratica vai variar de muito ruim (0) a excelente (10). Asclasses sao ordenadas e nao balanceadas, no exemplo, a maioria dos dados sao normais (4, 5 0u 6).

Os dados sao discretos, isto significa que contem um numero finito de valores sem continuidade entreeles que e suportado por todos os tipos de dados de mineracao de dados. A informacao sobre os atributosno conjunto de dados e mostrado na tabela 1.

2.2 Citacoes das Referencias

O conjunto de dados obtido sobre a Qualidade do Vinho foi nos dado pelos autores, Paulo Cortez, julianaTeixeira, Antonio Cerdeira, Fernando Almeida, Telmo Matos e Jose Reis no Departamento de Sistemasde Informacao / Algoritmi Center, Universidade do Minho, 4800-058 Guimaraes-Portugal. O tema es-colhido foi ”Using Data Mining for Wine Quality Assessment“ utilizando varios modelos como porexemplo: Multiple Regression(MR), Neural Networks(NN) e Support Vector Machines(SVM).

Michal Horak, Semestral Work, course 336VD-CZECH TECHNICAL UNIVERSITY IN PRAGUE,2009/2010 escreveu o artigo: ”Prediction of wine quality from physicochemical properties”. A ferra-menta utilizada pelo autor neste artigo foi o Matlab-version 7.9.0.529(R2009b), e o algoritmo de arvoreda regressao.

3 Descricao dos Algoritmos

As organizcoes necessitavam de melhorar os metodos para armazenar os dados, que veio a ser conseguidocom o progresso tecnologico, nomeadamente a evolucao dos sistemas de recolha e armazenamento dedados. Um dos metodos utilizados que satisfazeram essas necessidades e a mineracao de dados, que e

2

Aristidis Jesus

uma tecnologia que combina metodos de analise tradicionais com algoritmos sofisticados para processargrandes volumes de dados.

3.1 Naive Bayes

A classificacao bayesiana, ou classificacao de Naive Bayes, baseia-se no “Teorema de Bayes“ quepode ser usado para prever a probabilidade de pertencer a uma classe. A partir dos resultados obti-dos, concluiu-se que este algoritmo, tal como o IBK e o OneR, tem o melhor tempo de execucao, mas,em relacao aos outros parametros, ja nao se revela tao bom. Segundo essa classificacao pode-se as-sumir que o efeito do estatuto de uma determinada classe e independente dos valores de outros atributos.Esta suposicao costuma ser chamada de classe condicional independente que foi feita para simplificar oscalculos em questao.

3.2 LibSVM

LibSVM e uma biblioteca para o Support Vector Machines(SVM). SVM e um modelo preditivo,poispreve o futuro com cenarios que foram dados. Usando dados historicos faz-se a previsao dos dados parao treinamento e dos dados para testes. Na previsao, utiliza-se a classificacao SVM, ou a regressao. Oconceito basico do algoritmo SVM e a separacao de classes, em essencial, SVM encontra uma hyperplaneque separa o campo ideal entre as duas classes, maximizando a margem entre o ponto mais proximo daclasse.

3.3 IBK

O metodo K-Nearest Neighbor e um metodo para a classificacao de objetos, baseado na proximidade dedados ao objecto, de acordo com o numero de vizinhos mais proximos ou o valor de k. Esta classificacaoK-Nearest Neighbor e feito atraves de pesquisa dos dados de teste e selecionando a classe com a maioriados membros. Vizinhos proximos ou distantes sao geralmente calculadas com base na distancia euclidi-ana.

3.4 JRip

O algortimo JRip ou IREP integra a simplificacao de arvores pela reducao do erro atraves da tecnicadividir-para-conquistar. Este algoritmo possui um conjunto de regras que sao testadas uma por vez.Depois que uma regra e encontrada, todos os exemplos que sao cobertos por ela sao eliminados. Esteprocesso e repetido ate que nao existam exemplos corretamente classificados, ou ate que a regra encon-trada pelo IREP (Incremental Reduced Erro Prunning) possua um erro inaceitavel. Ele e uma variacaodo REP (Reduced Error Pruning) ou algoritmo de poda pela reducao do erro.

3.5 OneR

Este algoritmo e uma das formas mais elementares de encontrar regras muito simples a partir de umconjunto de instancias. O metodos OneR gera uma arvore de decisao de apenas um nıvel, que e expressaatraves de um conjunto de regras que testa apenas um atributo em particular. E um metodo simples,economico e frequentemente obtem boas regras para caracterizar a estrutura de dados. Muitas vezes aestrutura dos registros e simples, tornando um unico atributo capaz de classificar uma instancia com umbom nıvel de precisao. Mesmo que isto nao aconteca, e sempre bom comecar os testes pelos metodosmais simples. Utiliza-se o atributo do mınimo-erro para a predicao ou uma tecnica de simplificacao dearvores que melhoram erros em conjuntos de dados com ruıdos.

3

Aristidis Jesus

Tabela 2: Avaliacao da matriz de custos

A B C D E FA 0 1 2 3 4 5B 1 0 1 2 3 4C 2 1 0 1 2 3D 3 2 1 0 1 2E 4 3 2 1 0 1F 5 4 3 2 1 0

Tabela 3: Comparacao de percentagem correcto

Dataset Naive Bayes LibSVM IBK JRip OneR J48Winequality 60.67 68.41 v 75.85 v 67.52 v 36.68 * 70.15 v

(v/ /*) (1/0/0) (1/0/0) (1/0/0) (0/0/1) (1/0/0)

3.6 J48

O algoritmo arvore de decisao e amplamente usado para os problemas de classificacao. O algoritmousado na arvore de decisao J48 e uma variante do C45 que foi utilizado em linguagem de programacaojava. J48 serve para verificar o ganho de informacao que tem sido normalizado para produzir um atributoselecionado e selecionar os dados. Arvore de decisao e tambem um dos metodo de classificacao queutiliza uma representacao em estrutura de arvore (arvore) e a sua finalidade e de prever ou explicar aclassificacao da divisao de classes de cada aributo.

4 Resultados

4.1 Resultados Obtidos

Nesta fase, apresentam-se os resultados obtidos no processo de classificacao nas tabelas 3, 4, 5, 6, 7 e asavaliacoes de matriz de custos na tabela 2 que tiveram um bom desempenho.

4.2 Medidas de Desempenho

Da tabela 8 pode-se concluir, em geral que o algoritmo KNN(Lazy IBK), principalmente usando aAnalise de Dados com Test Options ”CrossValidation, 10 Folds”e uma tecnica eficaz na resolucao docaso da classificacao da qualidade do vinho tendo uma tendencia a alta precisao. Esse algortimo tambemconsiderando e o melhor algortimo em termos de computacao de modo a ver com o tempo que levapara contruir um modelo. Assim, o algoritmo que tem mais eficiencia e eficacia na gestao de dados daqualidade do vinho e KNN (Lazy IBK). A julgar pelo segundo tempo e 0 e o calculo medio de precisaoe recall e 0.754.

O Root Mean-Squared Erro(tabela 8) e usado para medir o sucesso de uma predicao numerica. Estevalor e calculado pela media da raiz quadrada da diferenca entre o valor calculado e o valor correcto decada algoritmo utilizado. E somente a raiz quadrada do mean-squared-error que da o valor do erro entreos valores actuais e os valores preditos.

Precisao(Precision)(tabela 8) e o valor da predicao positiva ou numero de casos positivos por totalde casos cobertos, muito influenciada pela especificidade e pouco pela sensitividade. Sensitividade e onumero de casos positivos que sao verdadeiramente positivos sendo especificidade o numero de casosnegativos que sao verdadeiramente negativos.

4

Aristidis Jesus

Tabela 4: Root-mean-squad-error

Dataset Naive Bayes LibSVM IBK JRip OneR J48Winequality 0.30 0.32 v 0.26 * 0.27 * 0.46 v 0.28 *

(v/ /*) (1/0/0) (0/0/1) (0/0/1) (1/0/0) (0/0/1)

Tabela 5: IR-Precission

Dataset Naive Bayes LibSVM IBK JRip OneR J48Winequality 0.91 0.94 0.95 v 0.98 v 0.51 * 0.94 v

(v/ /*) (0/1/0) (1/0/0) (1/0/0) (0/0/1) (1/0/0)

Recall(Cobertura)(tabela 8) e o valor da cobertura de casos muito influenciada pela sensitividadee pouco pela especificidade. E calculada por numero de casos cobertos pelo numero total de casosaplicaveis.

F-measure(tabela 8) e usada para mensurar a performance contando que combina valores de cober-tura e precisao de uma regra numa unica formula. E calculada por 2TP/2TP+FP+FN, onde TP(truepositive) sao os verdadeiros positivos, FP(false positive) sao os falsos positivos, FN(false negative) saoos falsos negativos ou (2*recall*precision/recall+precision).

5 Conclusoes

O algorıtmo de comparacao que usa ferramenta Weka 3.6.5 pode ser visto a partir de algum outro valorgerado entre media de precisao e media de recall de modo que a media de desempenho possa ser calculadade cada algoritmo para cada classe. Em geral, o desempenho do algoritmo KNN (LazyIBK) e melhordo que os outros algoritmos, como Naive bayes, LibSVM, JRip, OneR e J48. Alguns dos factores quetornam o algoritmo KNN (Lazy IBK) melhor do que outros, e a capacidade de Lazy learner mais paramodelar explicitamente, porque o caso destes dados atributos como apenas um Real, torna o mapeamentoe mais facil usando KNN. Neste caso observa-se a partir do nıvel de precisao e recall que sao maiselevados do que com outros algoritmos. Quanto a velocidade na construcao de um algorıtmo de modelo,K-Nearest Neighbour mais proximos e o mais rapido em comparacao aos outros algorıtmos.

Referencias

[1], Kivanc Kilicer, Wine Recognition Analysis by Using Data Mining, T.C.Bahcesehir University,Istanbul Turkey,s 2005, http://www.alunos.uevora.pt/(til)l20291/thesis, (Acedido em 18/12/2011),

[2], Michal Horak, Prediction of wine quality from physicochemical properties, Czech TechnicalUniversity in Prague, 2009-2010, (Acedido em 14/12/2011),

[3], Paulo Cortez, Juliana Texeira, Antonio Cerdeira, Fernando Almeida, Telmo Matos, Jose Reis,Using Data Mining for Wine Quality Assesment, Dep. of Information Systems/Algoritmi Centre, Uni-versity of Minho, http://www3.dsi.uminho.pt/pcortez, (Acedido em 14/12/2011),

[4], Alıpio M.Jorge, Alneu A.Lopes,Solange O. Rezende, I Workshop on Web and Text Intelli-gence(WTI 2008) Proceedings, BA: ICMC/USP, 2008, (Acedido em 18/12/2011),

[5], GPP-Gabinete de Planeamento e Polıticas, Vitivinicultura-Diagnostico Sectorial, Ministerio daAgricultura, do Desenvolvimento Rural e das Pescas, 2007,

5

Aristidis Jesus

Tabela 6: IR-Recall

Dataset Naive Bayes LibSVM IBK JRip OneR J48Winequality 0.97 0.97 0.97 0.97 0.58 * 0.97

(v/ /*) (0/1/0) (0/1/0) (0/1/0) (0/0/1) (0/1/0)

Tabela 7: F-Measure

Dataset Naive Bayes LibSVM IBK JRip OneR J48Winequality 0.94 0.96 0.96 v 0.97 v 0. 54 * 0.96 v

(v/ /*) (0/1/0) (1/0/0) (1/0/0) (0/0/1) (1/0/0)

Tabela 8: Analisar a medida de desempenho

Classificacao Naive Bayes LibSVM IBK J48 OneR JRipClassificacao Correcto 61.074% 68.483% 75.393% 70.019% 35.854% 67.600%

Classificacao Incorrecto 38.925% 31.516% 24.606% 29.980% 64.145% 32.399%Precission Average 0.099 0.683 0.747 0.693 0.19 0.096

Recall Average 0.598 0.685 0.754 0.7 0.352 0.674F-Measure Average 0.611 0.683 0.748 0.695 0.359 0.676

Custo 1322 986 807 974 2340 1033Tempo 0s 1.62s 0s 0.03s 0s 0.66s

6

Education

Análise da Qualidade do Vinho