Download pdf - Aprendizado de Máquina (Machine Learning)paginas.unisul.br/max.pereira/ML_Aula02.pdf · Decomposição de Valor Único ... O objetivo é fazer o conjunto inteiro de valores ... detecção

Ciência da Computação

Aprendizado de Máquina(Machine Learning)

Aula 02 Representação dos dados

Pré-processamento

Max Pereira

Tipo de Dados

Os atributos usados para descrever objetos de dados podem ser de diferentes tipos:

Quantitativos

Qualitativos

Aprendizado de Máquina

IMPORTANTE!

O tipo de dado determina quais

ferramentas e técnicas podem

ser usadas para analisar os

dados.

Qualidade dos Dados

Presença de ruídos, dados sem relevância, perda, inconsistência ou duplicação, tendências irrelevantes, sem representatividade.


Os dados muitas vezes estão longe da perfeição!

Pré-processamento

Muitas vezes, os dados brutos devem ser processados para que sejam mais apropriados à análise.


Por exemplo, um atributo contínuo (comprimento),

pode precisar ser transformado em um com categorias

discretas: curto, médio ou longo.

Outro exemplo, o número de atributos em um conjunto

de dados é muitas vezes reduzidos porque muitas

técnicas são mais efetivas quando os dados possuem

um número relativamente pequeno de atributos.

Tipos de Atributos

• Categorizados (qualitativos):

Nominal e ordinal

• Numéricos (quantitativos):

Intervalar e proporcional


Nominal e ordinal

IDs, estado civil, cor dos olhos, sexo, grau de escolaridade, classe social.

Intervalar e proporcional

Para atributos intervalares a diferença entre os valores são significativas (datas, temperaturas), para proporcionais, tanto as diferenças como as proporções são significativas (quantidades monetárias, corrente elétrica).


Atributos quantitativos

Discretos: tais atributos podem ser categorizados, como códigos postais ou IDs; ou numéricos, como contadores (variáveis de números inteiros).

Contínuos: valores do tipo real; temperatura, altura ou peso.


Atributos assimétricos

Para esses atributos, apenas a presença– valor diferente de zero – é considerado importante. Portanto, é mais significativo e mais eficiente processar os valores que não sejam zero.


Características dos Conjunto de Dados

Dimensão: é o número de atributos que os objetos desse conjunto de dados possuem. As dificuldades associadas à análise de dados com dimensionalidades altas são chamadas de maldição da dimensionalidade.


Uma importante motivação no pré-processamento

dos dados é a redução de dimensionalidade!

Características dos Conjunto de Dados

Dispersão: em termos práticos, a dispersão é uma vantagem porque geralmente apenas os valores diferentes de zero precisam ser armazenados e manipulados.


Em muitos casos, menos de 1% das entradas

são diferentes de zero. Além disso, alguns

algoritmos funcionam bem apenas com dados

dispersos.

Os passos do pré-processamento

• Agregação;

• Amostragem;

• Redução de dimensionalidade;

• Discretização e binarização;

• Transformação de variáveis.


Agregação

Combinação de dois ou mais objetos em um único.

Conjunto de dados de transações (objeto de dados) registrando as vendas diárias de produtos em diversos locais para diferentes dias durante um ano.


ID Item Local Data Preço ....

101123 Relógio Tubarão 09/06/14 155,00 ....

101123 Pilha Tubarão 09/06/14 5,90 ....

101124 Sapatos Criciúma 09/06/14 180,00 ....

...... ...... ...... ...... ..... .....

Uma forma de agregar transações para este conjunto de dados é substituir todas as

transações de uma única loja por uma única transação. Reduz as centenas ou

milhares de transações diárias em uma determinada loja a uma única transação diária.

Agregação

A precipitação anual média possui menos variabilidade do que a precipitação mensal média.


Amostragem

• Abordagem usada para selecionar um subconjunto dos objetos de dados a serem analisado.

• Usar uma amostra funcionará tão bem quanto usar o conjunto inteiro de dados se a amostra for representativa.

• Uma amostra é representativa se tiver aproximadamente a mesma propriedade do conjunto original de dados.


Técnicas de Amostragem

Amostragem aleatória simples:

amostragem sem substituição

amostragem com substituição


Possível problema

Modelos de classificação para classes raras, é

crítico que as classes raras sejam adequadamente

representadas na amostra.

Técnicas de Amostragem

Amostragem estratificada

Números proporcionais de objetos são selecionados de cada grupo.


Redução de Dimensionalidade

Conjunto de dados podem ter um grande número de características. Reduzir a dimensionalidade pode eliminar características irrelevantes e reduzir o ruído.

O termo muitas vezes é usado para técnicas que reduzem a dimensionalidade de um conjunto de dados criando novos atributos que sejam uma combinação dos atributos antigos.


Técnicas de Álgebra Linear para Redução da Dimensionalidade

Análise de Componentes Principais (PCA)

Decomposição de Valor Único (SVD)


Discretização e Binarização

Os dados devem estar na forma de atributos categorizados para algoritmos de classificação.

Algoritmos que encontram padrões de associação requerem que os dados estejam na forma de atributos binários.

Muitas vezes é necessário transformar um atributo contínuo em um categorizado (discretização).

Tanto atributos contínuos quanto discretos podem precisar ser transformados em um ou mais atributos binários (binarização).


Binarização

Com m valores categorizados, atribui-se unicamente a cada valor original um valor inteiro no intervalo [0, m-1].

Se o atributo for ordinal, a ordem deve ser mantida pela atribuição.

A seguir, converta cada um dos m números inteiros em um número binário. Já que n = [log2(m)] dígitos binários são necessários para representar estes números inteiros.

Represente esses números binários usando n atributos binários.


Binarização

Tal transformação pode causar complicações, como a criação de relacionamentos não pretendidos entre os atributos transformados. Os atributos X2 e X3 são correlacionados para o valor “Bom”.

Além disso, a análise de associação requer atributos binários assimétricos, onde apenas a presença do atributo (valor =1) é importante.


Valor categorizado Valor inteiro X1 X2 X3

Ruim 0 0 0 0

Fraco 1 0 0 1

Satisfatório 2 0 1 0

Bom 3 0 1 1

Excelente 4 1 0 0

Binarização

Para problemas de associação é necessário inserir um atributo binário para cada valor categorizado


Valor categorizado Valor inteiro x1 x2 x3 x4 x5

Ruim 0 1 0 0 0 0

Fraco 1 0 1 0 0 0

Satisfatório 2 0 0 1 0 0

Bom 3 0 0 0 1 0

Excelente 4 0 0 0 0 1

Discretização de Atributos Contínuos

A discretização é geralmente aplicada em atributos que sejam usados na análise de classificação ou associação.

A transformação de um atributo contínuo em um categórico envolve duas subtarefas: decidir quantas categorias e determinar como mapear os valores do atributo contínuo para essas categorias.


Discretização de Atributos Contínuos

1. Ordenar os valores do atributo contínuo e especificar n intervalos, com n-1 pontos de divisão.

2. Todos os valores de um intervalo são mapeados para o mesmo valor de categoria.

O problema da discretização é decidir quantos pontos de divisão escolher e onde colocá-los.


Transformação de Variáveis

Se refere a uma transformação que seja aplicada a todos os valores de uma variável.

Tipos:

• Transformações funcionais simples

• Normalização



Funções Simples

Para esse tipo, uma função matemática simples é aplicada a cada valor individualmente. Se xfor uma variável, então exemplos de tais transformações incluem xk, log x, ex, x, 1/x, sen x ou |x|.


ID Variável (x) Transformação

log10(x)

1011 256 2.41

1012 16 1.20

1013 1 0

1014 9 0.95

1015 4 0.60


Normalização e Padronização

O objetivo é fazer o conjunto inteiro de valores ter uma determinada propriedade.

Exemplo: considere a comparação de pessoas baseada em duas variáveis: idade e renda. A diferença em renda provavelmente seja muito maior em termos absolutos do que a diferença de idade.




Um exemplo tradicional é o da “padronização de uma variável” em estatística. Se ā for a média dos valores do atributo e Sa seu desvio padrão, então a transformação a’=(a – ā)/Sa cria uma nova variável que tem uma média 0 e um desvio padrão de 1.

ā = 33.5

Sa = 45.31477


Atributo a a’

5 -0.6289340

10 -0.5185947

15 -0.4082554

18 -0.3420518

7 -0.5847983

23 -0.2317125

50 0.3641197

140 2.3502270




Se variáveis diferentes devem ser combinadas, então tal transformação muitas vezes é necessária para evitar variáveis com valores grandes dominando os resultados do cálculo.


Medidas Semelhança e Diferença

Semelhança e diferença são usadas em técnicas como, agrupamento, classificação e detecção de anomalias.

Medidas como a correlação e distância euclidiana são úteis para dados densos como séries de tempos ou pontos bidimensionais.

Medidas de semelhança do cosseno e Jaccard são úteis para dados esparsos como documentos.


Semelhança

A semelhança entre dois objetos é uma medida numérica do grau no qual dois objetos se parecem.

Semelhanças são geralmente não negativas e muitas vezes entre 0 (sem semelhança) e 1 (semelhança completa).


Diferença

A diferença entre dois objetos é uma medida numérica do grau no qual os dois objetos são diferentes.

Frequentemente, o termo distância é usado como sinônimo de diferença. As diferenças às vezes estão no intervalo [0,1], mas é comum que variem de 0 a ∞.


Semelhança e Diferença entre atributos simples

Atributo nominal:

Neste caso, a semelhança é definida tradicionalmente como 1 se os valores forem correspondentes e 0 caso contrário.

Atributo ordinal:

As informações sobre a ordem devem ser levadas em consideração. Qualidade de um produto (fraca, razoável, satisfatória, boa, ótima).

Para tornar esta observação quantitativa, os valores muitas vezes são mapeados com números inteiros sucessivos {fraca=0, razoável=1, satisfatória=2, boa=3, ótima=4}


Semelhança e Diferença entre atributos simples

Atributo ordinal:

{fraca=0, razoável=1, satisfatória=2, boa=3, ótima=4}

Então d(P1,P2) = 3-2 = 1, ou d(P1,P2) = (3-2)/4 = 0,25

Uma semelhança para atributos ordinais pode então ser definida como s = 1- d.

Atributos proporcionais ou intervalares:

A medida natural de diferença entre dois objetos é a diferença absoluta dos seus valores.


Diferenças entre objetos de dados


Diferenças entre objetos de dados


Medidas de semelhança para dados binários

Se x e y são dois objetos que consistam de n atributos binários, a comparação entre eles, ou seja, entre dois vetores binários, leva às seguintes quantidades (frequências):

f00 = número de atributos onde x é 0 e y é 0








Coeficiente de Jaccard

Sejam x e y objetos de dados que representam duas linhas de uma matriz de transações. Cada atributo assimétrico corresponde a um item de uma loja, então o número 1 indica que o item foi comprado, caso contrário temos o número 0.

O CCS diria que todas as transações são muito semelhantes, já que o número de produtos não comprados por algum cliente supera em muito o número de produtos comprados.





X = (1,0,0,0,0,0,0,0,0,0)

Y = (0,0,0,0,0,0,1,0,0,1)

CCS = 0.7

J = 0


f00 = 7

f01 = 2

f10 = 1

f11 = 0

Medidas de semelhança para dados não binários

Semelhança do cosseno

Documentos podem ser representados como vetores, onde cada atributo representa a frequência na qual uma determinada palavra ocorre no documento.

A semelhança do cosseno é uma das medidas mais comuns de semelhança de documentos.





Semelhança do cosseno

x = (3,2,0,5,0,0,0,2,0,0)

y = (1,0,0,0,0,0,0,1,0,2)

x.y = 5

||x|| = 6.45

||y|| = 2.24

cos(x,y)=0.34