Métodos estatísticos em aprendizagem Mestrado FEI Paulo Santos

Métodos estatísticos em aprendizagem

Mestrado FEI

Paulo Santos

Aprendizagem: raciocínio com incerteza a partir de observações

• aprender teorias probabilísticas sobre o mundo a partir da experiência;

• soluções gerais para os problemas de ruído, memorização e previsão ótima

Aprendizagem estatística

• Conceitos fundamentais:– Dados: evidências, i.e. instanciações de

algumas ou de todas as variáveis aleatórias que descrevem o domínio;

– Hipóteses: teorias probabilísticas de como o domínio funciona • incluindo teorias lógicas como casos particulares.

Exemplo: doce surpresa• Doces de cereja e lima em embalagens idênticas.

Cinco tipos de sacos de doces:• h1: 100% cereja• h2: 75% cereja + 25% lima• h3: 50% cereja + 50% lima• h4: 25% cereja + 75% lima• h5: 100% lima

Observamos doces de uma sacola:

Qual é o tipo da sacola? Qual será o próximo doce ?

Exemplo: doce surpresa•Dado um novo saco de doce, a variável aleatória H

(hipótese) denota o tipo do saco (h1, ..., h5)•H não é diretamente observável;•A medida que os doces são abertos e inspecionados,

são revelados os dados - D1, D2, ... Dn, onde cada Di é uma variável aleatória com valores possíveis cereja e lima.

Observamos doces de uma sacola:

Qual é o tipo da sacola? Qual será o próximo doce ?

Aprendizagem Bayesiana

• Calcula a probabilidade de cada hipótese, considerando-se os dados, e faz previsões de acordo com ela;– as previsões são feitas com o uso de todas as

hipóteses, ponderadas com suas probabilidades– A aprendizagem é reduzida à inferência

probabilística


• Seja D a repres. de todos os dados, com valor observado d; então a probabilidade de cada hipótese é obtida pela regra de Bayes:

P(hi|d) = cP(d| hi)P(hi)

• A previsão de uma quantidade desconhecida X:

Onde cada hipótese determina uma distribuição sobre X


• A previsão de uma quantidade desconhecida X:

•Onde cada hipótese determina uma distribuição sobre X

• I.e., as previsões são médias ponderadas sobre as previsões das hipóteses individuais – as hipóteses são intermediários entre os dados

brutos e as previsões.

de volta aos doces

• Suponha que a distribuição a priori sobre h1,..., h5 seja dada por <0.1, 0.2, 0.4, 0.2, 0.1>

• A probabilidade dos dados é calculada sob a suposição de que as observações são independentementes e identicamente distribuídas:

P(d|hi) = ∏j P(dj|hi)

– i.e, uma observação não depende das anteriores, dado as hipóteses

de volta aos doces

• Suponha que a sacola seja realmente uma sacola só com doces de lima (h5) e que os primeiros 10 doces sejam todos de lima; então

– P(d|h3) = ∏j P(dj|h3) = 0.510

• (metade dos doces em h3 é de lima)

• Como as probabilidades mudam com novas observações ?

Probabilidade Posterior de Hipóteses

Prob a priori

Probabilidades prevista de que o próximo doce seja de lima

Probabilidades prevista de que o próximo doce seja de lima


• Dada a distribuição a priori de todas as hipóteses

• A hipótese verdadeira eventualmente domina a previsão Bayesiana

• A previsão é ótima quer o conjunto de dados seja pequeno ou grande

• para problemas reais de aprendizagem o espaço de hipóteses é em geral muito grande ou infinito

Aprendizagem Bayesiana aproximada : MAP

• Fazer previsões com uma única hipótese: a mais provável:– hi que maximize P(hi|d)

– hipótese de máximo a posteriori: MAP – previsões aproximadamente Bayesianas:

P(X|d) ≈ P(X|hMAP)

• após 3 doces de lima seguidos hMAP= h5

• o 4o doce será previsto de lima com 100% de certeza

MAP

• maximizar P(hi|d)


• logo hMAP para maximizar P(d| hi)P(hi) é equivalente a minimizar:

- log2 P(d|hi) - log2 P(hi)

MAP

• Outra possibilidade é tomar o logaritmo de:


• logo hMAP para maximizar P(d| hi)P(hi) e equivalente a minimizar:


número de bits necessários

para especificar hi

número adicional de bits para

especificar os dados

MAP


número de bits em hi

para especificar

(explicar) os dados

número adicional de bits para

especificar os dados

(considere que nenhum bit é necessário se a hipótese prevê

os dados exatamente: log 1 = 0

MAP


• Minimizar isso significa, portanto, encontrar a hipótese que encontre a compactação máxima dos dados

MAP

• encontrar a hipótese que encontre a compactação máxima dos dados

Principal idéia por traz dá aprendizagem por

comprimento mínimo de descrição (CMD)

[minimum description length (MDL) learning]:

minimizar o tamanho da hipótese e das codificações dos dados

Aprendizagem de parâmetros com dados completos

• Aprendizagem de parâmetros com dados completos:– descoberta dos parâmetros numéricos para um

modelo de probabilidade cuja estrutura é fixa– Dados são completos quando cada ponto de

dados contém valores para toda variável no modelo de probabilidade que está sendo aprendido. • simplificam o processo de aprendizagem

Exemplo

• saco de doces de um novo fabricante cujas proporções de cereja e lima são completamente desconhecidas (entre 0 e 1)– quantidade contínua de hipóteses

• O parâmetro (θ) é a proporção de doces de cereja (1 - θ é a prop de lima)

• A hipótese é hθ

Exemplo

• supondo que todas as proporções são igualmente prováveis a priori:– máxima probabilidade é razoável

• Modelando como uma rede Bayesiana:

Aprendizagem de parâmetros em redes Bayesianas

– Desembrulhando N doces (“c” de cereja e “N - c” lima)

– A hipótese de máxima probabilidade é dada pelo valor de θ que maximiza essa expressão, também obtido maximizando-se:

Aprendizagem de parâmetros em redes Bayesianas

– O valor de máxima probabilidade de θ é obtido por:

Aprendizagem de parâmetros de máxima probabilidade

• Escrever uma expressão para a probabilidade dos dados como uma função dos parâmetros

• Escrever a derivada da probabilidade logarítmica com relação a cada parâmetro

• Encontrar os valores de parâmetros tais que as derivadas sejam iguais a zero

Aprendizagem de parâmetros de máxima probabilidade

• Principal problema (small sample size problem):– para conjuntos de dados pequenos, alguns

eventos recebem probabilidade zero– divisão não definida

Outro exemplo:

• Embalagens de doces coloridas de vermelho e verde– a embalagem de cada doce é selecionada

probabilisticamente, segundo alguma distribuição condicional desconhecida, dependendo do sabor

Múltiplos parâmetros

• três parâmetros θ, θ1, θ2. – A probabilidade de ver um doce de cereja em

uma embalagem verde (segundo a semântica de redes Bayesianas) é:

Multiplos parâmetros

• Desembrulhamos N doces: c (cer.) e l (lima)– rc de cereja tem embalagens vermelhas

– gc de cereja tem embalagens verdes

– rl e gl analogamente


• A probabilidade dos dados é, portanto:



• esses resultados podem ser estendidos a qqr rede Bayesiana cujas probabilidades condicionais são dadas como tabelas

• com dados completos, o problema de aprendizagem de parâmetros por máxima probabilidade se decompõe em problemas de aprendizagem separados: um para cada parâmetro.

• os valores de parâmetros para uma variável, dados seus pais, são as frequências observadas dos valores de variáveis para cada configuração dos valores dos pais

Aprendizagem de parâmetros de máxima probabilidade:

modelo Gaussiano Linear• modelos de probabilidade contínuos

– os princípios são idênticos aos do caso discreto– Ex. aprendizagem de parâmetros de uma

função de densidade gaussiana sob uma única variável:

– parâmetros desse modelo:•μ: média e σ: desvio padrão

– Sejam os valores observados x1, ..., xN. Então a probabilidade logarítmica é:

• Definindo as derivadas como zero:

i.e. o valor de máxima probabilidade da média é a média

das amostras e o valor de máxima probabilidade do desvio-padrão

é a raiz quadrada da variância das amostras

• Considere um modelo gaussiano linear com um pai contínuo X e um filho contínuo Y.

• Para aprender a distribuição condicional P(Y|X) podemos maximizar a probabilidade condicional:

– para os parâmetros: θ1, θ2 e σ

• (yj - (θ1xj + θ2 ))2 é o erro para (xj,yj)

• ‘E’ é a soma de erros quadráticos– quantidade minimizada por regressão linear

• a minimização da soma dos erros quadráticos fornece o modelo de linha reta de máxima probabilidade, desde que os dados sejam gerados com ruído gaussiano de variância fixa.

Aprendizagem de estruturas de redes Bayesianas

• Até agora supomos que a estrutura da rede bayesiana é dada: – somente aprende-se os parâmetros

• Em alguns casos o modelo causal está indisponível ou em disputa

Aprendizagem de estruturas

• Abordagem óbvia:– buscar um modelo:

• iniciar com um modelo que não contenha nenhum vínculo e começar a adicionar pais correspondentes a cada nó, ajustando os parâmetros e medindo a exatidão do modelo resultante.

• começar com um palpite inicial sobre a estrutura e utilizar busca por subida de encosta para fazer modificações, retornando os parâmetros após cada mudança de estrutura.– modificações: inversão, adição ou eliminação de arcos.

– busca sobre ordenações possíveis

Aprendizagem de estruturas

• Uma boa estrutura foi encontrada?– testar se as asserções de independência condicional implícitas

na estrutura são realmente satisfeitas nos dados.

P(Sex/Sab, Bar|VaiEsperar) = P(Sex/Sab|VaiEsperar)P(Bar|VaiEsperar)• Verificar nos dados se esta equação é válida.

– ainda que a estrutura descreva a verdadeira natureza causal do domínio, flutuações estatísticas no conjunto de dados significam que a equação nunca será satisfeita exatamente, e então precisamos utilizar um teste estatístico apropriado para verificar se existe evidência estatística suficiente de que a hipótese de independência foi violada• quanto mais rígido for este teste, mais vínculos serão adicionados e maior o

risco de superadaptação.

Aprendizagem de variáveis ocultas

• Variáveis ocultas (ou latentes)– ex. registros médicos contêm sintomas

observáveis e o tratamento, mas raramente uma observação da doença!•Por que não construir um modelo sem esta variável?



• Variáveis latentes podem reduzir drasticamente o número de parâmetros exigidos para especificar uma rede Bayesiana.

Aprendizagem de variáveis ocultas:o algoritmo EM

• EM: Expectation Maximization (Esperança Maximização)– Formação de agrupamentos não

supervisionados•Distinguir várias categorias em uma coleção de

objetos• não supervisionado: os rótulos não são dados


– Formação de agrupamentos não supervisionados•Começamos dos dados• ajustar alguma distribuição de probabilidades que

pudesse ter gerado os dados•Pressupõe que os dados são gerados a partir de uma

distribuição de mistura P– uma distribuição tem k componentes, cada um dos quais

é uma distribuição:

P(x) = ∑ki=1 P(C = i) P(x|C = i)


– Formação de agrupamentos não supervisionados•No caso de dados contínuos:

– gaussiana multivariada: fornece uma família de distribuições chamada mistura de distribuições gaussianas

– wi = P(C=i) --- peso de cada componente

– μi ---- media de cada componente

– Σi --- co-variância de cada componente


o algoritmo EM

– O problema de formação de agrupamentos não-supervisionados consiste em recuperar um modelo de mistura como o da Fig. 20.8(b) a partir de dados brutos como os da Fig. 20.8 (a).

– Idéia básica:• fingir que conhecemos os parâmetros do modelo e

depois deduzir a probabilidade de cada ponto de dados pertencer a cada componente

• depois disso, readaptamos os componentes aos dados, onde cada componente é ajustado ao conjunto de dados inteiro, cada ponto ponderado com a possibilidade de pertencer a esse componente

o algoritmo EM

– Para mistura de distribuições gaussianas, inicalizamos arbitrariamente os parâmetros do modelo de mistura e repetimos:•Etapa E: calcular as probabilidades pij=P(C=i|xj)

– a probabilidade de que o dado xj tenha sido gerado pelo componente i.

– pela regra de Bayes: pij= aP(xj|C = i)P(C=i)

» P(xj|C = i): probabilidade em xj do i-esimo gaussiano

» P(C = i): peso para o iesimo gaussiano

– definir: pi = Σj pij

•Etapa M:

o algoritmo EM

– Para mistura de distribuições gaussianas, inicalizamos arbitrariamente os parâmetros do modelo de mistura e repetimos:•Etapa E: calcular as probabilidades pij=P(C=i|xj)

– a probabilidade de que o dado xj tenha sido gerado pelo componente i.

– pela regra de Bayes: pij= aP(xj|C = i)P(C=i)

» P(xj|C = i): probabilidade em xj do i-esimo gaussiano

» P(C = i): peso para o iesimo gaussiano

– definir: pi = Σj pij (somar sobre todas probabilidades de todos os pontos j terem sido gerados pela gaussiana i)

•Etapa M:

o algoritmo EM

•Etapa M: calcular a nova média, co-variância e os pesos dos componentes:

μi ← Σj pijxj/pi

Σi ← Σj pijxjxjT/pi

wi ← pi

o algoritmo EM

• Etapa E (esperança):– cálculo dos valores esperados pij das variáveis

indicadoras Zij ocultas

• Etapa M (maximização):– encontra os novos valores dos parâmetros que

maximizam a probabilidade logaritmica dos dados, dados os valores esperados das variáveis indicadoras ocultas.

Aprendizagem de redes Bayesianas com variáveis ocultas• Execício:

– leia e entenda esta seção. Uma questão sobre este assunto cairá na prova.• (dica: para entender esta seção você terá antes que

entender -- quase -- todo o capítulo!)

Documents

Métodos estatísticos em aprendizagem Mestrado FEI Paulo Santos