Upload
renato-vicente
View
544
Download
5
Embed Size (px)
Citation preview
Processos GaussianosProcessos Gaussianos
Renato VicenteRenato [email protected][email protected]
1111/01, /01, mpmmfmpmmf, IME/FEA , IME/FEA –– USPUSP
Gaussian Processes (GPs)Gaussian Processes (GPs)
Inferência e PrevisãoInferência e PrevisãoMétodo NãoMétodo Não--ParamétricoParamétricoSplines Splines como GPs como GPs Kernel Models Kernel Models como GPscomo GPsRedes Neurais Multicamadas como GPsRedes Neurais Multicamadas como GPs
InferênciaInferência
{ } 1
NN n n
X x=
={ } 1
NN n n
t=
=t
x t
x w
( ( ) | , ) ( | , )N N N NP y x X ou P w Xt t
( | ; )P t y α
*( )y x
y
Previsão: aproximaçãoPrevisão: aproximação
*1( )Ny x yδ+ ±1N Nx X+ ∉ *w wδ±
[ ]( ) ln ( | , ) ( )* arg min ( )
N NE w P w X P ww E w
= −
=
t
( | , ) ( )( | , )( | )
N NN N
N N
P w X P wP w XP X
=tt
t
21( *| , )exp ( *) ( *)2N N j j k k
jk j k
Ewamostradode P w X w w w ww w
⎡ ⎤∂− − −⎢ ⎥
∂ ∂⎢ ⎥⎣ ⎦∑t
Previsão: Via Monte Carlo Previsão: Via Monte Carlo
1N Nx X+ ∉( | , )N NP w Xt
1 1( | , , )N N N NP t x X+ + t
1 1 1 1 ,( | , , ) ( | , ) ( | )HN N N N N N N NP t x X d w P t w x P w X+ + + += ∫t t
Gera R amostras de
Via Monte Carlo:
,( | )N NP w Xt
1 1 1 11
1( | , , ) ( | , )R
RN N N N N N
rP t x X P t w x
R+ + + +=
≈ ∑t
Métodos NãoMétodos Não--ParamétricosParamétricos
[ ] [ ] [ ]| ( ), ( )( ) | ,
( | )N N
N NN N
P y x X P y xP y x X
P X=
tt
t
Probabilidade no espaço de funções [ ]( )P y x
Gaussian Process Gaussian Process (GP)(GP)
[ ]( )P y x é uma gaussiana
11 1( ) exp22
P CCπ
−⎧ ⎫= − ⋅⎨ ⎬⎩ ⎭
x x x
[ ] expP y y yZ
⎧ ⎫= −⎨ ⎬⎩ ⎭
1 1 A2
Operador Linear
Produto escalar funcional
Operador Linear no espaço de funçõesOperador Linear no espaço de funções
No No
No No
NR
j jk kjk
y A x⋅ = ∑y Ax
L2
( ) ( , ) ( )dx dx x x x xϕ φ ϕ φ′ ′ ′= ∫ ∫A A
Splines Splines e GPse GPs
Regressão utilizando Regressão utilizando splinessplines..Encontrar uma função que minimize o funcional abaixo:Encontrar uma função que minimize o funcional abaixo:
[ ]2
2
1
1 1 ( )[ ] ( )2 2
pN
n n pn
AJUSTE AOS DADOS REGULARIDADE
d y xE y y x t dxdx
β α=
⎡ ⎤= − − − ⎢ ⎥
⎣ ⎦∑ ∫
[ ]ln | , ,N NP y X βt [ ]ln |P y α
[ ]ln | , , ,N NP y X β αt
SplinesSplines e GPse GPs
1 12 2
2
††
( , )
ln [ | ] ( )2
( ) ( )212
p
p p
p p
A x x
P y dx D y x
dx D y x D y x
y D D y
αα
α
α α
′
⎡ ⎤= − ⎣ ⎦
= −
⎡ ⎤= − ⎣ ⎦
∫
∫
1 1[ | , ] exp2
P y y A yZ
μ α μ μ⎡ ⎤= − − −⎢ ⎥⎣ ⎦
com ( ) 0xμ =
Kernel ModelsKernel Models e GPse GPs
Um modelo de Um modelo de kernelkernel é uma combinação linear de é uma combinação linear de H H funções de base. Uma regressão consiste no ajuste dos funções de base. Uma regressão consiste no ajuste dos coeficientes da combinação:coeficientes da combinação:
( , ) ( )H
h hh
y w φ=
=∑1
x w x
kernel
Kernel Models Kernel Models e GPse GPs
Suponhamos um conjunto de N vetores (entradas):Suponhamos um conjunto de N vetores (entradas):
Se definirmos a matriz Se definirmos a matriz RR com N linhas e H colunas como:com N linhas e H colunas como:
As saídas serãoAs saídas serão
{ }Nn n=1
x
( )nh h nR φ= x
n nh hh
y R w=∑
Kernel Models Kernel Models e GPse GPs
Se supusermos que o prior sobre os parâmetros é gaussiano com Se supusermos que o prior sobre os parâmetros é gaussiano com matriz de covariância totalmente simétrica:matriz de covariância totalmente simétrica:
A covariância das funções y representada pelos modelos de A covariância das funções y representada pelos modelos de kernel kernel será:será:
( ) expPσπ σ
⎡ ⎤= − ⋅⎢ ⎥⎣ ⎦22
1 1w w w22 I
jk
nm n m nj j mk k nj mk j kj k j k
nj mjj
Q y y R w R w R R w w
R Rσ δ
σ
=
= = =
=
∑ ∑ ∑∑
∑2
2
Kernel ModelsKernel Models
Para qualquer conjunto de N vetores Para qualquer conjunto de N vetores
gaussiana implica em gaussiana implica em
gaussianagaussiana
é um processo gaussianoé um processo gaussiano
{ }Nn n=1
x
( )P w
( ( ), , ( ))NP y y1x x
[ ]P y
Exemplo: Mistura de Gaussianas em 1dExemplo: Mistura de Gaussianas em 1d
Suponhamos a seguinte forma para o Suponhamos a seguinte forma para o kernelkernel::
A covariância de P(y) será:A covariância de P(y) será:
( ) exp ( )h hx x cr
φ ⎡ ⎤= − −⎢ ⎥⎣ ⎦2
2
12
max
min
( ) ( )exp exp
( ) ( )exp exp
n j m jnm
j
cn m
c c
x c x cQ
r r
x c x ccc r r
σ
σ=
⎡ ⎤ ⎡ ⎤− −= − −⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎡ ⎤ ⎡ ⎤− −
= Δ − −⎢ ⎥ ⎢ ⎥Δ ⎣ ⎦ ⎣ ⎦
∑
∑
2 22
2 2
2 22
2 2
2 2
2 2
Exemplo: Mistura de Gaussianas em 1dExemplo: Mistura de Gaussianas em 1d
Levando ao limite de infinitas funções de base Levando ao limite de infinitas funções de base com com e e podemos substituir podemos substituir
a soma por uma integrala soma por uma integral
H →∞cΔ → 0 S
cσ
=Δ
22
max
min
( ) ( )exp exp
( )exp ( , )
cn m
nmc
n mn m
x c x cQ S dcr r
x xS r C x xr
π
⎡ ⎤ ⎡ ⎤− −= − −⎢ ⎥ ⎢ ⎥
⎣ ⎦ ⎣ ⎦
⎡ ⎤−= − =⎢ ⎥
⎣ ⎦
∫2 2
22 2
22 2
2
2 2
4
Redes Neurais Multicamada e GPsRedes Neurais Multicamada e GPs
Uma rede neural com uma camada escondida e saída linear Uma rede neural com uma camada escondida e saída linear representa a seguinte família de funções:representa a seguinte família de funções:
Se uma distribuição a priori gaussiana para os parâmetros Se uma distribuição a priori gaussiana para os parâmetros w w é é assumida, P[y] tende para um processo gaussiano conforme assumida, P[y] tende para um processo gaussiano conforme
(R. (R. NealNeal, , Priors Priors for for Infinite NetworksInfinite Networks) )
( ) ( ) ( ) ( )( ; ) tanhH I
h hi i hh i
y w w x w w= =
⎛ ⎞= + +⎜ ⎟⎝ ⎠
∑ ∑2 1 1 20 0
1 1x w
H →∞
BibliografiaBibliografiaNeal, R. M. (1994) ``Priors for infinite networks'', Technical
Report CRG-TR-94-1, Dept. of Computer Science, University of Toronto (http://www.cs.utoronto.ca/~radford/publications.html)
D. MacKay Introduction to Gaussian Processes
(http://wol.ra.phy.cam.ac.uk/mackay/BayesGP.html)
M. Gibbs Bayesian Gaussian Processes for Regression and Classification (PhD Thesis, University of Cambridge)
(http://wol.ra.phy.cam.ac.uk/mng10/GP/GP.html)
Veja também: http://www.gatsby.ucl.ac.uk/~edward/gp/