Detecci´on y Estimaci´on - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/deteccion/Capitulo3.pdf · D.U. Campos-Delgado ... cional, siempre y cuando, la densidad a poste-

Deteccion y Estimacion

Maestrıa en Ing. Electronica

Capitulo III

Estimacion de Parametros

D.U. Campos-Delgado

Facultad de Ciencias

UASLP

Agosto-Diciembre/2017

1

CONTENIDO

Introduccion

Estimacion de Maxima Verosimilitud

Prueba Generalizada de Maxima Verosimilitud

Criterios para Estimacion

Estimacion de Bayes

Desigualdad de Cramer-Rao

Estimacion Multiple de Parametros

Estimador Optimo Lineal

Estimacion de Mınimos Cuadrados Lineal

Estimacion Recursiva de Mınimos Cuadrados

Estimacion de Mınimos Cuadrados Nolineal

2

Introduccion

Considerar que en un problema de deteccion, se

ha elegido la hipotesis correcta, pero se desco-

nocen ciertos parametros que pueden estimar-

se con base a las observaciones.

PROBLEMA: se tienen K i.i.d muestras de

una VA Y1, . . . , YK

Y =[

Y1 . . . YK]

que se caracterizan por cierta funcion de den-

sidad f(y|θ) que depende de un parametro θ.

Considerar que θ se estima con base a una fun-

cion estatica g(·) de las observaciones, es decir

θ = g (Y1, . . . , YK)

Se plantean 2 soluciones dependiendo de la su-

posicion de la naturaleza de θ: determinıstico

o estocastico.

3

Estimacion de Maxima Verosimilitud

Definir la funcion de verosimilitud como

L(θ) = f(y|θ) = f(y1, . . . , yK|θ) =K∏

i=1

f(yi|θ)

Se plantea el problema de estimacion por me-

dio de un proceso de optimizacion para parame-

tros no-aleatorios

θ = argmaxL(θ)

θ se define como estimacion de maxima vero-

similitud (MLE)

∼ maxθ

ln[L(θ)]

Una condicion necesaria para una estimacion

ML es resolver la ecuacion de verosimilitud

∂

∂θln[f(y|θ)] = 0

4

PRINCIPIO DE INVARIANCIA: asumir que

ξ(θ) es una funcion inyectiva, si θ es un MLE

de θ, entonces ξ(θ) es un MLE de ξ(θ).

Ejemplo 1: las muestras recibidas bajo las hipote-

sis H1 y Ho son

H1 : Yi = m+ Vi, i = 1, . . . ,K

Ho : Yi = Vi.

donde E(Vi) = 0 y E(V 2i ) = σ2.

(A) Suponer que m es una constante descono-

cida, obtener un MLE m del promedio.

(B) Suponer que el valor medio m se conoce,

pero la varianza σ2 es desconocida. Obtener

un MLE de σ2.�

5

Prueba Gen. de Maxima Verosimilitud

Considerar nuevamente el problema de hipote-

sis compuesta, donde la observacion es conta-

minada por ruido normal sobre ambas hipotesis

⇒ existe una prueba UMP para tomar la deci-

sion para m > 0

yH1

RHo

σ2

mln τ +

m

2

y para m < 0

yHo

RH1

σ2

mln τ +

m

2

⇒ Como ambas pruebas son diferentes, no exis-

te un UMP para cualquier valor de m.

Otro enfoque: utilizar la informacion para es-

timar el parametro desconocido θ como si la

hipotesis H1 fuera cierta, y utilizar el estimado

en la prueba de hipotesis de verosimilitud.

6

Si la estimacion a utilizar es la MLE ⇒ prueba

generalizada de maxima verosimilitud

Lg(y) =maxθ1 f(y|θ1)maxθ0 f(y|θ0)

H1

RHo

τ

donde θ0 y θ1 son los parametros desconocidos

que seran estimados bajo las hipotesis Ho y H1.

Ejemplo: considerar el problema de hipotesis

binaria

H1 : Yi = m+ Vi, i = 1, . . . ,K

Ho : YI = V.

donde E(Vi) = 0 y E(V 2i ) = σ2. Considerar

que m es un parametro desconocido. Obtener

la prueba generalizada de maxima verosimilitud

y compararla con la prueba optima de Neyman-

Pearson. �

7

Criterios para Estimacion

Considerar ahora que el parametro descono-

cido θ es una VA, y se definen ciertos parame-

tros para caracterizar una “buena” estimacion.

Estimacion Sin Polarizacion: si el estimado θ

cumple E[θ] = θ ∀θ.

Estimacion Polarizada: si se cumple E[θ] = θ+b

1. Polarizacion Conocida: si el valor constante

b no depende de θ, es decir E[θ − b] = θ es

una estimacion sin polarizacion.

2. Polarizacion Desconocida: si b no puede co-

nocerse de antemano.

8

Ademas de que el promedio del parametro es-

timado coincida con el valor real, se debe cum-

plir que la varianza en la estimacion se encuen-

tre limitada.

f( )

0

θ

θ

θ

σ1

σ2

σ3

σ1<σ2<σ3

Varianza Mınima sin Polarizacion: θ debe ser

una estimacion de varianza mınima y sin po-

larizacion, es decir para cualquier estimacion θ

tal que E[θ] = θ se debe cumplir V [θ] ≤ V [θ]

∀θ.

9

Estimacion Consistente: considerar que la es-

timacion θ se basa en K observaciones ⇒ se

cumple

lımK→∞

P(

|θ − θ| > ǫ)

= 0 ∀ǫ > 0

∴ θ es una estimacion consistente de θ si cum-

ple

lımK→∞

E[θ] = θ & lımK→∞

V [θ] = 0

10

Estimacion de Bayes

Se considera que la funcion de riesgo se con-

forma como una funcion entre el valor real θ y

su estimado θ ⇒ C(θ, θ):

Error Cuadratico: R = E[(θ − θ)2]

Valor Absoluto del Error: R = E[|θ − θ|]

Funcion de Costo Uniforme: R = E[CU(θ, θ)]

CU(θ, θ) =

{

1, |θ − θ| ≥ ∆2

0, |θ − θ| < ∆2

⇒ R =

∫ ∞

−∞

∫ ∞

−∞C(θ, θ)f(θ,y)dθdy

0 0 0

(θ−θ)2^ |θ−θ|^

θ θ

(θ,θ)^CU

θ^ ^ ^

∆/2−∆/2θ θ θ

1

11

[A] Considerar entonces la estimacion que mi-

nimiza el error cuadratico medio (MMSE)

mınθ

E[

(θ − θ)2]

Entonces recordando que

f(θ|y) =f(θ,y)

f(y)

el riesgo esta dado por

RMS =

∫ ∞

−∞f(y)

[∫ ∞

−∞(θ − θ)2f(θ|y)dθ

]

dy

Como f(y) ≥ 0 ∀y ⇒ la minimizacion de RMS

es equivalente a

mınθ

∫ ∞

−∞(θ − θ)2f(θ|y)dθ

Tomando la parcial de la nueva funcion de cos-

to con respecto de θ (regla de Leibniz) e igua-

lando a cero, se obtiene la estimacion optima

θMS =∫ ∞

−∞θ f(θ|y)dθ = E[θ|y]

12

La funcion de riesgo mınima

RMS =

∫ ∞

−∞f(y)V (θ|y)dy

donde

V (θ|y) =∫ ∞

−∞[θ − E(θ|y)]2f(θ|y)dθ

es decir la varianza condicional de θ dado el

vector de observacion Y, promediado sobre to-

dos los posibles valores de Y.

[B] Analizar ahora la estimacion que minimiza

el valor absoluto del error

mınθ

E[

|θ − θ|]

el riesgo esta dado por

RABS =

∫ ∞

−∞f(y)

[∫ ∞

−∞|θ − θ|f(θ|y)dθ

]

dy

De forma similar al caso anterior, el problema

de optimizacion es equivalente a

mınθ

∫ θ

−∞(θ − θ)f(θ|y)dθ +

∫ ∞

θ(θ − θ)f(θ|y)dθ

13

Al tomar la parcial de la nueva funcion de costo

con respecto de θ (regla de Leibniz) e igualan-

do a cero, se obtiene

∫ θABS

−∞f(θ|y)dθ =

∫ ∞

θABS

f(θ|y)dθ

es decir, el valor estimado θABS representa la

mediana de la densidad condicional f(θ|y) ⇒estimado de valor absoluto mınimo del error

(MAVE) θABS = θMAVE.

[C] Considerar una funcion de error uniforme,

y la funcion de riesgo es

RU =

∫ ∞

−∞f(y)

∫ θ−∆2

−∞f(θ|y)dθ +

∫ ∞

θ+∆2

f(θ|y)dθ

dy

⇒ RU =∫ ∞

−∞f(y)

1−∫ θ+∆

2

θ−∆2

f(θ|y)dθ

dy

donde se observa que

∫ θ+∆2

θ−∆2

f(θ|y)dθ = P

[

θ − ∆

2≤ Θ ≤ θ +

∆

2

∣∣∣∣y

]

14

Por lo tanto, minimizar RU es equivalente a

maxθ

∫ θ+∆2

θ−∆2

f(θ|y)dθ

⇒ el valor optimo maximiza f(θ|y) (moda) →estimador maximo a posteriori (MAP)

∂f(θ|y)∂θ

∣∣∣∣∣θ=θMAP

= 0 o∂ ln f(θ|y)

∂θ

∣∣∣∣∣θ=θMAP

= 0

Pero multiples puntos extremos, utilizando la

ley de Bayes

f(θ|y) =f(y|θ)f(θ)

f(y)

se obtiene una caracterizacion alternativa de la

ecuacion MAP:

∂ ln f(θ|y)∂θ

=∂ ln f(y|θ)

∂θ+

∂ ln f(θ)

∂θ= 0

Ejemplo: considerar que K observaciones estan

por la expresion

Yi = M +Ni i = 1, . . . ,K

donde M y Ni son VA’s Gaussianas indepen-

dientes con media cero y varianza σ2 . Encon-

trar las estimaciones mMS, mMAV E y mMAP .

�15

PROPIEDADES:

i) La estimacion que minimiza el error cuadrati-

co promedio (MMSE) es siempre el valor es-

perado de la densidad a posteriori (promedio

condicional).

ii) La estimacion maxima a posteriori (MAP)

es el valor de θ donde la densidad a posteriori

tiene su maximo.

iii) Para una clase grande de funciones de cos-

to, el estimador optimo es el promedio condi-

cional, siempre y cuando, la densidad a poste-

riori sea unimodal (maximo unico y distribucion

acumulada convexa) y simetrica alrededor de la

probabilidad condicional.

f( | y )θ

0 0

f( | y )θ

θ θ

MAPMMSEMAVE

MAP

MAVE MMSE

moda, mediana, ymedia

modamediana

media

16

iv) Si en el criterio MAP, se considera que

f(θ) = 0 −∞ < θ < ∞ (no existe informacion a

priori), el estimado ML puede verse como un

caso especial del MAP.

v) El estimado MAP para una densidad Gaus-

siana del parametro desconocido θ es equiva-

lente al ML si la varianza crece, es decir, la

distribucion del parametro θ tiene a un distri-

bucion uniforme ⇒∂ ln f(θ)

∂θ= 0

17

Desigualdad de Cramer-Rao

• Con el objeto de evaluar si una estimacion es

buena se debe considerar: polarizacion, varian-

za del error, y ası determinar su consistencia.

• Calcular estos ındices de manera explıcita

puede ser complicado ⇒ se emplean desigual-

dades de acuerdo a la naturaleza del parametro

estimado.

• Asumir un parametro constante ⇒ Desigual-

dad de Cramer-Rao.

TEOREMA: considerar el vector de K ob-

servaciones Y = [Y1 . . . YK], y θ como una

estimacion no polarizada de θ ⇒ se cumple

V[

θ − θ|θ]

≥

E

(

∂ ln f(y|θ)∂θ

)2

−1

donde

E

(

∂ ln f(y|θ)∂θ

)2

= −E

[

∂2 ln f(y|θ)∂θ2

]

.

18

Asumiendo que

∂f(y|θ)∂θ

&∂2f(y|θ)

∂θ2

existen y son integrables en el sentido absoluto.

Demostracion: como se asume una estima-

cion no polarizada ⇒ E[θ|θ] = θ y por lo tanto

E[θ−θ|θ] = 0. Diferenciando esta expresion con

respecto de θ se tiene

d

dθ

∫ ∞

−∞(θ − θ)f(y|θ)dy = 0

Aplicando el Regla de Leibniz se puede introdu-

cir la operacion derivada dentro de la integral

y se obtiene

∫ ∞

−∞(θ − θ)

∂f(y|θ)∂θ

dy =

∫ ∞

−∞f(y|θ)dy = 1

Recordar que ∂ ln g(x)∂x = 1

g(x)∂g(x)∂x y entonces se

tiene

∂f(y|θ)∂θ

= f(y|θ)∂ ln f(y|θ)∂θ

19

Sustituyendo se encuentra que∫ ∞

−∞(θ − θ)f(y|θ)∂ ln f(y|θ)

∂θdy = 1

Recordar la desigualdad de Cauchy-Schwarz

| < x, y > | ≤ ‖x‖‖y‖aplicando esta desigualdad se obtiene{∫ ∞

−∞(θ − θ)2f(y|θ)dy

}{∫ ∞

−∞

[∂ ln f(y|θ)

∂θ

]2

f(y|θ)dy}

≥ 1

y concluimos

V[

θ − θ|θ]

E

(

∂ ln f(y|θ)∂θ

)2

≥ 1

Enseguida se demuestra la equivalencia para

el valor esperado, ya que∫∞−∞ f(y|θ)dy = 1 se

obtiene

∫ ∞

−∞

∂f(y|θ)∂θ

dy = 0 ⇒∫ ∞

−∞

∂ ln f(y|θ)∂θ

f(y|θ)dy = 0

Tomando nuevamente la parcial con respecto

de θ, se concluye que

∫ ∞

−∞


f(y|θ)dy +

∫ ∞

−∞

∂ ln f(y|θ)∂θ

∂f(y|θ)∂θ

dy = 0

20

A partir de esta ultima expresion se obtiene

E

[


]

+ E

(

∂ ln f(y|θ)∂θ

)2

= 0

�

Al aplicar la desigualdad de Cauchy-Schwarz,

se logra la igualdad si los elementos son co-

lineales

⇒ ∂ ln f(y|θ)∂θ

= ξ(θ)(θ − θ) ∀y, θ

Cualquier estimador que cumple la igualdad, se

define como un estimador eficiente.

Observar que si existe un estimador eficiente,

este cumple el criterio de maxima verosimilitud

(ML) cuando θ = θML

∂ ln f(y|θ)∂θ

∣∣∣∣∣θ=θML

= ξ(θ)(θ − θ)∣∣∣θ=θML

21

Ejemplo 1: considerar K observaciones, tal que

Yi = m+ Vi i = 1, . . . ,K

donde m es un parametro desconocido y las

muestras de ruido Gaussiano Vi son i.i.d con

E[Vi] = 0 y E[V 2i ] = σ2, donde tambien se

desconoce σ2. (A) Encontrar los estimados de

m y σ2. (B) ¿El estimado obtenido es eficien-

te ? (C) Obtener la varianza condicionada del

error V [m−m|m]. �

Ejemplo 2:considerar K observaciones, tal que

Yi = Γ(m) + Vi i = 1, . . . ,K

donde m es un parametro desconocido, Γ(·) es

una funcion no-lineal biyectiva, y las muestras

de ruido Gaussiano Vi son i.i.d con E[Vi] = 0

y E[V 2i ] = σ2. (A) Encontrar el estimado ML

mML. (B) Utilizar la desigualdad de Cramer-

Rao para obtener una cota inferior en la va-

rianza del error. ¿De que parametro depende

esta varianza?.

22

Solucion: la densidad condicional esta dada

por

f(y|m) =

[

1√2πσ

]K

e− 1

2σ2

∑Ki=1[yi−Γ(m)]2

por lo que la condicion de ML es

∂ ln f(y|m)

∂m=

1

σ2

K∑

i=1

[yi − Γ(m)]∂Γ(m)

∂m= 0

y como ∂Γ(m)∂m 6= 0, entonces ya que se asume

que Γ es biyectiva, se tiene

mML = Γ−1

1

K

K∑

i=1

yi

Para obtener el estimado de la varianza del

error, se asume que la estimacion no tiene po-

larizacion y se toma nuevamente la derivada

con respecto de m

∂2 ln f(y|m)

∂m2=

1

σ2

K∑

i=1

[yi − Γ(m)]∂2Γ(m)

∂m2− K

σ2

[∂Γ(m)

∂m

]2

Recordar que

E[Yi − Γ(m)] = E[Vi] = 0

23

Por lo tanto

E

[

∂2 ln f(y|m)

∂m2

]

= −K

σ2

[

∂Γ(m)

∂m

]2

y se llega por medio de la desigualdad de Cramer-

Rao a

V [mML −m|m] ≥ σ2

K[∂Γ(m)∂m

]2.

�

• Asumir ahora un parametro aleatorio y asu-

mir que se conoce la densidad conjunta f(y, θ)

del vector de observacion Y y el parametro des-

conocido θ.

TEOREMA: considerar el vector de K obser-

vaciones Y = [Y1 . . . YK], y θ como una VA ⇒el error medio cuadratico cumple la siguiente

desigualdad

E[

(θ − θ)2]

≥

E

(

∂ ln f(y, θ)

∂θ

)2

−1

24

donde

E

(

∂ ln f(y, θ)

∂θ

)2

= −E

[

∂2 ln f(y, θ)

∂θ2

]

.

Asumiendo que

∂f(y, θ)

∂θ&

∂2f(y, θ)

∂θ2

existen y son integrables en el sentido absoluto

con respecto de y y θ. La igualdad se cumple,

si y solo si,

∂ ln f(y, θ)

∂θ= k[θ − θ] ∀y, θ

o

∂2 ln f(y, θ)

∂θ2= −k.

PROPIEDADES

• Observar que la funcion de densidad es con-

junta, y la esperanza se toma sobre y y θ.

25

• Como f(y, θ) = f(θ|y)f(y), la condicion de

igualdad se convierte en

∂2 ln f(θ|y)∂θ2

= −k

Lo que implica que

f(θ|y) = e−k2θ

2+C1θ+C2 ∀y, θ

donde C1 y C2 so constantes, es decir, la pro-

babilidad a posteriori de θ debe ser Gaussiana

para todo y, si se quiere un estimado eficien-

te.

• Si se cumple ∂2 ln f(y,θ)∂θ2

= −k (condicion para

un maximo), el estimado MAP sera eficiente.

• Como el MMSE es optimo (error mınimo),

este no puede tener un error mayor al MAP y

en consecuencia θMAP = θMS, cuando existe

un estimado eficiente ⇒ mas sencillo encon-

trar el estimado MAP, que el MMSE (media

condicionada).

26

Estimacion Multiple de Parametros

• Considerar que se buscan estimar K parame-

tros de manera simultanea. Definir el vector de

parametros desconocidos como θ ∈ RK

θ = [θ1 . . . θK]⊤

Asumir que el vector de observacion Y es N-

dimensional, es decir

Y = [Y1 . . . YN ]⊤ ∈ RN

Para compactar la notacion, definir el operador

∇θ ,[

∂

∂θ1. . .

∂

∂θK

]⊤

Si se tiene un vector N-dimensional

X = [X1 . . . XN ]⊤

y se le aplica el operador anterior obtenemos

∇θX⊤ =

∂X1∂θ1

. . . ∂XN∂θ1... . . . ...

∂X1∂θK

. . . ∂XN∂θK

27

• Dependiendo de la naturaleza de los parame-

tros a estimar se estudian 2 enfoques: (A) Parame-

tros No-Aleatorios y (B) Parametros Aleato-

rios.

y

θ

Espacio de ParámetrosK-dimensional

θθEspacio de Observación

N-dimensional

Mapeof(y| )

Estimación

(Estimación K-dimensional)

θ (y)θθ

θθθ

FUENTE

28

• Asumir un vector de parametros no-aleatorio

θ.

⇒ El criterio de Maxima Verosimilitud (ML) se

convierte en

∇θ [ln f(y|θ)]|θ=θML

= 0

• Criterios para analizar una buena estimacion:

i) Polarizacion

E[

θ|θ]

= θ + θB

donde θB ∈ RK representa el vector de pola-

rizacion. Si cada elemento en θB es cero ⇒estimacion no-polarizada.

ii) Matriz de Covarianza Condicional

C = E[

(θ − θB)(θ − θB)⊤|θ]

∈ RK×K

donde θ = θ − θ representa el error de estima-

cion. Tomando la i-esima fila y j-esima colum-

na tenemos

Cij = E[

(θi − θB,i)(θj − θB,j)|θ]

29

Es decir, los elementos de la diagonal de C

representan la varianza condicionada del error

Cii = V[

θi|θ]

TEOREMA: (Desigualdad de Cramer-Rao) si

θ es un estimado sin polarizacion de θ basado

en el vector de observaciones Y ⇒ la matriz de

covarianza del error se encuentra acotada por

debajo por la inversa de la Matriz de Informa-

cion de Fisher J ∈ RK×K:

E[

(θ − θ)(θ − θ)⊤|θ]

≥ J−1

donde

J = E[

{∇θ [ln f(y|θ)]} {∇θ [ln f(y|θ)]}⊤]

= −E[

∇θ {∇θ (ln f(y|θ))}⊤]

,

se asume que J > 0 y

∂f(y|θ)∂θi

&∂2f(y|θ)∂θi∂θj

∀i, j


30

Lo que puede escribirse como

V[

θi|θ]

≥ Jii

donde Jii representa el i-esimo elemento en la

diagonal de J−1.

El componente en la i-esima fila y j-esima co-

lumna de J esta dado por

Jij = E

[

∂ ln f(y|θ)∂θi

· ∂ ln f(y|θ)∂θj

∣∣∣∣∣θ

]

= −E

[

∂2 ln f(y|θ)∂θi∂θj

∣∣∣∣∣θ

]

Observar que la igualdad se mantiene si se sa-

tisface

∇θ [ln f(y|θ)] = K(θ)[

θ − θ]

donde K(θ) ∈ RK×K representa una matriz

que, en general, puede depender del parametro

desconocido.

31

• Asumir ahora un vector de parametros alea-

torio θ definido en una region O ⊂ RK y un

vector de salidas y tambien definido en una

region Y ⊂ RN .

[A] Considerar la estimacion que minimiza el

error cuadratico medio (MMSE)

mınθ

E[

‖θ − θ‖2]

donde ‖x‖2 = x⊤x representa la norma Eucli-

diana ∀x ∈ RK. El riesgo esta dado por

RMS =

∫

O

∫

Y‖θ − θ‖2f(y, θ)dydθ

=∫

Yf(y)

[∫

O‖θ − θ‖2f(θ|y)dθ

]

dy

Como f(y) ≥ 0 ∀y ⇒ la minimizacion de RMSes equivalente a

mınθ

∫

O‖θ − θ‖2f(θ|y)dθ

Tomando la parcial de la nueva funcion de cos-

to con respecto de θ e igualando a cero, y al

considerar que

∂x⊤Ax

∂x= (A⊤ +A)x A ∈ R

K×K

32

⇒ ‖θ − θ‖2

∂θ= −2(θ − θ)

se obtiene la estimacion optima

θMS =

∫

Oθ f(θ|y)dθ = E[θ|y].

[B] Considerar el estimado MAP, este criterio

es equivalente a minimizar

RMAP = 1−∫

‖θ−θ‖∞<∆2

f(θ|y)dθ

lo que conlleva a maximizar f(θ|y) si ∆ es su-

ficientemente pequeno, y se deduce entonces

el siguiente criterio

∇θ [ln f(θ|y)]|θ=θMAP

= 0

TEOREMA: (Desigualdad de Cramer-Rao) si

θ es un estimado sin polarizacion de θ basado

en el vector de observaciones Y ⇒ la matriz de

covarianza del error se encuentra acotada por

debajo por:

E[

(θ − θ)(θ − θ)⊤]

≥ L−1

33

donde L ∈ RK×K

L = E[

{∇θ [ln f(y, θ)]} {∇θ [ln f(y, θ)]}⊤]

= −E[

∇θ {∇θ (ln f(y, θ))}⊤]

,

se asume que L > 0, y

∂f(y, θ)

∂θi&

∂2f(y, θ)

∂θi∂θj∀i, j


34

Est. Optima Lineal

En ocasiones no se tiene acceso a la funcion de

densidad conjunta entre el parametro θ (alea-

torio) y la medicion y (caso escalar) para cal-

cular las estimaciones optimas.

Pero se pueden evaluar los momentos de pri-

mer y segundo orden de la observacion (E[Y ], E[Y 2]),

el valor medio del parametro desconocido E[Θ],

y el estadıstico conjunto E[ΘY ].

PROBLEMA: asumir un parametro aleatorio

desconocido θ y una observacion y ⇒ encon-

trar el parametro estimado θ segun el siguiente

criterio

mınθ=ay+b

E[

(Θ− Θ)2]

donde a y b son las constantes a calcular.

Solucion: la funcion de riesgo esta dada por

RLMS = E[

(Θ− Θ)2]

=

∫ ∞

−∞

∫ ∞

−∞(θ−θ)2f(θ, y)dθ dy

=

∫ ∞

−∞

∫ ∞

−∞(θ − ay − b)2f(θ, y)dθ dy

35

calculado las condiciones necesarias para un

pto. extremo

∂RLMS

∂a= 0 &

∂RLMS

∂b= 0

y verificando

∂2RLMS

∂a2= 2E[Y 2] > 0 &

∂2RLMS

∂b2= 2 > 0

Se obtienen las siguientes condiciones para un

mınimo:

−E[ΘY ] + aE[Y 2] + bE[Y ] = 0

−E[Θ] + aE[Y ] + b = 0

y despejando

a =E[Θ Y ]−E[Θ]E[Y ]

E[Y 2]−E[Y ]2

b = E[Θ]− E[Y ] · E[Θ Y ]−E[Θ]E[Y ]

E[Y 2]− E[Y ]2

Recordando que

Cov(X, Y ) = E[X Y ]−µXµY & ρXY =Cov(X, Y )

σXσY

donde µX = E[X], µY = E[Y ], σX =√

V [X] =

E[(X − µX)2] y σY =√

V [Y ].

36

Se obtienen los valores optimos

a =Cov(Θ, Y )

σ2Y= ρΘY

σΘσY

b = µΘ − µYσΘσY

ρΘY

y el costo mınimo es

RLMS = σ2Θ

(

1− ρ2ΘY

)

Si se asume que E[Θ] = E[Y ] = 0 ⇒ el esti-

mado es no-polarizado (b = 0):

θMLS = CΘYC−1Y Y · y

donde CΘY , E[Θ Y ] y CY Y , E[Y 2].

PROBLEMA: asumir un vector de parame-

tros aleatorios desconocidos θ ∈ RK y un

vector de observaciones y ∈ RN con valores

esperados cero (E[Θ] = 0 y E[Y] = 0) y K < N

⇒ encontrar el vector de parametros estimados

θ segun el siguiente criterio (varianza mınima)

mınθ=Ay

E[

‖Θ− Θ‖2]

donde A ∈ RK×N .

37

Solucion: observar que

R = E[

‖Θ− Θ‖2]

= E[

(Θ− Θ)⊤(Θ− Θ)]

= Tr{

E[

(Θ− Θ)(Θ− Θ)⊤]}

= Tr{

E[

(Θ−AY)(Θ−AY)⊤]}

= Tr{

CΘΘ − CΘYA⊤ −ACYΘ +ACYYA⊤}

donde Tr{·} representa el operador de traza

y CUV , Cov[U,V] = E[

(U− µU)(V − µV)⊤]

(matriz de covarianza). Recordando que

∂Tr {UXV}∂X

= U⊤V⊤

∂Tr{

UXVX⊤W}

∂X= U⊤W⊤XV⊤ +WUXV

donde U,X,V y W son matrices con dimensio-

nes compatibles. Por lo tanto, al considerar las

condiciones necesarias para un mınimo ∂R∂A = 0,

se obtiene A = CΘYC−1YY y el estimado MLS

esta dado por

ΘMLS = CΘYC−1YYy

38

Enseguida, si se asume que Θ y Y no tienen

valores esperados cero (E[Θ] = µΘ y E[Y] =

µY), la estructura del estimado cambia

θ = Ay + b

donde b ∈ RK, y los valores optimos estan da-

dos por

A = CΘYC−1YY

& b = µΘ − CΘYC−1YY

µY

Dos propiedades importantes de la solucion opti-

ma

E[

(Θ− ΘMLS)Y⊤] = 0

E

[

(Θ− ΘMLS)ΘMLS⊤]

= 0

lo que quiere decir que el error de estimacion

es ortogonal al vector de observacion y al esti-

mado en sı.

39

PROBLEMA: asumir un vector de parame-

tros aleatorios desconocidos θ ∈ RK (E[Θ] =

0) y un vector de observaciones y ∈ RN

(K < N). Asumir que el vector de observa-

ciones Y depende linealmente del vector de

parametros Θ

Y = HΘ+N

donde H ∈ RN×K es una matriz conocida y N ∈

RN es un vector de ruido Gaussiano (E[N] = 0

y E[NN⊤] = CNN > 0) ⇒ encontrar el vector

de parametros estimados θ segun el criterio de

varianza mınima

mınθ=Ay

E[

‖Θ− Θ‖2]

donde A ∈ RK×N .

Solucion: la funcion de costo en la optimiza-

cion esta dada por

J = E[

(Θ− Θ)⊤(Θ− Θ)]

= Tr{

E[

(Θ− Θ)(Θ− Θ)⊤]}

= Tr{

E[

(Θ−AHΘ−AN)(Θ−AHΘ−AN)⊤]}

40

= Tr{

CΘΘ − 2AHCΘΘ +AHCΘΘH⊤A⊤

+ACNNA⊤}

∴ Al aplicar la condicion de un punto extremo∂J∂A = 0 se obtiene

−CΘΘH⊤ +AHCΘΘH⊤ +ACNN = 0

A partir de esta ultima ecuacion se deduce la

solucion optima A y se calcula el vector esti-

mado

⇒ θ = CΘΘH⊤ (HCΘΘH⊤ + CNN

)−1y

41

Estimacion de Mınimos Cuadrados

FORMULACION: en el problema de estima-

cion de mınimos cuadrados (least-square) se

busca calcular un vector de parametros des-

conocidos (constantes) θ ∈ RK, en base a un

vector de mediciones y ∈ RN y asumiendo una

relacion lineal entre ellos

Y = Hθ +N

donde H ∈ RN×K es una matriz conocida y

N ∈ RN es un vector de ruido o errores. El

criterio de diseno se basa en minimizar el error

cuadratico entre el vector de medicion y y su

estimado y (y = Hθ).

Dependiendo de la formulacion de la funcion

de costo se derivan las soluciones

(I) Mınimos Cuadrados Estandar

mınθ

‖y − y‖2

⇒ θ =(

H⊤H)−1

H⊤y

42

Solucion: la funcion de costo esta dada por

J = (y − y)⊤(y − y)

= Tr{

(y −Hθ)(y −Hθ)⊤}

Al tomar la condicion para un punto extremo∂J∂θ

= 0 se obtiene

−H⊤y+H⊤Hθ = 0 ⇒ H⊤(y −Hθ) = 0

y al despejar se deduce el estimado optimo. �

(II) Mınimos Cuadrados con Pesos

mınθ

(y − y)⊤W(y − y) W > 0

⇒ θ =(

H⊤WH)−1

H⊤Wy

(III) Mınimos Cuadrados Regularizado

mınθ

‖y − y‖2 + θ⊤Rθ R > 0

⇒ θ =(

R+H⊤H)−1

H⊤y

43

Ejemplo 1: considerar que se tienen N medi-

ciones dadas por

Yi = θ +Ni i = 1, . . . , N

donde θ es un parametro constante y desco-

nocido, y Ni son muestras de ruido Gaussiano.

Obtener el estimado de mınimos cuadrados pa-

ra θ. �

Ejemplo 2: suponer que se tienen 3 mediciones

de la senal sk = θek/2 k = 1,2,3, donde θ es

un parametro desconocido. Considerar que las

mediciones estan dadas por y1 = 1.5, y2 = 3.0

y y3 = 5.0. Encontrar el estimado de mınimos

cuadrados para θ. �

44

Est. Recursiva de Mınimos Cuadrados

Considerar que no se tiene la informacion

completa de las mediciones, y se busca ge-

nerar un estimado que se actualize con cada

nueva medicion ⇒ estimacion recursiva.

Ademas se requiere dar mayor peso a la infor-

macion de las mediciones actuales y menos

a las pasadas ⇒ factor de olvido λ.

Considerar la siguiente funcion de costo

mınθ

N∑

i=1

λN−i(yi − yi)2 0 < λ ≤ 1

∼ mınθ

(y−y)⊤

λN−1

λN−2

. . .

1

︸︷︷︸

Λ

(y−y)

con y = [y1 . . . yN ]⊤ y y = [y1 . . . yN ]⊤, ∴ la

solucion optima esta dada por

θ =(

H⊤ΛH)−1

H⊤Λy

45

Considerando que

H =

h⊤1...

h⊤N

hi ∈ R

K

⇒ el estimado optimo θ puede re-escribirse co-

mo

θ =

N∑

i=1

λN−ihih⊤i

−1 N∑

i=1

λN−ihiyi

Definir la matriz de covarianza como

PN ,N∑

i=1

λN−ihih⊤i = λPN−1 + hNh⊤

N

y el vector

ηN ,N∑

i=1

λN−ihiyi = ληN−1 + hNyN

⇒ El estimado optimo en la N-esima iteracion

esta dado por

θN = P−1N ηN

46

Enseguida se aplica el lema de la inversa de unmatriz:

(A+UBV)−1 = A−1 −A−1U(B−1 +VA−1U

)−1VA−1

donde A es invertible.

Entonces, la inversa de PN puede calcularse

por

P−1N = λ−1P−1

N−1 −λ−2P−1

N−1hNh⊤NP−1

N−1

1+ λ−1h⊤NP−1

N−1hN

Definir ΦN , P−1N y el vector de ganancia

KN ,λ−1P−1

N−1hN

1+ λ−1h⊤NP−1

N−1hN

⇒ ΦN = λ−1ΦN−1 − λ−1KNh⊤NΦN−1

Por lo que es facil verificar que

KN = ΦNhN

De esta manera, el estimado optimo puede es-

cribirse por

θN = ΦNηN = λΦNηN−1 +ΦNhN︸︷︷︸

KN

yN

47

Utilizando la expresion para ΦN se obtiene

θN = ΦN−1ηN−1︸︷︷︸

θN−1

−KNh⊤N ΦN−1ηN−1︸︷︷︸

θN−1

+KNyN

es decir

θN = θN−1 +KN

[

yN − h⊤N θN−1

]

︸︷︷︸

error a priori

ALGORITMO RECURSIVO DE MINIMOS

CUADRADOS (RLS):

Inicializacion: θ0 = 0, Φ0 = δ−1I y n = 1.

1: Calcular el vector de ganancia

Kn =λ−1Φn−1hn

1+ λ−1h⊤nΦn−1hn

2: Actualizar la inversa de la covarianza

Φn = λ−1(

I−Knh⊤n

)

Φn−1

3: Actualizar el estimado optimo

θn = θn−1 +Kn

[

yn − h⊤n θn−1

]

4: Tomar una nueva medicion y aumentar el

contador de iteraciones n = n+1.

48

PROPIEDADES:

I. La memoria del algoritmo RLS esta dada

aproximadamente por 11−λ.

II. Si λ = 1 ⇒ la memoria es infinita.

III. Observar que la actualizacion del estima-

do, se utiliza el error a priori (innovacion) yn−h⊤n θn−1.

IV. En la funcion de costo se emplean los erro-

res a posteriori yn − h⊤n θn.

V. El algoritmo RLS converge aproximadamen-

te en 2K iteraciones.

VI. El RLS puede presentar problemas de esta-

bilidad numerica (errores de redondeo, singu-

laridad de la matriz de covarianza, etc.).

49

Mınimos Cuadrados No-lineales

FORMULACION: Asumir ahora que se tie-

ne una ventana de N mediciones (y1, . . . , yN) y

que se modelan por medio de una funcion no-

lineal conocida f(·) de un vector de parame-

tros desconocidos θ (constantes)

Yi = f(hi, θ) + Vi i ∈ [1, N ]

donde hi son parametros o valores conocidos

y Vi representan muestras de ruido normal; es

decir utilizando notacion vectorial

Y = f(θ) +V

donde f(θ) = [f(h1, θ) . . . f(hN , θ)]⊤ y V =

[V1 . . . VN ]⊤ denota el vector de ruido. Por lo

que se busca encontrar el vector de parametros

estimados θ tal que

mınθ

1

2‖y − f(θ)‖2,

a traves de una busqueda iterativa.

50

Solucion: definiendo primero la estructura ite-

rativa de busqueda como

θm = θm−1 +∆θm m ≥ 1,

partiendo de un punto de inicio θ0 ∈ RK, y

considerar una aproximacion de Taylor para la

funcion no-lineal f(θ)

f(θm) ≈ f(θm−1) + Jm−1∆θm,

donde

Jm−1 =∂f

∂θ

∣∣∣∣∣θ=θm−1

=(

∇θf⊤)⊤∣∣∣∣θ=θm−1

∈ RN×K.

De manera que la funcion de costo a minimizar

iterativamente se define como

mın∆θm

Jm

donde

Jm =1

2‖y− fm−1−Jm−1∆θm‖2 =

1

2‖∆ym−1−Jm−1∆θm‖2

y ademas

fm−1 = f(θm−1)

∆ym−1 = y − fm−1.

51

En la m-esima iteracion, Jm es un funcion cuadrati-ca con respecto de ∆θm por lo que existe unasolucion unica, dada por

∆θm =(

J⊤m−1Jm−1

)−1J⊤m−1∆ym−1.

y se genera entonces una secuencia {θm} quetiende a un mınimo (local) que depende delpunto de inicio θ0, y la iteracion se detiene si‖∆θm‖ < ǫ donde ǫ > 0 denota el umbral deconvergencia.

De forma alternativa, la funcion de costo sepuede extender a

Jm =1

2(∆ym−1 − Jm−1∆θm)

⊤W(∆ym−1 − Jm−1∆θm)

+ λ∆θ⊤mR∆θm

donde W > 0 (W ∈ RN×N) y R > 0 (R ∈

RK×K) son matrices peso, y λ > 0 es un parame-

tro fijo o adaptivo que controla el paso de ajus-te en cada iteracion ⇒ Algoritmo de Levenberg-Marquardt (mınimos cuadrados amortiguado).

La solucion optima para esta nueva funcion decosto es

∆θm =(

J⊤m−1WJm−1 + λR)−1

J⊤m−1W∆ym−1,

donde usualmente R = I o R = diag(J⊤m−1Jm−1).

52

Ejemplo: considerar que se tienen las siguien-

tes 21 muestras experimentalesn xn yn n xn yn1 10 0.0405 11 20 3.61582 11 0.0853 12 21 5.40753 12 0.2505 13 22 3.78074 13 0.2819 14 23 2.38035 14 0.8654 15 24 1.63076 15 1.3559 16 25 0.88267 16 1.7332 17 26 0.31088 17 3.8922 18 27 0.20719 18 4.6613 19 28 0.075310 19 4.9641 20 29 0.0267

21 30 0.0084

1. Asumir un modelo polinomial de orden l

para la estimacion de cada muestra, es de-

cir

yn = θ0+θ1xn+θ2x2n+. . .+θlx

ln n ∈ [1,21]

determinar cuales serıan los parametros opti-

mos (θ0, . . . , θl) tal que se minimice el error

cuadratico

mın(θ0,...,θl)

21∑

n=1

(yi − yi)2

53

Graficar el error optimo en funcion del or-

den del polinomio l con l ∈ [1,15]. ¿Cual es

el orden que mejora la aproximacion a las

muestras?

2. Asumir ahora un modelo Gaussiano para

aproximar las muestras, es decir

yn = θ0 exp

(

− 1

2θ21(xn − θ2)

2

)

n ∈ [1,21]

determinar cuales serıan los parametros opti-

mos (θ0, θ1, θ2) por medio de una estrategia

de mınimos cuadrados no-lineal. ¿Cual es

el efecto de las condiciones iniciales en la

convergencia del algoritmo iterativo? Com-

parando el error de ajuste entre el enfoque

polinominal y el modelo Gaussiano, ¿cual

de los 2 enfoques provee un error menor?

Para ambos casos realizar la derivaciones analıti-

cas e implementar ambos algoritmos en Matlab.

Tarea # 3

Resolver los siguientes problemas del libro Prin-

ciples of Signal Detection and Parameter Esti-

mation, B. C. Levy.

4.2 (pag. 159)

4.5 (pag. 160)

4.7 (pag. 161)

4.9 (pag. 162)

4.11 (pag. 163)

4.13 (pag. 165)

Ademas del libro Optimal State Estimation (Dan

Simon, Ed. Wiley Inter-Science, 2006) resolver

54

3.7 y 3.8 (pag. 103)

3.13 (pag. 105)

Documents

Detecci´on y Estimaci´on - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/deteccion/Capitulo3.pdf · D.U. Campos-Delgado ... cional, siempre y cuando, la densidad a poste-