Download pdf - Asesor: Adolfo J. Quiroz³n-con... · Paula Rodr guez D az Asesor: Adolfo J. Quiroz Departamento de Matem aticas Universidad de Los Andes 15 de noviembre de 2018 Paula Rodr guez D

Regresion con proyecciones aleatorias para datos funcionales

Paula Rodrıguez Dıaz

Asesor: Adolfo J. Quiroz

Departamento de MatematicasUniversidad de Los Andes

15 de noviembre de 2018

Paula Rodrıguez Dıaz (U. de Los Andes) 1 / 41

Overview

1 Marco teorico: Analisis de datos funcionales

2 Metodo propuesto

3 Ejemplo 1: Altura instantanea de olas

4 Ejemplo 2: Temperatura anual en Canada

5 Conclusiones


Motivacion

La mayorıa de metodos en FDA se relacionan con metodos deestadıstica multivariada equivalentes

La regresion funcional por componentes principales utiliza lasproyecciones sobre los componentes principales funcionales para llevara cabo una regresion multivariada

Se quiere encontrar las funciones de proyeccion que lleven a un mejordesempeno de la regresion multivariada


Marco teorico: Analisis de datos funcionales

Datos de alta dimension como funciones

Dados los datos finito dimensionales X1, ...,Xn ∈ Rd con cadaXi = (xi1, ..., xid), se considera una funcion Xi para cada Xi tal que

Xi (tj) = xitj + εij , j = 1, ..., d

Las funciones Xi (t) son los datos funcionales y se representan por mediode bases funcionales

Definicion (Base Funcional)

Un conjunto de funciones {φ1, φ2, ...} es una base funcional en L2(T ) sitoda funcion X ∈ L2(T ) tiene una unica descomposicion

X (t) =∞∑j=1

cjφj(t) , cj ∈ R ∀j . (1)





Xi (tj) = xitj + εij , j = 1, ..., d




X (t) =∞∑j=1

cjφj(t) , cj ∈ R ∀j . (1)





Xi (tj) = xitj + εij , j = 1, ..., d




X (t) =∞∑j=1

cjφj(t) , cj ∈ R ∀j . (1)




Dado un sistema de funciones base {φ1, ..., φK} se quiere tener los datosfuncionales

Xi (t) =K∑

k=1

cikφk(t) (2)

tales que

xij =K∑

k=1

cikφk(tj) + εij (3)

para cada i = 1, ..., n y j = 1, .., d .

El suavizamiento de cada dato Xi corresponde a resolver d regresioneslineales.



Regresion lineal funcional

Dados los datos funcionales X1, ...,Xn y las respuestas escalares Y1, ...,Yn

se considera el modelo de regresion

Yi = α0 +

∫τ

β(t)Xi (t)dt + ε(t) (4)

donde α0 ∈ R y β ∈ L2(T ).



Regresion funcional por bases funcionales y penalizacion

La regresion anterior se resuelve por mınimos cuadrados; penalizandoirregularidades en la funcion de regresion estimada

n∑i=1

[Yi − α−

∫Xi (t)β(t)dt

]2+ λ

∫ [ d2

dt2β(t)

]2dt. (5)

Se fija una base ψ1, ..., ψB para representar la funcion β(t) y se estimanlos coeficientes b1, ..., bB ∈ R tales que

β(t) =B∑

k=1

bkψk(t) (6)



Regresion funcional por bases funcionales y penalizacion

La regresion anterior se resuelve por mınimos cuadrados; penalizandoirregularidades en la funcion de regresion estimada

n∑i=1

[Yi − α−

∫Xi (t)β(t)dt

]2+ λ

∫ [ d2

dt2β(t)

]2dt. (5)

Se fija una base ψ1, ..., ψB para representar la funcion β(t) y se estimanlos coeficientes b1, ..., bB ∈ R tales que

β(t) =B∑

k=1

bkψk(t) (6)



Regresion funcional por componentes principales

Cada dato funcional Xi se puede expresar como

Xi (t) = X (t) +

p∑j=1

fijξj(t) (7)

donde ξj : T → R es la j-esima componente principal funcional y fij es elpuntaje de la componente j con respecto a la observacion i .

Se considera el modelo de regresion

Yi = b0 +

p∑j=1

fijbj + εi (8)

para i = 1, ..., n. Un modelo de regresion multiple estandar.




Cada dato funcional Xi se puede expresar como

Xi (t) = X (t) +

p∑j=1

fijξj(t) (7)

donde ξj : T → R es la j-esima componente principal funcional y fij es elpuntaje de la componente j con respecto a la observacion i .

Se considera el modelo de regresion

Yi = b0 +

p∑j=1

fijbj + εi (8)

para i = 1, ..., n. Un modelo de regresion multiple estandar.




Como {ξ1, ..., ξp} es un sistema ortogonal de funciones entoncesfij = 〈ξj ,Xi − X 〉.

Con esto se puede recuperar la funcion de regresion estimada

β(t) =

p∑j=1

bjξj(t)

considerando el modelo de regresion funcional

Yi = α0 +

∫τ

β(t)Xi (t)dt + ε(t)


Metodo propuesto

Metodo Propuesto

Dadas las observaciones funcionales X1(t), ...,Xn(t) y las variables derespuesta Y1, ...,Yn se quiere encontrar un conjunto de funciones{ρ?1(t), ..., ρ?m(t)} tal que el modelo de regresionY1

...Yn

= b0 +m∑j=1

bj

〈X1, ρ?j 〉

...〈Xn, ρ

?j 〉

+ ε (9)

tenga un R2ajustado a lo mas cercano posible a 1.

Se transforma el modelo de regresion funcional en un modelo de regresionmultivariada equivalente determinado por las funciones de proyeccionρ?1(t), ..., ρ?m(t).


Metodo propuesto

Metodo Propuesto

Dadas las observaciones funcionales X1(t), ...,Xn(t) y las variables derespuesta Y1, ...,Yn se quiere encontrar un conjunto de funciones{ρ?1(t), ..., ρ?m(t)} tal que el modelo de regresionY1

...Yn

= b0 +m∑j=1

bj

〈X1, ρ?j 〉

...〈Xn, ρ

?j 〉

+ ε (9)

tenga un R2ajustado a lo mas cercano posible a 1.

Se transforma el modelo de regresion funcional en un modelo de regresionmultivariada equivalente determinado por las funciones de proyeccionρ?1(t), ..., ρ?m(t).


Metodo propuesto

Metodo Propuesto

Generar funciones aleatorias en un espacio de funciones determinado yseleccionar adecuadamente aquellas funciones que conllevan a un mejorajuste del modelo de regresion.


Metodo propuesto

Generacion de funciones aleatorias

Se generan funciones aleatorias en el espacio generado por las funcionesbase {φ1, ..., φd}.

Una funcion en este espacio es de la forma

g =d∑

i=1

ciφi = c′φ.

Por lo tanto, basta con generar coeficientes aleatorios c ∈ Sd−1.


Metodo propuesto


Si f ∗ es la ’mejor’ funcion de proyeccion en el espacio de funcionesgenerado por {φ1, ..., φd}, con

f ∗ =d∑

i=1

aiφi = a′φ,

se quiere generar N coeficientes aleatorios en Sd−1 tal que al menos deellos este a distancia angular menor o igual θ de a.


Metodo propuesto


Sea ∆(Sd−1, θ) la hipercapa centrada en a ∈ Sd−1 con angulocolatitudinal θ ∈ (0, 2π).

Si δ = A(Sd−1, θ)/A(Sd−1) es la razon de area de la hipercapa∆(Sd−1, θ) y Sd−1, entonces la probabilidad de que un punto aleatoriouniforme en Sd−1 no este en ∆(Sd−1, θ) es (1− δ). Por lo tanto,

P(

c1, ..., cN 6∈ ∆(Sd−1, θ))

= (1− δ)N . (10)

Tomando N = 1δ log( 1

δ2 ) se tiene que (1− δ)N = (1− δ)1δ

log( 1δ2 ) ≈ δ2

cuando δ � 1.


Metodo propuesto




P(

c1, ..., cN 6∈ ∆(Sd−1, θ))

= (1− δ)N . (10)



log( 1δ2 ) ≈ δ2

cuando δ � 1.


Metodo propuesto




P(

c1, ..., cN 6∈ ∆(Sd−1, θ))

= (1− δ)N . (10)



log( 1δ2 ) ≈ δ2

cuando δ � 1.


Metodo propuesto


La razon de area de la hipercapa ∆(Sd−1, θ) y Sd−1 se puede calcularcomo

δd−1,θ =1

2Isin2 θ

(d − 1

2,

1

2

). (11)

donde Ix(a, b) es la funcion beta incompleta regularizada.

Dimension d − 1 Razon de area δd−1,θ

1 θ/π2 1

2 (1− cos θ)3 1

2π (2θ − sin 2θ)4 1

4 (2− 3 cos θ + cos3θ)


Metodo propuesto



δ2 ) se tiene que para θ ≤ π8 y d ≥ 2,

P(

c1, ..., cN 6∈ ∆(Sd−1, θ))< 2,5× 10−3


Metodo propuesto


Ejemplo 1 Ejemplo 2


Metodo propuesto



Metodo propuesto

Distancia entre funciones aleatorias y mejor funcion de proyeccion

Proposicion

Sea φ = (φ1, ..., φd) un sistema ortogonal de funciones. Si a, c ∈ Sd−1 sontales que cos−1(a, c) ≤ θ con θ ∈ [0, π/2] entonces

‖f ∗ − g‖22 ≤ 2(1− cos(θ))

con f ∗ = a′φ y g = c′φ. Donde ‖·‖2 es la norma en L2


Metodo propuesto

Seleccion de mejores funciones de proyeccion

Algoritmo 1: Seleccion de mejores funciones de proyeccion

1. Teniendo el conjunto de funciones aleatorias P, crear P1, ...,PM

subconjuntos de K funciones escogidas uniformemente de P.Pi = {ρi1 , ..., ρiK }

2. Para i = 1, 2, ...,M

(a) Para k = 1, ...,K : Zi,k ←(〈X1, ρik 〉, ..., 〈Xn, ρik 〉

)(b) Hacer seleccion de predictores sobre Zi,1, ...,Zi,K y llamar Mi el

conjunto de predictores seleccionados

3. Para i = 1, 2, ...,M: Llevar a cabo regresion multivariada con variablesindependientes Mi y variables dependientes Y1, ...,Yn. AlmacenarR2ajustado en Ri


Metodo propuesto

Seleccion de mejores funciones de proyeccion

Algoritmo 2: Seleccion de mejores funciones de proyeccion

4. Puntaje por subconjunto: Asignar un puntaje en funcion de Ri acada subconjunto de variables Mi .

5. Puntaje por predictor (funcion): Dar puntaje a cada funcion de Psegun puntaje de los Mi en los que estan sus predictorescorespondientes.

6. Seleccionar los K predictores con mejor puntaje y hacer la mismaseleccion de predictores hecha en el punto 2 (b). Las funcionescorrespondientes a los predictores obtenidos son consideradas lasmejores funciones de proyeccon.


Metodo propuesto

Seleccion de predictores (funciones)

Algoritmo 3: Seleccion paso a paso hacia atras por R2ajustado

1 Sea Mp el modelo completo que contiene los p predictores2 Para k = p, p − 1, ..., 1:

(a) Considerar los k modelos que contienen todos menos uno de lospredictores en Mk , para un total de k − 1 predictores

(b) Escoger el mejor de los k modelos segun R2 y llamarlo Mk−1

3 Escoger el mejor modelo entre M0, ...,Mp segun R2ajustado.


Metodo propuesto

Seleccion de predictores (funciones)

Algoritmo 4: Seleccion de predictores por significancia en regresion

1 Sea Mp el modelo completo que contiene los p predictores y pvmax elmaximo valor de los p-valores.

2 Mientras que pvmax > 0,05:

(a) Sea Mp−1 el modelo con los predictores de Mp menos el predictor quetiene p-valor pvmax

(b) Llevar a cabo una regresion en el modelo Mp−1 y llamar pvmax almaximo p-valor obtenido entre los p − 1 predictores.

(c) p ← p − 1

3 Cuando pvmax ≤ 0,5 se escoge el modelo Mp


Ejemplo 1: Altura instantanea de olas


Altura instantanea de 865 olas del mar durante 101 momentos

Predecir la energıa total de cada ola

Suavizamiento utilizando una base de Fourier de tamano 21



Ejemplo 1: Metodo Propuesto

Se generan funciones aleatorias como combinacion lineal de distintossistemas de funcionesSe consideraron 3 casos con sistemas de funciones distintosPara cada sistema se generan funciones aleatorias como combinacionlineal de 2 funcionesEn cada caso se hizo seleccion de predictores paso a paso hacia atraspor R2ajustado y por significancia

tamano muestra (N)

Base Inicial # combinaciones N por combinacion

Caso 1 Fourier 11 100 300

Caso 2 Indicadora 10 45 500

Caso 3 Indicadora 25 6 1.000

Cuadro: Parametros del modelo para cada caso considerado



Ejemplo 1: Predictores por significancia

Figura: Predictores Significativos Caso 1.

Figura: Predictores Significativos Caso 2.



Ejemplo 1: Mejores funciones de proyeccion por significancia

Figura: Mejores funciones de proyeccion Caso 1




Figura: Mejores funciones de proyeccion Caso 2Paula Rodrıguez Dıaz (U. de Los Andes) 28 / 41


Ejemplo 1: Predictores por paso a paso hacia atras

Figura: Predictores Backward Caso 1.

Figura: Predictores Backward Caso 2.











Ejemplo 1: Resultados metodo propuesto

Metodo Propuesto # de funciones R2ajustado

Caso 1.1 5 0,8912Caso 1.2 7 0,8919Caso 2.1 5 0,8896Caso 2.2 6 0,8876Caso 3.1 4 0,8864Caso 3.2 4 0,8864

El ajuste de los modelos de regresion disminuye al utilizar funciones massencillas. Sin embargo, la diferencia es considerablemente pequena.



Ejemplo 1: Comparacion con regresion por componentes principales

Figura: Componentes principales funcionales



Ejemplo 1: Comparacion con regresion por componentes principales

# de componentes R2ajustado

1 0,8892 0,8893 0,8894 0,8905 0,8916 0,8917 0,891

Las funciones indicadoras encontradas en el Caso 2 y 3 tienen undesempeno similar al de las componentes principales funcionales

La cantidad de funciones encontradas por el metodo propuesto essimilar a la cantidad de CP que explican el 95 % de la varianza.


Ejemplo 2: Temperatura anual en Canada


Temperatura diaria de 35 regiones en Canada durante un anoPredecir el logaritmo de la precipitacion promedio anual en cadaregionSuavizamiento utilizando una base de Fourier de tamano 5



Ejemplo 2: Metodo Propuesto

Se generaron funciones aleatorias como combinacion lineal de 3funciones del sistema {1, sin(x), cos(x), sin(2x), cos(2x)}.

Para cada combinacion posible se generaron N = 1,000 funcionesaleatorias.

Se llevo cabo el metodo propuesto seleccionando predictores con pasoa paso hacia atras por R2ajustado y por significancia.

tamano muestra (N)



Ejemplo 2: Seleccion de predictores



Ejemplo 2: Mejores funciones de proyeccion

Seleccion de predictores por significancia, R2adj = 0,769:

Seleccion de predictores paso a paso hacıa atras por R2ajustado,R2adj = 0,769:



Ejemplo 2: Comparacion con regresion funcional por componentes

principales

Se lleva a cabo una regresion funcional por componentes principales con lamisma cantidad de funciones que se encontraron en el metodo propuesto.

Componentes principales funcionales (R2adj = 0,691)


Conclusiones

Conclusiones

El metodo propuesto brinda un acercamiento a la dimension delproblema de regresion

La cantidad de mejores funciones de proyeccion encontradas es similara la cantidad de CPF necesarios para explicar el 98 % de la varianzaaproximadamente.

En el Ejemplo 1 se encontraron funciones que se expresan en basesfuncionales mas sencillas que los CPF y sin embargo alcanzan undesempeno similar.

En el Ejmplo 2 se encontraron funciones de de proyeccion queconllevan a un R2ajustado mayor que el de regresion por CPF. Ladiferencia fue de 0,07.


Conclusiones

References

J. O. Ramsay and C. J. Dalzell (1991)

Some Tools for Functional Data AnalysisJournal of the Royal Statistical Society. Series B (Methodological) 53(3), 39–572.

J. O. Ramsay and W. Silverman (2005)Functional Data Analysis

Ramsay, J. and Hooker, G. and Graves, S. (2009)Functional Data Analysis with R and MATLAB

James, Gareth and Witten, Daniela and Hastie, Trevor and Tibshirani, Robert (2014)An Introduction to Statistical Learning: With Applications in R

Kokoszka, P. and Reimherr, M. (2017)Introduction to Functional Data Analysis