Regresion con proyecciones aleatorias para datos funcionales
Paula Rodrıguez Dıaz
Asesor: Adolfo J. Quiroz
Departamento de MatematicasUniversidad de Los Andes
15 de noviembre de 2018
Paula Rodrıguez Dıaz (U. de Los Andes) 1 / 41
Overview
1 Marco teorico: Analisis de datos funcionales
2 Metodo propuesto
3 Ejemplo 1: Altura instantanea de olas
4 Ejemplo 2: Temperatura anual en Canada
5 Conclusiones
Paula Rodrıguez Dıaz (U. de Los Andes) 2 / 41
Motivacion
La mayorıa de metodos en FDA se relacionan con metodos deestadıstica multivariada equivalentes
La regresion funcional por componentes principales utiliza lasproyecciones sobre los componentes principales funcionales para llevara cabo una regresion multivariada
Se quiere encontrar las funciones de proyeccion que lleven a un mejordesempeno de la regresion multivariada
Paula Rodrıguez Dıaz (U. de Los Andes) 3 / 41
Marco teorico: Analisis de datos funcionales
Datos de alta dimension como funciones
Dados los datos finito dimensionales X1, ...,Xn ∈ Rd con cadaXi = (xi1, ..., xid), se considera una funcion Xi para cada Xi tal que
Xi (tj) = xitj + εij , j = 1, ..., d
Las funciones Xi (t) son los datos funcionales y se representan por mediode bases funcionales
Definicion (Base Funcional)
Un conjunto de funciones {φ1, φ2, ...} es una base funcional en L2(T ) sitoda funcion X ∈ L2(T ) tiene una unica descomposicion
X (t) =∞∑j=1
cjφj(t) , cj ∈ R ∀j . (1)
Paula Rodrıguez Dıaz (U. de Los Andes) 4 / 41
Marco teorico: Analisis de datos funcionales
Datos de alta dimension como funciones
Dados los datos finito dimensionales X1, ...,Xn ∈ Rd con cadaXi = (xi1, ..., xid), se considera una funcion Xi para cada Xi tal que
Xi (tj) = xitj + εij , j = 1, ..., d
Las funciones Xi (t) son los datos funcionales y se representan por mediode bases funcionales
Definicion (Base Funcional)
Un conjunto de funciones {φ1, φ2, ...} es una base funcional en L2(T ) sitoda funcion X ∈ L2(T ) tiene una unica descomposicion
X (t) =∞∑j=1
cjφj(t) , cj ∈ R ∀j . (1)
Paula Rodrıguez Dıaz (U. de Los Andes) 4 / 41
Marco teorico: Analisis de datos funcionales
Datos de alta dimension como funciones
Dados los datos finito dimensionales X1, ...,Xn ∈ Rd con cadaXi = (xi1, ..., xid), se considera una funcion Xi para cada Xi tal que
Xi (tj) = xitj + εij , j = 1, ..., d
Las funciones Xi (t) son los datos funcionales y se representan por mediode bases funcionales
Definicion (Base Funcional)
Un conjunto de funciones {φ1, φ2, ...} es una base funcional en L2(T ) sitoda funcion X ∈ L2(T ) tiene una unica descomposicion
X (t) =∞∑j=1
cjφj(t) , cj ∈ R ∀j . (1)
Paula Rodrıguez Dıaz (U. de Los Andes) 4 / 41
Marco teorico: Analisis de datos funcionales
Datos de alta dimension como funciones
Dado un sistema de funciones base {φ1, ..., φK} se quiere tener los datosfuncionales
Xi (t) =K∑
k=1
cikφk(t) (2)
tales que
xij =K∑
k=1
cikφk(tj) + εij (3)
para cada i = 1, ..., n y j = 1, .., d .
El suavizamiento de cada dato Xi corresponde a resolver d regresioneslineales.
Paula Rodrıguez Dıaz (U. de Los Andes) 5 / 41
Marco teorico: Analisis de datos funcionales
Regresion lineal funcional
Dados los datos funcionales X1, ...,Xn y las respuestas escalares Y1, ...,Yn
se considera el modelo de regresion
Yi = α0 +
∫τ
β(t)Xi (t)dt + ε(t) (4)
donde α0 ∈ R y β ∈ L2(T ).
Paula Rodrıguez Dıaz (U. de Los Andes) 6 / 41
Marco teorico: Analisis de datos funcionales
Regresion funcional por bases funcionales y penalizacion
La regresion anterior se resuelve por mınimos cuadrados; penalizandoirregularidades en la funcion de regresion estimada
n∑i=1
[Yi − α−
∫Xi (t)β(t)dt
]2+ λ
∫ [ d2
dt2β(t)
]2dt. (5)
Se fija una base ψ1, ..., ψB para representar la funcion β(t) y se estimanlos coeficientes b1, ..., bB ∈ R tales que
β(t) =B∑
k=1
bkψk(t) (6)
Paula Rodrıguez Dıaz (U. de Los Andes) 7 / 41
Marco teorico: Analisis de datos funcionales
Regresion funcional por bases funcionales y penalizacion
La regresion anterior se resuelve por mınimos cuadrados; penalizandoirregularidades en la funcion de regresion estimada
n∑i=1
[Yi − α−
∫Xi (t)β(t)dt
]2+ λ
∫ [ d2
dt2β(t)
]2dt. (5)
Se fija una base ψ1, ..., ψB para representar la funcion β(t) y se estimanlos coeficientes b1, ..., bB ∈ R tales que
β(t) =B∑
k=1
bkψk(t) (6)
Paula Rodrıguez Dıaz (U. de Los Andes) 7 / 41
Marco teorico: Analisis de datos funcionales
Regresion funcional por componentes principales
Cada dato funcional Xi se puede expresar como
Xi (t) = X (t) +
p∑j=1
fijξj(t) (7)
donde ξj : T → R es la j-esima componente principal funcional y fij es elpuntaje de la componente j con respecto a la observacion i .
Se considera el modelo de regresion
Yi = b0 +
p∑j=1
fijbj + εi (8)
para i = 1, ..., n. Un modelo de regresion multiple estandar.
Paula Rodrıguez Dıaz (U. de Los Andes) 8 / 41
Marco teorico: Analisis de datos funcionales
Regresion funcional por componentes principales
Cada dato funcional Xi se puede expresar como
Xi (t) = X (t) +
p∑j=1
fijξj(t) (7)
donde ξj : T → R es la j-esima componente principal funcional y fij es elpuntaje de la componente j con respecto a la observacion i .
Se considera el modelo de regresion
Yi = b0 +
p∑j=1
fijbj + εi (8)
para i = 1, ..., n. Un modelo de regresion multiple estandar.
Paula Rodrıguez Dıaz (U. de Los Andes) 8 / 41
Marco teorico: Analisis de datos funcionales
Regresion funcional por componentes principales
Como {ξ1, ..., ξp} es un sistema ortogonal de funciones entoncesfij = 〈ξj ,Xi − X 〉.
Con esto se puede recuperar la funcion de regresion estimada
β(t) =
p∑j=1
bjξj(t)
considerando el modelo de regresion funcional
Yi = α0 +
∫τ
β(t)Xi (t)dt + ε(t)
Paula Rodrıguez Dıaz (U. de Los Andes) 9 / 41
Metodo propuesto
Metodo Propuesto
Dadas las observaciones funcionales X1(t), ...,Xn(t) y las variables derespuesta Y1, ...,Yn se quiere encontrar un conjunto de funciones{ρ?1(t), ..., ρ?m(t)} tal que el modelo de regresionY1
...Yn
= b0 +m∑j=1
bj
〈X1, ρ?j 〉
...〈Xn, ρ
?j 〉
+ ε (9)
tenga un R2ajustado a lo mas cercano posible a 1.
Se transforma el modelo de regresion funcional en un modelo de regresionmultivariada equivalente determinado por las funciones de proyeccionρ?1(t), ..., ρ?m(t).
Paula Rodrıguez Dıaz (U. de Los Andes) 10 / 41
Metodo propuesto
Metodo Propuesto
Dadas las observaciones funcionales X1(t), ...,Xn(t) y las variables derespuesta Y1, ...,Yn se quiere encontrar un conjunto de funciones{ρ?1(t), ..., ρ?m(t)} tal que el modelo de regresionY1
...Yn
= b0 +m∑j=1
bj
〈X1, ρ?j 〉
...〈Xn, ρ
?j 〉
+ ε (9)
tenga un R2ajustado a lo mas cercano posible a 1.
Se transforma el modelo de regresion funcional en un modelo de regresionmultivariada equivalente determinado por las funciones de proyeccionρ?1(t), ..., ρ?m(t).
Paula Rodrıguez Dıaz (U. de Los Andes) 10 / 41
Metodo propuesto
Metodo Propuesto
Generar funciones aleatorias en un espacio de funciones determinado yseleccionar adecuadamente aquellas funciones que conllevan a un mejorajuste del modelo de regresion.
Paula Rodrıguez Dıaz (U. de Los Andes) 11 / 41
Metodo propuesto
Generacion de funciones aleatorias
Se generan funciones aleatorias en el espacio generado por las funcionesbase {φ1, ..., φd}.
Una funcion en este espacio es de la forma
g =d∑
i=1
ciφi = c′φ.
Por lo tanto, basta con generar coeficientes aleatorios c ∈ Sd−1.
Paula Rodrıguez Dıaz (U. de Los Andes) 12 / 41
Metodo propuesto
Generacion de funciones aleatorias
Si f ∗ es la ’mejor’ funcion de proyeccion en el espacio de funcionesgenerado por {φ1, ..., φd}, con
f ∗ =d∑
i=1
aiφi = a′φ,
se quiere generar N coeficientes aleatorios en Sd−1 tal que al menos deellos este a distancia angular menor o igual θ de a.
Paula Rodrıguez Dıaz (U. de Los Andes) 13 / 41
Metodo propuesto
Generacion de funciones aleatorias
Sea ∆(Sd−1, θ) la hipercapa centrada en a ∈ Sd−1 con angulocolatitudinal θ ∈ (0, 2π).
Si δ = A(Sd−1, θ)/A(Sd−1) es la razon de area de la hipercapa∆(Sd−1, θ) y Sd−1, entonces la probabilidad de que un punto aleatoriouniforme en Sd−1 no este en ∆(Sd−1, θ) es (1− δ). Por lo tanto,
P(
c1, ..., cN 6∈ ∆(Sd−1, θ))
= (1− δ)N . (10)
Tomando N = 1δ log( 1
δ2 ) se tiene que (1− δ)N = (1− δ)1δ
log( 1δ2 ) ≈ δ2
cuando δ � 1.
Paula Rodrıguez Dıaz (U. de Los Andes) 14 / 41
Metodo propuesto
Generacion de funciones aleatorias
Sea ∆(Sd−1, θ) la hipercapa centrada en a ∈ Sd−1 con angulocolatitudinal θ ∈ (0, 2π).
Si δ = A(Sd−1, θ)/A(Sd−1) es la razon de area de la hipercapa∆(Sd−1, θ) y Sd−1, entonces la probabilidad de que un punto aleatoriouniforme en Sd−1 no este en ∆(Sd−1, θ) es (1− δ). Por lo tanto,
P(
c1, ..., cN 6∈ ∆(Sd−1, θ))
= (1− δ)N . (10)
Tomando N = 1δ log( 1
δ2 ) se tiene que (1− δ)N = (1− δ)1δ
log( 1δ2 ) ≈ δ2
cuando δ � 1.
Paula Rodrıguez Dıaz (U. de Los Andes) 14 / 41
Metodo propuesto
Generacion de funciones aleatorias
Sea ∆(Sd−1, θ) la hipercapa centrada en a ∈ Sd−1 con angulocolatitudinal θ ∈ (0, 2π).
Si δ = A(Sd−1, θ)/A(Sd−1) es la razon de area de la hipercapa∆(Sd−1, θ) y Sd−1, entonces la probabilidad de que un punto aleatoriouniforme en Sd−1 no este en ∆(Sd−1, θ) es (1− δ). Por lo tanto,
P(
c1, ..., cN 6∈ ∆(Sd−1, θ))
= (1− δ)N . (10)
Tomando N = 1δ log( 1
δ2 ) se tiene que (1− δ)N = (1− δ)1δ
log( 1δ2 ) ≈ δ2
cuando δ � 1.
Paula Rodrıguez Dıaz (U. de Los Andes) 14 / 41
Metodo propuesto
Generacion de funciones aleatorias
La razon de area de la hipercapa ∆(Sd−1, θ) y Sd−1 se puede calcularcomo
δd−1,θ =1
2Isin2 θ
(d − 1
2,
1
2
). (11)
donde Ix(a, b) es la funcion beta incompleta regularizada.
Dimension d − 1 Razon de area δd−1,θ
1 θ/π2 1
2 (1− cos θ)3 1
2π (2θ − sin 2θ)4 1
4 (2− 3 cos θ + cos3θ)
Paula Rodrıguez Dıaz (U. de Los Andes) 15 / 41
Metodo propuesto
Generacion de funciones aleatorias
Tomando N = 1δ log( 1
δ2 ) se tiene que para θ ≤ π8 y d ≥ 2,
P(
c1, ..., cN 6∈ ∆(Sd−1, θ))< 2,5× 10−3
Paula Rodrıguez Dıaz (U. de Los Andes) 16 / 41
Metodo propuesto
Generacion de funciones aleatorias
Ejemplo 1 Ejemplo 2
Paula Rodrıguez Dıaz (U. de Los Andes) 17 / 41
Metodo propuesto
Generacion de funciones aleatorias
Paula Rodrıguez Dıaz (U. de Los Andes) 18 / 41
Metodo propuesto
Distancia entre funciones aleatorias y mejor funcion de proyeccion
Proposicion
Sea φ = (φ1, ..., φd) un sistema ortogonal de funciones. Si a, c ∈ Sd−1 sontales que cos−1(a, c) ≤ θ con θ ∈ [0, π/2] entonces
‖f ∗ − g‖22 ≤ 2(1− cos(θ))
con f ∗ = a′φ y g = c′φ. Donde ‖·‖2 es la norma en L2
Paula Rodrıguez Dıaz (U. de Los Andes) 19 / 41
Metodo propuesto
Seleccion de mejores funciones de proyeccion
Algoritmo 1: Seleccion de mejores funciones de proyeccion
1. Teniendo el conjunto de funciones aleatorias P, crear P1, ...,PM
subconjuntos de K funciones escogidas uniformemente de P.Pi = {ρi1 , ..., ρiK }
2. Para i = 1, 2, ...,M
(a) Para k = 1, ...,K : Zi,k ←(〈X1, ρik 〉, ..., 〈Xn, ρik 〉
)(b) Hacer seleccion de predictores sobre Zi,1, ...,Zi,K y llamar Mi el
conjunto de predictores seleccionados
3. Para i = 1, 2, ...,M: Llevar a cabo regresion multivariada con variablesindependientes Mi y variables dependientes Y1, ...,Yn. AlmacenarR2ajustado en Ri
Paula Rodrıguez Dıaz (U. de Los Andes) 20 / 41
Metodo propuesto
Seleccion de mejores funciones de proyeccion
Algoritmo 2: Seleccion de mejores funciones de proyeccion
4. Puntaje por subconjunto: Asignar un puntaje en funcion de Ri acada subconjunto de variables Mi .
5. Puntaje por predictor (funcion): Dar puntaje a cada funcion de Psegun puntaje de los Mi en los que estan sus predictorescorespondientes.
6. Seleccionar los K predictores con mejor puntaje y hacer la mismaseleccion de predictores hecha en el punto 2 (b). Las funcionescorrespondientes a los predictores obtenidos son consideradas lasmejores funciones de proyeccon.
Paula Rodrıguez Dıaz (U. de Los Andes) 21 / 41
Metodo propuesto
Seleccion de predictores (funciones)
Algoritmo 3: Seleccion paso a paso hacia atras por R2ajustado
1 Sea Mp el modelo completo que contiene los p predictores2 Para k = p, p − 1, ..., 1:
(a) Considerar los k modelos que contienen todos menos uno de lospredictores en Mk , para un total de k − 1 predictores
(b) Escoger el mejor de los k modelos segun R2 y llamarlo Mk−1
3 Escoger el mejor modelo entre M0, ...,Mp segun R2ajustado.
Paula Rodrıguez Dıaz (U. de Los Andes) 22 / 41
Metodo propuesto
Seleccion de predictores (funciones)
Algoritmo 4: Seleccion de predictores por significancia en regresion
1 Sea Mp el modelo completo que contiene los p predictores y pvmax elmaximo valor de los p-valores.
2 Mientras que pvmax > 0,05:
(a) Sea Mp−1 el modelo con los predictores de Mp menos el predictor quetiene p-valor pvmax
(b) Llevar a cabo una regresion en el modelo Mp−1 y llamar pvmax almaximo p-valor obtenido entre los p − 1 predictores.
(c) p ← p − 1
3 Cuando pvmax ≤ 0,5 se escoge el modelo Mp
Paula Rodrıguez Dıaz (U. de Los Andes) 23 / 41
Ejemplo 1: Altura instantanea de olas
Ejemplo 1: Altura instantanea de olas
Altura instantanea de 865 olas del mar durante 101 momentos
Predecir la energıa total de cada ola
Suavizamiento utilizando una base de Fourier de tamano 21
Paula Rodrıguez Dıaz (U. de Los Andes) 24 / 41
Ejemplo 1: Altura instantanea de olas
Ejemplo 1: Metodo Propuesto
Se generan funciones aleatorias como combinacion lineal de distintossistemas de funcionesSe consideraron 3 casos con sistemas de funciones distintosPara cada sistema se generan funciones aleatorias como combinacionlineal de 2 funcionesEn cada caso se hizo seleccion de predictores paso a paso hacia atraspor R2ajustado y por significancia
tamano muestra (N)
Base Inicial # combinaciones N por combinacion
Caso 1 Fourier 11 100 300
Caso 2 Indicadora 10 45 500
Caso 3 Indicadora 25 6 1.000
Cuadro: Parametros del modelo para cada caso considerado
Paula Rodrıguez Dıaz (U. de Los Andes) 25 / 41
Ejemplo 1: Altura instantanea de olas
Ejemplo 1: Predictores por significancia
Figura: Predictores Significativos Caso 1.
Figura: Predictores Significativos Caso 2.
Paula Rodrıguez Dıaz (U. de Los Andes) 26 / 41
Ejemplo 1: Altura instantanea de olas
Ejemplo 1: Mejores funciones de proyeccion por significancia
Figura: Mejores funciones de proyeccion Caso 1
Paula Rodrıguez Dıaz (U. de Los Andes) 27 / 41
Ejemplo 1: Altura instantanea de olas
Ejemplo 1: Mejores funciones de proyeccion por significancia
Figura: Mejores funciones de proyeccion Caso 2Paula Rodrıguez Dıaz (U. de Los Andes) 28 / 41
Ejemplo 1: Altura instantanea de olas
Ejemplo 1: Predictores por paso a paso hacia atras
Figura: Predictores Backward Caso 1.
Figura: Predictores Backward Caso 2.
Paula Rodrıguez Dıaz (U. de Los Andes) 29 / 41
Ejemplo 1: Altura instantanea de olas
Ejemplo 1: Mejores funciones de proyeccion por significancia
Figura: Mejores funciones de proyeccion Caso 1
Paula Rodrıguez Dıaz (U. de Los Andes) 30 / 41
Ejemplo 1: Altura instantanea de olas
Ejemplo 1: Mejores funciones de proyeccion por significancia
Figura: Mejores funciones de proyeccion Caso 2
Paula Rodrıguez Dıaz (U. de Los Andes) 31 / 41
Ejemplo 1: Altura instantanea de olas
Ejemplo 1: Resultados metodo propuesto
Metodo Propuesto # de funciones R2ajustado
Caso 1.1 5 0,8912Caso 1.2 7 0,8919Caso 2.1 5 0,8896Caso 2.2 6 0,8876Caso 3.1 4 0,8864Caso 3.2 4 0,8864
El ajuste de los modelos de regresion disminuye al utilizar funciones massencillas. Sin embargo, la diferencia es considerablemente pequena.
Paula Rodrıguez Dıaz (U. de Los Andes) 32 / 41
Ejemplo 1: Altura instantanea de olas
Ejemplo 1: Comparacion con regresion por componentes principales
Figura: Componentes principales funcionales
Paula Rodrıguez Dıaz (U. de Los Andes) 33 / 41
Ejemplo 1: Altura instantanea de olas
Ejemplo 1: Comparacion con regresion por componentes principales
# de componentes R2ajustado
1 0,8892 0,8893 0,8894 0,8905 0,8916 0,8917 0,891
Las funciones indicadoras encontradas en el Caso 2 y 3 tienen undesempeno similar al de las componentes principales funcionales
La cantidad de funciones encontradas por el metodo propuesto essimilar a la cantidad de CP que explican el 95 % de la varianza.
Paula Rodrıguez Dıaz (U. de Los Andes) 34 / 41
Ejemplo 2: Temperatura anual en Canada
Ejemplo 2: Temperatura anual en Canada
Temperatura diaria de 35 regiones en Canada durante un anoPredecir el logaritmo de la precipitacion promedio anual en cadaregionSuavizamiento utilizando una base de Fourier de tamano 5
Paula Rodrıguez Dıaz (U. de Los Andes) 35 / 41
Ejemplo 2: Temperatura anual en Canada
Ejemplo 2: Metodo Propuesto
Se generaron funciones aleatorias como combinacion lineal de 3funciones del sistema {1, sin(x), cos(x), sin(2x), cos(2x)}.
Para cada combinacion posible se generaron N = 1,000 funcionesaleatorias.
Se llevo cabo el metodo propuesto seleccionando predictores con pasoa paso hacia atras por R2ajustado y por significancia.
tamano muestra (N)
Paula Rodrıguez Dıaz (U. de Los Andes) 36 / 41
Ejemplo 2: Temperatura anual en Canada
Ejemplo 2: Seleccion de predictores
Paula Rodrıguez Dıaz (U. de Los Andes) 37 / 41
Ejemplo 2: Temperatura anual en Canada
Ejemplo 2: Mejores funciones de proyeccion
Seleccion de predictores por significancia, R2adj = 0,769:
Seleccion de predictores paso a paso hacıa atras por R2ajustado,R2adj = 0,769:
Paula Rodrıguez Dıaz (U. de Los Andes) 38 / 41
Ejemplo 2: Temperatura anual en Canada
Ejemplo 2: Comparacion con regresion funcional por componentes
principales
Se lleva a cabo una regresion funcional por componentes principales con lamisma cantidad de funciones que se encontraron en el metodo propuesto.
Componentes principales funcionales (R2adj = 0,691)
Paula Rodrıguez Dıaz (U. de Los Andes) 39 / 41
Conclusiones
Conclusiones
El metodo propuesto brinda un acercamiento a la dimension delproblema de regresion
La cantidad de mejores funciones de proyeccion encontradas es similara la cantidad de CPF necesarios para explicar el 98 % de la varianzaaproximadamente.
En el Ejemplo 1 se encontraron funciones que se expresan en basesfuncionales mas sencillas que los CPF y sin embargo alcanzan undesempeno similar.
En el Ejmplo 2 se encontraron funciones de de proyeccion queconllevan a un R2ajustado mayor que el de regresion por CPF. Ladiferencia fue de 0,07.
Paula Rodrıguez Dıaz (U. de Los Andes) 40 / 41
Conclusiones
References
J. O. Ramsay and C. J. Dalzell (1991)
Some Tools for Functional Data AnalysisJournal of the Royal Statistical Society. Series B (Methodological) 53(3), 39–572.
J. O. Ramsay and W. Silverman (2005)Functional Data Analysis
Ramsay, J. and Hooker, G. and Graves, S. (2009)Functional Data Analysis with R and MATLAB
James, Gareth and Witten, Daniela and Hastie, Trevor and Tibshirani, Robert (2014)An Introduction to Statistical Learning: With Applications in R
Kokoszka, P. and Reimherr, M. (2017)Introduction to Functional Data Analysis
Paula Rodrıguez Dıaz (U. de Los Andes) 41 / 41