28
Departament d’estadísticoa Grup d’estadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament d’estadísticoa Secció Departamental de Biologia Universitat de Barcelona

Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Embed Size (px)

Citation preview

Page 1: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadísticoa

Grup d’estadísticoa Computacional

Introducción a la metodología bootstrap

Jordi OcañaDepartament d’estadísticoa

Secció Departamental de BiologiaUniversitat de Barcelona

Page 2: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Puntos a tratar

Elementos de un problema de inferencia estadísticoa

Determinación de la distribución muestral (o de alguna de sus características)

Principio “plug-in” y bootstrap Principio de Montecarlo y bootstrap Necesaria correspondencia entre

“mundo real” y “mundo bootstrap” Ejemplos

Page 3: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Procesamiento

Elementos de un problema de inferencia estadística

“los datos”

Xxmuestra observada

( )t x estadísticos( ), ,R t F x Medidas de

precisióny

khi2

(5)

0 2 4 6 8 10 12 14

0.0

0.05

0.10

0.15

Estudio experimental u observacional

Modelo probabilístico,

mecanismo “generador” de

los datos

F Î F

Page 4: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

13.1, 12.2, 15.5, ...

Medimos la presión sanguinea sistólica de una muestra aleatoria de individuos de una población

Elementos de un problema de I.E. Ejemplo introductorio

( )( )

1

1,

ˆ

n

ii

x nx x t

n sm

=

-= =å x

Normal de media y varianza

desconocidas

( ) ( )( )2

2212

1; , 2

ixn

if e

msms s p-

--

== Õx( )1, , nx x=x K

muestra aleatoria simple de tamaño n

y

t(2

0)

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Page 5: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Distribución exacta de la media muestral

Llamemos G a la distribución del estadístico , G = G(F(;,),...)X

Bajo fuerte suposición sobre la forma de F (normalidad), forma de G conocida de manera exacta: N(,n), para todo n

Dependiente de parámetros desconocidos: ,. En la práctica, aproximación

2ˆ,N

ns

mæ ö÷ç ÷ç ÷çè ø

( )

válida solamentepara estimarvar X

Page 6: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Distribución muestral exacta del estadístico t

Llamemos H a la distribución del estadístico t(X), H = H(F(;,),...)

Bajo fuerte suposición sobre la forma de F (normalidad), conocida de forma exacta: t de Student con n 1 g.d.ll

Gracias al carácter pivotal de t(x), no depende de parámetros desconocidos

Pero que pasa bajo otras formas de F?

Page 7: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Distribución muestral bajo condicions más generales

Según el Teorema Central del Límite, si n “grande”( )2, / ,en la prácticaX N nms»

( ) ( )2 2ˆ ˆ, / (p.e. , / )X N n N x s nms»

Igualmente, según el T. C. L., es razonable la aproximaciónn t N(0,1)

Casos más generales más problemáticos:

( )( )( )

, ,ˆ nU

n UU

qs

-XX K

Page 8: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Esquema general de estas aproximaciones

Determinación previa de la forma de la distribución muestral, G(,...)=G(F(;),...)

x

dn

orm

(x)

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Ajuste de los parámetros de la distribución muestral, G( , ,...)

q h

x

dn

orm

(x, m

ea

n =

0.5

, sd

= 0

.75

)

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

Page 9: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Principio “plug-in” y bootstrap (en sentido amplio)

Fijémonos en el paso G = G(F(;,),...)

Si es una buena estimación de F a partir de los datos, parece razonable aproximar G mediante

F

( )ˆ,G F K

Principio “plug-in”

Metodologia bootstrap inferencia basada en el Principio “plug-in”

Page 10: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

A menudo es la distribución empírica, Fn, discreta, que assigna probabilidad 1/n a cada valor muestral y 0 a cualquier otro

F

Ejemplo: aplicación automàtica del Principio “plug-in”

Si interessa característica concreta como ( )

( )varvar F

F

XX

n=

Según Principio “plug-in”:

( )( ) 2var

var n

n

FF

X sX

n n= =

Page 11: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

( )( )( )

( ) ( )( )

( ) ( )

2

1

22 2

1

var

1

1

n n

n

n n

n

F FF

n

iF Fi

n

iFi

E X E XX

n

E X x x E Xn

E X x x x sn

=

=

-=

= = =

- = - =

å

å

( )( )( )

( ) ( )( )

( ) ( )

2* **

* *

1

2 2* 2

1

var

1

1

n n

n

n n

n

F FF

n

iF Fi

n

iFi

E X E XX

n

E X x x E Xn

E X x x x sn

=

=

-=

= = =

- = - =

å

å

Detalles del cálculo anterior

Conveniencia de notación X* en lugar de X: no es la misma v.a

Page 12: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Dificultades en la aplicación del Principio “plug-in”

No tan (o a veces nada) clara su aplicación en situaciones más complejas: otras características de la distribución

muestral, incluso para estadísticos sencillos como la media muestral (p.e. un cuantil, ...)

otros estadísticos que no sean medias ni funciones senzilles de medias

determinación de la distribución muestral completa ( )ˆ;G F

Page 13: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

El método de Montecarlo

( ) ( )

( ) ( )

( ) ( )

1 11 1 1 1

2 21 2 2 2

1

, ,

, ,

, ,

n

n

m mn m mm

F

x x U u

x x U u

x x U u

= =

= =

= =

¯x

x

x

xx

x

K a

K a

M

K a

Modelo probabilístico, completamente especificado ( )2p.e. réplicas ,n N iidms

Generación de m muestras independientes (o no) según F

(gran) muestra de m valores del estadístico

“Leyes de los grandes números”( )

( )

2

1

1( ) var

1ˆ ; , etc.

m

j Fj

u u Um

G G F=

- @-

@

å

Page 14: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Generación de B “remuestras” de tamaño n (muestras aleatorias con reemplazo de los elementos de x)

Bootstrap y Montecarlo

( ) ( )( ) ( )

( ) ( )

1 11 1 1 1

2 21 2 2 2

1

* * * * *

* * * * *

* * * * *

ˆ

, ,

, ,

, ,

n

n

B B Bn B B

F

x x U u

x x U u

x x U u

= =

= =

= =

¯

x

x

x

x

x

x

K a

K a

M

K a

estimación del Modelo probabilístico, { }*

* * * 11

si , ,p.e.

0 en caso contrario

nx x xnP X x

ìï Îïïé ù= = íë û ïïïî

K

muestra de B valores del estadístico“Leyes de los grandes números”( )

( )

* * 2 *ˆ

1*

1( ) var

1ˆ ˆ; , etc.

b

B

Fb

u u UB

G G F=

- @-

@

å

Page 15: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Qué estimamos a partir del Montecarlo bootstrap?

( ) ( ) ( )

( ) ( )

· ( ) ( ) ( ) ( )

( )

( ){ }( ) ( )[ ]

*

* * *1

* *ˆ*

1

2* * *ˆ*

1

** *

ˆ*

"Verdadero"MontecarloPlug-in valor delbootstrap

funcional

ˆ ˆ ˆ, , ; ;

1

1var var var

1

B

B

b FFb

B

b FFb

bFF

G G u u G F G F

u u E U E UB

U u u U UB

u UP U U P U U P U U

B

=

=

@ @

= @ @

= @ @

= - @ @-

³é ù é ù³ = @ ³ @ ³ë û ë û

å

å

xx x x

K

Problema “clásico” de precisión

estadística

Error de aproximación de Montecarlo

Page 16: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Validez de la aproximación bootstrap

Resultado general (pero no muy útil): Según Leyes de los grandes números, Fn(x)

tiende (en diversos sentidos) hacia F(x). Extensible a funciones suficientemente “suaves”

Validez: resultado sobre funcionales, funciones globales de Fn (u otras estimaciones) y de F: teoremas límite sobre distancias entre distribuciones

Más interés práctico: comparación entre aproximación bootstrap y otras, para n finito

Page 17: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Características generales de los ejemplos

Modelo probabilístico subyacente conocido

Normal = 15, = 3, o bien Exponencial = 1/ = 1/15

( distribución muestral conocida) Análisis de única muestra (pequeña, n =

10), generada según uno u otro modelo. caso normal: 15.54, 21.06, 16.52, 13.62,

16.14, 10.98, 13.53, 16.02, 16.79, 15.90 caso exponencial: 8.51, 8.71, 69.19, 10.05,

23.64, 8.67, 1.51, 20.36, 1.23, 5.27

Page 18: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Características generales de los ejemplos

estadísticos: media muestral y t aproximaciones: normal, bootstrap no

paramétrico y bootstrap paramétrico aproximaciones bootstrap: estima

“kernel” a partir de B = 1000 valores del estadístico (media o t, según el caso)

Cada uno de estos valores calculado sobre una remuestra de tamaño n = 10

Page 19: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Media muestral, caso normal: n = 10, = 15, = 3

( )Verdadera distribución: 15,3/ 10X N:

( )Aproximación normal:

ˆ15.62, / 2.63/ 10X N x s n» = =

( )( )

1

* *

* * *

Bootstrap: 1000 valores para remuestras , ,

n

x Xx x

==

xx K

*: cada escogido con probabilidad1/ entre los de la no paramétri

muestra ori nc

alo

giix

n

( )*: cada generado segúnpar amét 15.ric 6 .o 2,263ix N

Page 20: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Media muestral, caso normal: Verdadera densidad, aprox normal, bootstrap no paramétrico y paramétrico

rang.xBarra

de

ns.

veri

tat

12 13 14 15 16 17

0.0

0.1

0.2

0.3

0.4

0.5

rang.xBarra

de

ns.

no

rmA

pro

x

12 13 14 15 16 17

0.0

0.1

0.2

0.3

0.4

0.5

dens.bootstrap$x

de

ns.

bo

ots

tra

p$

y

12 13 14 15 16 17 18

0.0

0.1

0.2

0.3

0.4

0.5

dens.bootstrap.param$x

de

ns.

bo

ots

tra

p.p

ara

m$

y

12 13 14 15 16 17 18

0.0

0.1

0.2

0.3

0.4

0.5

Page 21: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Media muestral, caso exponencial: = 1/ = 1/15

( )Verdadera distribución: 10/ 15,10X Gam:

( )Aproximación normal:

ˆ15.71, / 20.13/ 10X N x s n» = =

( )( )

1

* *

* * *

Bootstrap: 1000 valores

remuestras , , , 1, ,b nb

b b

b

B x X

x x b B

= =

= =

x

x K K*: cada elegido con probabilidad

1/ entre los de lano paramétri

muestra ori n lc

i ao

gibx

n

( )*: generados coparamét moric 1/ 15.7o 1ibx Exp

Page 22: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Media muestral, exponencial: verdadera densidad, aprox normal, bootstrap no paramétrico y paramétrico

rang.xBarra

de

ns.

veri

tat

5 10 15 20 25

0.0

0.0

20

.04

0.0

60

.08

0.1

0

rang.xBarra

de

ns.

no

rmA

pro

x

5 10 15 20 25

0.0

0.0

20

.04

0.0

60

.08

0.1

0

dens.bootstrap$x

de

ns.

bo

ots

tra

p$

y

5 10 15 20 25

0.0

0.0

20

.04

0.0

60

.08

0.1

0

dens.bootstrap.param$x

de

ns.

bo

ots

tra

p.p

ara

m$

y

5 10 15 20 25

0.0

0.0

20

.04

0.0

60

.08

0.1

0

Page 23: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Estadístico t, caso normal: n = 10, = 15, = 3

( )Verdadera distribución: 1 9t n - =t:

( )Aproximación normal: 0,1t N»

( )( )

1

* *

* * *

Bootstrap: 1000 valores para remuestras , ,

n

t tx x

==

xx K

*: cada escogido con probabilidad1/ entre los de la no paramétri

muestra ori nc

alo

giix

n

( )*: cada generado segúnpar amét 15.ric 6 .o 2,263ix N

Page 24: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Detalle y justificación del proceso de remuestreo

( )

( )

( )

( )

( )

1, ,

1 2ˆˆ (

"Mundo

)1

real"

,

1

ˆ

nx x

x X

ns S x xin i

n xt

s

E X F

F

m

m

¯

=

¯

=

= = -å- =¯

-=

=

x

x

x

K

( )

( )

( )

( )

( )

*

* * *1

* *

* * * *

**

*

"Mundo bootstrap"

ˆ ,

, ,

1 2ˆˆ ( )1 1

ˆ

n

n

i

x x

x X

ns S x x

n i

n x xt

E

s

x X F

nFm= =

¯

=

¯

=

= = -å- =¯

-=

x

x

x

K

Page 25: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Estadístico t, normal: verdadera densidad, aprox normal, bootstrap no paramétrico y paramétrico

rang.t

de

ns.

veri

tat

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

rang.t

de

ns.

no

rmA

pro

x

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

dens.bootstrap$x

de

ns.

bo

ots

tra

p$

y

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

dens.bootstrap.param$x

de

ns.

bo

ots

tra

p.p

ara

m$

y

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Page 26: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Estadístico t, exponencial: n = 10, = 1/ = 1/15

Verdadera distribución:estimada por simulación

( )Aproximación normal: 0,1t N»

( )( )

1

* *

* * *

Bootstrap: 1000 valores para remuestras , ,

n

t tx x

==

xx K

*: cada escogido con probabilidad1/ entre los de la no paramétri

muestra ori nc

alo

giix

n

( )*: cada generado segúpar n amétr 1/ 15.62ico ix Exp

Page 27: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Estadístico t, exponencial: verdadera dens, aprox normal, boot no paramétrico y paramétrico

dens.veritat$x

de

ns.

veri

tat$

y

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

rang.t

de

ns.

no

rmA

pro

x

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

dens.bootstrap$x

de

ns.

bo

ots

tra

p$

y

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

dens.bootstrap.param$x

de

ns.

bo

ots

tra

p.p

ara

m$

y

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Page 28: Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental

Departament d’estadística

Caso exponencial, t, n = 40

dens.veritat$x

de

ns.

veri

tat$

y

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

rang.t

de

ns.

no

rmA

pro

x

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

dens.bootstrap$x

de

ns.

bo

ots

tra

p$

y

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

dens.bootstrap.param$x

de

ns.

bo

ots

tra

p.p

ara

m$

y

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4