Estadistica descriptiva

ndice general

I Estadstica 3

1 Estadstica Descriptiva 5

1.1 Variables estadsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Tipos, muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Una variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.1 Diagramas (cualitativas: de barras y de sectores; cuantitativas: de tallos y hojas

e histogramas) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.4 Medidas numricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4.1 Medidas de centralizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4.2 Medidas de dispersin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.3 Cuartiles y diagramas de cajas . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4.4 Diagramas de cajas. Datos atpicos . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4.5 Comparacin de media y mediana: robustez . . . . . . . . . . . . . . . . . . . 16

1.5 Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.6 Dos variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.6.1 Recta de regresin y correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.6.2 Otras dependencias funcionales . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 Probabilidades 27

2.1 Denicin y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1.1 Funcin de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.3 Clculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3 Variables aleatorias 39

3.1 Denicin, tipos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Funcin de masa o de densidad, funcin de distribucin . . . . . . . . . . . . . . . . . 40

3.2.1 Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.2.2 Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.3 Esperanza: media y varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.4 Varias variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.4.1 Densidad conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.4.2 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.4.3 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.4.4 Densidades condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

1

2 NDICE GENERAL

3.4.5 Vectores aleatorios continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.5 Suma de variables independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4 Modelos de probabilidad 61

4.1 Modelos discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.1.1 Pruebas de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.1.2 Distribucin binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.1.3 Otros modelos basados en pruebas de Bernoulli . . . . . . . . . . . . . . . . . 62

4.1.4 Distribucin de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.2 Modelos continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.2.1 Distribucin uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.2.2 Distribucin exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.2.3 Distribucin Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

Parte I

Estadstica

3

Captulo 1

Estadstica Descriptiva

Para el estudio de una o varias caractersticas de una poblacin, el primer paso es la recogida de

datos. Se realiza esta sobre una muestra de la poblacin, lo sucientemente signicativa para que las

conclusiones a las que lleguemos, sobre las caractersticas objeto de estudio, sean bastante plausibles

(tengan una alta abilidad). La ultima parte del curso se dedicar a cmo decidir la bondad de

la muestra y las conclusiones. En este captulo nos ocupamos de la primera, aunque no menos

importante, etapa de la descripcin de los datos tomados.

1.1 Variables estadsticas

Los datos numricos, o serie estadstica, de las observaciones realizadas en una poblacin conviene

presentarlos ordenados y clasicados, siguiendo un criterio prejado, que depender del estudio que

estemos realizando. Por lo general, estos se presentan agrupados en una tabla estadstica, aunque

para una mejor lectura de los mismos se acompaan de una representacin grca (ver x1.3.1).

1.2 Tipos, muestras

Entre las series estadsticas podemos encontrarnos con series temporales, en las que se toman datos

referidos a una magnitud en diferentes instantes de un periodo de tiempo. Ejemplos de series tem-

porales son: las cotizaciones de un valor a lo largo del ao; la renta per cpita de una poblacin en

un periodo de tiempo; las precipitaciones mensuales de un ao; : : : . La tabla estadstica de una serietemporal es la de una variable bidimensional, con el tiempo como una de las variables.

Por contra, si las observaciones se han efectuado en un momento jo, nos encontramos ante una

serie atemporal, y estas pueden ser espaciales y de frecuencias. Las primeras tratan de comparar los

valores de una variable en distintos espacios geogrcos, como la tasa de natalidad en las distintas

provincias espaolas. Las de frecuencias estudian la repeticin de un determinado hecho o fenmeno;

son las ms usuales y a ellas nos dedicaremos.

5

6 CAPTULO 1. ESTADSTICA DESCRIPTIVA

1.3 Una variable

1.3.1 Diagramas (cualitativas: de barras y de sectores; cuantitativas: de

tallos y hojas e histogramas)

Las distribuciones de frecuencias tratan de observar, clasicar y ordenar las repeticiones de ciertos

valores de una variable. Pueden ser cualitativas o cuantitativas, pudiendo ser las ltimas

de carcter discreto o continuo, segn la variable. Los datos se presentan mediante tablas de

frecuencias.

En una tabla de frecuencias se llama frecuencia absoluta al nmero de veces que se repite

un valor de la variable; se representa por ni, y signica que el valor xi aparece ni veces. La suma detodas las frecuencias absolutas debe coincidir, obviamente, con el nmero total de elementos de la

muestra, y se denomina tamao muestral, representado por N .

Llamamos frecuencia relativa a la razn entre la frecuencia absoluta y el tamao muestral,

y mide la proporcin de cada valor dentro de la muestra. Se representa por fi y, segn se ha denido,es:

fi =niN

:

Es claro que fi 1, as como quePi

fi = 1.

Por ltimo, llamamos frecuencias acumuladas, a las sumas de las frecuencias hasta un

determinado valor de la variable. Las denotaremos porNi o Fi segn se reeran a frecuencias absolutaso relativas, respectivamente. Para calcularlas se ordenan previamente los valores observados de la

variable, y se puede hacer de menor a mayor (frecuencias acumuladas crecientes: Ni ", Fi " ), o demayor a menor (frecuencias acumuladas decrecientes: Ni #, Fi #).Si los datos observados corresponden a una variable continua, o hay poca repeticin de datos,

es comn agrupar estos en intervalos de clase, que no han de solaparse, por ejemplo de la forma:

[Li1; Li) (cerrados por la derecha y abiertos por la izquierda). En estos casos se dene, adems, lamarca de clase, xi, como el punto medio de cada intervalo:

xi =Li + Li1

2:

De este modo, los valores del intervalo [Li1; Li) pueden tratarse como si fueran todos iguales a sumarca de clase, xi, con la consiguiente prdida de informacin o error de agrupamiento.

Ejemplos

Ejemplo 1 Encuestadas cincuenta parejas respecto a su nmero de hijos, se obtuvieron los siguientes

datos:

2; 4; 2; 3; 1; 2; 4; 2; 3; 0; 2; 2; 2; 3; 2; 6; 2; 3; 2; 2; 3; 2; 3; 3; 4; 1; 3;

3; 4; 5; 2; 0; 3; 2; 1; 2; 3 ; 2; 2; 3; 1; 4; 2; 3; 2; 4; 3; 3; 2; 2 .

Constryase una tabla estadstica que represente dichos datos, indicando frecuencias absolutas,

relativas y acumuladas relativas crecientes.

1.3. UNA VARIABLE 7

Solucin:

xi ni fi Fi "0 2

125

125

1 4

225

325

2 21

2150

2750

3 15

310

4250

4 6

325

4850

5 1

150

4950

6 1

150

1

N = 50

Ejemplo 2 Los datos que se dan a continuacin corresponden a los pesos en kilogramos de 80

personas:

60; 66; 77; 70; 66; 68; 57; 70; 66; 52; 75; 65; 69; 71; 58; 66; 67; 74; 61; 63;

69; 80; 59; 66; 70; 67; 78; 75; 64; 71; 81; 62; 64; 69; 68; 72; 83; 56; 65; 74;

67; 54; 65; 65; 69; 61; 67; 73; 57; 62; 67; 68; 63; 67; 71; 68; 76; 61; 62; 63;

76; 61; 67; 67; 64; 72; 64; 73; 79; 58; 67; 71; 68; 59; 69; 70; 66; 62; 63; 66.

(a) Obtngase una distribucin de datos en intervalos de amplitud 5, empezando en [50; 55).

(b) Calclese el porcentaje de personas de peso menor que 65 Kg.

(c) Cuntas personas tienen peso mayor o igual que 70 Kg pero menor que 85?

Solucin:

(a) Como queremos efectuar una distribucin de datos agrupados, debemos obtener primero los

intervalos correspondientes, quedando la siguiente tabla, donde hemos aadido una columna

correspondiente a la marca de clase:

[Li1; Li] xi ni Ni " fi Fi "[50; 55) 52:5 2 2 1

40140

[55; 60) 57:5 7 9 780

980

[60; 65) 62:5 17 26 1780

1340

[65; 70) 67:5 30 56 38

710

[70; 75) 72:5 14 70 740

78

[75; 80) 77:5 7 77 780

7780

[80; 85) 82:5 3 80 380

1

N = 80


(b) Observando la columna de frecuencias acumuladas (absolutas), se deduce que existen N3 = 26individuos cuyo peso es menor que 65 Kg, que, en trminos de porcentajes corresponden a:

F3 100 = 1340 100 = 32:5% :

(c) El nmero de individuos con peso comprendido entre 70 y 85 Kg es:

n5 + n6 + n7 = 14 + 7 + 3 = 24 ; equivalentemente: N7 N4 = 80 56 = 24 :

Representaciones grcas

Puede resultar laboriosa la lectura de una tabla estadstica. Para facilitar esta tarea se suele acom-

paar de una grca, que proporciona una visin rpida del aspecto que se estudia. Estas repre-

sentaciones grcas deben tomarse como una ayuda a la interpretacin, y las conclusiones han de

obtenerse de la tabla.

Presentamos, mediante ejemplos, las representaciones grcas ms usuales.

Ejemplo 3 (Diagrama de barras) Se utiliza para distribuciones con poca variedad de datos. Se colo-

can sobre un eje horizontal los valores de la variable y sobre cada uno una barra cuya altura sea igual

a su frecuencia absoluta. Las escalas de los ejes horizontal y vertical se pueden tomar distintas, con

el objetivo de que el diagrama quede proporcionado.

Las temperaturas medias registradas en el mes de mayo de 2002 en Madrid, en grados centgrados,

estn dadas por la siguiente tabla:

Temperatura 13 14 15 16 17 18 19 20 21 22

Nm. de das 1 1 2 3 6 8 4 3 2 1

La representacin grca es el siguiente diagrama de barras:

xi

ni

13 14 15 16 17 18 19 20 21 22

1

2

3

4

5

6

7

8

Ejemplo 4 (Histograma) Si hemos agrupado los datos en intervalos, utilizamos un histograma

de frecuencias. Se colocan los intervalos que denen las clases sobre un eje horizontal, y sobre cada

uno de ellos se coloca un rectngulo cuya rea sea igual a la frecuencia absoluta. As, la altura del

rectngulo sobre un intervalo [Li1; Li), de amplitud ai = Li Li1, con frecuencia absoluta ni ser:

hi =niai:

1.3. UNA VARIABLE 9

Cuando todos los intervalos son de la misma amplitud, es ms cmodo colocar como alturas las

frecuencias absolutas, ni. En este caso las reas no coincidirn con las frecuencias, pero sern pro-porcionales, y el aspecto de la grca ser el mismo.

El histograma de frecuencias del ejemplo 2 sera:

50 55 60 65 70 75 80 85

5

10

15

20

25

30

Ejemplo 5 (Polgono de frecuencias) Consiste en unir con una lnea poligonal:

los extremos superiores consecutivos de las barras en un diagrama de barras

o los puntos medios consecutivos de los lados superiores de los rectngulos de un histograma.

Los polgonos de frecuencias se pueden utilizar tambin para representar las frecuencias acumuladas,

absolutas o relativas, crecientes o decrecientes.

En los casos anteriores quedaran los siguientes polgonos de frecuencias:

xi

ni

13 14 15 16 17 18 19 20 21 22

1

2

3

4

5

6

7

8

50 55 60 65 70 75 80 85

5

10

15

20

25

30

Nota: Se acostumbra a prolongar la poligonal hasta el eje horizontal. Para ello tomamos valores

a ambos lados de los datos observados con frecuencia cero. Para no modicar el aspecto visual, los

nuevos puntos del eje horizontal se toman a una distancia igual a la mitad del intervalo adyacente.

Hacindolo, as, en el caso de un histograma, el rea bajo la poligonal coincide con la del histograma.

Ejemplo 6 (Diagrama de sectores) Si la variable que estamos considerando es cualitativa, se

suele usar este tipo de diagramas. Se divide un crculo en sectores, uno por cada atributo observado,

cuyas reas respectivas sean proporcionales a las frecuencias.


Clasicada una muestra de 100 personas segn su grupo sanguneo, obtuvimos los siguientes

datos:

Grupo sanguneo A B AB O

Nm. de personas 42 12 5 41

El siguiente sera un diagrama de sec-

tores para los datos de esta muestra:

O

A

B

AB

Aunque podemos adaptar un diagrama

de barras para la misma:

0

10

20

30

40

A B AB O

Ejemplo 7 (Diagramas de tallos y hojas) Para variables cuantitativas continuas, los diagramas

de tallos y hojas constituyen una sencilla representacin. El procedimiento es como sigue:

1. Se redondean los datos a un nmero conveniente de cifras signicativas.

2. Se colocan en una tabla de dos columnas separadas por una lnea vertical, escribiendo:

todas las cifras, salvo la ltima, a la izquierda (forman el tallo);

la ltima cifra a la derecha (forma la hoja).

3. Cada tallo dene una clase y se escribe slo una vez. El nmero de hojas representa la frecuencia

de dicha clase.

Representemos por un diagrama de tallos y hojas, los siguientes datos, expresados en cm.:

11.357; 12.542; 11.384; 12.431; 14.212; 15.213; 13.300; 11.300; 17.206; 12.710;

13.455; 16.143; 12.162; 12.721; 13.420; 14.698.

Primero los redondeamos a tres cifras signicativas, expresndolos en mm.:

114; 125; 114; 124; 142; 152; 133; 113; 172; 127; 135; 161; 122; 127; 134; 147.

Nos quedara el siguiente diagrama de tallos y hojas:

11 443

12 54727

13 354

14 27

15 2

16 1

17 2

y los propios datos nos dan una idea visual de la zona con mayor frecuencia de observaciones. Es fcil,

a partir del diagrama de tallos y hojas, construir la tabla de frecuencias:

1.4. MEDIDAS NUMRICAS 11

[Li1; Li] xi ni Ni " fi Fi "[110; 120) 115 3 3 3

16316

[120; 130) 125 5 8 516

12

[130; 140) 135 3 11 316

1116

[140; 150) 145 2 13 18

1316

[150; 160) 155 1 14 116

78

[160; 170) 165 1 15 116

1516

[170; 180) 175 1 16 116

1

N = 16

1.4 Medidas numricas

El objeto de todo estudio estadstico es obtener informacin cuantitativa sobre alguna caracterstica

de una poblacin, lo que obligara a manejar una gran cantidad de datos. Para simplicar el estudio se

utilizan ciertas medidas que tratan de darnos la informacin precisa sobre la caracterstica estudiada

a partir de la tabla. Distinguimos entre estas las medidas de centralizacin y las medidas de

dispersin.

1.4.1 Medidas de centralizacin

Su pretensin es dar una idea del valor central, alrededor del cual se reparten los valores de la muestra.

Denimos las ms habituales e interesantes.

Denicin 1.4.1. La media muestral se dene como:

x =1

N

nXi=1

nixi =nXi=1

fixi :

Denicin 1.4.2. La idea de la mediana muestral es la siguiente:

Es el valor de la muestra que deja a izquierda y derecha el mismo nmero de observaciones (una

vez ordenadas).

Para hallar la mediana muestral hemos de jarnos en la columna de frecuencias absolutas acumuladas

crecientes, Ni ". Si el nmero de observaciones, N , es impar, digamos N = 2k + 1 = k + 1 + k, lamediana es el valor central, es decir, xi tal que su ndice i es el primero que cumple k < Ni ". Si elnmero de observaciones es par, digamos N = 2k, se toma como mediana el punto medio de los dosvalores centrales.

Para variables continuas con los datos agrupados, lo ms que se puede hallar es el intervalo

mediana; es decir la clase que contiene a la mediana.

Denicin 1.4.3. La moda de una muestra de una variable estadstica discreta es el valor que

aparece ms veces repetido.


Esta ltima medida no tiene mucho inters como medida de centralizacin, por varios motivos:

no tiene sentido para variables continuas al tener que agrupar; puede no ser un valor central; puede

haber ms de una moda, incluso estar en los extremos; : : : .

1.4.2 Medidas de dispersin

Para complementar la informacin de las medidas de centralizacin se denen las medidas de disper-

sin. Es evidente que las primeras son insucientes como muestra el siguiente ejemplo:

en el que ambas muestras tienen iguales tanto la media como la mediana muestrales. Las medidas

de dispersin diferenciarn estas muestras al medir la separacin de los datos.

Denicin 1.4.4. La varianza muestral se dene como:

s2x =1

N

NXi=1

ni(xi x)2 :

Se dene la desviacin tpica (o desviacin estndar) de la muestra como la raz cuadrada

positiva de la varianza muestral: sx = +ps2x.Tambin se considera la quasivarianza muestral:

S2x =1

N 1NXi=1

ni(xi x)2= N

N1s2x

de mejor comportamiento para realizar anlisis ms precisos (lo veremos en los ltimos captulos). Se

dene la quasidesviacin tpica (o desviacin estndar) de la muestra como la raz cuadrada

positiva de la quasivarianza muestral: Sx = +pS2x.

Con la desviacin tpica se mide la dispersin de la muestra en las unidades originales, ya que la

varianza nos da la media de los cuadrados de las desviaciones a la media muestral.

Es cmodo utilizar la siguiente frmula en el clculo de la varianza:

s2x =1

N

NXi=1

nix2i

x2 = NXi=1

fix2i x2 :

Ejercicio 1 Demostrar la identidad anterior para la varianza.

Solucin: : Basta desarrollar el cuadrado y sustituir la media muestral:

s2x =1

N

NXi=1

ni(xi x)2

=1

N

NXi=1

nix2i

2x

N

NXi=1

nixi +x2

N

NXi=1

ni

=1

N

NXi=1

nix2i 2x2 + x2 =

1

N

NXi=1

nix2i x2


Ejemplo 8 Apliquemos los conceptos anteriores a la siguiente muestra de estaturas de 24 personas,

expresadas en metros:

1.62; 1.75; 1.60; 1.41; 1.93; 2.00; 1.71; 1.68; 1.60; 1.67; 1.85; 1.83; 1.57; 1.54;

1.62; 1.93; 1.84; 2.01; 1.70; 1.85; 2.05; 1.66; 1.90; 1.65 .

Redondeando a tres cifras signicativas, expresndolos en cm., nos quedara el siguiente diagrama

de tallos y hojas:

14 1

15 74

16 20807265

17 510

18 5345

19 330

20 015

Apuntamos ahora estos datos en una tabla, aadiendo, a las ya vistas, algunas columnas tiles para

el clculo de la media y la varianza:

xi ni Ni " nixi x2i nix2i141 1 1 141 19881 19881

154 1 2 154 23716 23716

157 1 3 157 24649 24649

160 2 5 320 25600 51200

162 2 7 324 26244 52488

165 1 8 165 27225 27225

166 1 9 166 27556 27556

167 1 10 167 27889 27889

168 1 11 168 28224 28224

170 1 12 170 28900 28900

171 1 13 171 29241 29241

175 1 14 175 30625 30625

183 1 15 183 33489 33489

184 1 16 184 33856 33856

185 2 18 379 34225 68450

190 1 19 190 36100 36100

193 2 21 386 37249 74498

200 1 22 200 40000 40000

201 1 23 201 40401 40401

205 1 24 205 42025 42025

As para calcular la media muestral sumaremos las entradas de la cuarta columna (con cabecera nixi)y dividiremos por N = 24:

x =4197

24 175 cm:La mediana muestral, al haber 24 datos, ser el valor medio entre el valor en lugar 12 y el 13:

mediana muestral =170 + 171

2= 170:5 :

Para la varianza, sumamos las entradas de la sexta columna (nix2i ), dividimos por N = 24, yrestamos el cuadrado de la media:

s2x =74041324

1752 30851 30625 = 226 :La desviacin estndar ser sx 15.


Al haber poca repeticin de datos la tabla ha quedado bastante grande, con lo que hemos tenido

que realizar muchos clculos. Vamos a ver cmo, al agrupar los datos en intervalos, los clculos se

simplican, pero, a cambio, perdemos en precisin.

Supongamos que los datos los agrupamos en intervalos de amplitud 10, empezando en [140; 150).Obtendramos la siguiente tabla de frecuencias:

[Li1; Li] xi ni Ni " nixi x2i nix2i[140; 150) 145 1 1 145 21025 21025[150; 160) 155 2 3 310 24025 48050[160; 170) 165 8 11 1320 27225 217800[170; 180) 175 3 14 525 30625 91875[180; 190) 185 4 18 740 34225 136900[190; 200) 195 3 21 585 38025 114075[200; 210) 205 3 24 615 42025 126075

La media muestral sera: x =4240

24=

530

3 176:7.El intervalo mediana: [170; 180).

La varianza muestral: s2x =755800

24 530

2

9=

94475

3 280900

9=

283425 2809009

=2525

9 280:6

La desviacin tpica: sx =

r2525

9=

p2525

3 50:25

3= 16:75.

Para comparar ambos estudios, mostramos los respectivos diagramas de barras e histograma de

frecuencias (absolutas al tener intervalos de igual amplitud):

xi

ni

140 150 160 170 180 190 200 210

1

2

3

x 175mediana muestral = 170:5

s2x 226sx 15

xi

ni

140 150 160 170 180 190 200 210

1

2

3

4

5

6

7

8

x 176:7intervalo mediana [170; 180)

s2x 280:6sx 16:75


1.4.3 Cuartiles y diagramas de cajas

Una medida elemental de dispersin, una vez ordenados los datos, es el rango o recorrido, R, quees la diferencia entre el mayor y el menor de los datos:

R = xn x1 :Siguiendo la idea de la denicin de la mediana, introducimos los cuartiles. La mediana separa

en dos mitades el conjunto de observaciones. Los 3 cuartiles, Q1, Q2 y Q3, lo hacen en 4 partes conel mismo nmero de elementos. As, los cuartiles, Q1, Q2 y Q3 son tales que:

el 25% de los datos estn a la izquierda del primer cuartil, Q1, y el 75% a su derecha;

el 50% de los datos estn a la izquierda del segundo cuartil, Q2, y el 50% a su derecha (es decirQ2 = mediana );

el 75% de los datos estn a la izquierda del tercer cuartil, Q3, y el 25% a su derecha.

Igual que ocurra con la mediana, hemos de considerar distintos casos segn el tamao muestral

sea o no divisible por 4: N = 4k, N = 4k + 1, N = 4k + 2 N = 4k + 3.Las nicas novedades son el primer y el tercer cuartiles. A partir de estas dos cantidades se dene

el rango intercuartlico, RI, que es una medida de dispersin denida por:

rango intercuartlico RI = Q3 Q1 :La misma idea seguida para denir los cuartiles nos llevara a la denicin de los 99 percentiles,

P1; : : : ; P99. En general el percentil de orden k ser el menor valor que supera al k por ciento de losdatos.

1.4.4 Diagramas de cajas. Datos atpicos

El diagrama de caja es un grco basado en los cuartiles que contiene adems informacin sobre

la simetra de la distribucin y nos permitir denir el concepto de dato atpico. El siguiente diagrama

muestra la construccin del diagrama de caja de una muestra dada. Se han de calcular los cuartiles,

Q1, mediana y Q3, as como el rango intercuartlico RI = Q3 Q1.

Q1 med. Q3

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

-RI

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

barrera interior barrera interior

- -1:5RI 1:5RI

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

barrera exterior barrera exterior

- -3RI 3RI


Los segmentos dibujados a ambos lados de la caja, denominados bigotes , unen cada lado con los

datos ms extremos que aparecen dentro de las barreras interiores. Llamamos datos atpicos a

las observaciones que estn fuera de las barreras interiores, es decir, a ms de 1:5 veces el rangointercuartlico del correspondiente cuartil. Si adems estn a ms de 3 veces el rango intercuartlico

(fuera de las barreras exteriores), se denominan datos atpicos extremos. En el grco anterior

hemos representado con el smbolo los datos atpicos extremos, y con los datos atpicos noextremos.

Este tipo de observaciones atpicas requiere una atencin particular: bien porque responden a

errores en la medida o en el tratamiento de datos; bien porque contienen informacin relevante sobre

el comportamiento de la variable.

1.4.5 Comparacin de media y mediana: robustez

Un rasgo que diferencia a media y mediana es su comportamiento frente a datos atpicos.

Supongamos dada la siguiente muestra de datos:

5:3; 2:8; 3:4; 7:2; 1:7; 6:2; 9:3; 3:2; 5:9 ;

que tiene media 5 y mediana 5:3. Si introducimos un dato ms que sea un valor atpico extremo, porejemplo 83, la muestra quedara con la misma mediana, pero la media cambia drsticamente a 12:8.

La resistencia o estabilidad de la mediana frente a la existencia de datos atpicos es un fenmeno

que recibe el nombre de robustez. Todos los estadsticos basados en el orden mediana, cuartiles,

percentiles, : : : tienen esta misma propiedad, y se dice que son robustas. Las medidas que se basanen la suma como la media y la desviacin tpica son ms sensibles a los datos atpicos y son, por

tanto, poco robustas.

Esta sensibilidad de la media a las observaciones atpicas explica la posicin relativa de la mediana

y media en distribuciones asimtricas, como muestran las siguientes guras:

Simtrica Asimtrica a la dcha. Asimtrica a la izqda.

xmed.

med. x x med.

Los datos atpicos a la derecha (izquierda) del diagrama de caja, atraen a la media, desplazndola

hacia la derecha (izquierda), creando los distintos tipos de asimetra.

Conclusin: La media y la desviacin tpica deben utilizarse para resumir distribuciones homogneas

(simtricas y sin datos atpicos). En otros casos, es preferible utilizar la mediana y el rango inter-

cuartlico.


Ejemplo 9 Las ventas de zapatos de caballero en una zapatera, distribuidas por tallas, han sido,

durante cierto mes, las siguientes:

Talla 37 38 39 40 41 42 43 44 45

Nm. de pares 3 4 55 234 366 229 57 6 2

El nmero total de zapatos vendidos en ese mes es N = 956. Para calcular los cuartiles vemos que:

25% de 956 = 239

de manera que:

Q1 = 40 ; Q2 = 41 ; Q3 = 42 ; y el rango intercuartlico es: RI = 2 :

Las barreras interiores del diagrama de caja estaran en 37 y 45, de manera que no tenemos datosatpicos, y los bigotes tienen la misma longitud, pues existen los datos 37 y 45 en la muestra. Adems,la distribucin de datos de la caja es simtrica respecto a la mediana:

Tabla de frecuencias:

xi ni Ni " Ni # ni xi x2i ni x2i37 3 3 956 111 1369 4107

38 4 7 953 152 1444 5776

39 55 62 949 2145 1521 83655

40 234 296 894 9360 1600 374400

41 366 662 660 15006 1681 615246

42 229 891 294 9618 1764 403956

43 57 948 65 2451 1849 105393

44 6 954 8 264 1936 11616

45 2 956 2 90 2025 4050

Clculos:

x =39197

956 41

s2x =1608199

956 x2 1:131

sx =pVx 1:06moda = 41 :

Ejemplo 10 La clasicacin de 100 familias por el nmero de hijos es:

Nm. de hijos 0 1 2 3 4 5 6 7 8

Nm. de familias 11 13 20 25 14 10 4 2 1


Vamos a analizar X =nmero de hijos por familia. Se tiene:

x =280

100=

14

5= 2:8 ; s2x =

1098

100 196

25=

549 39250

=157

50 3:14 ; sx =

r157

50 8:86

5= 1:77 :

De los 100 datos el lugar 50 lo ocupa el 3, y el 51 tambin; luego la mediana es 3: Q2 = 3. Por su partelos otros dos cuartiles son Q1 = 2 y Q3 = 4 (por qu?), con lo que tenemos rango intercuartlico:

RI = 4 2 = 2y el diagrama de caja queda con un dato atpico, 8, que es no extremo pues no supera la barrera

exterior derecha (la vertical en Q3 + 3RI = 4 + 6 = 10).La inuencia de este dato atpico no puede ser muy grande, pues aparece en el 1% de la muestra.

De hecho, si lo ignoramos de la muestra quedara media 2:75. Adems la media y la mediana estnmuy prximas: si redondeamos a enteros coinciden.

Bajo estas consideraciones podemos tratar la muestra como casisimtrica .

Ejemplo 11 De una encuesta de la poblacin espaola en el ao 1973 sobre presupuestos familiares,

se obtuvieron los siguientes datos para la variable G =gasto mensual por familia (en miles depesetas), sobre una muestra de 75 familias:

[Li1; Li) ni fi Fi "[0; 50) 1 0.01 0.01

[50; 100) 10 0.13 0.15[100; 150) 9 0.12 0.27[150; 200) 12 0.16 0.43[200; 250) 12 0.16 0.59[250; 300) 10 0.13 0.72[300; 350) 3 0.04 0.76[350; 400) 1 0.01 0.77[400; 450) 6 0.08 0.85[450; 500) 5 0.07 0.92[500; 550) 1 0.01 0.93[550; 600) 0 0.00 0.93[600; 650) 2 0.03 0.96[650; 700) 1 0.01 0.97[700; 750) 1 0.01 0.99[750; 800) 0 0.00 0.99[800; 850) 0 0.00 0.99[850; 900) 1 0.01 1.00[900; 950) 0 0.00 1.00

El primer intervalo cuartlico es [100; 150), el intervalo mediana, [200; 250), y el tercer cuartil esten el intervalo [300; 350). Tendramos as un rango intercuartlico

150 < RI 350 100 = 250 :El diagrama de caja tendra barreras interiores extremas en 275, a la izquierda, y 725 a laderecha. En concreto, vemos de la tabla que el 76 15 = 61% de los datos se encontrara en la caja,

1.5. TRANSFORMACIONES LINEALES 19

un 15% en el segmento izquierdo, y un 24% en el segmento derecho, del cual el 1% corresponde a

datos atpicos, que podran llegar a ser extremos.

Vemos, en cualquier caso, que la distribucin es asimtrica a la derecha.

Si tomamos las marcas de clase como representativas de cada intervalo, podemos calcular la media

y la desviacin tpica de esta muestra, obteniendo:

x 264 miles de pesetas; sx 170:8

1.5 Transformaciones lineales

Supongamos que tenemos una muestra de datos x1; x2; : : : ; xn con media muestral x y desviacintpica sx. Puede interesar cambiar la escala en la que nos dieron los datos. Cmo inuir estecambio de escala en x y sx?En general, un cambio de escala viene dado por y = kx, que es un caso particular de las trans-formaciones lineales: y = ax+ b. Veamos cmo varan los estadsticos media y desviacin tpica:

Siendo: x =nXi=1

fixi tendramos: y =nXi=1

fi(a xi + b) = anXi=1

fixi + bnXi=1

fi

de donde: y = a x+ b ;

Anlogamente si: s2x =nXi=1

fix2i x2

entonces: s2y =nXi=1

fi(a xi + b)2 (a x+ b)2

= a2nXi=1

fix2i + 2ab

nXi=1

fixi + b2

nXi=1

fi a2 x2 2abx b2

= a2nXi=1

fix2i + 2abx+ b

2 a2 x2 2abx b2

= a2 nXi=1

fix2i x2

= a2s2x ;

por tanto: sy = jaj sx :

Ejercicio 2 Cmo inuye una transformacin lineal sobre los datos de una muestra en sus cuar-

tiles?

Denicin 1.5.1. (Tipicacin) Si x y sx son la media y desviacin tpica muestrales de unamuestra, x1; : : : ; xN , correspondiente a una variable X, la muestra correspondiente a la variabletipificada

Y =X xsx

; yi =xi xsx

; i = 1; : : : ; N ;

tiene media muestral y = 0 y desviacin tpica muestral sy = 1.


1.6 Dos variables

En ocasiones estudiaremos varias caractersticas de una poblacin. Un problema interesante ser

determinar si existe algn tipo de relacin entre ellas. Dedicaremos esta seccin a este problema.

Como en captulos anteriores, nos bastar con entender el caso de dos variables aleatorias.

Supongamos, pues, que estamos realizando el estudio conjunto de dos variables aleatorias cuan-

titativas, X e Y . Dispondremos de una muestra de N pares de observaciones:

(x1; y1); (x2; y2); : : : ; (xN ; yN) ;

es decir, para el elemento isimo de la muestra, (xi; yi), se ha observado que X = xi e Y = yi.

Utilizaremos una tabla de doble entrada para la distribucin conjunta. De ella podemos calcular

las distribuciones marginales y, en particular, calcular los estadsticos de cada variable: x, medx,modax, Sx, S

2x, : : : para la muestra marginal de la variable X; y los respectivos para Y .

Las representaciones grcas de la distribucin conjunta, se realizan en 3 dimensiones. Como

alternativa a estos grcos se introduce la nube de puntos:

Con ella representamos, por ejemplo, los valores observados de X enel eje horizontal, y los de Y en el vertical. Cada punto es una observacindel vector (X;Y ). La nube de puntos mostrada a la izquierda se harealizado a partir de la muestra:

(23; 15) ; (43; 16) ; (42; 25) ; (23; 25) ; (28; 17) ; (29; 22) ; (31; 35) ;(32; 28) ; (34; 18) ; (36; 32) ; (40; 38) ; (34; 18) ; (36; 23) ; (38; 28) ;(45; 25) ; (65; 26) ; (64; 35) ; (45; 35) ; (50; 27) ; (51; 32) ; (53; 45) ;(54; 38) ; (56; 28) ; (58; 42) ; (65; 48) ; (56; 28) ; (58; 33) ; (60; 38) :

X

Y

El objetivo marcado en esta seccin es encontrar una curva sencilla que exprese (de manera

resumida) una posible relacin entre X e Y . Para ello es fundamental dibujar, primero, la nube depuntos, para decidir si puede existir esta relacin. Una medida numrica que recoge esta posible

relacin es la covarianza muestral que se dene como:

covx;y =1

N

NXi=1

(xi x)(yi y) :

Para calcularla es ms sencillo utilizar la igualdad:

covx;y =1

N

NXi=1

xiyi xy

que se demuestra fcilmente (ejercicio).

La covarianza aparece de manera natural al intentar ajustar una recta de regresin a una nube

de datos.

1.6. DOS VARIABLES 21

1.6.1 Recta de regresin y correlacin

Si de la nube de puntos decidimos que puede existir una recta, y = ax+ b, que se ajuste a la misma,resumiremos toda la nube con ella. Esta recta tratara de formalizar la idea de que existe una relacin

lineal entre los valores de X e Y .

Denicin 1.6.1. La recta de regresin de Y sobre X es la recta y = a+bx que minimiza el errorcuadrtico medio (en adelante, E:C:M:):

E:C:M: =1

N

NXi=1

(yi a bxi)2 :

Nota: Con la recta de regresin de Y sobre X, se pretende minimizar el E.C.M., en cuya denicinse promedian las distancias verticales de cada punto de la muestra a la recta. Esta recta se usar

para estimar valores de Y para valores conocidos de X. Podemos, anlogamente, calcular la rectade regresin de X sobre Y , que servir para estimar valores de X para valores conocidos de Y .El desarrollo es el mismo, pero partiendo del error cuadrtico medio para las distancias horizontales:

1

N

NXi=1

(xi c dyi)2 ;

con x = c+ dy. Puesto que los resultados son anlogos, para no alargar innecesariamente la seccin,nos centraremos en la primera de las rectas: y = a+ bx.

Como viene siendo costumbre, presentamos una identidad para el clculo de este nuevo nmero:

E:C:M: =1

N

NXi=1

y2i +Na2 + b2

NXi=1

x2i 2aNXi=1

yi 2bNXi=1

xiyi + 2abNXi=1

xi

=Vy + y

2+ a2 +

Vx + x

2b2 + 2x a b 2y a 2covx;y + xy b ;aunque en esta ocasin para justicar los clculos posteriores, que resuelven (calculan) los coecientes

de la recta que minimizan esta cantidad. Diremos que y = a+ bx es la recta de regresin de Y sobreX si a y b son tales que:

@(E:C:M:)

@a= 2 a+ 2x b 2y = 0

@(E:C:M:)

@b= 2(s2x + x

2) b+ 2x a 2(covx;y + xy) = 0 :

La solucin es inmediata:

a = y covx;ys2x

x ; b =covx;y

s2x

aportando, adems, esta solucin un mnimo de la funcin E:C:M:. Por tanto, la recta de regresinde Y sobre X es:

y y = covx;ys2x

(x x) :

Obsrvese que la recta de regresin pasa por el punto de medias: (x; y).Justicaremos el uso de la recta de regresin por el valor concreto del E.C.M. cometido:


Denicin 1.6.2. La varianza residual es el E.C.M. cometido con la recta de regresin de Ysobre X, es decir:

Varianza residual =1

N

NXi=1

yi y covx;y

s2x(xi x)

2Desarrollando y agrupando esta ltima igualdad, podemos reescribirla como:

Varianza residual = s2y(1 r2) ; siendo: r =covx;y

sxsy:

Al cociente r se le denomina coeficiente de correlacin y nos da una medida de la bondad delajuste por la recta de regresin. En concreto, r es un nmero entre 1 y 1, y cunto ms prximoest a los valores extremos (jrj 1), ms pequeo ser el E.C.M. cometido; en otras palabras, mejorser el ajuste.

Ejemplo 12 (Frank Anscombe) En la siguiente tabla se presentan tres conjuntos de datos prepara-

dos por el estadstico Frank Anscombe para ilustrar los peligros de hacer clculos sin antes representar

los datos:

Conjunto de datos A:

(10; 8:04); (8; 6:95); (13; 7:58); (9; 8:81); (11; 8:33); (14; 9:96); (6; 7:24); (4; 4:26); (12; 10:84); (7; 4:82); (5; 5:68) :

Conjunto de datos B:

(10; 9:14); (8; 8:14); (13; 8:74); (9; 8:77); (11; 9:26); (14; 8:10); (6; 6:13); (4; 3:10); (12; 9:13); (7; 7:26); (5; 4:74) :

Conjunto de datos C:

(8; 6:58); (8; 5:76); (8; 7:71); (8; 8:84); (8; 8:47); (8; 7:04); (8; 5:25); (8; 5:56); (8; 7:91); (8; 6:89); (19; 12:50) :

Los clculos correspondientes sobre cada conjunto aportan los siguientes valores, comunes a los

tres conjuntos de datos:

x = 9; sx 3:16; y 7:50; sy 1:94; 111

11Xi=1

xiyi = 72:51;

covx;y 5; covx;ys2x

0:5; r 0:82; Varianza residual = s2y(1 r2) 1:23y as la recta de regresin de Y sobre X sera, para los tres:

y 7:50 = 0:5(x 9) () y = 3 + 0:5x :Las nubes de datos de sendos conjuntos son:

Datos A Datos B Datos C

A la vista de las mismas, tomamos la recta de regresin como buen ajuste slo para la muestra A.


1.6.2 Otras dependencias funcionales

En ocasiones intentar resumir la nube de puntos por una recta puede que no tenga mucho sentido.

Podemos pensar en muchos modelos alternativos al modelo lineal. Vamos a dedicar esta seccin a

indicar cmo aplicar los resultados del modelo de regresin lineal a otros modelos como el logartmico

y el exponencial.

La idea es podernos restringir al modelo lineal mediante una sencilla transformacin, fcil de

invertir.

En general, si disponemos de observaciones (x1; y1); : : : ; (xN ; yN) de dos caractersticas X e Y deuna poblacin, y queremos ajustar un modelo de la forma:

y = a+ b g(x)

a estos datos, podemos denir una nueva variable T = g(X) y hallar la recta de regresin de Ysobre T . Esta correspondera a los datos

(t1; y1); : : : ; (tN ; yN); donde: tj = a+ b g(xj); para cada j = 1; : : : ; N :

Una vez obtenida la recta de regresin de Y sobre T , deshacemos el cambio y obtenemos la curvapedida.

Ejemplo 13 (Regresin logartmica) Si la nube de puntos recuerda a la grca de la funcin

logaritmo, se ajustar por un modelo de la forma:

y = a+ b log x (regresin logartmica) :

Para ello denimos T = log(X), hallamos la recta de regresin de Y sobre T , con la muestra con-veniente modicada. Si obtenemos, por ejemplo, y = 2 + 3t, diremos que y = 2 + 3 log x es nuestromodelo de regresin logartmica para la muestra original.

Ejemplo 14 (Regresin exponencial) Cuando la nube de puntos recuerde a una grca expo-

nencial (y = ex y = ex), la intentaremos representar mediante un modelo de la forma:

y = a ebx (regresin exponencial) :

Tomando logaritmos en este modelo tendramos:

log y = log a+ bx :

Si denimos la variable T = log(Y ), y hallamos la recta de regresin de T sobre X, al deshacer elcambio obtendramos los datos de la regresin exponencial. Por ejemplo, si obtenemos t = 2 + 3x,la curva pedida sera:

y = e2 e3x 0:135 e3x :


Problemas

1. Antes de que los hornos microondas se puedan poner a la venta, el fabricante debe asegurarse

de que la radiacin emitida a travs de la puerta se encuentra por debajo de un lmite de

seguridad. Las cantidades de radiacin emitidas por 25 hornos (en mw=cm2) con la puertacerrada son:

15 9 18 10 512 8 5 8 107 2 1 5 35 15 10 15 98 18 1 2 11

(a) Calcula la media, la varianza y la desviacin tpica.

(b) Calcula la mediana, los cuartiles y el rango intercuartlico.

(c) Dibuja el diagrama de cajas correspondiente a estos datos.

2. Determina razonadamente si las siguientes armaciones son verdaderas o falsas:

(a) Si aadimos 7 a todos los datos de un conjunto, el primer cuartil aumenta en 7 unidades

y el rango intercuartlico no cambia.

(b) Si todos los datos de un conjunto se multiplican por -2, la desviacin tpica se dobla.

(c) Si todos los datos de un conjunto se multiplican por 2, la varianza se dobla.

(d) Si cambiamos el signo de todos los datos de un conjunto, el coeciente de asimetra de

Fisher tambin cambia de signo.

(e) Al multiplicar por tres todos los datos de un conjunto, el coeciente de asimetra Fisher

no vara.

(f) Si el coeciente de correlacin entre dos variables vale -0.8, los valores por debajo del

promedio de una variable estn asociados con valores por debajo del promedio de la otra.

(g) Si para todo i, se cumple yi < xi, el coeciente de correlacin entre x e y es negativo.

(h) Al restar una unidad a cada dato de un conjunto, la desviacin tpica siempre disminuye.

(i) Si a un conjunto de datos con media x se le aade un nuevo dato que coincide con x, lamedia no cambia y la desviacin tpica disminuye.

3. Un estudio sobre el efecto de la temperatura en el rendimiento de un proceso qumico propor-

ciona los siguientes resultados:

Temperatura (x) -5 -4 -3 -2 -1 0 1 2 3 4 5

Rendimiento (y) 1 5 4 7 10 8 9 13 14 13 18

(a) Representa el diagrama de dispersin de los datos anteriores y calcula el coeciente de

correlacin entre las dos variables. Se puede admitir que existe una relacin lineal apro-

ximada entre ambas, es decir, yi a+ bxi?(b) Calcula el trmino independiente y la pendiente de la recta de mnimos cuadrados.


(c) Qu rendimiento predeciras para un nuevo proceso realizado a temperatura x = 3:5?

4. Con el n de hacer un estudio de aceptacin sobre dos modelos de automviles de reciente

fabricacin, se han considerado las ventas efectuadas por un concesionario durante los das no

festivos del ltimo mes de septiembre, que han sido las siguientes:

Mod. A Mod. B Nm. de das

0 2 1

1 3 1

2 1 3

2 2 5

3 1 8

3 2 4

4 0 1

4 1 2

Obtnganse las distribuciones marginales, dando sus medias y varianzas respectivas. Hllese la

covarianza de la distribucin bidimensional, dibujar la nube de puntos de la misma.

5. Comparadas las edades de cien madres con la de su primer hijo, se obtuvo la siguiente distribu-

cin bidimensional:

Edad del hijo

Edad de la madre

2030 3040 4050 5060 6070

010 11 3

1015 18 1

1520 15 6

2025 12

2530 10 6

3040 9 3

4050 6

Hllense la covarianza de la distribucin y las varianzas correspondientes, tomando en cada

clase su marca de clase central. A partir de esta muestra estdiese la edad de una madre al

nacer su primer hijo.

6. Consultando el chero de un departamento de pediatra, se obtuvieron los siguientes datos

respecto a los pesos y edades de los nios atendidos:

Peso (en kg)

Edad (en aos)

0 1 2 3 4

05 2

510 4 2

1015 8 9 7

1520 1 2 8 14

2025 1

Obtngase la recta de regresin de Y (pesos) sobreX (edades). Con la recta obtenida, decdase cul esel peso que debe esperarse para un nio de 5 aos.


7. Hllense y represntense las rectas de regresin correspondientes a la distribucin estadstica:

xi yi ni;i1 5 2

2 6 6

3 6 7

3 7 6

4 7 7

4 8 4

5 8 5

6 9 3

8. Una distribucin estadstica de variables X e Y es tal que x = 3:5, y = 4 x, y s2x = 3 covx;y.Sabiendo que en una de las observaciones es xi = 5, qu valor debe esperarse para yi en elsupuesto de una dependencia lineal entre las variables?

9. Ajstese una funcin del tipo y = aebx a la siguiente distribucin bidimensional:

xi 1 1.5 2 2.5 3 4yi 2.2 6 16 44.5 121 895

10. Conocidas la media y varianza muestrales de cada una de las variables asociadas a una dis-

tribucin bidimensional,

x = 3 ; s2x = 6 ; y = 6 ; s2y = 8 ;

de la que se conoce, adems, la recta de regresin de Y sobre X

2x+ 3y 12 = 0obtngase la recta de regresin de X sobre Y .

11. Dadas dos variables X e Y , la recta de regresin de Y sobre X es y = 1:16x+10:8 mientras quela de X sobre Y es x = 0:13y 0:6. Calcula las medias de las variables X e Y y el coecientede correlacin entre ambas.

12. Calclese la recta de regresin, `1, de Y sobre X para la muestra:

(1; 3); (3; 4); (5; 2) :

Aadir a la muestra anterior el punto de la recta `1 con coordenada x = 7. Calcular la rectade regresin, `2, de Y sobre X para la muestra aumentada.

Repetir lo mismo aadiendo a la muestra original el punto de `1 con primera coordenada x = 9(obteniendo una tercera recta `3).

Dibuja las tres rectas con sus muestras en un mismo grco e interpreta el resultado.

Captulo 2

Probabilidades

2.1 Denicin y propiedades

Al realizar un experimento aleatorio nuestro inters es obtener informacin sobre las leyes que rigen

el fenmeno sometido a estudio. El punto de partida para el estudio de un experimento aleatorio es

conocer el espacio muestral, , o conjunto de todos los resultados posibles.

Ejemplo 15 Consideremos el siguiente experimento aleatorio: se tiran tres dados de colores rojo,

azul y blanco. Podemos presentar nuestro espacio muestral de la forma:

= f(1; 1; 1); (1; 1; 2); : : : ; (3; 2; 6); (4; 1; 1); : : : ; (6; 6; 6)g

donde (a; b; c) quiere decir que el resultado del dado rojo ha sido a, b el del azul, y c el del blanco.Es directo comprobar que hay un total de 63 = 216 resultados posibles.

El estudio sobre el experimento lo realizaremos midiendo el tamao relativo de subconjuntos del

espacio muestral. La siguiente es una denicin poco rigurosa matemticamente.

Denicin 2.1.1. Se llama suceso aleatorio a cualquier subconjunto del espacio muestral.

En particular el vaco y el total son sucesos aleatorios, y los denominaremos suceso imposible y

suceso seguro, respectivamente.

Ejemplo 16 En el experimento aleatorio del ejemplo anterior determinar los siguientes sucesos:

A1 = en el dado azul siempre se obtiene un 5, y en el rojo un 2

A2 = la suma de los dados rojo y azul es siempre 3

A3 = los dados azul y rojo dieren en 2

A4 = la suma de los tres dados es menor que 20

A5 = la suma de los tres dados es exactamente 2

A6 = el resultado del blanco es la suma de los otros dos :

27

28 CAPTULO 2. PROBABILIDADES

La respuesta, con paciencia y buen orden, es inmediata:

A1 = f(2; 5; 1); (2; 5; 2); (2; 5; 3); (2; 5; 4); (2; 5; 5); (2; 5; 6)g ;A2 = f(1; 2; 1); (1; 2; 2); (1; 2; 3); (1; 2; 4); (1; 2; 5); (1; 2; 6);

(2; 1; 1); (2; 1; 2); (2; 1; 3); (2; 1; 4); (2; 1; 5); (2; 1; 6)g ;A3 = f(1; 3; 1); : : : ; (1; 3; 6); (2; 4; 1); : : : ; (2; 4; 6);

(3; 5; 1); : : : ; (3; 5; 6); (3; 1; 1); : : : ; (3; 1; 6);

(4; 6; 1); : : : ; (4; 6; 6); (4; 2; 1); : : : ; (4; 2; 6);

(5; 3; 1); : : : ; (5; 3; 6); (6; 4; 1); : : : ; (6; 4; 6)g ;A4 = y A5 = ; ;A6 = f(1; 1; 2); (1; 2; 3); (2; 1; 3); (1; 3; 4); (2; 2; 4); (3; 1; 4);

(1; 4; 5); : : : ; (4; 1; 5); (1; 5; 6); : : : ; (5; 1; 6)g :

Es directo comprobar, adems, que los cardinales de los sucesos son:

jA1j = 6 ; jA2j = 12 ; jA3j = 48 ;jA4j = 216 ; jA5j = 0 ; jA6j = 1 + 2 + 3 + 4 + 5 = 15 :

Por qu se ha medido as el ltimo?

Al ser los sucesos aleatorios subconjuntos del espacio muestral, es natural realizar con ellos las

operaciones habituales de conjuntos.

Denicin 2.1.2. Se llama suceso contrario de un suceso A, y lo denotaremos Ac, al sucesoque ocurre cuando no ocurre A.Si A y B son dos sucesos de un mismo experimento aleatorio, el suceso unin, A [B, es aqulque ocurre cuando ocurre alguno de los dos, A o B. El suceso interseccin, A\B, ocurre cuandoocurren ambos a la vez, A y B.Dos sucesos, A y B, se dicen incompatibles si no pueden ocurrir a la vez en una mismarealizacin del experimento aleatorio, es decir A \B = ;.

Es claro que ; y son sucesos contrarios e incompatibles, y que cualquier suceso es incompatiblecon su contrario.

Ejemplo 17 Calcular los sucesos contrarios de los sucesos del ejemplo anterior. Describir los sucesos

A1 [ A2, A2 \ A6 y A3 \ A6. Ignorando los sucesos seguro e imposible, hay parejas de sucesosincompatibles que no sean contrarios?

Sean

B1 = f(a; b; c) : a = 2g y B2 = f(a; b; c) : b = 5g ;

entonces

A1 = B1 \B2 = f(a; b; c) : a = 2 y b = 5g ;

2.1. DEFINICIN Y PROPIEDADES 29

y as:

Ac1 = (B1 \B2)c = Bc1 [Bc2 = f(a; b; c) : a 6= 2 o bien b 6= 5g :

A2 = f(a; b; c) : a+ b = 3g y as: Ac2 = f(a; b; c) : a+ b 6= 3g :A3 = f(a; b; c) : ja bj = 2g y as: Ac3 = f(a; b; c) : ja bj 6= 2g :Es evidente que: Ac4 = ; y Ac5 = :Finalmente: A6 = f(a; b; c) : c = a+ bg de donde: Ac6 = f(a; b; c) : a+ b c 6= 0g :Respecto a las otras operaciones, tenemos:

A1 [ A2 = f(2; 5; 1); (2; 5; 2); (2; 5; 3); (2; 5; 4); (2; 5; 5); (2; 5; 6);(1; 2; 1); (1; 2; 2); (1; 2; 3); (1; 2; 4); (1; 2; 5); (1; 2; 6);

(2; 1; 1); (2; 1; 2); (2; 1; 3); (2; 1; 4); (2; 1; 5); (2; 1; 6)g ;A2 \ A6 = f(1; 2; 3); (2; 1; 3)g ;A3 \ A6 = f(1; 3; 4); (2; 4; 6); (3; 1; 4); (4; 2; 6)g :La respuesta a la ltima pregunta es armativa. En efecto:

A1 \ A2 = ;en otras palabras, son incompatibles, pero Ac1 6= A2, y por tanto no son contrarios. Es claro que sial tirar los tres dados el rojo ha sido un 2 y el azul un 5, su suma es 7, y por tanto no ocurre elsuceso A2. Recprocamente, si la suma de los dados rojo y azul ha sido 3, es imposible que suceda A1.Aprovechamos este momento para indicar que en ocasiones es ms fcil contar los elementos de

un suceso restando al total el de su contrario. En efecto:

jAc1j = 216 6 = 210 ; jAc2j = 216 12 = 204 ;jAc3j = 216 48 = 168 ; jAc6j = 216 15 = 201 ;resultados triviales de las meras deniciones. Obsrvese tambin que, en todos los casos, se puede

comprobar la frmula para el cardinal de la unin de dos conjuntos nitos, a saber:

jA [Bj = jAj+ jBj jA \Bj :As, por ejemplo:

jA1 [ A2j = jA1j+ jA2j jA1 \ A2j = 6 + 12 0 = 18 ;jA2 [ A6j = jA2j+ jA6j jA2 \ A6j = 12 + 15 2 = 25 ;jA3 [ A6j = jA3j+ jA6j jA3 \ A6j = 48 + 15 4 = 59 ;lo que nos permitir calcular cardinales de sucesos conociendo otros ms sencillos.

Siguiendo esta ltima idea, introducimos una ltima denicin.


Denicin 2.1.3. Una familia de sucesos A1; A2; : : : , de un espacio muestral , se dice mutua-mente excluyente si son incompatibles dos a dos, es decir si

Ai \ Aj = ;; siempre que i 6= j :

De especial inters son las familias mutuamente excluyentes que a su vez recogen todos los posibles

casos, es decir, tales que:

= A1 [ A2 [ [ Ak [ : : : :Diremos en este caso que tenemos una familia completa de sucesos.

Ejemplo 18 Siguiendo con el mismo experimento aleatorio, obsrvese que si

Ck1 = f(a; b; c) : a+ b = kg

entonces = C1 [ C2 [ [ C11, siendo adems incompatibles dos a dos. Tenemos as hecha unafamilia completa de sucesos, o en otras palabras, una particin (disjunta) del espacio muestral, en 11subconjuntos que hemos denido respecto a la caracterstica: suma de los dados rojo y azul.

Si de un suceso A conociramos los cardinales de las 11 intersecciones A \ Cj, digamos:

aj = jA \ Cjj; j = 1; : : : ; 11

es claro que jAj =11Pj=1

aj.

Aunque sea quiz ms sencillo de otra manera, tratemos de calcular por este mtodo el cardinal

del suceso A = f(a; b; c) : ab = 1g. En las intersecciones A\Ck1 aparecern los resultados (a; b; c)tales que se verique el siguiente sistema lineal:

a b = 1a+ b = kque equivale al sistema:

2 a = k + 12 b = k 1

Este sistema tiene soluciones: a = k+12y b = k1

2; que determinarn resultados posibles slo si k esimpar y estrictamente mayor que 1 (por qu?). As, tenemos los siguientes cardinales:

jA \ C2j = jf(2; 1; c)gj = 6jA \ C4j = jf(3; 2; c)gj = 6jA \ C6j = jf(4; 3; c)gj = 6jA \ C8j = jf(5; 4; c)gj = 6jA \ C10j = jf(6; 5; c)gj = 6

y jA \ Cjj = 0 en cualquier otro caso. En denitiva jAj = 30. Con la misma idea determnese elcardinal del suceso: B = f(a; b; c) : 3 a 2 b = 1g.Se trata ahora de resolver el sistema

3 a 2 b = 1a+ b = ko su equivalente:

5 a = 2k + 15 b = 3k 1

2.1. DEFINICIN Y PROPIEDADES 31

y en nuestro contexto (k = 2; : : : ; 12), las nicas soluciones son (1; 1; c) y (3; 4; c), para k = 2 y 7respectivamente; por lo tanto:

jBj = jf(a; b; c) : 3 a 2 b = 1gj = 6 + 6 = 12 :De hecho, conocemos B:

B = f(1; 1; 1); (1; 1; 2); (1; 1; 3); (1; 1; 4); (1; 1; 5); (1; 1; 6);(3; 4; 1); (3; 4; 2); (3; 4; 3); (3; 4; 4); (3; 4; 5); (3; 4; 6)g :

2.1.1 Funcin de probabilidad

Pasemos a denir buenas maneras de medir el tamao relativo de cada suceso dentro del espacio

muestral.

Denicin 2.1.4. Dado un espacio muestral (no vaco), se dene el lgebra de sucesos Acomo el conjunto formado por todos los sucesos de .

Obsrvese que, en particular, ;; 2 A; adems, si A 2 A tambin Ac 2 A, y si A; B 2 A,tambin lo estn A [B y A \B. Si escribimos A 2 A, leeremos A es un suceso en .

Denicin 2.1.5. Un modelo o funcin de probabilidad en un espacio muestral , es unafuncin P : A ! [0; 1] que a cada suceso A 2 A le asocia un nmero entre 0 y 1, y que satisfacelas propiedades:

1. P () = 1;

2. si A1; A2; : : : ; Ak son sucesos incompatibles, entonces

P

k[i=1

Ak

=

kXi=1

P (Ak) :

Se tienen las siguientes propiedades de las funciones de probabilidad:

1. Para cualquier A 2 A, P (Ac) = 1 P (A). En particular P (;) = 0.2. Para cualesquiera A; B 2 A: P (A [B) = P (A) + P (B) P (A \B).En particular P (A [B) P (A) + P (B).3. Para cualesquiera A; B 2 A: si B A entonces P (B) P (A).4. Para cualquier coleccin nita A1; A2; : : : ; An 2 A:

P

n[i=1

Ai

=

nXi=1

P (Ai)Xi


Ejemplo 19 Sigamos con el experimento aleatorio de tirar tres dados de colores. El modelo de

probabilidad natural es el que a cada suceso elemental, f(a; b; c)g, le asigna la misma probabilidad.Decimos en este caso que son equiprobables. Cul es la funcin de probabilidad as determinada?

Es fcil ver que todo suceso A de este experimento es un conjunto nito.Si A = fv1; : : : ; vkg , es decir jAj = k, puesto que todos los sucesos elementales son equipro-bables, y por supuesto son incompatibles, la propiedad 2 que debe vericar la funcin de probabilidad

obliga a que:

P (A) = P (fv1g [ : : : fvkg) =kXi=1

P (fvig) = k p

donde p es la probabilidad de cada suceso elemental (que es la misma para todos). Cul es estaprobabilidad p comn a todos los sucesos elementales? La propiedad 1 nos da la solucin:

P () = 1 = 216 p por lo dicho arriba

luego p = 1=216. En otras palabras:

P (A) =jAjjj ;

lo que nos da una frmula general de un modelo de probabilidad en un espacio muestral discreto,cuando suponemos que todos los sucesos elementales son equiprobables. Esta frmula no es ms que

la conocida regla de Laplace:

P (A) =casos favorables

casos totales

:

Pero cuidado, podemos construir otros modelos de probabilidad distintos. Basta asignarles dis-

tintas probabilidades a los sucesos elementales, aunque claro cindonos a la propiedad 1: P () = 1.Supongamos que el dado blanco est trucado y la probabilidad de obtener 6 es el doble que lade obtener cualquier otro resultado. Los otros dados son perfectos, por lo que asignaremos a cada

resultado la misma probabilidad.

Es fcil ver que, en este caso:

P (f(a; b; c)g) =

; si c = 1; 2; 3; 4; 52; si c = 6 :

Para determinar el valor de , obsrvese que:

1 = P () = 5( 36) + 2 36 = 180+ 72 = 252 ;

pues cada posible valor jo de c ocurre en 36 elementos de . As, = 1=252.

Calculemos las probabilidades de los sucesos A1, A2, A3 y A6 del Ejemplo 16, utilizando ambosmodelos de probabilidad:

P1(f(a; b; c)g) = 1216

P2(f(a; b; c)g) =(

1252

; si c = 1; 2; 3; 4; 51126

; si c = 6 :

2.2. PROBABILIDAD CONDICIONADA 33

A1 = f(2; 5; 1); (2; 5; 2); (2; 5; 3); (2; 5; 4); (2; 5; 5); (2; 5; 6)gP1(A1) =

6

216=

1

36

P2(A1) = 51

252+

1

126=

7

252=

1

36;

A2 = f(1; 2; 1); (1; 2; 2); (1; 2; 3); (1; 2; 4); (1; 2; 5); (1; 2; 6);(2; 1; 1); (2; 1; 2); (2; 1; 3); (2; 1; 4); (2; 1; 5); (2; 1; 6)g

P1(A2) =12

216=

1

18

P2(A2) = 101

252+ 2

1

126=

14

252=

1

18;

A3 = f(1; 3; 1); : : : ; (1; 3; 6); (2; 4; 1); : : : ; (2; 4; 6);(3; 5; 1); : : : ; (3; 5; 6); (3; 1; 1); : : : ; (3; 1; 6);

(4; 6; 1); : : : ; (4; 6; 6); (4; 2; 1); : : : ; (4; 2; 6);

(5; 3; 1); : : : ; (5; 3; 6); (6; 4; 1); : : : ; (6; 4; 6)gP1(A3) =

48

216=

2

9

P2(A3) = 401

252+ 8

1

126=

56

252=

2

9;

A6 = f(1; 1; 2); (1; 2; 3); (2; 1; 3); (1; 3; 4); (2; 2; 4); (3; 1; 4);(1; 4; 5); : : : ; (4; 1; 5); (1; 5; 6); : : : ; (5; 1; 6)g

P1(A6) =15

216=

5

72

P2(A6) = (1 + 2 + 3 + 4)1

252+ 5

1

126=

20

252=

5

63:

Sabras explicar las coincidencias y diferencias que hemos obtenido?

2.2 Probabilidad condicionada

Hay ocasiones en que al realizar un experimento aleatorio nos interesar saber si el hecho de que

ocurra un suceso A aporta alguna informacin sobre la ocurrencia de otro suceso B. Esta cuestinse recoge en el concepto de probabilidad condicionada.

Denicin 2.2.1. Dado un espacio muestral , un modelo de probabilidad, P , denido en su l-gebra de sucesos A, y un suceso A 2 A con P (A) > 0, llamaremos probabilidad de B 2 Acondicionada por A, y la denotaremos P (BjA), al cociente:

P (BjA) = P (A \B)P (A)

:

Siempre que hablemos de probabilidades condicionadas por un suceso A se entender que P (A) > 0.

Denicin 2.2.2. Diremos que dos sucesos A y B son independientes si

P (A \B) = P (A) P (B) :


Ejercicio 1 Demostrar que: A y B son independientes () P (BjA) = P (B).

Ejemplo 20 Siguiendo con nuestro experimento aleatorio, determinar la independencia de los suce-

sos

A = f(a; b; c) : a+ b = 5gB = f(a; b; c) : c = 6g ;

considerando las dos funciones de probabilidad del Ejemplo 19:

P1(f(a; b; c)g) = 1216

P2(f(a; b; c)g) =(

1252

; si c = 1; 2; 3; 4; 51126

; si c = 6 :

Para la primera funcin de probabilidad tenemos:

P1(A) =24

216=

1

9

P1(B) =36

216=

1

6

P1(A \B) = 4216

=1

54=

1

9

1

6= P1(A) P1(B)

luego son independientes.

Para la segunda funcin de probabilidad, tenemos:

P2(A) =20

252+

4

126=

1

9

P2(B) =36

126=

2

7

P2(A \B) = 4126

=2

63=

1

9

2

7= P2(A) P2(B)

luego son independientes.

Sern siempre independientes estos dos sucesos? No, pues la independencia es un concepto que

depende de la funcin de probabilidad. Consideremos la funcin de probabilidad

P3(f(a; b; c)g) =

si c 6= a+ b2 si c = a+ b :

Al imponer P3() = 1 resulta que =1231, puesto que hay 15 sucesos elementales en que c = a+ b,y 216 15 = 201 en que c 6= a+ b. As este modelo de probabilidad viene determinado por:

P3(f(a; b; c)g) =(

1231si c 6= a+ b

2231si c = a+ b :

2.3. CLCULO DE PROBABILIDADES 35

Entonces:

P3(A) = 42

231+ 20

1

231=

28

231

P3(B) = 52

231+ 31

1

231=

41

231

P3(A \B) = 4 1231

=4

2316= P3(A) P3(B) = 41 28

231 231 =41 7231

4

231;

por lo que para esta funcin de probabilidad A y B no son independientes.Podemos, nalmente, comprobar la equivalencia de la denicin de independencia con el concepto

de probabilidad condicionada. En efecto:

P1(BjA) =421619

=36

216=

1

9= P1(B) ; P2(BjA) =

421619

=36

216=

1

9= P2(B) ;

P3(BjA) =423128231

=1

76= 41

231= P3(B) :

2.3 Clculo de probabilidades

Vamos a dar, por ltimo, tres reglas tiles para el clculo de probabilidades.

Regla de la multiplicacin

P

n\i=1

Ai

= P (A1)P (A2jA1)P (A3jA1 \ A2) P

Anj

n1\i=1

Ai

:

Por supuesto se consideran no nulas todas las probabilidades de los sucesos a los que condicionamos.

La comprobacin de esta regla es sencilla: basta desarrollar el segundo miembro y ver que se van

cancelando todos los trminos salvo PTn

i=1Ai. Por ejemplo, para 4 sucesos A1; A2; A3 y A4, con

P (A1), P (A1 \ A2) y P (A1 \ A2 \ A3) no nulas:

P (A2jA1) = P (A1 \ A2)P (A1)

=) P (A1)P (A2jA1) = P (A1 \ A2)P (A3jA1 \ A2) = P (A1 \ A2 \ A3)

P (A1 \ A2)=) P (A1)P (A2jA1)P (A3jA1 \ A2) = P (A1 \ A2 \ A3)

P (A4jA1 \ A2 \ A3) = P (A1 \ A2 \ A3 \ A4)P (A1 \ A2 \ A3)

=) P (A1)P (A2jA1)P (A3jA1 \ A2)P (A4jA1 \ A2 \ A3) = P (A1 \ A2 \ A3 \ A4) :Usaremos esta regla cuando queramos calcular la probabilidad de ocurrencia simultnea de varios

sucesos y sean ms sencillas de determinar las probabilidades condicionadas del segundo miembro.

Regla de la probabilidad total

Sea A1; : : : ; An una familia completa de sucesos, es decir, tales que:

1.

nSi=1

Ai = ;


2. Ai \ Aj = ;, siempre que i 6= j;con P (Ai) > 0 para i = 1; : : : ; n. Entonces:

P (B) =nXi=1

P (Ai)P (BjAi) :

Ejercicio 2 Comprobar la regla de la probabilidad total.

Regla de Bayes

Sea A1; : : : ; An una familia completa de sucesos con P (Ai) > 0 para i = 1; : : : ; n. Entonces:

P (AjjB) = P (Aj)P (BjAj)Pni=1 P (Ai)P (BjAi)

En el uso de las dos ltimas reglas, llamaremos probabilidades a priori a las de los sucesos Aj;probabilidades a posteriori a las de los sucesos AjjB; y verosimilitudes a las de BjAi. La regla deBayes nos permite, pues, calcular cualquier probabilidad a posteriori, conociendo las verosimilitudes

y probabilidades a priori pertinentes.

Obsrvese tambin que el denominador que aparece en la Regla de Bayes es P (B), por la reglade la Probabilidad total. El uso de ambas reglas ser especialmente til cuando se den las siguientes

circunstancias:

a) El experimento aleatorio se puede separar en dos etapas.

b) Es sencillo dar una familia completa nita de sucesos, A1; : : : ; An, correspondientes a sucesosde la primera etapa.

c) Son fcilmente calculables las probabilidades a priori: P (A1); : : : ; P (An).

d) Es fcil calcular las verosimilitudes P (BjA1); : : : ; P (BjAn), para un suceso B correspondientea la segunda etapa.

Aplicaremos estas reglas en los ejercicios propuestos al nal del captulo.

Recogemos por ltimo, las frmulas clsicas de la Combinatoria:

Variaciones: Vm;n = m(m 1)(m 2) (m n+ 1) = m!(m n)! ;

Combinaciones: Cm;n =

m

n

=

m!

n!(m n)! =Vm;nn!;

Permutaciones: Pm = m!;

Variaciones con repeticin: V Rm;n = mn;

Combinaciones con repeticin: CRm;n = Cm+n1;n1 =m+ n 1n 1

;

Permutaciones con repeticin: PRh1;h2;:::;hkm =m!

h1!h2! hk! .

Recurdese que n! = n(n 1)(n 2) 3 2 1, y que 0! = 1.

2.3. CLCULO DE PROBABILIDADES 37

Problemas

1. Demostrar que si A y B son sucesos independientes, entonces:

(a) sus contrarios, Ac y Bc, tambin lo son;

(b) A y Bc son independientes.

2. Se tiran n veces dos dados equilibrados. Calcular la probabilidad de que se obtenga al menosun seis doble. Sea p esa probabilidad, cuntas partidas habrn de jugarse para tener p = 1=2?

3. En el ascensor de un edicio con bajo y diez plantas entran en el bajo cuatro personas. Cada

persona se baja con independencia de las dems y con igual probabilidad en cada planta.

Calclese la probabilidad de que:

(a) las cuatro personas se bajen en la dcima planta;

(b) las cuatro se bajen en la misma planta;

(c) las cuatro bajen en plantas distintas.

4. Una urna contiene seis bolas rojas y cuatro negras. Se extraen dos bolas sin reemplazamiento.

Si se sabe que la primera es roja, cul es la probabilidad de que la segunda sea roja? Sabiendo

que la segunda bola ha sido negra, cul es la probabilidad de que la primera haya sido roja?

5. Un aparato elctrico falla al enchufarlo con probabilidad p. Si falla una vez se repara, pero sifalla en una segunda ocasin se sustituye por uno nuevo. Si se supone que los fallos se producen

de forma independiente, calclese la probabilidad de que el aparato sea sustituido al enchufarlo

por nsima vez.

6. Se sabe que, en cierta poblacin, el nmero de personas que padecen la enfermedad E es del 1%.Se ha investigado una prueba diagnstica que ha resultado positiva en el 97% de las personasque padecen la enfermedad E y en el 2% de las personas sanas. Calclese la probabilidad deque una persona con prueba positiva padezca realmente la enfermedad.

7. Supongamos que se clasica a los individuos de cierta especie animal en tres grupos A, B yC de distintas caractersticas biolgicas. La probabilidad de que un individuo tomado al azarpertenezca al grupo A, B o C es respectivamente 1=2, 1=3 y 1=6. La probabilidad de que unindividuo del grupo A, B o C contraiga cierta enfermedad S es respectivamente 1=10, 1=15 y1=12. Calclese la probabilidad de que:

(a) un individuo contraiga la enfermedad S;

(b) un individuo enfermo sea del grupo A;

(c) un individuo sano sea del grupo A.

8. En una estacin de autobuses hay tres ventanillas para venta de billetes. La probabilidad de

que un viajero se dirija a la primera, segunda o tercera ventanilla es respectivamente p, q y r.La probabilidad de que no queden billetes cuando el viajero llegue a la ventanilla elegida es

P , Q o R respectivamente. Calclese la probabilidad de que un viajero con billete no lo hayacomprado en la primera ventanilla.

Captulo 3

Variables aleatorias

3.1 Denicin, tipos

En ocasiones de un experimento aleatorio slo nos interesar conocer ciertas caractersticas del mismo.

En estos casos nos bastar con conocer la distribucin o modelo de probabilidad de cada caracterstica.

Ejemplo 21 Si queremos estudiar la suma de dos dados lanzados uno tras otro, de los 36 resultados(a; b), estudiaremos los 11 posibles resultados a + b. Si ninguno de los dados est trucado, nuestromodelo de probabilidad ser:

P ( Suma sea !) =

8>>>>>>>:136si a+ b = 2

236si a+ b = 3.

.

.

136si a+ b = 12

Si quisiramos estudiar tambin cunto distan, es decir jabj, tendramos 6 resultados: 0; 1; 2; 3; 4 5, con distribucin de probabilidad dada por:

P ( Distancia sea !) =

8>>>>>>>:636si ja bj = 0

1036si ja bj = 1.

.

.

236si ja bj = 5

Para ambas caractersticas estamos utilizando el mismo modelo de probabilidad sobre el espacio mues-

tral de 36 sucesos elementales: = f(1; 1); (1; 2); : : : ; (6; 5); (6; 6)g. Y este modelo de probabilidadnos permite calcular el modelo para ambas caractersticas (o cualquier otra asociada al experimento).

Denicin 3.1.1. Una variable aleatoria X es una funcin X : ! R, que a cada elemento delespacio muestral le hace corresponder un nmero real.

La idea recogida en esta denicin es que para cada suceso elemental, ! 2 , el valor X(!)representa la caracterstica que queremos estudiar.

39

40 CAPTULO 3. VARIABLES ALEATORIAS

Ejemplo 22 En el experimento del lanzamiento sucesivo de dos dados, estamos considerando las

siguientes variables aleatorias:

X = suma de los dados ;

Y = diferencia (en valor absoluto) de ambos dados :

A partir de ellas podemos denir distintos sucesos aleatorios. Por ejemplo:

A1 = f! 2 : X(!) = 5g ; A2 = f! 2 : X(!) > 7g ;A3 = f! 2 : Y (!) 4g ; A4 = f! 2 : (X Y )(!) = 6g :

Y nos interesar conocer la probabilidad de los diferentes sucesos correspondientes a una variable

aleatoria, es decir, su modelo o funcin de probabilidad.

Denicin 3.1.2. Sea X : ! R una variable aleatoria. Si A es un subconjunto de R, denimos:

P (A) = P (X 2 A) := P (f! 2 : X(!) 2 Ag) :

Ejemplo 23 De los tres primeros sucesos del ejemplo anterior, considerando que los dados no estn

trucados, tenemos que:

P (A1) =4

36=

1

9; P (A2) =

5 + 4 + 3 + 2 + 1

36=

15

36=

5

12; P (A3) = 1 2

36=

17

18; P (A4) =

7

36

que hemos calculado con las siguientes igualdades, evidentes:

P (A2) = P (X > 7)) = P (X = 8) + P (X = 9) + P (X = 10) + P (X = 11) + P (X = 12)

P (A3) = P ((Y 4)) = 1 P ((Y = 5)) :

Obsrvese el abuso de notacin, P (X > x) en lugar de P (X(!) > x) por ejemplo, que utilizaremos,para simplicar, siempre que est claro lo que queremos decir. Por ltimo, los casos ! = (a; b) en quese verica (X Y )(!) = 6 son los siete siguientes: (3; 3); (3; 4); (4; 3); (3; 5); (5; 3); (3; 6) y (6; 3).

3.2 Funcin de masa o de densidad, funcin de distribucin

Denicin 3.2.1. La funcin de distribucin de una variable aleatoria se dene como:

F (x) = P ((1; x]) = P (f! 2 : X(!) xg) para todo x 2 R :

Propiedades de las funciones de distribucin

1. lmx!1

F (x) = 0;

2. lmx!1

F (x) = 1;

3. si x1 < x2, entonces F (x1) F (x2);

3.2. FUNCIN DE MASA O DE DENSIDAD, FUNCIN DE DISTRIBUCIN 41

4. F es continua por la derecha, es decir:

lmh!0+

F (x+ h) = F (x) :

Es fcil, dada una funcin de distribucin, calcular la probabilidad de diferentes tipos de inter-

valos de la recta real. Basta tomar la denicin, P ((1; x]) = F (x) y las propiedades generales decualquier funcin de distribucin. Denotaremos por

F (x) = lmh!0+

P ((1; x h]) = P ((1; x)) :

Se tienen as las siguientes identidades:

P ((a; b]) = P ((1; b]) P ((1; a]) = F (b) F (a)P ((a; b)) = P ((1; b)) P ((1; a]) = F (b) F (a)P ([a; b]) = P ((1; b]) P ((1; a)) = F (b) F (a)P (fbg) = ((1; b]) P ((1; b)) = F (b) F (b) = salto de F en el punto b :La ltima de ellas nos dice que si la funcin de distribucin, F , tiene un salto en un punto, laprobabilidad de ese punto es positiva.

Ya hemos dicho que al estudiar una variable aleatoria nos interesar conocer su funcin de proba-

bilidad. La funcin de distribucin caracteriza completamente la de probabilidad. Ahora bien, para

los casos ms interesantes de variables aleatorias que trataremos, hay herramientas ms sencillas que

la funcin de distribucin para conocer el reparto de probabilidad. stas son: la funcin de masa,

para una variable aleatoria discreta; la funcin de densidad, si la variable aleatoria es continua.

3.2.1 Variables aleatorias discretas

Denicin 3.2.2. Una variable aleatoria, X, se dice discreta cuando slo puede tomar un nmeronito o numerable de valores x1; : : : ; xn; : : : .La funcin de probabilidad de una variable aleatoria discreta X queda totalmente caracterizadapor su funcin de masa, que nos da la probabilidad de cada uno de esos posibles valores:

P (X = xi) = P (fxig) = P (xi) = P (f! 2 : X(!) = xig) i = 1; 2; 3; : : : ; n; : : : :Se sigue de la denicin que

Pi

P (xi) = 1. La funcin de distribucin de una variable aleatoria

discreta tiene forma de escalera:

x1 x2 x3 x

F (x)

Obsrvese que la funcin de distribucin, F (x), es no decreciente (por qu?).


Ejemplo 24 Calcular la funcin de masa y la funcin de distribucin de la variable aleatoria

X =suma de los dados, en el experimento de tirar sucesivamente dos dados no trucados.

Solucin: El espacio muestral tiene 36 elementos:

= f(1; 1); (1; 2); : : : ; (6; 5); (6; 6)g :

La variable aleatoria X, es una funcin del espacio muestral en R que slo toma los 11 valores en-teros: 2; 3; : : : ; 12. Puesto que los dados no estn trucados, los sucesos elementales son equiprobables,y as:

P (f(a; b)g) = 136

; para cualquier (a; b) 2 :Puesto que podemos contar cuntos elementos de hay en cada uno de los sucesos X = 2, X = 3,

: : : , X = 12, conocemos la funcin de masa de la variable X. La siguiente tabla de valores, determinacompletamente la funcin de masa de X:

xi 2 3 4 5 6 7 8 9 10 11 12

P (X = xi)1

36

2

36

3

36

4

36

5

36

6

36

5

36

4

36

3

36

2

36

1

36

Obsvese que

1 + 2 + 3 + 4 + 5 + 6 + 5 + 4 + 3 + 2 + 1

36= 1 :

Por su parte la funcin de distribucin, F : R ! [0; 1], viene dada por:

F (x) = 0 si x < 2 ; F (x) = 1 si x 12

y para 2 x < 12, va subiendo de 0 a 1 paulatinamente creando una grca con escalones horizontalesentre cada dos enteros consecutivos, con los saltos en cada entero determinados por la funcin de

masa (dibujar la grca).

3.2.2 Variables aleatorias continuas

Denicin 3.2.3. Una variable aleatoria, X, se dice continua cuando puede tomar cualquierade los valores de un intervalo. La funcin de probabilidad de una variable aleatoria continua queda

caracterizada por su funcin de densidad, que es una funcin f : R ! R vericando:1. f(x) 0, para todo x 2 R;

2.

ZRf(x) dx = 1.

La probabilidad de un suceso, A, relativo a una variable aleatoria continua, X, con funcin dedensidad f se calcula mediante la frmula:

P (A) =

ZA

f(x) dx

3.2. FUNCIN DE MASA O DE DENSIDAD, FUNCIN DE DISTRIBUCIN 43

Conviene resaltar que para una variable aleatoria continua X, los sucesos unitarios, A = ftg, tienenprobabilidad 0 pues:

P (ftg) =Zftg

f(x) dx = 0 :

Este hecho viene a decir que si X es una variable aleatoria continua, la probabilidad de que X tomeun valor particular es nula: P (X = t) = P (ftg) = 0. Como consecuencia, la funcin de distribucinno tiene saltos, es decir, es continua.

La funcin de distribucion se obtiene a partir de la funcin de densidad:

F (x) = P ((1; x]) =Z x1

f(t) dt :

Adems, en los puntos en que F (x) es derivable:

f(x) = F 0(x) :

Ejemplo 25 Sea un segmento OA de longitud 5. Cul es la probabilidad de que un punto B,situado al azar en OA, se encuentre en un segmento CD de OA? Cul es la funcin de densidad dela distancia OB?Solucin: El conjunto de sucesos es no numerable. La probabilidad de que B sea un puntocualquiera del segmento CD, es nula. La probabilidad de que B est sobre CD se dene mediantela razn de las longitudes: CD=OA. Modelizaremos el experimento tomando OA sobre el intervalo[0; 5] de la recta real:

O = 0

A = 5

C

D

B

U q

Podemos denir la funcin de distribucin de la variable aleatoria continua X =distancia OB ,de manera que sea igual a 1 cuando B est en A:Z 5

0

f(x) dx = 1 :

Puesto que el punto B se sita al azar en el intervalo OA, la distribucin es uniforme sobre OA, esdecir, la funcin de densidad es constante, y as:

f(x) =

(0 si x =2 [0; 5]1

5si x 2 [0; 5] =) F (x) =

8>>>:0 si x < 0Z x

0

1

5dt =

x

5si x 2 [0; 5]

1 si x 5 :

x

f(x)

15

x

F (x)


3.3 Esperanza: media y varianza

Con frecuencia de los experimentos aleatorios que estudiemos, podremos realizar un estudio es-

tadstico previo. Para ello, se toma cierta muestra, realizando varias veces el experimento, y se

recogen datos sobre distintas caractersticas del mismo. El objetivo ltimo es adaptar, para las dis-

tintas caractersticas del experimento (variables aleatorias), modelos de probabilidad tericos que

nos permitan predecir el comportamiento real (su probabilidad) de estas caractersticas. De los datos

tomados se calcularn ciertas medidas que nos darn idea de la distribucin de cada una de las

caractersticas objeto de estudio.

Destacamos entre estas la media (medida de centralizacin), la varianza y la desviacin

tpica (medidas de dispersin). En esta seccin deniremos los conceptos anlogos a estas medidas

de la Estadstica.

Denicin 3.3.1. Dada una variable aleatoria discreta, X, con funcin de masa P (xi), i = 1; 2; : : : ,se dene su media o esperanza como:

= E[X] =Xi

xiP (xi) :

De manera anloga, si X es una variable aleatoria continua, con funcin de densidad f(x), sedene su media o esperanza como:

= E[X] =

ZRxf(x) dx :

Pasemos a las medidas de dispersin (en el captulo de Estadstica vimos la utilidad de estas

medidas).

Denicin 3.3.2. La varianza de una variable aleatoria discreta, X, con funcin de masa P (xi)y media se dene como:

2 = V [X] = E[(X )2] =Xi

(xi )2P (xi) :

Anlogamente, la varianza de una variable aleatoria continua, X, con funcin de densidad f(x)media se dene como:

2 = V [X] = E[(X )2] =ZR(x )2f(x) dx :

La desviacin tpica, , de una variable aleatoria se dene como la raz cuadrada positiva desu varianza.

Ejercicio 1 Demostrar, en los casos discreto y continuo, la siguiente identidad para la varianza de

una variable aleatoria:

2 = E[X2] 2

3.3. ESPERANZA: MEDIA Y VARIANZA 45

Solucin: Si X es una variable aleatoria discreta con funcin de masa P (xi), desarrollando elcuadrado y simplicando, se obtiene:

2 =Xi

(xi )2P (xi)

=Xi

(x2i 2xi+ 2)P (xi)

=Xi

x2iP (xi) 2 X

i

xiP (xi)+ 2 X

i

P (xi)

= E[X2] 22 + 2 = E[X2] 2 :

En el caso continuo, desarrollando el cuadrado y simplicando, se obtiene:

2 =

ZR(x )2f(x) dx

=

ZRx2f(x) dx 2

ZRxf(x) dx

+ 2

ZRf(x) dx

= E[X2] 22 + 2 = E[X2] 2 :

Ejemplos

Ejemplo 26 Una persona participa en un concurso de televisin con las siguientes reglas:

Si contesta correctamente a una pregunta con cinco respuestas posibles (slo una correcta) gana10 000e.

En caso contrario se le propone una segunda pregunta con tres respuestas posibles (slo unacorrecta). Si acierta gana 1 000e.

Si tampoco acierta la segunda respuesta, se le propone una tercera con dos respuestas posibles(slo una correcta). Si acierta no gana nada, pero si falla debe pagar 500e.

El juego termina cuando la persona acierta o tras fallar la tercera pregunta. Si un concursante contesta

al azar, calclese:

a) probabilidad de que obtenga una respuesta correcta;

b) la ganancia esperada;

c) E[X] y V [X], siendo X el nmero de preguntas propuestas al concursante.

Solucin: Sea Ai el suceso el concursante responde correctamente la cuestin i-sima, i = 1; 2; 3.Los sucesos A1, A2 y A3 son independientes.

a) La probabilidad de que una respuesta sea correcta es:

P (A1) + P (A2)P (Ac1) + P (A3)P (A

c1)P (A

c2) =

1

5+

1

3 45+

1

2 45 23=

11

15:


b) Sea Y la variable aleatoria ganancia . Es claro que esta variable toma los valores:

y1 = 10 000 con P (y1) =1

5;

y2 = 1000 con P (y2) =4

5 13=

4

15;

y3 = 0 con P (y3) =4

5 23 12=

4

15;

y3 = 500 con P (y3) = 45 23 12=

4

15:

Por tanto, la ganancia esperada es:

E[Y ] = 10 000 15+ 1 000 4

15+ 0 4

15 500 4

15= 2 133:33e :

c) La variable aleatoria X puede tomar los valores:

x1 = 1 con P (X = 1) = P (A1) =1

5;

x2 = 2 con P (X = 2) = P (A2)P (Ac1) =

1

3 45=

4

15;

x3 = 3 con P (X = 3) = P (Ac2)P (A

c1) =

2

3 45=

8

15:

As:

= E[X] =3Xi=1

xiP (xi) = 1 15+ 2 4

15+ 3 8

15=

35

15= 2:33 ;

V [X] = E[X2] 2 =3Xi=1

x2iP (xi) 2

= 1 15+ 4 4

15+ 9 8

1535

15

2=

91

15 1225

225=

1365 1225225

=140

225=

28

45= 0:622 :

Ejemplo 27 La longitud de ciertos tornillos en centmetros se distribuye segn la funcin de densi-

dad:

f(x) =

( 34(x 1)(3 x) si x 2 [1; 3]

0 si x =2 [1; 3] :i) Calclese E[X] y [X].

ii) Si los tornillos son vlidos slo si su longitud est entre 1:7 y 2:4 cm., calclese la probabilidadde que un tornillo sea vlido.

3.4. VARIAS VARIABLES 47

Solucin: i) Aplicamos directamente las frmulas a la variable aleatoria continua X =longitud deltornillo, que tiene funcin de densidad f(x):

E[X] =Z 31

34x(x 1)(3 x) dx = 3

4

Z 31(3x+ 4x2 x3) dx

=34

3

2(9 1) + 4

3(27 1) 1

4(81 1)

=

34

12 + 104

3 20

=

34 83= 2 ;

E[X2] =34

Z 31(3x2 + 4x3 x4) dx = 3

4

(27 1) + (81 1) 1

5(243 1)

=

34

26 + 80 242

5

=

34 285

=215

2[X] = E[X2] 2 = 215 4 = 1

5

[X] =

r15=p55

= 0:447 :

ii) Nos piden calcular P (1:7 < x < 2:4), que, por denicin, es:

P (1:7 < x < 2:4) =Z 2:41:7

f(x) dx =34

Z 2:41:7

(3 + 4x x2) dx

=34 3(2:4 1:7) + 2(2:42 1:72) 1

3(2:43 1:73)

=

34 2:1 + 5:74 1

38:911

=

1410:92 8:911

=

2:0094

= 0:50225 :

3.4 Varias variables

En un mismo experimento aleatorio podemos considerar distintas variables aleatorias: X1; X2; : : : .En ocasiones interesar considerar sucesos determinados por valores referidos a varias de ellas, en cuyo

caso tendremos que mezclar adecuadamente la informacin de las variables individuales.

En el mejor de los casos la informacin de cada variable no inuir en la de las dems. Diremos

que estamos ante variables independientes. Cuando esto no sea as, tendremos una relacin entre

ellas ms o menos fuerte. La covarianza de dos variables aleatorias es un nmero que nos mide

esta posible relacin.

Denicin 3.4.1. (Vectores aleatorios) Un vector aleatorio (o variable aleatoria de dimensin n)es una funcin

(X1; : : : ; Xn) : ! Rn :que a cada elemento ! del espacio muestral le hace corresponder n nmeros reales X1(!); : : : ; Xn(!).


Ejemplo 28 En el experimento tirar dos dados perfectos sucesivamente, se considera el vector

aleatorio

(X; Y ) : ! R2que dado un elemento ! = (a; b) nos devuelve:

(X; Y )(!) = (a+ b; ja bj) :

En el concurso televisivo del Ejemplo 26, se considera el vector aleatorio

(X; Y ) : ! R2

que a cada elemento del espacio muestral, !, le asocia:

(X; Y )(!) = ( preguntas propuestas al concursante ; ganancia del concursante ) :

En la produccin de tornillos del Ejemplo 27, consideramos el vector aleatorio

(X;Y; Z) : ! R3

que al tomar cada tornillo ! 2 , nos dice:(X; Y; Z)(!) = ( su longitud ; dimetro de la cabeza ; longitud de la rosca ) :

En lo que sigue deniremos los conceptos anlogos al caso de una variable aleatoria para vectores

aleatorios de dimensin 2. El caso ndimensional es la generalizacin natural del de dimensin 2.Adems, al considerar vectores aleatorios de la forma:

(X; Y ) : ! R2

podremos hacer representaciones sobre el plano, ganando en claridad a la hora de asimilar los con-

ceptos.

Denicin 3.4.2. Si A es un subconjunto de R2 descrito como conjunto de posibles valores del vectoraleatorio (X; Y ) : ! R2, denimos:

P (A) = P ((X; Y ) 2 A) = P (f! 2 : (X(!); Y (!)) 2 Ag) :Denicin 3.4.3. La funcin de distribucin de un vector aleatorio (X; Y ) se dene como:

F (x; y) = P (f(s; t) 2 R2 : s x; t yg)= P (f! 2 : X(!) x; Y (!) yg) para todo (x; y) 2 R2 :Las propiedades de las funciones de distribucin de un vector aleatorio son, en cierto modo,

parecidas al caso de una variable. Sin embargo son menos manejables, de manera que utilizaremos

las funciones de masa conjunta o de densidad conjunta, para el clculo de probabilidades.

Ejercicio 2 Calcular la funcin de distribucin del vector aleatorio

(X; Y ) : ! R2

correspondiente al concurso televisivo del Ejemplo 28.

3.4. VARIAS VARIABLES 49

3.4.1 Densidad conjunta

Denicin 3.4.4. Un vector aleatorio (X; Y ) es discreto cuando slo puede tomar un nmeronito o numerable de valores. El modelo de probabilidad conjunta de un vector aleatorio

(X; Y ) discreto queda caracterizado por la funcin de masa conjunta:

P (X = xi; Y = yj) = P (f! 2 : X(!) = xi; Y (!) = yjg) i = 1; : : : ;m ; j = 1; : : : ; n :

Cuando est claro por el contexto, utilizaremos la siguiente notacin: pi;j = P (X = xi; Y = yj).La funcin de masa conjunta suele presentarse con una tabla de doble entrada:

X

Y

y1 yj y

Documents

Estadistica descriptiva