Libro Mate3

Licenciatura en SistemasLicenciatura en InformáticaAnalista Programador Universitario

http://www.alternativaweb.info

ProfesoraDra. María Beatriz Pintarelli

3MATEMÁTICA

VERSIÓN2010

VERSIÓN2010

INDICE

PARTE 1 - PROBABILIDAD

Probabilidad……………………………………………………………………..1

Probabilidad condicional………………………………………………………..15

Variables aleatorias discretas……………………………………………………26

Variables aleatorias discretas importantes………………………………………36

Variables aleatorias continuas…………………………………………………...56

Variables aleatorias continuas importantes……………………………………...63

Desigualdad de Chebyshev……………………………………………………...77

Variables aleatorias bidimensionales……………………………………………83

Suma de Variables aleatorias y Teorema Central del Límite…………………...110

PARTE 2 - ESTADISTICA

Estimación puntual………………………………………………………………124

Intervalos de confianza…………………………………………………………..143

Test de hipótesis………………………………………………………………....172

Regresión lineal simple…………………………………………………………..210

TABLAS ESTADISTICAS………………………………………………...236

Parte 1- Probabilidad Prof. María B. Pintarelli

1

PARTE 1 - PROBABILIDAD

1- Probabilidad

1.1 - Espacios muestrales y eventos.

La Teoría de Probabilidades estudia los llamados experimentos aleatorios.

Ejemplos clásicos de experimentos aleatorios son los juegos de azar:

a) tirar un dado y observar el número en la cara de arriba. b) tirar una moneda

c) lanzar una moneda cuatro veces y contar el número total de caras obtenidas. d) lanzar una moneda cuatro veces y observar la sucesión de caras y cecas obtenidas.

Simbolizamos con ε a un experimento aleatorio.

Un experimento aleatorio tiene las siguientes características:

1-Se lo puede repetir bajo las mismas condiciones tantas veces como se desee.

2- No se puede predecir con exactitud el resultado de dicho experimento, pero se puede decir cuá-

les son los posibles resultados del mismo.

3- A medida que el experimento se repite, los resultados individuales parecen ocurrir en forma

caprichosa. Pero si el experimento se repite un gran número de veces, y registramos la proporción

de veces que ocurre un determinado resultado, veremos que esa proporción tiende a estabilizarse

en un valor determinado a medida que aumenta el número de veces que se repite el experimento. Por ejemplo, consideremos el experimento de lanzar un dado y observar el número de la cara supe-

rior. Supongamos que tiramos el dado N veces, y sea n el número de veces que sale el número 5

en los N tiros del dado. Entonces N

n es la proporción de veces que sale el número 5 en los N tiros.

Si el dado es normal a medida que N aumenta, N

n tiende a estabilizarse en un número que es 1/6.

Observación: en los experimentos no aleatorios o deterministas se puede predecir con exactitud el

resultado del experimento, es decir, las condiciones en las que se verifica un experimento determi-nan el resultado del mismo. Por ejemplo, si colocamos una batería en un circuito simple, el modelo

matemático que posiblemente describiría el flujo observable de corriente sería I = E/R, que es la ley de Ohm. El modelo predice el valor de I al dar E y R. O sea, si se repite el experimento anterior

cierto número de veces, empleando cada vez el mismo circuito, es decir manteniendo fijas E y R,

esperaríamos observar el mismo valor de I.

A veces sucede que un experimento no es aleatorio estrictamente, pero resulta mucho más sencillo estudiarlo como si fuera aleatorio. Por ejemplo, si tiramos una moneda y observamos qué lado

queda hacia arriba, el resultado sería predecible conociendo en forma precisa las velocidades ini-ciales de traslación y rotación, y las elasticidades de los materiales del piso y de la moneda. Pero la

precisión con la que se necesitan conocer estos datos es casi imposible de obtener en la realidad, por lo que es más conveniente tratar al experimento como aleatorio.

El conjunto de todos los resultados posibles de un experimento aleatorio es el espacio muestral. Al

espacio muestral lo anotamos con la letra S.

Por ejemplo,


2

a) Si ε : tirar un dado y observar el número en la cara de arriba, entonces podemos tomar co-

mo espacio muestral a { }6,5,4,3,2,1=S

b) Si ε : tirar una moneda, entonces { }scS ,=

c) Si ε : lanzar una moneda tres veces y contar el número total de caras obtenidas entonces

podemos considerar { }3,2,1,0=S

d) Siε : lanzar una moneda tres veces y observar la sucesión de caras y cecas obtenidas, en-

tonces ( ){ }),,();,,();,,();,,();,,();,,();,,(;,, ssscsccsssscccscscscccccS =

e) Si ε : tirar un dado las veces necesarias hasta que sale un 6 por primera vez, y contar el

número de tiros realizados, entonces { } NS == ,.....4,3,2,1 , donde N es el conjunto de los

números naturales.

f) Si ε : medir el tiempo de vida de una lamparita eléctrica, entonces { }0, ≥∈= tRtS donde

R es el conjunto de los números reales.

Observaciones:

1- la elección de S no es única, depende de lo que se quiera observar del experimento aleato-rio.

2- El espacio muestral puede ser un conjunto finito, o infinito. A su vez si es infinito puede ser infinito numerable o no numerable. En e) el conjunto S es infinito numerable, en f) el con-

junto S es infinito no numerable.

Se llama evento o suceso a todo subconjunto del espacio muestral. Por ejemplo,

a) En el experimento dado en el ejemplo a), un evento de S sería { }6,4,2=A pues SA ⊂ .

Podemos expresar al evento A con palabras de la siguiente manera A: “sale un

número par”

También { }3,2,1=B es un evento al que podemos expresar verbalmente como

B: “sale un número menor o igual que 3”

b) En el experimento dado en el ejemplo d), un evento de S sería

( ){ }),,();,,();,,(;,, ccscscscccccC = , el que en palabras se puede expresar como

C: “salen por lo menos dos caras” c) En el experimento dado en el ejemplo f), un evento de S sería D: “la lamparita

dura más de 1200 horas”, en notación de conjuntos { }1200 ; >∈= tRtD

Observaciones:

1- en el ejemplo a) anterior, si al tirar el dado sale el número 2, entonces podemos decir que A

ocurrió pues A∈2 . Pero también B ocurrió pues B∈2 . En cambio si al tirar el dado sale el nú-

mero 4, entonces el evento A ocurrió pero B no ocurrió, pues B∉4 .

2- el conjunto ∅ es un evento (pues el conjunto ∅ está incluido en todo conjunto, en particular

S⊂∅ ). Es el evento que nunca ocurre.

El espacio muestral S es un evento (pues todo conjunto está incluido en sí mismo), y S siempre

ocurre.

Las operaciones habituales entre conjuntos se pueden aplicar a los eventos, dando como resultado

nuevos eventos. Específicamente

1- Si A y B son eventos, entonces BA ∪ es otro evento. BA ∪ ocurre si y solo si ocurre A o si

ocurre B

2- Si A y B son eventos, entonces BA ∩ es otro evento. BA ∩ ocurre si y solo si ocurre A y ocu-

rre B


3

3- Si A es un evento CA es un evento. CA ocurre si y solo si no ocurre A

Nota: recordar que las operaciones de unión, intersec-

ción diferencia y complemento se definen de la siguien-

te manera:

1- BA ∪ es el conjunto formado por los elementos que

están en A o en B (donde el o está en sentido inclusi-

vo), en notación de conjuntos

{ }BxAxxBA ∈∨∈=∪ ;

En la figura la zona en gris simboliza BA ∪

2- BA ∩ es el conjunto formado por los elementos que están

en A y en B, en notación de conjuntos

{ }BxAxxBA ∈∧∈=∩ ;

En la figura la zona en gris simboliza BA ∩

3- CA es el conjunto formado por los elementos que están en el conjunto universal U y no están en

A, en notación de conjuntos

{ }AxUxxAC

∉∧∈= ;

La zona en gris simboliza CA

4- BA − es el conjunto formado por los elementos que están en A y no están en B, en notación de

conjuntos { }BxAxxBA ∉∧∈=− ; ,

La zona en gris simboliza BA −

Notar que CBABA ∩=−


4

Es útil recordar las siguientes propiedades sobre el álgebra de conjuntos:

1- Leyes de idempotencia

a) AAA =∪ b) AAA =∩

2- Leyes asociativas

a) CBACBA ∪∪=∪∪ )()( b) CBACBA ∩∩=∩∩ )()(

3- Leyes conmutativas

a) ABBA ∪=∪ b) ABBA ∩=∩

4- Leyes distributivas

a) )()()( CABACBA ∪∩∪=∩∪ b) )()()( CABACBA ∩∪∩=∪∩

5- Leyes de identidad

a) AA =∅∪ b) ∅=∅∩A

c) UUA =∪ d) AUA =∩

6- Leyes de complemento

a) UAA C =∪ b) ∅=∩ CAA

c) ( ) AACC = d) UU

CC=∅∅= ,

7- Leyes de De Morgan

a) ( ) CCCBABA ∩=∪ b) ( ) CCC

BABA ∪=∩

La relación de inclusión entre un conjunto y otro y las operaciones anteriores con conjuntos lleva

al siguiente

Teorema:

a) BA ⊂ es equivalente a ABA =∩ b) BA ⊂ es equivalente a BBA =∪

c) BA ⊂ es equivalente a CC AB ⊂

d) BA ⊂ es equivalente a ,∅=∩ CBA

e) BA ⊂ es equivalente a UAB C =∪

Sean A y B dos conjuntos. El conjunto producto de A y B, expresado BA× , está formado por to-

dos los pares ordenados ),( ba donde Aa ∈ y Bb ∈ , es decir

{ }BbAabaBA ∈∧∈=× );,(

Se anota al producto 2AAA =×

Por ejemplo, si { }3,2,1=A y { }8,7=B , entonces { })8,3();7,3();8,2();7,2();8,1();7,1(=× BA

El concepto de conjunto producto se extiende a un número finito de conjuntos en forma natural. El

conjunto producto de los conjuntos nAAA ,...,, 21 se anota nAAA ××× ..21 y es igual a


5

( ){ },...,n,iAaaaaAAA iinn 21 , ,,...,,.. 2121 =∈=××× , es decir es el conjunto de todas las n-uplas

( )naaa ,...,, 21 donde ii Aa ∈ para cada i.

Por ejemplo, si { }3,2,1=A , { }4,2=B , { }5,4,3=C , entonces un método conveniente para hallar el

producto CBA ×× es por medio del denominado “diagrama de árbol” que se muestra a continua-

ción, el cual se construye de izquierda a derecha.

CBA ×× consta de todas las ternas (o 3-uplas) formadas al seguir cada “camino” del árbol

Por ejemplo el camino con

trazo más grueso indicaría la

terna

(1, 4, 4)

Las operaciones de unión e intersección también se pueden generalizar a más de dos conjuntos

Si nAAA ,...,, 21 son n conjuntos, entonces

a) la unión de todos ellos se anota nAAA ∪∪∪ ..21 o también Un

i

iA1=

y es igual a

{ }in AxixAAA ∈=∪∪∪ que tal existe ;..21 , es decir un elemento x pertenece a

nAAA ∪∪∪ ..21 si x pertenece a alguno de los conjuntos iA .

De forma análoga se define la unión de una secuencia infinita de conjuntos ,..., 21 AA , y se la anota

con el símbolo U∞

=1i

iA

b) la intersección de todos ellos se anota nAAA ∩∩∩ ..21 o también In

i

iA1=

y es igual a

{ }iAxxA i

n

i

i todopara ;1

∈==

I , es decir un elemento x pertenece a In

i

iA1=

si x pertenece a todos

los conjuntos iA


6

De forma análoga se define la intersección de una secuencia infinita de conjuntos ,..., 21 AA , y se

la anota con el símbolo I∞

=1i

iA

Si A y B son dos eventos tales que ∅=∩ BA , se dice que son disjuntos o mutuamente exclu-

yentes. Es decir si A y B son mutuamente excluyentes no pueden ocurrir a la vez. Por ejemplo, si se tira un

dado y se observa el número de la cara superior, los eventos { }5,3,1=A y { }6,4,2=B son mutua-

mente excluyentes. Al tirar un dado sale un número par o un número impar, no pueden darse am-

bas cosas a la vez.

Los eventos con un solo elemento son eventos elementales o simples. Por ejemplo, volviendo al

experimento ε : tirar un dado y observar el número en la cara de arriba, y { }6,5,4,3,2,1=S , enton-

ces los conjuntos unitarios { }1 ,{ }2 ,{ }3 , { }4 , { }5 , { }6 son eventos simples. Notar que dos eventos

simples cualesquiera son mutuamente excluyentes.

Dado un evento A asociado a un experimento aleatorio ε . Supongamos que se repite n veces el

experimento ε , y anotamos An al número de veces que ocurre A en la n repeticiones de ε . Se de-

fine la frecuencia relativa de A, y se simboliza Af , al cociente n

nA . Es decir que Af es la propor-

ción de veces que ocurre A en las n repeticiones de ε .

La frecuencia relativa Af tiene las siguientes propiedades:

1- 10 ≤≤ Af

2- 1=Af si y solo si A ocurre cada vez en las n repeticiones

3- 0=Af si y solo si A no ocurre nunca en las n repeticiones

4- si A y B son dos eventos mutuamente excluyentes entonces BABA fff +=∪

Dado un evento A, se quiere asignar al mismo un número que indique qué tan probable es que A

ocurra. A ese número lo definiríamos como la probabilidad de A. En ese sentido parecería que la

frecuencia relativa Af sería una buena elección. Pero nos encontramos con el siguiente problema,

¿cuántas veces deberíamos repetir el experimento aleatorio para definir Af , es decir qué valor de n

tomaríamos?

Por ejemplo en el experimento de tirar un dado consideremos el evento A: “sale el número 4”, si

lo lanzamos 100 veces podríamos encontrar que 14=An , y si lo lanzamos nuevamente 100 veces

podría ocurrir que An sea diferente del anterior por ejemplo podría A ocurrir 20 veces. Entonces,

tendríamos dos valores diferentes para Af , 0.14 y 0.2

Se dijo antes que en un experimento aleatorio a medida que n aumenta la frecuencia relativa de A

tiende a estabilizarse en un número, pero no podemos en la práctica repetir el experimento infinitas veces.

Se quiere asignar a cada evento A un número que no dependa de la experimentación. Por este mo-

tivo procedemos como sigue:


7

Definición axiomática de probabilidad.

Sea ε un experimento aleatorio y S un espacio muestral asociado con ε . Con cada evento A aso-

ciamos un número real llamado probabilidad de A, que anotamos P(A), el cual satisface las si-

guientes propiedades básicas o axiomas

La elección de estas propiedades está motivada por las características correspondientes de la fre-cuencia relativa.

Observación: supongamos el experimento de lanzar una moneda y el espacio muestral { }scS ,= .

Notar que podemos escribir { } { }scS ∪= , es decir como unión de eventos simples. Por los axio-

mas 2 y 3 de la definición de probabilidad tenemos que

{ } { })()()(1 sPcPSP +==

Es decir { } { })()(1 sPcP += , lo que implica que { } { })(1)( sPcP −= . No podemos deducir el valor

de { }( )cP ni el valor de { }( )sP de las propiedades anteriores. Necesitamos información adicional,

por ejemplo si el dado es normal. De ser así podemos plantear que { } { })()( sPcP = , entonces

{ } { }

{ } { }{ } { } 5.0)()(

)()(

)()(1==⇒

=

+=sPcP

sPcP

sPcP

Podemos deducir de los axiomas otras propiedades útiles para el cálculo de probabilidades.

Propiedades de la probabilidad

1- 0) ( =∅P

Dem.) Siendo A un evento cualquiera podemos escribir AA =∅∪

Además A y ∅ son mutuamente excluyentes, por lo tanto por axioma 3

) P(P(A)) ()( ∅+=∅∪= APAP

O sea que

0) P() P(P(A))( =∅⇒∅+=AP

2- Si CA es el evento complementario de A , entonces )(1)( APAP C−=

1- 1)(0 ≤≤ AP

2- 1)( =SP

3- Si A y B son eventos mutuamente excluyentes entonces )()()( BPAPBAP +=∪

4- Si ,...,,...,, 121 +nn AAAA es una secuencia de eventos tales que

jiAA ji ≠∅=∩ si , entonces ∑∞

=

∞

=

=11

)()(i

i

i

i APAP U


8

Dem.) Si A es un evento cualquiera, entonces podemos escribir SAA C=∪

Además, por definición de complemento de un conjunto, A y CA son mutuamente excluyentes.

Por lo tanto, por axioma 2 y por axioma 3

)()()(1 CAPAPSP +==

Despejando

)(1)( APAP C−=

3-

Dem.) Sean A y B dos eventos tales que BA ⊂ .

De la figura vemos que )( CABAB ∩∪=

Y además A y CAB ∩ son mutuamente

excluyentes. Entonces

)()()( CABPAPBP ∩+=

Y como por axioma 1 tenemos que 0)( ≥∩C

ABP , entonces )()( APBP ≥

4-

Dem.) Siguiendo los pasos de la demostración anterior llegamos a

)()()( CABPAPBP ∩+= , lo que implica que )()()( APBPABP

C−=∩

Y como ABAB C−=∩ , entonces )()()( APBPABP −=− .

Observación: en general vale la siguiente propiedad )()()( BAPBPABP ∩−=−

5- Si A y B son dos eventos cualesquiera, entonces

)()()()( BAPBPAPBAP ∩−+=∪

CAB ∩

AB −

BA ∩

Si BA ⊂ , entonces )()()( APBPABP −=−

Si BA ⊂ entonces )()( BPAP ≤


9

Dem.) Escribimos a BA ∪ como unión de partes disjuntas de la siguiente manera, (observar la

figura)

)( CBABBA ∩∪=∪

(1) )()()( CBAPBPBAP ∩+=∪∴

Y por la observación anterior

(2) )()()()( BAPBPABPABP C∩−=−=∩

Por lo tanto, reemplazando (2) en (1):

)()()()( BAPAPBPBAP ∩−+=∪

Con lo que queda demostrada la propiedad.

Observaciones:

1- La propiedad anterior se puede generalizar para expresar la probabilidad de tres eventos

)()()()()()()()( CBAPCBPCAPBAPCPBPAPCBAP ∩∩+∩−∩−∩−++=∪∪

Se llega a la igualdad anterior escribiendo DBA =∪ y aplicando la propiedad 5, es decir:

(3) ))(()()(

)()()()()(

CBAPCPBAP

CDPCPDPCDPCBAP

∩∪−+∪=

=∩−+=∪=∪∪

Nuevamente aplicamos 5: )()()()( BAPAPBPBAP ∩−+=∪

Y además, aplicando las leyes distributivas ( ) ( ) ( )CBCACBA ∩∪∩=∩∪

Entonces:

( )( ) ( ) ( )( ) ( ) ( ))()()( CBCAPCBPCAPCBCAPCBAP ∩∩∩−∩+∩=∩∪∩=∩∪

Como ( ) ( ) CBACBCA ∩∩=∩∩∩ , reemplazando en (3) se llega a :

)()()()()()()()( CBAPCBPCAPBAPCPBPAPCBAP ∩∩+∩−∩−∩−++=∪∪

En general, se puede probar que si nAAA ,...,, 21 son n eventos cualesquiera entonces

)....()1(.....)()()()( 21

1

11

n

kji

n

kji

n

i ji

jii

n

i

i AAAPAAAPAAPAPAP ∩∩∩−+−∩∩+∩−= ∑∑ ∑<<

−

= <=

U

2- Si nAAA ,...,, 21 son n eventos tales que jiAA ji ≠∅=∩ con entonces ∑==

=n

i

i

n

i

i APAP11

)()(U

Notar que la igualdad anterior es una generalización del axioma 3.

CBA ∩

BA ∩


10

1.2 - El espacio muestral finito

Sea ε un experimento aleatorio y S un espacio muestral asociado a ε . Supongamos que S es un

conjunto finito al que anotamos { }naaaS ,...,, 21= , es decir consideramos que tiene n elementos.

Podemos escribir a S como unión de eventos elementales de la siguiente forma.

Si { }ii aA = entonces nAAAS ∪∪∪= ...21 . Además sabemos que 1)( =SP , por lo tanto tene-

mos el resultado:

1)(...)()( 21 =+++ nAPAPAP (4)

Es decir: la suma de las probabilidades de los eventos elementales es igual a 1

Si ahora tomamos un evento cualquiera B de S, lo anotamos { }kiii aaaB ,...,,

21= , entonces pode-

mos escribir a B como unión de eventos simples: kiii AAAB ∪∪∪= ...

21. Por lo tanto

)(...)()()...()(2121 kk iiiiii

APAPAPAAAPBP +++=∪∪∪=

Es decir para calcular la probabilidad de B se suman las probabilidades de los eventos elemen-

tales que lo componen.

Si asumimos que pAPAPAP n ==== )(...)()( 21 , es decir todos los eventos elementales tienen la

misma probabilidad de ocurrir, entonces reemplazando en (4):

Sn

pnpppp

pn #

11 1 1...

veces

==⇒=⇒=+++4434421

Donde el símbolo #S se lee: número de elementos de S, (en general #S indica el cardinal de S)

Cuando pAPAPAP n ==== )(...)()( 21 , se dice que S es equiprobable.

Si B es un evento cualquiera de S, lo anotamos { }kiii aaaB ,...,,

21= ( o sea que #B = k), entonces

escribimos a B como unión de eventos simples: kiii AAAB ∪∪∪= ...

21, y nuevamente

)(...)()()...()(2121 kk iiiiii APAPAPAAAPBP +++=∪∪∪=

Como ya vimos que n

AP i

1)( = para todo i=1,2,…,n, se tiene que:

S

B

n

k

nnnAPAPAPBP

k

iii k #

#1...

11)(...)()()(

veces

21==+++=+++=

44 344 21

Es decir si B es un evento de un espacio muestral equiprobable entonces S

BBP

#

#)( =


11

Ejemplos:

1- Supongamos que se tira una moneda normal tres veces, y se cuenta el número de caras obtenido

luego de los tres tiros. Tomemos como espacio muestral a { }3,2,1,0=S

¿Cuál es la probabilidad de que salgan al menos dos caras?

En este caso S no es equiprobable, pues

el evento { }0 ocurre de una sola forma: cuando en los tres tiros sale ceca

El evento { }3 ocurre de una sola forma: cuando en los tres tiros sale cara

Pero el evento { }1 ocurre cuando en los tres tiros sale una sola cara y eso puede darse de tres

formas distintas ),,( o ),,( );,,( csccssssc

Análogamente para el evento { }2 puede darse de tres formas distintas:

),,( o ),,( );,,( ccscscscc

Por lo tanto { } { })3()0( PP = y { } { })2()1( PP = . Si anotamos { } { } pPP == )3()0( y

{ } { } qPP == )2()1( entonces pq 3= (5)

Además se cumple { } { } { } { } 1)3()2()1()0( =+++ PPPP (6)

Entonces de (5) y (6)

8

3 ,

8

1

122

3

1

3==⇒

=+

=⇒

=+++

=qp

qp

pq

pqqp

pq

De esta forma conocemos las probabilidades de todos los eventos elementales.

Si B: “ salen al menos dos caras” , entonces { }3,2=B

Para calcular P(B) hacemos

{ }( ) { }( ) 5.08

4

8

1

8

332)( ==+=+= PPBP

Si tomamos como espacio muestral a

( ){ }),,();,,();,,();,,();,,();,,();,,(;,, ssscsccsssscccscscscccccS =

Entonces S es equiprobable pues cada resultado (cada terna) se de una sola forma.

En este caso podemos plantear directamente 5.08

4

#

#)( ===

S

BBP

2- En el caso de espacios muestrales equiprobables es necesario recordar las técnicas de conteo

para calcular el número de elementos de un conjunto sin enumerar sus elementos. Por ejemplo:

Se tiene una urna con 15 bolillas distinguibles (pueden estar numeradas), de las cuales 10 son

blancas y 5 son rojas. Se extraen al azar dos bolillas de la urna,

a) ¿cuál es la probabilidad de extraer todas blancas?

b) ¿cuál es la probabilidad de extraer exactamente una bolilla blanca?

c) ¿cuál es la probabilidad de extraer al menos una bolilla blanca?

Supongamos que se extraen las dos bolillas sin reemplazo y no importa el orden en que son

extraídas.


12

Al decir que se extraen al azar, se entiende que el espacio muestral del experimento es equipro-

bable.

Al decir que se extraen las bolillas sin reemplazo, significa que se extrae una bolilla y sin regre-

sarla a la urna se extrae la siguiente.

El espacio muestral de este experimento se puede tomar como { } { } { }{ },...10,2,5,2;4,1=S , es de-

cir como el conjunto cuyos elementos son conjuntos, todos los conjuntos de dos elementos que

se puedan formar a partir de un conjunto de 15 elementos. Por ejemplo, el resultado { }4,1 signi-

fica que se extrajeron las bolillas 1 y 4. ¿Cuántos elementos tiene S?, recordando las técnicas de

conteo el número de elementos de S es igual al número combinatorio ( )!215!2

!15

2

15

−=

Para responder la pregunta a) anotemos A: “las dos bolillas son blancas”

Entonces S

AAP

#

#)( = . ¿Cuántos elementos tiene el conjunto A?, tantos como formas haya de

extraer dos bolillas blancas. Se tiene que ( )!210!2

!10

2

10#

−=

=A .

Por lo tanto ( )

( )7

3

!215!2

!15

!210!2

!10

2

15

2

10

#

#)( =

−

−=

==S

AAP

Veamos ahora el inciso b). Anotamos B: “se extrae exactamente una bolilla blanca” Entonces

==

2

15

1

5

1

10

#

#)(

S

BBP

Y por último el inciso c). Anotamos C: “se extrae al menos una bolilla blanca”

Podemos resolverlo de dos maneras:

La forma más fácil es calcular )( CCP donde CC : “ninguna bolilla es blanca”

21

19

21

21

2

15

2

5

1)(1)(

2

15

2

5

#

#)( =−=

−=−=⇒

== CC

C CPCPS

CCP

Otra forma de resolverlo podría ser la siguiente, escribimos 21 CCC ∪= donde

2,1 e"exactament blancas bolillas extraen se:" =iiCi

Notar que ∅=∩ 21 CC . Por lo tanto )()()( 21 CPCPCP +=

Y

==

2

15

1

5

1

10

#

#)( 1

1S

CCP ;

==

2

15

0

5

2

10

#

#)( 2

2S

CCP


13

Por lo tanto 21

19

21

9

21

10

2

15

0

5

2

10

2

15

1

5

1

10

)( =+=

+

=CP

3- Si en el ejemplo anterior importa el orden en que son extraídas las bolillas, entonces

( ) ( ) ( ) ( ) ( ){ }....2,5;1,4,.10,2,5,2;4,1=S , es decir que S es el conjunto de todos los pares ),( ba don-

de ba ≠ , por ejemplo (1,4) expresa el resultado: primero se extrajo la bolilla 1 y en segundo

término se extrajo la bolilla 2. El número de elementos de S es 15x14 = 210.

En este caso

7

3

1415

910)( =

×

×=AP ;

Para calcular la probabilidad de B hay que distinguir si la bolilla blanca se extrae primero o se

extrae en segundo término:

( )

1415

5102

1415

105510)(

×

×=

×

×+×=BP

Para calcular la probabilidad de C nuevamente podemos pensarlo de dos formas, pero si consi-

deramos 21 CCC ∪= en cada caso hay que tener en cuenta el orden en que se extraen las boli-

llas.

Es mas práctico hacer 1415

451)(1)(

×

×−=−=

CCPCP

4- Si ahora importa el orden en que son extraídas las bolillas y además la extracción se hace con re emplazo (se extrae una bolilla y se la devuelve a la urna antes de extraer la siguiente), enton-

ces S es el conjunto de pares (a,b) donde ahora puede ocurrir que a = b.

En este caso #S = 15 x 15, y calculamos

1515

1010)(

×

×=AP ;

( )1515

5102

1515

105510)(

×

×=

×

×+×=BP ;

1515

551)(1)(

×

×−=−= CCPCP

1.3 - Espacios muestrales infinitos

Sea S un espacio muestral infinito numerable es decir { }KK;;; 321 aaaS = . Como en el caso fini-

to, a cada ia asignamos un número { }( )ii aPp = tal que

0 ) ≥ipa 1 )1

=∑∞

=i

ipb

La probabilidad )(AP de un evento A es entonces la suma de las probabilidades de los eventos

elementales que lo componen.

Los únicos espacios muestrales infinitos no numerables que consideraremos son aquellos de me-

dida geométrica finita )(Sm tales como longitud, área o volumen, y en los cuales un punto se se-

lecciona al azar. La probabilidad de un evento A, esto es aquella en la que el punto seleccionado

pertenece a A, es entonces la relación entre )(Am a )(Sm , es decir

S

AAP

de longitud

de longitud)( = ó

S

AAP

de área

de área)( = ó

S

AAP

devolumen

devolumen )( =


14

Ejemplo:

En el interior de un círculo se selecciona un punto al azar. Hallar la probabilidad de que el punto

quede más cercano al centro que a la circunferencia.

Tomamos como espacio muestral a { }222 ),,( ryxyxS ≤+= , entonces

≤+=

2

22

2 ),,(

ryxyxA

Por lo tanto 4

1

2

de área

de área)(

2

2

=

==r

r

S

AAP

π

π

Observación: si

=+=

2

22

2 ),,(

ryxyxA ,

entonces 0

0

de área

de área)(

2===

rS

AAP

π , pero ∅≠A

Por lo tanto si un evento tiene probabilidad 0 eso no implica que sea el evento vacío.

r

r/2

S

A

Parte 1 – Probabilidad condicional Prof. María B. Pintarelli

15

2 - Probabilidad condicional

2.1- Definición

Supongamos el experimento aleatorio de extraer al azar sin reemplazo dos bolillas de una urna que contiene 7 bolillas rojas y 3 blancas. Asumimos que las bolillas de un mismo color son distinguibles.

Consideramos los eventos A: “la primer bolilla extraída es blanca”, y B: “la segunda bolilla extraída es

blanca”.

El espacio muestral S se puede pensar como el conjunto

{ }bababaS ≠=== ;10,...2,1 ;10,...2,1 );,( y 910# ×=S .

Es claro que 10

3

910

93)( =

×

×=AP . Pero si queremos calcular )(BP no es tan directo. Podemos calcular

la probabilidad de B sabiendo que A ocurrió: es igual a 9

2, ya que si A ocurrió, entonces en la urna

quedaron 9 bolillas de las cuales 2 son blancas. La probabilidad anterior la anotamos )/( ABP y se lee:

probabilidad condicional de B dado A. Es decir 9

2)/( =ABP .

Notar que podemos interpretar lo anterior de la siguiente forma: el espacio muestral original S se ha

reducido al evento A, es decir se toma a A como nuevo espacio muestral para calcular la probabili-dad de B.

También podemos interpretar que la probabilidad condicional de B dado A debería ser la proporción de

veces que ocurre BA ∩ con respecto al número de veces que ocurre A. Pensando en términos de

frecuencia relativa: A

BA

n

nABP ∩≈)/( .

Esta idea motiva la siguiente definición:

Sean A y B dos eventos de un espacio muestral S. La probabilidad condicional de B dado A se define

como

0)( si )(

)()/( ≠

∩= AP

AP

BAPABP

Análogamente

0)( si )(

)()/( ≠

∩= BP

BP

BAPBAP

En algunos casos se puede calcular )/( ABP directamente reduciendo el espacio muestral. En otros

será necesario aplicar la definición anterior.

Observación: si A y B son eventos de un espacio muestral S equiprobable, entonces

( )

#

#

)(

)()/(

A

BA

AP

BAPABP

∩=

∩=

Ejemplos:

1- En el experimento de extraer dos bolillas


16

9

2

10

3910

23

)(

)()/( =×

×

=∩

=AP

BAPABP

2- Se tira un dado normal dos veces. Sean los eventos A: “la suma de los números obtenidos es 6”

y B: “el primer número es igual a 4” Tenemos que ( ) ( ) ( ) ( ) ( ){ }1,5;2,4;3,3;4,2;5,1=A y

( ) ( ) ( ) ( ) ( ) ( ){ }6,4;5,4;4,4;3,4;2,4;1,4=B Entonces para calcular )/( BAP mediante la definición

de probabilidad condicional

6

1

36

636

1

)(

)()/( ==

∩=

BP

BAPBAP

También podemos calcularlo en forma directa, reduciendo el espacio muestral, de todos los

pares del evento B, observamos cuáles cumplen con lo requerido por A, es decir de todos los

pares de B, solo uno tiene la propiedad de que sus componentes suman 6, por lo tanto

6

1)/( =BAP

3- Se lanza una moneda normal tres veces.

Hallar la probabilidad de que salgan todas caras si sale alguna cara.

El espacio muestral reducido es el evento A: “sale alguna cara”

Tenemos que ( ) ( ) ( ) ( ){ }scscsssscccscscscccccA ,,;,,;,,);,,();,,();,,(;,,=

Y ( ){ }cccB ,,=

Por lo tanto 7

1)/( =ABP

4- En cierta ciudad, 40% de la población tiene cabellos castaños, 25% tiene ojos castaños y 15%

tiene cabellos y ojos castaños. Se escoge una persona al azar a) si tiene cabellos castaños, ¿cuál es la probabilidad de que también tenga ojos castaños?

b) Si tiene ojos castaños, ¿cuál es la probabilidad de que no tenga cabellos castaños? c) ¿Cuál es la probabilidad de que no tenga ni cabellos ni ojos castaños?

Sean los eventos A: “la persona elegida al azar tiene ojos castaños”, B: “la persona elegida al

azar tiene cabellos castaños”

Entonces 25.0)( =AP , 40.0)( =BP y 15.0)( =∩ BAP

a) Se pide calcular )/( BAP :

40.0

15.0

)(

)()/( =

∩=

BP

BAPBAP

b) 25.0

15.0

)(

)()/( =

∩=

AP

BAPABP

c) 15.01)(1))(()( −=∩−=∩=∩ BAPBAPBAP CCC

5- Sean los eventos A y B con 5.0)( =AP , 3

1)( =BP y

4

1)( =∩ BAP .


17

Hallar: a) )/( BAP , b) )/( ABP , c) )( BAP ∪ , d) )/( CCBAP , e) )/( CC

ABP

a) 4

3

3

14

1

)(

)()/( ==

∩=

BP

BAPBAP b)

2

1

2

14

1

)(

)()/( ==

∩=

AP

BAPABP

c) 12

7

4

1

3

1

2

1)()()()( =−+=∩−+=∪ BAPBPAPBAP

d) )(

)()/(

C

CCCC

BP

BAPBAP

∩=

Calculamos: 3

2

3

11)(1)( =−=−= BPBP

C ;

12

5

12

71)(1))(()( =−=∪−=∪=∩ BAPBAPBAP

CCC

Por la ley de De Morgan

Entonces 8

5

24

15

3

212

5

)(

)()/( ===

∩=

C

CCCC

BP

BAPBAP

e) 6

5

2

11

12

5

)(1

)(

)(

)()/( =

−

=−

∩=

∩=

AP

BAP

AP

BAPABP

CC

C

CCCC

Observaciones:

a) Si BA ⊂ entonces 1)(

)(

)(

)()/( ==

∩=

AP

AP

AP

BAPABP

b) Si ∅=∩ BA entonces 0)(

)(

)(

)()/( =

∅=

∩=

AP

P

AP

BAPABP

c) Es fácil comprobar que )(/( ABP para A fijo, satisface los axiomas de la probabilidad, esto es:

1- 1)/(0 ≤≤ ABP

2- 1)/( =ASP

3-Si B1 y B2 son eventos mutuamente excluyentes entonces

( ) )/()/(/)( 2121 ABPABPABBP +=∪

4-Si ,...,,...,, 121 +nn BBBB es una secuencia de eventos tales que jiBB ji ≠∅=∩ si enton-

ces

∑∞

=

∞

=

=

11

)/(/i

i

i

i ABPABP U


18

Teorema de la multiplicación

Si A y B son dos eventos entonces 0)( si )(

)()/( ≠

∩= AP

AP

BAPABP

Por lo tanto

)/()( P(A) ABPBAP =∩ (6)

Análogamente de 0)( si )(

)()/( ≠

∩= BP

BP

BAPBAP , se deduce

)/()( P(B) BAPBAP =∩ (7)

(6) y (7) se conocen como teorema de la multiplicación.

Consideremos otra vez el ejemplo de extraer dos bolillas al azar sin reemplazo de una urna que con-

tiene 3 bolillas blancas y 7 rojas. Si A: “la primer bolilla extraída es blanca”, y B: “la segunda bolilla

extraída es blanca”, entonces

9

2

10

3)/()()( ×==∩ ABPAPBAP

Si 321 , , AAA son tres eventos entonces

)/()/()()( 213121321 AAAPAAPAPAAAP ∩=∩∩

pues:

=∩∩==∩=∩∩ )/()()/()()()( 23132133321 AAAPAAPBAPBPABPAAAP

21 AAB ∩= Teorema de la multiplicación

)/()/()( 213121 AAAPAAPAP ∩=


El teorema de la multiplicación se puede generalizar a n eventos nAAA ,...,, 21 :

)...,/()..../()/()()...( 12121312121 −∩∩∩=∩∩∩ nn AAAAPAAAPAAPAPAAAP (8)

Ejemplos:

1- Una clase tiene 12 niños y 4 niñas. Si se escogen tres estudiantes de la clase al azar, ¿cuál es la

probabilidad de que sean todos niños?

Solución: Anotamos Ai : “el i-ésimo estudiante elegido es un niño” i = 1,2,3

Entonces la probabilidad pedida es

14

10

15

11

16

12)/()/()()( 213121321 ××=∩=∩∩ AAAPAAPAPAAAP


19

2- Los estudiantes de una clase se escogen al azar, uno tras otro, para presentar un examen.

a) Si la clase consta de 4 niños y 3 niñas, ¿cuál es la probabilidad de que niños y niñas queden al-

ternados?

b) Si la clase consta de 3 niños y 3 niñas, ¿cuál es la probabilidad de que niños y niñas queden al-

ternados?

Solución:

a) Nuevamente anotamos Ai : “el i-ésimo estudiante elegido es un niño”

Entonces la probabilidad pedida es, aplicando (8):

35

1

1

1

2

1

3

2

4

2

5

3

6

3

7

4)( 7654321 =××××××=∩∩∩∩∩∩ AAAAAAAP

CCC

b) Hay dos caso mutuamente excluyentes: el primer estudiante es un niño, y el primero es una ni- ña.

Si el primero es un niño, entonces por (8) la probabilidad de que los estudiantes se alternen es

20

1

1

1

2

1

3

2

4

2

5

3

6

3)( 654321 =×××××=∩∩∩∩∩

CCCAAAAAAP

Si el primero es una niña, entonces por (8) la probabilidad de que los estudiantes se alternen es

20

1

1

1

2

1

3

2

4

2

5

3

6

3)( 654321 =×××××=∩∩∩∩∩ AAAAAAP

CCC

Entonces la probabilidad pedida es 10

1

20

1

20

1=+

En el ejemplo inicial de extraer dos bolillas de una urna, todavía queda por resolver cómo calcula-

mos la )(BP , siendo A: “la primer bolilla extraída es blanca”, y B: “la segunda bolilla extraída es

blanca”

Podemos expresar al espacio muestral S como CAAS ∪=

Además A y AC son mutuamente excluyentes.

Por otro lado podemos escribir

( ) ( ) ( )CCABABAABSBB ∩∪∩=∪∩=∩= por la ley distributiva

Entonces

)()/()()/()()()( CCCAPABPAPABPABPABPBP +=∩+∩=

( ) ( ) ∅=∩∩∩C

ABAB teorema de la multiplicación

Lo hecho en este ejemplo se generaliza en el siguiente teorema

2.2 - Teorema de la probabilidad total

Sean nAAA ,...,, 21 eventos de un espacio muestral S que cumplen:

a) SAAA n =∪∪∪ ...21

b) jiAA ji ≠∅=∩ si

c) niAP i ,...,2,1 0)( =∀> Se dice que nAAA ,...,, 21 forman una partición de S Entonces para

cualquier evento B de S

)()/(...)()/()()/()( 2211 nn APABPAPABPAPABPBP +++=


20

Dem.) Podemos escribir

( ) ( ) ( ) ( )nn ABABABAAABSBB ∩∪∪∩∪∩=∪∪∪∩=∩= ...... 2121

Ley distributiva de la ∩ con respecto a la ∪

Además si jiAA ji ≠∅=∩ con , entonces

( ) ( ) jiABAB ji ≠∅=∩∩∩ si (ver figura)

Por lo tanto

( ) ( ) ( ) =∩++∩+∩= nABPABPABPBP ...)( 21


)()/()()/()()/( 2211 nn APABPAPABPAPABP +++= K

Teorema de Bayes

Sean nAAA ,...,, 21 eventos de un espacio muestral S que cumplen:

a) SAAA n =∪∪∪ ...21

b) jiAA ji ≠∅=∩ si

c) niAP i ,...,2,1 0)( =∀>

Entonces para cualquier evento B de S tal que 0)( >BP

nk

APABP

APABPBAP

n

i

ii

kk

k ,,1

)()/(

)()/()/(

1

K==

∑=

Dem.)

∑=

==∩

=n

i

ii

kkkkk

k

APABP

APABP

BP

APABP

BP

BAPBAP

1

)()/(

)()/(

)(

)()/(

)(

)()/(

def. de prob. Condicional teor, de la probabilidad total

teor. de multiplicación

Ejemplos:

1- Tres máquinas A, B, y C producen respectivamente 60%, 30% y 10% del número total de artículos

de una fábrica. Los porcentajes de desperfectos de producción de estas máquinas son respectivamente 2%, 3% y 4%. Se selecciona un artículo al azar

a) ¿Cuál es la probabilidad de que sea defectuoso? b) Si al seleccionar un artículo al azar resulta defectuoso, ¿cuál es la probabilidad de que el artículo

hubiera sido producido por la máquina C?

Solución:

a) Sean los eventos

iAB ∩jAB ∩

Ai Aj B


21

A: “el artículo seleccionado fue producido por la máquina A”

B: “el artículo seleccionado fue producido por la máquina B”

C: “el artículo seleccionado fue producido por la máquina C”

D: “el artículo seleccionado es defectuoso”

Los datos que tenemos son los siguientes

6.0)( =AP 3.0)( =BP 1.0)( =CP 02.0)/( =ADP 03.0)/( =BDP 04.0)/( =CDP

Se pide hallar la )(DP .

Se aplica el teorema de la probabilidad total tomando como partición de S a los eventos A, B y C.

Entonces 1.004.03.003.06.002.0)()/()()/()()/()( ×+×+×=++= CPCDPBPBDPAPADPDP

b) Se pide hallar )/( DCP . Aplicamos el teorema de Bayes

25

4

1.004.03.003.06.002.0

1.004.0

)(

)()/(

)(

)()/( =

×+×+×

×==

∩=

DP

CPCDP

DP

DCPDCP

2- Se nos dan tres urnas como sigue: Una urna 1 contiene 3 bolas rojas y 5 blancas.

Una urna 2 contiene 2 bolas rojas y 1 blanca. Una urna 3 contiene 2 bolas rojas y 3 blancas

Se selecciona una urna al azar y se saca una bola de la urna. Si la bola es roja, ¿cuál es la probabilidad de que proceda de la urna 1?

Solución:

Sean los eventos Ai: “se elige la urna i” i = 1, 2, 3

Entonces 3,2,1 3/1)( == iAP i

Además podemos tomar a 321 ,, AAA como una partición del espacio mues-

tral S.

Sea el evento "roja bolillaextraer :"B

Se pide calcular )/( 1 BAP

Entonces

=++

=∩

=)()/()()/()()/(

)()/(

)(

)()/(

332211

1111

APABPAPABPAPABP

APABP

BP

BAPBAP

def. de prob. condicional

Teorema de Bayes

173

45

360

1738

1

3

1

5

2

3

1

3

2

3

1

8

33

1

8

3

==

×+×+×

×

=


22

2.3 - Independencia

Dados dos eventos A y B , puede ocurrir que )/( ABP y )(BP sean diferentes, eso significa que

saber que A ocurrió modifica la probabilidad de ocurrencia de B

En el ejemplo anterior 360

173)(

8

3)/( 1 =≠= BPABP

Pero puede suceder que )/( ABP y )(BP sean iguales, en ese caso A y B son eventos independien-

tes, saber que A ocurrió no afecta la probabilidad de ocurrencia de B.

Entonces, dos eventos A y B son independientes si )()/( BPABP = , y son dependientes de otro

modo.

Notar que por el teorema de la multiplicación )()/()( APABPBAP =∩ si 0)( >AP

Entonces

A y B son independientes )()()()/()( APBPAPABPBAP ==∩⇒

Recíprocamente Si )()()( APBPBAP =∩ entonces

ntesindependieson y )()(

)()(

)(

)()/( BABP

AP

APBP

AP

BAPABP ∴==

∩=

si 0)( >AP

Por lo tanto:

)()()( si soloy si ntesindependieson y BPAPBAPBA =∩ (9)

Es decir podemos usar (9) como definición de independencia de eventos.

Ejemplos:

1-Se tira un dado normal dos veces, sean los eventos A: “la suma de los números obtenidos es igual a 7”

B: “el primer número obtenido es 4” ¿Son A y B independientes?

Sabemos que el espacio muestral es el conjunto de 36 pares ordenados ),( ba donde tanto a como

b pueden tomar los valores 1, 2, 3, 4, 5, 6.

Además ( ) ( ) ( ) ( ) ( ) ( ){ }1,6,2,5,3,4,4,3,5,2,6,1=A y ( ) ( ) ( ) ( ) ( ) ( ){ }6,4;5,4;4,4;3,4;2,4;1,4=B

Entonces

6

1

36

6)(

6

1

36

6)(

36

1)( =====∩ BPAPBAP

Como 6

1

6

1)()(

36

1)( ×===∩ BPAPBAP entonces A y B son independientes

Observación: si A fuera el evento A: “la suma de los números obtenidos es igual a 6”, entonces A

y B son dependientes

2-Se tiene una urna con 10 bolillas blancas y 5 rojas. Se extraen al azar dos bolillas con reemplazo

de la urna. Entonces los eventos A: “la primer bolilla es blanca”

B: “la segunda bolilla es roja”

Son independientes


23

15

5

1515

155 )(

15

10

1515

1510)(

1515

510)( =

×

×==

×

×=

×

×=∩ BPAPBAP

Pero si la extracción se hace sin reemplazo, entonces A y B son dependientes pues

15

10)(

15

10

14

5)()/()( =×==∩ APAPABPBAP

y 15

5

15

5

14

4

15

10

14

5)()/()()/()( =×+×=+=

CCAPABPAPABPBP

por lo tanto )()()( APBPBAP ≠∩

Notar que la diferencia está en que 15

5)(

14

5)/( =≠= BPABP

Observación: si en el ejemplo anterior la urna tiene 1000 bolillas blancas y 500 rojas, y se extraen sin reemplazo dos bolillas al azar entonces

...3333333.015

5)( y ..0.3335557.

1499

500)/( ==== BPABP

O sea que )(y )/( BPABP son casi iguales.

Por lo tanto podemos asumir que A y B son independientes, aunque la extracción se haga sin reem-

plazo.

En la práctica, si N es el tamaño de la población y n el tamaño de la muestra extraída sin reemplazo,

si 05.0<N

n entonces podemos operar como si la extracción se hubiera hecho con reemplazo.

(10)

Dem.) se debe probar que )()()( CCBPAPBAP =∩

Para esto escribimos

( ) ( )CBABAA ∩∪∩=

Como BA ∩ y CBA ∩ son mutuamente

excluyentes entonces

⇒∩+∩= )()()( CBAPBAPAP

=−=∩−=∩⇒ )()()()()()( BPAPAPBAPAPBAP C

A y B independientes

( ) )()()(1)( CBPAPBPAP =−=

Con lo que queda demostrada la propiedad.

Si dos eventos A y B son independientes entonces A y BC son independientes

CBA ∩ BA∩


24

Observación: si A y B son eventos independientes, entonces AC y B

C son independientes. Se llega a

este resultado aplicando (10) sobre A y B, y luego se aplica (10) nuevamente a A y BC.

Independencia de más de dos eventos.

La noción de independencia de eventos se puede ampliar a n eventos de la siguiente manera:

Sean nAAA ,,, 21 K eventos, se dice que son independientes si

nkAPAPAPAAAPkk iiiiii

,...,2 )()()()(2121

==∩∩∩ KK (11)

Observaciones:

1- si n = 2 entonces (11) se reduce a la definición de dos eventos independientes.

2- si n = 3 entonces (11) significa que se deben cumplir las siguientes 4 condiciones:

a) )()()( 2121 APAPAAP =∩

b) )()()( 3131 APAPAAP =∩

c) )()()( 3232 APAPAAP =∩

d) )()()()( 321321 APAPAPAAAP =∩∩

La condición d) significa que un evento es independiente de la intersección de los otros dos, por

ejemplo )()/( 1321 APAAAP =∩

Esto es porque en general por el teorema de la multiplicación vale que

)/()/()()( 213121321 AAAPAAPAPAAAP ∩=∩∩

y por d)

)()()()( 321321 APAPAPAAAP =∩∩

entonces

)()/()()()()/()/()( 3213321213121 APAAAPAPAPAPAAAPAAPAP =∩⇒=∩

Ejemplos:

1- Las probabilidades de que tres hombres peguen en el blanco son, respectivamente, 3

1y ,

4

1 ,

6

1.

Cada uno dispara una vez al blanco. a) ¿Cuál es la probabilidad de que exactamente uno de ellos pegue en el blanco?

b) Si solamente uno pega en el blanco, ¿cuál es la probabilidad de que sea el primer hombre?

Solución: a) consideremos los eventos Ai: “el hombre i-ésimo pega en el blanco” i = 1, 2, 3

6

1)( 1 =AP

4

1)( 2 =AP

3

1)( 3 =AP

Sea el evento B: “exactamente un hombre pega en el blanco”

Entonces ( ) ( ) ( )CCCCCCAAAAAAAAAB 32321321 ∩∩∪∩∩∪∩∩=

Por lo tanto ( ) ( ) ( )CCCCCCAAAPAAAPAAAPBP 32321321)( ∩∩+∩∩+∩∩=

Y por independencia ( ) ( ) ( ) =++= CCCCCC APAPAPAPAPAPAPAPAPBP 321321321 )()())()()()())(


25

72

31

24

5

36

5

12

1

3

11

4

11

6

1

3

11

4

1

6

11

3

1

4

11

6

11 =++=

−

−+

−

−+

−

−=

a) Se pide calcular )/( 1 BAP

31

6

72

31

3

11

4

11

6

1

)(

)(

)(

)()/( 3211

1 =

−

−

=∩∩

=∩

=BP

AAAP

BP

BAPBAP

CC

2- Cierto tipo de proyectil da en el blanco con probabilidad 0.3, ¿ cuántos proyectiles deberán ser disparados para que haya al menos un 80% de probabilidad de pegar en el blanco?

Solución:

Escribimos Ai: “el proyectil i-ésimo da en el blanco” i = 1, 2, …, n

Se quiere que

8.0)( 21 >∪∪∪ nAAAP K

Asumiendo independencia esto es equivalente a

( )( ) =∩∩∩−=∪∪∪−=∪∪∪ )(11)( 212121

C

n

CCC

nn AAAPAAAPAAAP KKK

8.07.01))()()(1 21 >−=−=nC

n

CCAPAPAP K

Por lo tanto 5123.4)7.0ln(

)2.0ln( )2.0ln()7.0ln( 2.07.0 =>⇒<⇒< nn

n

Es decir se deben hacer por lo menos 5 disparos

Parte 1 – Variables aleatorias Prof. María B. Pintarelli

26

3 - VARIABLES ALEATORIAS

3.1- Generalidades

En muchas situaciones experimentales se quiere asignar un número real a cada uno de los elementos

del espacio muestral. Al describir el espacio muestral de un experimento un resultado individual no

tiene que ser necesariamente un número, por ejemplo, al tirar una moneda y tomar como espacio

muestral { }scS ,= , o al tirar un dado dos veces tomamos como espacio muestral a

{ } { }6,5,4,3,2,16,5,4,3,2,1 ×=S , aquí S es un conjunto de pares ordenados.

Notación: se anota a una variable aleatoria con letras mayúsculas X, Y, Z, W,…

Entonces, si X es una variable aleatoria de S en R

RSX →: tal que xsX =)(

Con diagramas de Venn

Desde ahora en lugar de escribir variable aleatoria, escribiremos v.a.

Ejemplos:

1- Se tira una moneda tres veces

Sea X la v.a. X: “número de caras obtenidas luego de los tres tiros”

Si tomamos como espacio muestral

( ) ( ) ( ) ( ) ( ){ }sssscscsssscccscscscccccS ,,;,,;,,;,,);,,();,,();,,(;,,=

entonces

0)),,((

1)),,(()),,(()),,((

2)),,(()),,(()),,((

3)),,((

=

===

===

=

sssX

cssXscsXsscX

cscXccsXsccX

cccX

La imagen de esta función es el conjunto { }3,2,1,0

Dada una v.a. X a su imagen se la anota XR y se la denomina rango o recorrido de X

Definición: Sea ε un experimento aleatorio y S un espacio muestral asociado a él. Una variable

aleatoria es una función que asigna a cada elemento de S un número real.


27

En el ejemplo anterior { }3,2,1,0=XR

2- Se tira un dado tantas veces como sean necesarias hasta que sale el número 1 por primera vez.

Podemos simbolizar el espacio muestral de la siguiente manera { }K ,0001 ,001 ,01 ,1=S ,

por ejemplo 001 simboliza el resultado que en los dos primeros tiros no salió el número 1 y en el

tercer tiro salió el 1.

Sea Y la v.a.:

Y: “número de tiros necesarios hasta que sale el 1 por primera vez”

Entonces { }K,4,3,2,1=YR , es decir el rango de Y es el conjunto de los números naturales.

3- En el interior de un círculo de radio r y centro el origen de coordenadas, se elige un punto al azar.

Tomamos como espacio muestral a { }222 ),,( ryxyxS ≤+= . Aquí S es infinito no numerable

Definimos la v.a. Z: “distancia del punto elegido al origen”

Entonces { }rzzRZ ≤≤= 0 ;

Las variables aleatorias se clasifican según su rango.

Sea X es una v.a. con rango XR . Si XR es un conjunto finito o infinito numerable entonces se dice

que X es una v.a. discreta. Si XR es un conjunto infinito no numerable entonces X es una v.a. con-

tinua.

El rangoXR es considerado un nuevo espacio muestral, y sus subconjuntos son eventos.

Por ejemplo:

En el ejemplo 1, los eventos unitarios o elementales son { } { } { } { }3 ;2 ;1 ;0 , pero los anotamos

{ } { } { } { }3 ;2 ;1 ;0 ==== XXXX

Otros eventos son, por ejemplo:

{ }1≤X , es decir, salió a lo sumo una cara.

Notar que podemos escribir { } { } { }101 =∪==≤ XXX , o sea escribimos al evento como unión de

eventos elementales

{ }0>X , es decir, salieron una o más caras. Tenemos que { } { }00 =−=> XRX X

En el ejemplo 2, { }4≥Y sería el evento “al menos 4 tiros son necesarios para que salga por primera

vez el numero 1”

{ }64 ≤≤ Y sería el evento “se necesitan entre 4 y 6 tiros para que salga el 1 por primera vez”

Notar que { } { } { } { }65464 =∪=∪==≤≤ YYYY

En el ejemplo 3,

<< rZr3

2

3

1 sería el evento “el punto elegido se encuentra a una distancia del

centro mayor que r3

1 , pero menor que r

3

2

Volviendo al ejemplo 1, notar que { }0== XB ocurre en XR si y solo si el evento ( ){ }sssA ,,= ocu-

rre en S. Se dice que A y B son eventos equivalentes.

De la misma forma los eventos

( ){ }cccA ,,= y { }3== XB son equivalentes

( ) ( ) ( ){ }ccscscsccA ,,;,,;,,= y { }2== XB son equivalentes

En general

siendo SA ⊂ y XRB ⊂ , A y B son equivalentes si { }BsXSsA ∈∈= )( ;


28

Si X es una v.a. de S en R, y XR es el rango de X, para calcular la probabilidad de un evento B de XR

se busca el evento A en S equivalente a B y entonces )()( APBP =

Por ejemplo,

En el ejemplo 1, ( ) ( ){ }( )8

1,,)(0)( ===== sssPAPXPBP si la moneda es normal.

( ) ( ) ( ) ( ) ( ){ }( ) 5.08

4,,;,,;,,;,,1)( ===≤= cssscssscsssPXPBP si la moneda es normal

También podríamos haber planteado

( ) ( ) ( ) 5.08

3

8

1101)( =+==+==≤= XPXPXPBP

En el ejemplo 3, si

≤≤= rZrB3

2

3

1, entonces B es equivalente a

( )

≤+≤= ryxryxA3

2

3

1 ;, 22 , por lo tanto

3

1

9

3

3

1

3

2

3

1

3

2

de area

de area)()(

22

2

22

==

−

=

−

===r

rr

S

AAPBP

π

ππ

Observación: en este ejemplo si

== rZB3

2, entonces 0

0

de area

de area)()(

2====

rS

AAPBP

π

3.2 - Variables aleatorias discretas

Sea X una v.a. discreta. Anotamos su rango como { }nX xxxR ,,, 21 K= si el rango es un conjunto finito

de n elementos, y anotamos { }KK,, 21 xxRX = si el rango es un conjunto infinito numerable.

A cada ix se le asigna un número )()( ii xXPxp == . Estos números deben satisfacer las condiciones

siguientes

a) ixp i todopara 0)( ≥

b) 1)( =∑i

ixp

La función )(xp que antes se definió, se llama función de probabilidad o de frecuencia de la v.a. X.

El conjunto de pares ,...2,1 ))(,( =ixpx ii es la distribución de probabilidad de X.

Por ejemplo

1-Se tira una moneda normal tres veces, sea la v.a. X: “número de caras obtenidas”

Entonces { }3,2,1,0=XR

Para hallar la distribución de probabilidad de X supongamos que la probabilidad de salir cara es ½

entonces

( ){ }( )8

1,,)0( === sssPXP


29

( ) ( ) ( ){ }( )8

3,,;,,;,,)1( === cssscssscPXP

( ) ( ) ( ){ }( )8

3,,;,,;,,)2( === cscccssccPXP

( ){ }( )8

1,,)3( === cccPXP

Se puede presentar la distribución de probabilidad de X en una tabla de la siguiente forma

x 0 1 2 3

p(x) 1/8 3/8 3/8 1/8

Un gráfico de la distribución de probabilidad de X sería

2-Se tira un dado normal. Sea X: “número que queda en la cara superior” Entonces { }6,5,4,3,2,1=XR

La función de distribución de X es

Observación:

Sea X una v.a. discreta con rango finito { }nX xxxR ,,, 21 K= , donde cada ix es un número entero y

1+ix es el consecutivo de ix .

Si in

xXP i cada para 1

)( == entonces se dice que X tiene distribución uniforme discreta.

Por ejemplo podría ser { }nnRX ,1,...,3,2,1 −= , en este caso X es uniforme discreta en el intervalo natu-

ral [ ]n,1 .

La v.a. del ejemplo 2 anterior es uniforme discreta en el intervalo natural [ ]6,1

Función de distribución acumulada

Sea X una v.a. con rango XR . Se define la función de distribución acumulada de X (abreviamos

F.d.a de X) como

∞<<∞−≤= xxXPxF )()( (12)

x 1 2 3 4 5 6

p(x) 1/6 1/6 1/6 1/6 1/6 1/6


30

En el caso de ser X una v.a. discreta

∞<<∞−=≤= ∑≤

xxpxXPxFx

i )()()( x i

Volviendo al ejemplo 1 anterior, la F.d.a. de X es

>

<≤

<≤

<≤

<

=⇒

>

<≤++

<≤+

<≤

<

=

3 si 1

32 si 8

7

21 si 2

1

10 si 8

10 si 0

)(

3 si 1

32 si 8

3

8

3

8

1

21 si 8

3

8

1

10 si 8

10 si 0

)(

x

x

x

x

x

xF

x

x

x

x

x

xF

La gráfica de la F.d.a. de X es

Observación: la F.d.a. de X es una función escalonada, los puntos de “salto” coinciden con los puntos

del rango de X, y la magnitud del salto en ix es igual a )( ixXP =

En general si X es una v.a. discreta cualquiera, su F.d.a. será una función escalonada.

Además si nxxx ,...,, 21 son los valores del rango de X ordenados de menor a mayor entonces

nixFxFxXP

xFxXP

iii ,...,2 )()()(

)()(

1

11

=−==

==

−

Es decir, se puede obtener la función de distribución de X a partir de su F.d.a.

Para números cualesquiera a y b

1- Si ba ≤ entonces )()()( aXPbXPbXaP <−≤=≤≤

2- Si ba < entonces )()()( aXPbXPbXaP ≤−≤=≤<

3- Si ba < entonces )()( bFaF ≤ (es decir F(x) es una función creciente)


31

Además se cumple que

0)()(lim)(lim 2

1)()(lim)(lim 1

x x

xx

=====−

=====−

∑∑

∑∑

−∞≤≤−∞→∞−→

≤∞→∞→

ii

ii

x

i

xx

i

x

i

xx

i

xXPxXPxF

xXPxXPxF

3.3 – Esperanza de una variable aleatoria discreta

Ejemplos: 1- Sea la v.a. X: “número que queda en la cara de arriba al tirar un dado normal”

{ }6,5,4,3,2,1=XR

Entonces ∑=

===6

1

)()(x

xXxPXE

==+=+=+=+=+== )6(6)5(5)4(4)3(3)2(2)1(1 XPXPXPXPXPXP

5.32

7

6

16

6

15

6

14

6

13

6

12

6

11 ==×+×+×+×+×+×=

2- Se tira una moneda normal tres veces, sea la v.a. X: “número de caras obtenidas”

Entonces { }3,2,1,0=XR

Calculamos la esperanza de X

5.12

3

8

13

8

32

8

31

8

10)()(

3

0

==×+×+×+×===∑=x

xXxPXE

Observaciones:

1- La esperanza de una v.a. no tiene que coincidir necesariamente con algún valor del rango de la va-

riable

2- En el ejemplo 1 donde el rango es finito y equiprobable, la esperanza de X coincide con el prome-

dio de los valores del rango de X

3- Se puede interpretar a la esperanza de una v.a. como un promedio “pesado” o “ponderado” de los

valores del rango de la variable, donde el “peso” de cada ix es la probabilidad )( ixXP =

4- Otra interpretación que se puede hacer de la esperanza es la siguiente: consideremos el ejemplo1,

supongamos que tiramos el dado muchas veces, N veces, y entonces obtenemos una secuencia de N

valores Nxxx ,.....,, 21 donde cada ix es un número natural del 1 al 6. Supongamos además que hace-

mos un promedio de esos N valores, y si llamamos in al número de veces que sale el número i te-

nemos que

Sea X una v.a. discreta con rango XR . La esperanza , valor medio o valor esperado de X , lo ano-

tamos )(XE , y se define como

∑∈

==Xi Rx

ii xXPxXE )()(

La sumatoria se hace sobre todos los posibles valores de X

Otra notación usual es Xµ o µ


32

=+++

=+++

N

nnn

N

xxx N 6...21.... 62121

)()6(6...)2(2)1(16...21 621 XEXPXPXPN

n

N

n

N

n==×++=×+=×≈×++×+×=

Es decir si promediamos los N valores medidos de X, ese promedio tiende a E(X) cuando ∞→N ,

pues )( iXPN

ni =≈ cuando N es grande.

Esperanza de una función

A veces importa hallar la esperanza de una función de X y no de X misma. Veamos un ejemplo.

Un instructor de escritura técnica ha solicitado que cierto reporte sea entregado a la semana siguiente,

agregando la restricción de que cualquier reporte que sobrepase las cuatro páginas será rechazado.

Sea X: “número de páginas del reporte de cierto estudiante seleccionado al azar”

Supongamos que X tenga la siguiente distribución de probabilidad

x 1 2 3 4

p(x) 0.01 0.19 0.35 0.45

Suponga que el instructor tarda X minutos calificando un trabajo que consiste en X páginas. Clara-

mente X es otra variable aleatoria. ¿Cuál será su esperanza?, es decir ¿a qué es igual ( )XE ?

Para calcular la esperanza de una v.a. se necesita conocer su función de distribución de probabilidad,

por lo tanto habría que hallar previamente la distribución de probabilidad de la v.a. XY = .

Está claro que si el rango de X es { }4,3,2,1=XR entonces el rango de Y será { }4,3,2,1=YR .

Además

01.0)1()1( ==== XPYP

19.0)2()2( ==== XPYP

35.0)3()3( ==== XPYP

45.0)4()4( ==== XPYP

Por lo tanto

( ) ==×+=×+=×+=×= )4(4)3(3)2(2)1(1 YPYPYPYPYE

78491.1)4(4)3(3)2(2)1(1 ==×+=×+=×+=×= XPXPXPXP

O sea

)()( xXPxYEx

==∑

Lo visto en este ejemplo se puede generalizar en el siguiente

Ejemplo:

Un negocio de computadoras ha comprado tres computadoras de cierto tipo a $500 cada una y las ven-

Teorema: Si X es una v.a. discreta con rango XR y distribución de probabilidad p(x), entonces la

esperanza de cualquier función h(X) es igual a

∑=x

xpxhXhE )()())((


33

derá a $1000 cada una. El fabricante ha aceptado volver a comprar en $200 cualquier computadora que

no se haya vendido en un tiempo especificado.

Sea X: “número de computadoras vendidas” , y supongamos que la distribución de probabilidad de X

es

x 0 1 2 3

p(x) 0.1 0.2 0.3 0.4

Si consideramos la v.a. Y: “utilidad obtenida”, entonces Y es una función de X, es decir )(XhY =

Específicamente

9008001500)3(2001000 −=−−+= XXXY

La utilidad esperada, es decir la )(YE será

( )∑=

==−=3

0

)(900800)(x

xXPxYE

( ) ( ) ( ) ( ) ==−×+=−×+=−×=−×= )3(9003800)2(9002800)1(9001800)0(9000800 XPXPXPXP

700$4.015003.07002.0)100(1.0)900( =×+×+×−+×−=

Notar que aplicando propiedades de la notación Σ se puede plantear

( ) ∑ ∑∑= ==

−==−===−=3

0

3

0

3

0

900)(800)(900)(800)(900800)(x xx

XExXPxXxPxXPxYE

y calculando la esperanza de X , se llega al mismo resultado

Propiedades de la esperanza

En el ejemplo anterior tenemos que Y es una función lineal de X , es decir baXY += con a y b nú-

meros reales.

En este caso vale entonces la siguiente propiedad bXaEbaXE +=+ )()(

La demostración sigue los mismos pasos que en el ejemplo anterior

( ) bXaExXxPbxXxPaxXPbaxbaXExxx

+==+===+=+ ∑∑∑ )()()()()(

)(XE= 1=

Ejemplo:

En el ejemplo anterior donde 900800 −= XY

Directamente calculamos

900)(800)( −= XEYE

Y

24.033.022.011.00)( =×+×+×+×=XE

En consecuencia 7009002800900)(800)( =−×=−= XEYE


34

Observaciones:

1- Para cualquier constante a, )()( XaEaXE =

2- Para cualquier constante b, bXEbXE +=+ )()(

Varianza de una variable aleatoria

La esperanza de una v.a. mide dónde está centrada la distribución de probabilidad. Pero supongamos

el siguiente ejemplo

Sean X e Y dos variables aleatorias con distribuciones dadas por

Es fácil verificar que 0)()( == YEXE , pero los valores que toma la v.a. Y están más “alejados” de su

esperanza que los valores de X.

Se busca una medida que refleje este hecho, se define entonces la varianza de una v.a.

Observaciones:

1- La varianza de una v.a. nunca es negativa

2- La cantidad ( )2)( µ−= XXh es el cuadrado de la desviación de X desde su media, y la varianza de

X es la esperanza de la desviación al cuadrado. Si la mayor parte de la distribución de probabilidad

está cerca de µ , entonces 2σ será relativamente pequeña. Si hay valores de la variable alejados de µ

que tengan alta probabilidad, entonces 2σ será grande.

3- 2σ está expresado en las unidades de medida de X al cuadrado, mientras que σ está expresada en

las mismas unidades de medida que X.

Ejemplo: En el caso de las variables aleatorias X e Y nombradas anteriormente,

( ) ( ) 15.0015.001)(22

=×−+×−−=XV y 1=Xσ

x -1 1

p(x) 0.5 0.5

y -100 100

p(y) 0.5 0.5

X

Y

Sea X una v.a. discreta con rango XR , función de distribución de probabilidad p(x) y esperanza

µ=)(XE ,

Entonces la varianza de X, que anotamos 22 o ),( XXV σσ es

( )[ ] ( )∑∈

−=−=XRx

xpxXEXV )()(22

µµ

La desviación estándar de X es )(XVX =σ


35

( ) ( ) 2221005.001005.00100)( =×−+×−−=YV y 100=Yσ

Otra forma de escribir la varianza de una v.a., que facilita los cálculos es

( ) ( ) ∑ ∑∑∑∑∈ ∈∈∈∈

=+−=+−=−=X XXXX Rx RxRxRxRx

xpxxpxpxxpxxxpxXV )()(2)()(2)()( 22222µµµµµ

2222222 )(2)()(2)( µµµµµ −=+−=+−= XEXEXEXE

Por lo tanto

22 )()( µ−= XEXV

Propiedades de la varianza

Las propiedades de la varianza de una v.a. son consecuencia de las propiedades de la esperanza de una

v.a.

Si X es una v.a. discreta con rango XR y distribución de probabilidad p(x), entonces la varianza de

cualquier función h(X) es igual a

( )∑∈

−=XRx

xpXhExhXhV )())(()())((2

Si h(X) es una función lineal, entonces

)()( 2 XVabaXV =+ y XbaX abaXV σσ =+=+ )(

Observaciones:

1- )()( 2 XVaaXV =

2- )()( XVbXV =+

Ejemplo:

En un ejemplo anterior donde X: “número de computadoras vendidas” y Y: “utilidad obtenida”, la

V(Y) sería )(800)( 2 XVYV =

Necesitamos calcular V(X) 22 )()( µ−= XEXV

Sabemos ya que 2)( == XEµ

Calculamos 54.033.022.011.00)( 22222=×+×+×+×=XE

En consecuencia

( ) ( ) 80025800)(800)(800)( 222222=−=−== µXEXVYV


36

3.4- Variables aleatorias discretas importantes

Distribución binomial

Sea ε un experimento aleatorio. Sea A un evento asociado a ε y anotamos pAP =)( .

Supongamos un experimento aleatorio 0ε que cumple los siguientes requisitos:

1- se realizan n repeticiones independientes de ε , donde n se fija de antemano.

2- las repeticiones son idénticas, y en cada repetición de ε observamos si ocurre A o no ocurre A

(cuando A ocurre se dice que se obtuvo un “éxito”, caso contrario se obtuvo un “fracaso”)

3- la probabilidad de éxito es constante de una repetición a otra de ε , y es igual a p

Se dice entonces que 0ε es un experimento binomial

Ejemplos:

1- Se tira una moneda 4 veces en forma sucesiva e independiente, y observamos en cada tiro si sale

cara o no sale cara.

Entonces este es un experimento binomial pues:

ε sería el experimento “tirar una moneda”

A sería el evento “sale cara”

ε se repite en forma sucesiva e independiente n = 4 veces

pAP =)( es la misma en cada tiro.

2- Se tiene una urna con 15 bolillas blancas y 5 verdes. Se extraen al azar con reemplazo tres bolillas

y se observa si la bolilla extraída es blanca. Entonces este es un experimento binomial pues:

ε sería el experimento “extraer al azar una bolilla de la urna”

A sería el evento “se extrae bolilla blanca”

ε se repite en forma sucesiva e independiente n = 3 veces

4

3

20

15)( ==AP es la misma en cada extracción.

3- Si en el ejemplo anterior se extraen las bolillas sin reemplazo entonces el experimento no es bino-

mial, pues falla la independencia:

Si anotamos "extracción ésima laen blanca bolilla extrae se:" −iAi , entonces

20

15)( 1 =AP ;

20

15

20

5

19

15

20

15

19

14)()/()()/()( 1121122 =×+×=+=

CCAPAAPAPAAPAP

Pero 19

14)/(

20

15)( 122 =≠= AAPAP por lo tanto las extracciones no son independientes

Observación: si en la urna hubiese 1500 bolillas blancas y 500 verdes y se extraen dos bolillas al

azar sin reemplazo, entonces

74987.01999

1499)/(75.0

20

15)( 122 ==≈== AAPAP

Por lo tanto en estas condiciones podemos asumir que el experimento es binomial

La variable aleatoria binomial y su distribución

En la mayoría de los experimentos binomiales, interesa el número total de éxitos, más que saber exac-

tamente cuáles repeticiones produjeron los éxitos

Sea la v.a. X: “número de éxitos en las n repeticiones de ε ”


37

Entonces se dice que X es una v.a. binomial

Veamos cuál es la distribución de probabilidad de X, para esto primero tomamos un caso concreto: el ejemplo 1 anterior en el que se tira una moneda 4 veces. Supongamos que la probabilidad de cara es ¾

Aquí el rango de X sería { }4,3,2,1,0=XR

Para facilitar la notación escribimos 4,3,2,1 tiro"ésimo elen cara sale:" =− iiAi

Por lo tanto

( )4

432143214

1

4

1

4

1

4

1

4

1)()()()()0(

=×××==∩∩∩==

CCCCCCCCAPAPAPAPAAAAPXP

por independencia

Para calcular la )1( =XP pensamos que hay cuatro casos posibles en los que se puede obtener exac-

tamente una cara, que la cara salga en el 1º tiro, o en el 2º o en el 3º o en el 4º tiro. Notar que tenemos cuatro casos y eso es igual a la cantidad de formas en que podemos elegir entre los 4 tiros uno de

ellos en el cual sale cara, es decir tenemos 4!3!1

!4

1

4==

casos diferentes.

( ) ( ) ( )( )4321

432143214321

)1(

AAAAP

AAAAPAAAAPAAAAP

XP

CCC

CCCCCCCCC

∩∩∩+

+∩∩∩+∩∩∩+∩∩∩=

==

Cada término es igual a 3)1( pp − por lo tanto 3)1(4)1( ppXP −==

Análogamente, para calcular )2( =XP tenemos 6!2!2

!4

2

4==

casos en los que salen exactamente

dos caras, por lo tanto

( ) ( ) 22

43214321 )1(2

4)2( ppAAAAPAAAAPXP CCCC

−

=+∩∩∩+∩∩∩== KK

Pensando de la misma forma los otros casos se llega a

)1(3

4)3( 3 ppXP −

== ; 4)4( pXP ==

En general con un argumento análogo tenemos que { }nRX ,,2,1,0 K= y

nkppk

nkXP knk ,...,2,1,0 )1)( =−

==

−

Notación: indicamos que X es una v.a. binomial con parámetros n y p con el símbolo ),(~ pnBX

Dado que los números )( kXP = corresponden a la distribución de una v.a., automáticamente cumplen

que 1)(0

==∑=

n

k

kXP


38

De todas formas se podría hacer una verificación algebraica utilizando la fórmula del binomio de

Newton

( )( ) 11)1()(00

=−+=−

==

−

==

∑∑ nknn

k

kn

k

ppppk

nkXP

Ejemplos:

1- En el ejemplo anterior en el que se tira una moneda 4 veces, calcular la probabilidad de obtener:

a) exactamente una cara

b) al menos una cara

c) a lo sumo una cara

Solución:

a) tenemos que la v.a. X: “número de caras obtenido” es )25.0,4(B

se pide 421875.04

3

4

14

4

11

4

1

1

4)1(

331

=

××=

−

==XP

b) la probabilidad de obtener al menos una cara es

kk

k kXPXPXPXPXP

−

=

==+=+=+==≥ ∑

44

1 4

3

4

14)4()3()2()1()1(

Pero más fácil es hacer

578125.0421875.014

31

4

11

4

1

0

41)0(1)1(

4040

=−=

−=

−

−==−=≥

−

XPXP

c) la probabilidad de obtener a lo sumo una cara es

84375.04

11

4

1

1

4

4

11

4

1

0

4)1()0()1(

141040

=

−

+

−

==+==≤

−−

XPXPXP

Observación: si ),(~ pnBX para calcular )( kXP ≤ en general se debe hacer

)()1()0()()(0

kXPXPXPiXPkXPk

i

=++=+====≤ ∑=

KK

Notar que )( kXP ≤ es la F.d.a. de X evaluada en k, es decir )()( kXPkF ≤=

Existen tablas de la función de distribución acumulada de la binomial para diferentes valores de n y p

Consultando estas tablas se puede obtener directamente el resultado del inciso c) buscando para n =4 y

p = 0.25

Además consultando las tablas podemos evaluar )( kXP = haciendo

nkkFkFkXP ,...,2,1 )1()()( =−−==

2- Supongamos que el 20% de todos los ejemplares de un texto en particular fallan en una prueba de

resistencia a la encuadernación. Se seleccionan 15 ejemplares al azar.

Sea la v.a. X: “número de ejemplares que fallan en la prueba entre los 15 seleccionados” a) ¿cuál es la probabilidad de que a lo sumo 8 fallen en la prueba?

b) ¿cuál es la probabilidad de que exactamente 8 fallen en la prueba?


39

c) ¿cuál es la probabilidad de que al menos 8 fallen en la prueba?

Solución:

a) Tenemos que )2.0,15(~ BX

999.0)8()()8(8

0

====≤ ∑=

FkXPXPk

por tabla de la F.d.a.

b) 003.0996.0999.0)7()8()8( =−=−== FFXP


c) 004.0996.01)7(1)7(1)8( =−=−=≤−=≥ FXPXP


Observaciones:

1- Si ),1(~ pBX entonces la v.a. X toma sólo dos valores 0 y 1 con probabilidades p y 1-p es decir

podemos escribir

=contrario caso 0

éxito ocurre ejecutar al si 1 εX

pAPXP

pAPXP

C−===

===

1)()0(

)()1(

En este caso se dice que X tiene distribución de Bernoulli

En el caso de ser ),(~ pnBX se dice que se tienen “n ensayos de Bernoulli”

2- A continuación se muestra cómo varía la forma de la distribución a medida que p aumenta mante-

niendo n fijo en 15. Se grafica la distribución de frecuencia para p = 0.01; 0.2, 0.5, 0.7 y 0.995.

Observar que para p = 0.5 la distribución de frecuencia es simétrica.

p = 0,01n = 15

0 3 6 9 12 15

0

0,2

0,4

0,6

0,8

1

p = 0,2n = 15

0 3 6 9 12 15

0

0,05

0,1

0,15

0,2

0,25

0,3


40

p = 0,5n = 15

0 3 6 9 12 15

0

0,04

0,08

0,12

0,16

0,2

p = 0,7n = 15

0 3 6 9 12 15

0

0,04

0,08

0,12

0,16

0,2

0,24

p = 0,995n = 15

0 3 6 9 12 15

0

0,2

0,4

0,6

0,8

1

Esperanza y varianza

Dem.) Aplicamos la definición:

( ) ( ) ( )( )

( )∑∑ ∑=

−

=

−

=

−−

=−

==

n

k

knkn

k

knkn

k

pp!kn!k

!nkpp

k

nkkkpXE

00 0

11

El primer término es cero, por lo tanto podemos comenzar la suma en k=1:

)1()(y )( entonces ),,(~ Sea pnpXVnpXEpnBX −==


41

( )( )

( )( ) ( )

( )∑∑=

−

=

−−

−−=−

−=

n

k

knkn

k

knkpp

!kn!k

!npp

!kn!k

!nkXE

11

11

1

Ponemos todo en términos de k-1:

( )( )

( ) ( ) ( )[ ]( )

( ) ( ) ( )[ ]111

01

1111

1 −−−−

=−

−−−−−

−= ∑ knk

n

k

ppp!kn!k

!nnXE

Sacamos fuera de la suma n y p que no dependen del índice k y hacemos el cambio de índice:

( ) sk →−1 :

( )( )

( )[ ]( ) ( )[ ] ( ) ( )[ ]sns

n

s

snsn

s

pps

nnppp

!sn!s

!nnpXE

−−−

=

−−−

=

−

−=−

−−

−= ∑∑ 1

1

0

11

0

11

11

1

Recordando el desarrollo del binomio de Newton

( ) [ ]srn

s

rrba

s

rba −

−

=

∑

=+

1

0

, tenemos (con r=n-1):

( ) ( )[ ] [ ] npnpppnpXEnn

==−+=−− 11

11

Veamos el cálculo de la varianza

( ) ( ) ( )[ ]22 XEXEXV −= .

Luego:

( ) ( ) [ ]22npXEXV −= . Nos queda calcular ( )2

XE .

( ) ( ) ( )( )

( )∑∑∑=

−

=

−

=

−−

=−

==

n

k

knkn

k

knkn

k

pp.!kn!k

!n.kpp.

k

n.kkp.kXE

0

2

0

2

0

22 11 .

Para calcular esta suma tratamos de llevarla a la forma del desarrollo de un binomio de Newton. Como el primer término es cero comenzamos a sumar desde k=1. Además simplificamos k en el

numerador con el factor k en k! del denominador:

( )( ) ( )

( )( )

( ) ( )( )∑∑

=

−

=

−−

−−

−=−

−−=

n

k

knkn

k

knk pp.!kn!k

!nn.kpp.

!kn!k

!n.kXE

11

2 11

11

1.

Separamos en dos sumas:

( ) ( )[ ]( )

( ) ( )( )

( )( ) ( ) ( )[ ]

( )( ) ( ) ( )[ ]

( )

( )( )

( ) ( ) ( )[ ]( ) ( ) ( ) ( )[ ]

( )∑

∑

∑

−

=−

−−−−

−

=−

−−−−

=

−

−−−−−

−−+

+−−−−−

−=

−−−

−−+=

2

02

2222

1

01

11

1

2

1.!22!1

!21

1.!11!1

!1

1.!!1

!1.11

n

k

knk

n

k

kknk

n

k

knk

ppknk

npnn

ppknk

nnp

ppknk

nnkXE

Esto es:

( ) ( ) ( )[ ] ( ) ( ) ( )[ ]∑∑−

=

−−−

=

−−−

−−+−

−=

2

0

221

0

12 12

111 n

r

rnrn

s

sns pp.r

n.kpn.npp.

s

n.kp.nXE


42

Las sumas corresponden al desarrollo de un binomio de Newton:

( ) ( )[ ] ( ) ( )[ ] [ ] ( ) [ ] 2212212 111111−−−−

−+=−+−+−+=nnnn

pnnnppppnnppnpXE , es decir

( ) ( ) 22 1 pnnnpXE −+= . Entonces:

( ) ( ) [ ] ( ) [ ] 22222 1 npnpnppnnnpnpXEXV −=−−+=−= o sea:

( ) ( )pnpXV −= 1

Distribución geométrica



1- se realizan repeticiones independientes de ε , hasta que ocurre A por primera vez inclusive.




Sea la v.a. X: “número de repeticiones de ε hasta que ocurre A por primera vez inclusive”

Veamos cuál es la distribución de probabilidad de X

El rango es el conjunto { } NRX == ,....3,2,1

Además si anotamos " de repetición ésima laen ocurre:" ε−iAAi , entonces

( ) ppAPAPAPAPAAAAPkXPk

k

C

k

CC

k

C

k

CC 1

121121 1)()())()()()(−

−− −==∩∩∩∩== KK

por independencia

En consecuencia

( ) ,.....2,1 1)(1

=−==−

kppkXPk

Notación: )( ~ pGX

Para verificar que 1)(

1

==∑=

n

k

kXP recordar que 1 si 1

1

0

<−

=∑∞

=

aa

ak

k

1)1(1

1)1()1()(

1

1

1

1

1

=−−

=−=−== ∑∑∑∞

=

−

=

−

=p

pppppkXP

k

kn

k

kn

k

Observaciones:

1- ( ) ( ) ppkXPppkXPkk

−=+=−==−

1)1(y 1)(1

Es decir ( ) ( ) ,.....2,1 1)()1(1)1( 1

=∀−==−−=+=−

kpkXPpppkXPk

Podemos interpretar que para cada k, los )( kXPak == son los términos de una sucesión geométri-

ca con razón 1-p y primer término pa =1

2- La F.d.a. sería


43

[ ]

∑=

==≤=x

k

kXPxXPxF1

)()()(

donde [ ]x indica parte entera de x

Si x es un entero positivo entonces recordando que la suma de los n primeros términos de una suce-

sión geométrica con razón r y término general 1−=

k

k pra es ( )

∑= −

−=

n

k

n

kr

raa

1

1

1

1 tenemos que

[ ] [ ]( ) [ ]( ) [ ]x

xxx

k

pp

pp

r

rpkXPxXPxF )1(1

)1(1

)1(1

1

1)()()(

1

−−=−−

−−=

−

−===≤= ∑

=

pr −= 1

Por lo tanto

[ ]

≥−−

=contrario caso 0

1 si )1(1)(

xpxF

x

3- Una variante en la definición de distribución geométrica es definir la v.a. Y: “número de fracasos

hasta el primer éxito”, en este caso { },....2,1,0=YR , es decir se incluye al cero.

La distribución de probabilidad o frecuencia sería en este caso

( ) ,.....2,1,0 1)( =−== kppkYPk

Notar que la relación entre entre X e Y sería: 1+= YX .

Es decir si adoptamos esta última definición no incluimos la repetición del experimento en el cual

ocurre el primer éxito.

Ejemplos:

1- La probabilidad de que una computadora que corre cierto sistema operativo se descomponga en

determinado día es de 0.1. Determinar la probabilidad de que la máquina se descomponga por pri-

mera vez en el duodécimo día, después de la instalación del sistema operativo

Solución:

Definimos la v.a. X: “número de días hasta que la computadora se descompone por primera vez”

Entonces G(0.1)~X

Se pide calcular la )12( =XP

( ) 031381.01.09.01)12( 11112=×=−==

−ppXP

2- Una prueba de resistencia a la soldadura consiste en poner carga en uniones soldadas hasta que se

dé una ruptura. Para cierto tipo de soldadura, 80% de las rupturas ocurre en la propia soldadura, mientras que otro 20% se da en las vigas. Se prueba cierto número de soldaduras.

Sea la v.a. X: “número de pruebas hasta que se produce la ruptura de la viga” ¿Qué distribución tiene X?. ¿Cuál es la probabilidad que en la tercera prueba se produzca la primera

ruptura de la viga?


44

Solución:

Cada prueba es un “ensayo de Bernoulli”, con un éxito definido como la ruptura de una viga. Por lo

tanto, la probabilidad de éxito es 2.0=p .

La v.a. X tiene una distribución geométrica con parámetro 2.0=p es decir G(0.2)~X

Para calcular la probabilidad pedida hacemos ( ) 128.02.08.01)3( 213=×=−==

−ppXP


Dem.) Llamamos qp =−1

Planteamos

∑∑∑∑∞

=

−∞

=

−∞

=

−∞

=

==−=−==1

1

1

1

1

1

1

)1()1()(k

k

k

k

k

k

k

kqppkppkpkXkP

Notar que ( ) 1−=

kkkqq

dq

d , por lo tanto como 1 si

1

1

0

<−

=∑∞

=

aa

ak

k

( )( ) pp

p

qp

q

q

dq

dpq

dq

dpq

dq

dp

k

kk

k

1

1

1

1 2211

==−

=

−=

== ∑∑

∞

=

∞

=

p

XE1

)( =∴

Calculamos ahora la varianza

22 )()( µ−= XEXV donde

pXE

1)( ==µ

( ) ( )∑ ∑∑∑∑∞

=

∞

=

−−∞

=

−∞

=

−∞

=

+−=−+−=−===1 1

11

1

1

1

12

1

22 1)1(11)1()()(k k

kk

k

k

k

k

k

kpqqkkpppkkppkkXPkXE

Pero

( ) ( ) ( ) =

−=

==−=− ∑∑∑∑

∞

=

∞

=

∞

=

−∞

=

−

q

q

dq

dpqq

dq

dpqq

dq

dpqqkkpqqkkp

k

k

k

k

k

k

k

k

111

2

2

12

2

12

2

1

2

1

1

( ) 23

2

1

2

pq

qpq =

−=

Y ∑∞

=

−=

1

1 1

k

k

pkpq

Por lo tanto

( )222222

2 1112121121)()(

p

p

p

pp

p

pq

pppq

pXEXV

−=

−+−=

−+=−+=−=

1

)(y 1

)( entonces Sea2

p

pXV

pXEX~G(p)

−==


45

Distribución binomial negativa

La distribución binomial negativa constituye una extensión de la distribución geométrica. Sea r un entero positivo.



1- se realizan repeticiones independientes de ε , hasta que ocurre A por r-ésima vez inclusive.




Sea la v.a. X: “número de repeticiones de ε hasta que ocurre A por r-ésima vez, incluyendo la r-ésima

vez que ocurre A”

Veamos cuál es la distribución de probabilidad de X

El rango es el conjunto { },....3,2,1, +++= rrrrRX

Para obtener una expresión genérica de la )( kXP = , notar que si en el k-ésimo ensayo ocurre éxito

por r-ésima vez, entonces en los k-1 primeros ensayos ocurrieron r-1 éxitos. Si anotamos B: “ en los

primeros k-1 ensayos ocurran r-1 éxitos”, entonces

( )( ) ( ) ( ) rkrrkrpp

r

kpp

r

kBP

−−−−−−−

−

−=−

−

−= 1

1

11

1

1)(

1111

Además si anotamos " de repetición ésima laen ocurre:" ε−rAA , entonces pAP =)( y A y B

son independientes, por lo tanto

( ) ( ) rkrrkr ppr

kppp

r

kAPBPABPkXP

−−− −

−

−=×−

−

−==∩== 1

1

11

1

1)()()()( 1

En resumen

( ) ,.....2,1, 11

1)( ++=−

−

−==

−rrrkpp

r

kkXP

rkr

Notación: ),( ~ prBNX

Para verificar que 1)(0

==∑=

n

k

kXP se deriva r veces la igualdad p

pk

k 1)1(

0

1 =−∑∞

=

− la que se deduce

de 1)1(0

1=−∑

∞

=

−

k

kpp

Ejemplo:

En una prueba de fuerza de soldadura, 80% de las pruebas da como resultado ruptura de soldadura,

mientras que otro 20% da ruptura de la viga. Sea la v.a. X:“número de pruebas hasta la tercera ruptura

de la viga inclusive”. ¿Cuál es la distribución de X?. Determinar la )8( =XP

Solución:

Tenemos que )2.0 ,3( ~ BNX

Por lo tanto ( ) 05505.08.00.2 2

7 1

13

18)8( 53383 =×

=−

−

−==

−ppXP


46

Observación: la distribución geométrica puede verse como un caso particular de la distribución bino-

mial negativa con 1=r


Dem.) Se hará mas adelante

Distribución hipergeométrica

Supongamos que tenemos una población o conjunto de N objetos o individuos (es decir tenemos una

población finita).

Clasificamos a los objetos de la población en dos categorías. Hay M objetos de una categoría y N-M de

la otra categoría. Se suele decir que tenemos M “éxitos” y N-M “fracasos”.

Se extraen al azar y sin reemplazo n objetos de dicha población. Es decir se extrae una muestra de n

objetos de la población, de manera tal que es igualmente probable que se seleccione cada subconjunto

de tamaño n.

Consideramos la v.a. X: “número de éxitos en la muestra extraída”

Se dice que X tiene una distribución hipergeométrica con parámetros n, M y N

Notación: ) ,( ~ NM,nHX

Veamos cuál es la distribución de X

Primero notar que una expresión para la )( kXP = , usando combinatoria es

−

−

==

n

N

kn

MN

k

M

kXP )( donde para que los números combinatorios estén bien definidos debe

cumplirse Mk ≤≤0 y MNkn −≤−≤0 . Pero estas condiciones son equivalentes a

( ) ( )MnkMNn ,min,0max ≤≤+−

Por lo tanto la distribución de probabilidad de X es

( ) ( )MnkMNn

n

N

kn

MN

k

M

kXP ,min,0max )( ≤≤+−

−

−

==

Se verifica que 1)(0

==∑=

n

k

kXP pues los números )( kXP = corresponden a la distribución de una

v.a.

( )

1)(y )( entonces ),( ~ Si

2p

prXV

p

rXEprBNX

−==


47

Ejemplo:

1- De 50 edificios en un parque industrial, 12 no cumplen el código eléctrico. Si se seleccionan aleato-

riamente 10 edificios para inspeccionarlos, ¿cuál es la probabilidad de que exactamente tres de los diez no cumplan el código?

Solución:

Sea la v.a. X: “número de edificios seleccionados que violan el código”, entonces )05 12 ,10( ~ ,HX . se pide calcular la )3( =XP

2703.0

10

50

310

1250

3

12

)3( =

−

−

==XP

2- Un cargamento contiene 40 elementos. Se seleccionará de forma aleatoria y se probará 5 elementos.

Si dos o más están defectuosos, se regresará el cargamento.

a) si de hecho el cargamento contiene cinco elementos defectuosos, ¿cuál es la probabilidad de que

sean aceptados? b) si de hecho el cargamento contiene diez elementos defectuosos, ¿cuál es la probabilidad de que

no sean aceptados?

Solución: a) Sea la v.a. X: “número de elementos defectuosos en la muestra”

En este caso )40 5 ,5( ~ ,HX . Hay que calcular la )1( ≤XP

)1()0()1( =+==≤ XPXPXP

4933557.0

5

40

05

540

0

5

)0( =

−

−

==XP 3978675.0

5

40

15

540

1

5

)1( =

−

−

==XP

8912232.03978675.04933557.0)2( =+=≤∴ XP

b) Sea la v.a. X: “número de elementos defectuosos en la muestra”

En este caso )40 10 ,5( ~ ,HX . Hay que calcular la )2( ≥XP

)1()0(1)1(1)2( =−=−=≤−=≥ XPXPXPXP

2165718.0

5

40

05

1040

0

10

)0( =

−

−

==XP 416484.0

5

40

15

1040

1

10

)1( =

−

−

==XP

3669442.0)2( =≥∴ XP

Observación:

En el ejemplo anterior si el cargamento hubiese tenido 400 elementos se podría haber considerado en

la parte a) a X con distribución binomial con parámetros 5=n y 400

5=p

En general, si el tamaño de la población N y el número de éxitos M crecen pero de manera tal que

pN

M→ y n es chico comparado con N, se puede verificar que


48

pN

Mpp

k

n

n

N

kn

MN

k

M

knk

N=−

=

−

−

−

∞→ donde )1(lim

Por lo tanto, para una fracción fija de defectuosos pN

M= la función de probabilidad hipergeométrica

converge a la función de probabilidad binomial cuando N se hace grande.


Dem.) La demostración se hará mas adelante.

Distribución de Poisson

Una v.a. X con rango { },....2,1,0=XR se dice tener distribución de Poisson con parámetro λ , si para

algún 0>λ

,.....2,1,0 !

)( ===−

kk

ekXP

kλλ

Es fácil verificar que 1)(0

==∑=

n

k

kXP usando el hecho que λλ

ekk

k

=∑∞

=0 !

1!!

)(000

=====−

∞

=

−∞

=

−

=

∑∑∑ λλλλ λλee

ke

kekXP

k

k

k

kn

k

En los siguientes gráficos se ve como varía la forma de la distribución con los valores de λ

Notar que para valores de λ “pequeños” la distribución es asimétrica, a medida que λ aumenta, la

distribución tiende a ser cada vez más simétrica

lambda0,2

pro

bab

ilid

ad

0 0,5 1 1,5 2 2,5 3

0

0,2

0,4

0,6

0,8

1

−

−

−==

1)(y )( entonces ) ,( ~ Si

N

nN

N

MN

N

MnXV

N

nMXENM,nHX


49

lambda3

pro

bab

ilid

ad

0 2 4 6 8 10 12

0

0,04

0,08

0,12

0,16

0,2

0,24

lambda8

pro

bab

ilid

ad

0 4 8 12 16 20 24

0

0,03

0,06

0,09

0,12

0,15

lambda15

pro

bab

ilid

ad

0 10 20 30 40

0

0,02

0,04

0,06

0,08

0,1

0,12

lambda20

pro

bab

ilid

ad

0 10 20 30 40 50

0

0,02

0,04

0,06

0,08

0,1


50

lambda35

pro

bab

ilid

ad

0 20 40 60 80

0

0,02

0,04

0,06

0,08

Ejemplo:

Considere escribir en un disco de computadora y luego enviar el escrito por un certificador que cuenta el número de pulsos faltantes. Suponga que este número X tiene una distribución de Poisson con pará-

metro igual a 0.2

a) ¿Cuál es la probabilidad de que un disco tenga exactamente un pulso faltante?

b) ¿Cuál es la probabilidad de que un disco tenga al menos dos pulsos faltantes?

c) Si dos discos se seleccionan independientemente, ¿cuál es la probabilidad de que ninguno contenga

algún pulso faltante?

Solución: a) Sea la v.a. X: “número de pulsos faltantes en un disco”

Entonces )2.0( ~ PX

Se pide 163746.0!1

2.0)1(

12.0

===−eXP

b) Siendo X como en a) se pide calcular )2( ≥XP

01752.0!1

2.0

!0

2.01)1()0(1)1(1)2(

12.0

02.0

=−−==−=−=≤−=≥−− eeXPXPXPXP

c) Sea la v.a. Y: “número de discos sin pulsos faltantes”

Entonces ),2( ~ pBY donde 2.0)0(

−=== eXPp

Por lo tanto se pide calcular )2( =YP

( ) 67032.0)1(2

2)2(

22.0202===−

==

−epppYP


Dem.)

( ) ( )λλ

λλ

λλ

λλ

λλ λλλλλλλ

====−

=−

====−

∞

=

−∞

=

−∞

=

−−∞

=

−∞

=

−∞

=

∑∑∑∑∑∑ eek

ek

e

k

e

k

e

k

ekkXkPXE

k

k

k

k

k

k

k

k

k

k

k 001

1

100 !!!1!1!)()(

22)()( µ−= XEXV donde λµ == )(XE

( )( )

( )∑∑∑∑∑∞

=

−∞

=

−∞

=

−∞

=

−∞

=

=−

+−=−

=====110

2

0

2

0

22

!111

!1!!)()(

k

k

k

k

k

k

k

k

k k

ek

k

ek

k

ek

k

ekkXPkXE

λλλλ λλλλ

λλλ == )(y )( entonces )( ~ Si XVXEPX


51

( )( ) ( ) ( ) ( ) ∑ ∑∑ ∑∑ ∑

∞

=

∞

=

+−+−∞

=

∞

=

−−∞

=

∞

=

−−

=+=−

+−

=−

+−

−=0 0

12

2 11 1 !!!1!2!1!11

k k

kk

k k

kk

k k

kk

k

e

k

e

k

e

k

e

k

e

k

ek

λλλλλλ λλλλλλ

λλλ

λλ

λλλ

+=+= ∑ ∑∞

=

∞

=

−−2

0 0

2

!!k k

kk

k

e

k

e

Por lo tanto

λλλλ =−+=22)(XV

Aplicaciones de la distribución de Poisson

La v.a. Poisson tiene un gran rango de aplicaciones, una de ellas es la aproximación para una v.a. bi-

nomial con parámetros n y p cuando n es grande y p es pequeño de manera tal que λ→np , específi-

camente, sea ),( ~ pnBX y sea np=λ , entonces

k

n

k

k

knk

knk

n

n

kn

knnn

nnknk

npp

knk

nkXP

−

−

+−−=

−

−=−

−==

−

−

λ

λ

λλλ

1

1

!

)1)....(1(1

)!(!

!)1(

)!(!

!)(

Para n grande y p chico

λλ −≈

− e

n

n

1 ; 1)1)....(1(

≈+−−

kn

knnn ; 11 ≈

−

k

n

λ

Entonces, para n grande y p chico

!

)(k

ekXPkλλ−

≈=

Es decir cuando n es grande, p chico y np es “moderado” entonces la v.a. binomial con parámetros n y p tiene una distribución que se aproxima a la de una Poisson con parámetro np=λ

Ejemplo:

Supongamos que la probabilidad de que un artículo producido por cierta máquina sea defectuoso es

0.1. Hallar la probabilidad que una muestra de 10 artículos contenga a lo sumo un defectuoso.

Sea X: “número de artículos defectuosos en la muestra”

Podemos asumir que )1.0 ,10( ~ BX

La probabilidad exacta pedida es

( ) ( ) ( ) ( ) 7361.09.01.01

109.01.0

0

10)1()0()1(

11010100=

+

==+==≤

−−XPXPXP

La aproximación de Poisson da

7358.0!1!0

)1()0()1( 111

10

1≈+=+≈=+==≤

−−−− eeeeXPXPXPλλ

11.010 =×== npλ


52

Algunos autores sostienen que la aproximación de Poisson funciona bien cuando n es grande, p es chi-co y 7<np (Mendenhall, Estadística matemática con aplicaciones), otros recomiendan usar la aproxi-

mación de Poisson a la binomial cuando 100≥n y 01.0≤p y 20≤np (Devore, Probabilidad para

ingeniería y ciencias)

En la siguiente tabla se da un ejemplo de una aproximación de Poisson a la función de distribución de la binomial. Se tabula la )( kXP = para algunos valores de k para las distribuciones binomial y Pois-

son con los parámetros que se indican

k X = BH105,2×10

−5L X = BH5×10

3,4×10

−5L PH2L

0 0.135281 0.135281 0.135335

1 0.270671 0.270671 0.270671

2 0.270725 0.270725 0.270671

3 0.180483 0.180483 0.180447

4 0.0902235 0.0902235 0.0902235

5 0.036075 0.036075 0.0360894

6 0.0120178 0.0120178 0.0120298

7 0.0034309 0.0034309 0.00343709

8 0.000856867 0.000856867 0.000859272

9 0.000190186 0.000190186 0.000190949

10 0.000037984 0.000037984 0.0000381899

11 6.89513×10−6 6.89513×10−6 6.94361×10−6

12 1.14712×10−6 1.14712×10−6 1.15727×10−6

13 1.76127×10−7 1.76127×10−7 1.78041×10−7

14 2.51056×10−8 2.51056×10−8 2.54345×10−8

15 3.33937×10−9 3.33937×10−9 3.39126×10−9

Ejemplo:

En una prueba de tarjetas de circuitos, la probabilidad de que un diodo en particular falle es 0.01. Su-

ponga que una tarjeta contiene 200 diodos.

a) ¿Cuál es la probabilidad aproximada de que por lo menos 4 diodos fallen en una tarjeta seleccionada

al azar? b) Si se embarcan cinco tarjetas a un cliente en particular, ¿cuál es la probabilidad de que por lo menos

cuatro de ellas funcionen bien? (Una tarjeta funciona bien solo si todos sus diodos funcionan bien)

Solución: a) Sea la v.a. X: “número de diodos en una tarjeta que fallan”

Entonces )01.0 ,200( ~ BX . Como n es grande y p chico aplicamos la aproximación Poisson con

201.0200 =×=np

Se pide calcular la )4( ≥XP

143.0857.01)3(1)4( =−≈≤−=≥ XPXP

por tabla de la acumulada de la Poisson

b) Sea la v.a. Y: “número de tarjetas entre 5 que funcionan bien”

Tenemos que ) ,5( ~ pBY donde 20

2

!0

2)0(

−−=≈== eeXPp


53

Se pide calcular )4( ≥YP

( ) ( ) ( ) ( ) ( ) 10285525245242 51515

51

4

5)5()4()4( −−−−−−−−−

+−=−

+−

==+==≥ eeeeeeeYPYPYP

Proceso de Poisson

Una aplicación importante de la distribución de Poisson se presenta en relación con el acontecimiento

de eventos de un tipo particular en el tiempo. Por ejemplo, un evento podría ser un individuo entrando

en un establecimiento en particular, o pulsos radiactivos registrados por un contador Geiger, o auto-

móviles pasando por un cruce determinado.

Supongamos que tenemos eventos que ocurren en ciertos puntos aleatorios de tiempo, y asumimos que para alguna constante positiva λ las siguientes suposiciones se sostienen:

1- La probabilidad que exactamente 1 evento ocurra en un intervalo de longitud t es la misma para

todos los intervalos de longitud t y es igual a )(tot +λ (donde )(to simboliza una función )(tf tal

que 0)(

lim0

=→ t

tf

t, por ejemplo 2)( ttf = es )(to , pero ttf =)( no lo es)

2- La probabilidad que 2 o mas eventos ocurran en un intervalo de longitud t es la misma para todos

los intervalos de longitud t y es igual a )(to .

3- Para cualesquiera enteros nkkkn ,....,,, 21 y cualquier conjunto de n intervalos nIII ,...,, 21 que no se

superpongan, si definimos los eventos eventos" eexactamentocurren intervalo elen :" iii kIE

ni ,...,2,1= , entonces los eventos nEEE ,...,, 21 son independientes.

Las suposiciones 1 y 2 establecen que para pequeños valores de t, la probabilidad de que exactamente

un evento ocurra en un intervalo de longitud t es igual a tλ mas algo que es chico comparado con t,

mientras que la probabilidad de que 2 o mas eventos ocurran es pequeño comparado con t. la suposi-

ción 3 establece que lo que ocurra en un intervalo no tiene efecto (en la probabilidad) sobre lo que

ocurrirá en otro intervalo que no se superponga.

Bajo las suposiciones 1, 2 y 3 se puede probar que la v.a.

" longitud de intervalocualquier en ocurren que eventos de número:" tX , tiene distribución Poisson

con parámetro tλ

Específicamente

( )

,...2,1,0 !

)( ===−

kk

tekXP

k

t λλ

La idea de la demostración es la siguiente, partimos al intervalo [ ]t,0 en n subintervalos que no se su-

perpongan cada uno de longitud n

t


54

Elegimos n suficientemente grande para que en cada subintervalo se tenga una ocurrencia exactamente

o ninguna ocurrencia.

Sea la v.a. Y: “número de subintervalos en los que hay exactamente una ocurrencia”, entonces pode-

mos asumir que ) ,( ~ pnBY donde p es la probabilidad que en un subintervalo hay exactamente una

ocurrencia y si n es grande entonces la longitud del subintervalo n

t es chica con lo cual por suposición

1 tenemos que n

tp λ≈ .

Entonces, utilizando la aproximación de Poisson a la binomial con parámetro tn

tnnp λλ= tenemos

( ),...2,1,0

!)()( =≈=== − k

k

tekYPkXP

k

t λλ

Observaciones:

1- Un proceso temporal de Poisson consiste en eventos que ocurren en el tiempo en forma aleatoria

que cumplen con las suposiciones 1, 2 y 3.

2- El parámetro λ es la tasa o rapidez del proceso.

3- Si en lugar de observar eventos en el tiempo, consideramos observar eventos de algún tipo que ocurren en una región de dos o tres dimensiones, por ejemplo, podríamos seleccionar de un mapa una

región R de un bosque, ir a esa región y contar el número de árboles. Cada árbol representaría un evento que ocurre en un punto particular del espacio. Bajo las suposiciones 1, 2 y 3, se puede de-

mostrar que el número de eventos que ocurren en la región R tiene una distribución de Poisson con parámetro aλ donde a es el área de R ( λ se interpreta como la densidad del proceso). Se trata aho-

ra de un proceso espacial de Poisson.

Ejemplos:

1- Suponga que aviones pequeños llegan a cierto aeropuerto según un proceso de Poisson, con tasa

8=λ aviones por hora, de modo que el número de llegadas durante un período de t horas es una

v.a. Poisson con parámetro t8=λ .

a) ¿Cuál es la probabilidad de que exactamente 5 aviones pequeños lleguen durante un período de

una hora? ¿Por lo menos 5?

b) Cuál es la probabilidad de que por lo menos 20 aviones pequeños lleguen durante un período de

2 ½ hs? ¿De que a lo sumo 10 lleguen en ese período?

Solución:

a) Sea la v.a. X: “número de aviones pequeños que llegan a cierto aeropuerto en una hora” Entonces )8( ~ PX . Por lo tanto

0916.0!5

8)5(

58

===−eXP

O también usando la tabla de distribución acumulada para la Poisson

092.0099.0191.0)4()5()5( =−=≤−≤== XPXPXP

Y la probabilidad de que lleguen al menos 5 aviones será

901.0099.01)4(1)5( =−=≤−=≥ XPXP

b) Sea la v.a. X: “número de aviones pequeños que llegan a cierto aeropuerto en 2 ½ horas”


55

Entonces )5.28( ~ ×PX es decir ahora 205.28 =×=tλ

53.0470.01)19(1)20( =−=≤−=≥ XPXP

por tabla de F.d.a.

Y por último calculamos por tabla 010.0)10( =≤XP

2- Se supone que el número de defectos en los rollos de tela de cierta industria textil es una v.a. Pois-

son con tasa 0.1 defectos por metro cuadrado..

a) ¿Cuál es la probabilidad de tener dos defectos en un metro cuadrado de tela?

b) ¿Cuál es la probabilidad de tener un defecto en 10 metros cuadrados de tela?

c) ¿Cuál es la probabilidad de que no halla defectos en 20 metros cuadrados de tela?

d) supongamos que el número de defectos está relacionado con la máquina que produce la tela, de-

bido a desperfectos de la máquina el número de defectos varía en ciertos tramos del rollo. ¿Se

puede asumir que el número de defectos sigue una distribución de Poisson?

Solución: a) Sea X: “número de defectos en un metro cuadrado”. Entonces )1.0( ~ PX pues

1.011.01 =×=×= λλa

004524.0!2

1.0)2(

21.0

===−

eXP

b) Si X: “número de defectos en 10 metros cuadrados”. Entonces )1( ~ PX pues

1101.010 =×=×= λλa

3678794.0!1

1)1(

11

===−eXP

c) X: “número de defectos en 20 metros cuadrados”. Entonces )2( ~ PX pues

2201.020 =×=×= λλa

135.0!0

2)0(

02

===−

eXP

d) NO se puede asumir que el número de defectos sigue una distribución de Poisson, ya que las su-

posiciones que debe satisfacer un proceso de Poisson no se cumplirían.


56

3.5 – Variables aleatorias continuas

En la sección anterior se consideraron variables aleatorias discretas, o sea variables aleatorias cuyo

rango es un conjunto finito o infinito numerable. Pero hay variables aleatorias cuyo rango son todos

los números reales de un intervalo dado, (es decir es un conjunto infinito no numerable). Ejemplos

de variables continuas podrían ser

X: “tiempo que tarda en llegar un colectivo a una parada”

Y: “tiempo de vida de un fusible”

Como ahora los valores de una v.a. continua no son contables no se puede hablar del i-ésimo valor

de la v.a. X y por lo tanto )()( ii xXPxp == pierde su significado. Lo que se hace es sustituir la

función )(xp definida sólo para ,...., 21 xx , por una función )(xf definida para todos los valores x

del rango de X. Por lo tanto se da la siguiente definición de v.a. continua

Sea X una v.a.. Decimos que es continua si existe una función no negativa f , definida sobre todos

los reales ( )∞∞−∈ ,x , tal que para cualquier conjunto B de números reales

∫=∈B

dxxfBXP )()(

O sea que la probabilidad de que X tome valores en B se obtiene al integrar la función f sobre el con-

junto B.

A la función f la llamamos función densidad de probabilidad (f.d.p.).

Observaciones:

1- Como X debe tomar algún valor real, entonces debe cumplirse que

∫∞

∞−

=∞<<−∞= dxxfXP )()(1

2- Si B es el intervalo real [ ] { }bxaRxba ≤≤∈= ;, entonces

∫=≤≤=∈

b

a

dxxfbXaPBXP )()()(

Notar que en este caso la probabilidad de que X

tome valores en el intervalo [ ]ba, es el área bajo

f entre a y b

3- Si en la observación anterior ba = entonces

0)()( === ∫a

a

dxxfaXP

Es decir la probabilidad que una v.a. continua tome algún valor fijado es cero. Por lo tanto, para

una v.a. continua


57

∫=<<=<≤=≤<=≤≤

b

a

dxxfbXaPbXaPbXaPbXaP )()()()()(

Función de distribución acumulada

Sea X una v.a. continua. Se define la función de distribución acumulada de X (abreviamos F.d.a

de X) como

∞<<∞−≤= xxXPxF )()(

Si X tiene f.d.p. f(x) entonces

∞<<∞−=≤= ∫∞−

xdttfxXPxF

x

)( )()(

Además

)()()()()()( aFbFdxxfdxxfdxxfbXaP

abb

a

−=−==≤≤ ∫∫∫∞−∞−

Observaciones:

1- Si X es una v.a. con f.d.p. f(x) y función de distribución acumulada )(xF entonces

)()()(

xfdttfdx

d

dx

xdFx

=

= ∫

∞−

donde )(xF sea derivable

Es decir, se puede obtener la función de densidad de X a partir de su F.d.a. 2- Como en el caso discreto vale

Y además se cumple que

0)()(lim)(lim

1)()(lim)(lim

x

x

∫ ∫

∫ ∫

∞−

∞−

∞−−∞→∞−→

∞−

∞

∞−∞→∞→

===

===

x

x

x

x

dttfdttfxF

dttfdttfxF

Ejemplos:

1- Supongamos que X es una v.a. continua con f.d.p. dada por

a) ¿Cuál es el valor de C?

b) Hallar )1( >XP

c) Hallar la F.d.a. de X

( ) ≤≤−

= contrario caso 0

20 si 24)(

2xxxC

xf

Si ba < entonces )()( bFaF ≤ (es decir F(x) es una función creciente)


58

Solución:

a) Por lo dicho en la observación 1, se debe cumplir que ∫∞

∞−

= dxxf )(1 , por lo tanto

( ) ( )dxxxCdxdxxxCdxdxxf ∫∫∫ ∫∫ −=+−+==

∞

∞−

∞

∞−

2

0

2

2

0 2

0

2 240240)(1

Entonces

( )

8

3

13

8

32

2424

2

0

322

0

2

=∴

==

−=−∫

C

Cxx

CdxxxC

Es útil hacer un gráfico de la densidad

b) Para calcular la probabilidad que X sea ma-

yor que 1, planteamos

( )2

124

8

3

)1(

2

1

2=−=

=>

∫ dxxx

XP

c) Para calcular la F.d.a. notar que

tenemos tres casos: 0<x , 20 ≤≤ x y

2>x , por lo tanto

( )

>

≤≤−

<

= ∫2 si 1

20 si 248

3

0 si 0

)(

x

0

2

x

xdttt

x

xF es decir

>

≤≤

−

<

=

2 si 1

20 si 3

14

30 si 0

)( 2

x

xx

x

x

xF

El gráfico de la F.d.a. es

Se podría haber calculado la )1( >XP a partir de la F.d.a. de la siguiente forma

0.5 1 1.5 2

0.1

0.2

0.3

0.4

0.5

0.6

0.7


59

2

1

3

2

4

31

3

111

4

31)1(1)1(1)1(

2=×−=

−−=−=≤−=> FXPXP

2- El tiempo de vida en horas que una computadora funciona antes de descomponerse es una v.a.

continua con f.d.p. dada por

a) hallar la F.d.a. de X

b) ¿Cuál es la probabilidad que la computadora funcione

entre 50 y 150 horas antes de descomponerse?

c) ¿Cuál es la probabilidad que una computadora se des-

componga antes de registrar 100 horas de uso?

d) ¿Cuál es la probabilidad que exactamente 2 de 5 computadoras se descompongan antes de re-

gistrar 100 horas de uso?. Asumir que las computadoras trabajan en forma independiente.

Solución:

a) Hacemos un gráfico de la densidad y entonces observamos claramente que

hay dos casos a considerar para calcular

la F.d.a.: 0≥x y 0<x

Si 0<x entonces

00)()(

0

==≤= ∫∞−

dxxXPxF

Y si 0≥x tenemos

x

xt

x

t

ee

dtedtxXPxF

01.0

0

01.0

0

01.0

0

101.0

01.00

01.00)()(

−−

−

∞−

−=

−+=

=+=≤= ∫∫

≥−

=∴

−

contrario caso 0

0 si 1)(

01.0xe

xF

x

La gráfica de la F.d.a. es

Se pide calcular )15050( ≤≤ XP , lo hacemos con la F.d.a.:

<

≥=

−

0 si 0

0 si 01.0)(

01.0

x

xexf

x

100 200 300 400 500

0.002

0.004

0.006

0.008

0.01


60

3834.0)50()150()15050( 15001.05001.0=−=−=≤≤

×−×−eeFFXP

c) Hay que calcular )100( <XP

63212.011)100()100( 110001.0≈−=−==<

−×−eeFXP

d) Podemos definir la v.a.

Y: “número de computadores entre 5 que se descomponen antes de las 100 horas de uso”

Entonces ,p)B(Y 5~ donde )100( <= XPp

Por lo tanto hay que calcular

( ) ( ) ( ) 198937.01!3!2

!51

2

5)2(

312132≈−=−

==

−−eeppYP

3.6 – Esperanza de una variable aleatoria continua

Para una v.a. discreta la )(XE se definió como la suma de los )( ii xpx . Si X es una v.a. continua con

f.d.p. f(x), se define )(XE sustituyendo la sumatoria por integración y )( ixp por f(x).

Ejemplo:

Para ciertas muestras de minerales la proporción de impurezas por muestra, es una v.a. X con f.d.p.

dada por

Hallar la esperanza de X

f(x)

x

La esperanza de una v.a. continua X con f.d.p. f(x) se define como

∫∞

∞−

= dxxxfXE )()(

<<+=

contrario caso 0

10 si 2

3

)(2

xxxxf


61

Solución:

Se plantea

24

17

3

1

4

1

2

3

342

3

2

3)(

1

0

341

0

2=

+×=

+=

+= ∫

xxdxxxxXE

A menudo se desea calcular la esperanza de una función de X, Y = h(X), esto se puede hacer hallan-

do previamente la densidad de Y y luego calcular E(Y) aplicando la definición anterior.

Otra forma de calcular E(Y) sin hallar la densidad de Y está dada por el siguiente

Dem.) sin demostración

Ejemplo: En el ejemplo anterior supongamos que el valor en dólares de cada muestra es

XXhY 5.05)( −== . Encontrar la esperanza de Y

Podemos hallar la esperanza de Y encontrando previamente su f.d.p.

Para esto se encuentra la F.d.a. de Y , para luego hallar la densidad de Y derivando la F.d.a

Anotamos )(yG y )(yg a la F.d.a de Y y a la densidad de Y respectivamente

−−=

−≤−=

−≥=≤−=≤=

5.0

51

5.0

51

5.0

5)5.05()()(

yF

yXP

yXPyXPyYPyG

Donde )()( xXPxF ≤=

Entonces

<

−<

−+

−

=

=

−=

−

−−=

−−=

contrario caso 0

15.0

50 si

5.0

1

5.0

5

5.0

5

2

3

5.0

1

5.0

5

5.0

1

5.0

5

5.0

51)(

2yyy

yf

yf

yF

dy

dyg

O sea

<<

−+

−

=

contrario caso 0

52

9 si

5.0

1

5.0

5

5.0

5

2

3

)(

2

yyy

yg

Ahora calculamos la )(YE

46

223

5.0

1

5.0

5

5.0

5

2

3)(

5

29

2

=

−+

−= ∫ dy

yyyYE

Teorema: Si X es una v.a. continua con f.d.p. f(x) y h(X) es cualquier función de X, entonces

∫∞

∞−

= dxxfxhXhE )()())((


62

Aplicando el teorema anterior los cálculos se reducen:

( )46

223

2

35.05))(()( 2

1

0 )(

=

+−== ∫ dxxxxXhEYE

f(x)

xh 4342143421

Notar que de la misma forma que en el caso discreto, si baxxh +=)( , es decir si h es una función

lineal, aplicando las propiedades de linealidad de la integral tenemos

bXaEbaXE +=+ )()(

En el ejemplo anterior se podía encontrar la esperanza de Y haciendo

46

223

24

175.05)(5.05)5.05())(()( =×−=−=−== XEXEXhEYE

Varianza de una variable aleatoria continua

La interpretación de la varianza de una v.a. continua es la misma que para el caso discreto.

Además sigue valiendo la igualdad

( ) 22)( µ−= XEXV

Pues en la demostración hecha para el caso discreto si sustituyen las sumatorias por integrales.

Por la misma razón, también vale que

XbaX aXVabaXV σσ ==+ + y )()( 2

Ejemplo:

Calculamos la varianza de XY 5.05 −=

20

11

4

1

5

1

2

3

452

3

2

3)(

24

17)()()(

)(5.0)(

1

0

451

0

222

2

222

2

=

+×=

+=

+=

−=−=

=

∫xx

dxxxxXE

XEXEXV

XVYV

µ

11520

139

24

17

20

115.0)(

24

17

20

11)(

2

2

2

=

−=⇒

−=∴ YVXV

Sea X una v.a. continua con f.d.p. f(x) y sea µ=)(XE , entonces la varianza de X es

( )[ ] ( )∫∞

∞−

−=−== dxxfxXEXV X )()(222 µµσ


63

3.7 - Variables aleatorias continuas importantes

Distribución uniforme

La distribución continua más sencilla es análoga a su contraparte discreta.

Una v.a. continua X se dice que tiene distribución uniforme en el intervalo [ ]ba, , con a < b, si tiene

función de densidad de probabilidad dada por

≤≤−=

contrario caso 0

si 1

)(bxa

abxf

La figura muestra la gráfica de la f.d.p.

Notación: [ ]baUX ,~

Es fácil verificar que f(x) es una f.d.p. pues

0)( ≥xf para todo x, y además

1)( 1

11

)( =−−

=−

=−

= ∫∫∞

∞−

abab

xab

dxab

dxxfb

a

b

a

La F.d.a. para bxa ≤≤ sería

ab

axdt

abdttfxXPxF

x

a

x

−

−=

−==≤= ∫∫

∞−

1)()()(

Para ax < , tenemos que ∫∞−

==≤

x

dtxXP 00)(

Y para bx > tenemos que ∫ ∫∫∞−

=+−

+=≤

a x

b

b

a

dtdtab

dtxXP 101

0)(

Por lo tanto la F.d.a. es

>

≤≤−

−<

=

bx

bxaab

axax

xF

si 1

si

si 0

)(

Y su gráfica es

F(x)

x


64

Observación:

Si [ ]baUX ,~ y bdca ≤<≤ , entonces

ab

cd

ab

ac

ab

adcFdFdXcP

−

−=

−

−−

−

−=−=≤≤ )()()(

Ejemplo:

Los colectivos de una determinada línea llegan a una parada en particular en intervalos de 15 minutos

comenzando desde las 7 A.M. Esto es, ellos llegan a la parada a las 7, 7:15, 7:30, 7:45 y así siguiendo. Si un pasajero llega a la parada en un tiempo que se puede considerar una v.a. distribuida uniforme-

mente entre 7 y 7:30, encontrar la probabilidad de que

a) el pasajero espere menos de 5 minutos al colectivo

b) el pasajero espere más de 10 minutos al colectivo

Solución:

Sea X: “tiempo en minutos desde las 7 hs en que el pasajero llega a la parada”

Entonces podemos considerar que [ ]30,0~ UX

a) si el pasajero espera menos de 5 minutos al colectivo, entonces llega a la parada entre las 7:10 y

7:15 o entre las 7:25 y 7:30, entonces la probabilidad pedida es

3

1)3025()1510(

30

2530

1

15

1030

1 =+=≤≤+≤≤ ∫∫ dxdxXPXP

O también se puede plantear directamente

3

1

30

52

30

2530

30

1015)3025()1510( =

×=

−+

−=≤≤+≤≤ XPXP

b) Análogamente si debe esperar más de 10 minutos, deberá llegar entre las 7 y las 7:05 o entre las

7:15 y 7:20, por lo tanto la probabilidad pedida es

3

1

30

52

30

5

30

5)2015()50( =

×=+=≤≤+≤≤ XPXP


Dem.)

Recordamos que la f.d.p. de una v.a. [ ]baUX ,~ es

f(x)

x

Sea una X variable aleatoria continua distribuida uniformemente en el intervalo [ ]b,a , es decir

[ ]baUX ,~ . Entonces, ( )2

baXE

+= y

( )12

)(

2ab

XV−

= .


65

≤≤−=

contrario caso 0

si 1

)(bxa

abxf

Entonces:

( ) ( )( ) 222

1 222 ab

ab

abx

abdx

ab

xdxxfXE

b

a

b

a

+=

−

−=

−=

−== ∫∫

∞

∞−

Notar que (a+b)/2 representa el punto medio del intervalo [ ]b,a (como es de esperar por el significado

de la distribución y de la esperanza):

Calculamos ahora la varianza de X

Deseamos calcular ( ) ( ) ( )[ ]22XEXEXV −= , es decir

( ) ( )2

2

2

+−=

baXEXV . Debemos obtener ( )2XE :

( )33

1

3

11 2233322 aa.bb

ab

abx.

abdx

abxXE

b

a

b

a

++=

−

−=

−=

−= ∫ . Entonces:

( )( )

1223

2222 abbaaa.bbXV

−=

+−

++=

Distribución normal o gaussiana

Sea X una v.a. Decimos que tiene distribución normal con parámetros µ y σ si su f.d.p. es de la for-

ma

∞<<∞−=

−−

xexf

x

2

2

1

2

1)( σ

µ

πσ (13)

Donde R∈µ y 0>σ

Notación: ( )2,~ σµNX

Para darse una idea de la forma de la gráfica notar que:

1- )(xf es simétrica alrededor de µ , es decir )()( xfxf −=+ µµ para todo x

2- 0)(lim =±∞→

xfx

(eje x asíntota horizontal)

3- Si planteamos µ=⇒= xxfdx

d 0)( . Se pude verificar que en µ=x la función tiene un máximo

absoluto, πσ

µ2

1)( =f


66

4- Si planteamos σµ ±=⇒= xxfdx

d 0)(

2

2

. Se puede verificar que en σµ −=x y en σµ +=x

la función tiene dos puntos de inflexión, y además en el intervalo ( )σµσµ +− , la función es cón-

cava hacia abajo y fuera de ese intervalo es cóncava hacia arriba

La gráfica de )(xf tiene forma de campana

Observación:

Cuando µ varía la gráfica de la función se traslada, µ es un parámetro de posición.

Cuando σ aumenta, la gráfica se “achata”, cuando σ disminuye la gráfica se hace mas “puntiaguda”,

se dice que σ es un parámetro de escala.

En las siguientes figuras vemos cómo varía la gráfica de f(x) con la variación de los parámetros

1 0 == σµ

1 2 == σµ

- - - - - 1 3 =−= σµ

1 0 == σµ

2 0 == σµ

- - - - - 4 0 == σµ

πσ 21

σµ − σµ + µ

-6 -4 -2 2 4 6

0.1

0.2

0.3

0.4

-6 -4 -2 2 4 6

0.1

0.2

0.3

0.4


67

Se puede probar que f(x) es una f.d.p. es decir que

a) 0)( ≥xf para todo x

b) 1)( =∫∞

∞−

dxxf

Que a) es cierta es obvio; para probar b) es necesario recurrir al cálculo en dos variables (no lo demos-

tramos).

Si 0=µ y 1=σ entonces se dice que X tiene distribución normal estándar. Se anota ( )1,0~ NX

En este caso la f.d.p. se simboliza con )(xϕ , es decir

∞<<∞−=−

xexx

2

1)(

2

2

1

πϕ

En este caso la gráfica de la densidad es simétrica con respecto al origen.

La F.d.a. de una v.a. normal estándar se anota )(xΦ

∫∞−

−

=≤=Φ

xt

dtexXPx2

2

1

2

1)()(

π

Esta integral no puede expresarse en términos de funciones elementales, por lo tanto se calcula )(xΦ

Para valores específicos de x mediante una aproximación numérica.

Esto ya está hecho, existen tablas de la función de distribución acumulada de la normal estándar para

valores de x que oscilan en general entre -4 y 4, pues para valores de x menores que -4, 0)( ≈Φ x , y

para valores de x mayores que 4, 1)( ≈Φ x

Notar que como la )(xϕ es simétrica con respecto al origen entonces

)(1)(1)()()( xxXPxXPxXPx Φ−=≤−=>=−≤=−Φ

)( xXP > )( xXP −≤

-x x 0


68

Por ejemplo, si ( )1,0~ NX entonces utilizando la tabla de la F.d.a. de X

a) 89616.0)26.1()26.1( =Φ=≤XP

b) 10384.089616.01)26.1(1)26.1(1)26.1( =−=Φ−=≤−=> XPXP

c) 91465.0)37.1()37.1()37.1( =Φ=≤=−> XPXP

d) =−Φ−Φ=−<−<=<<− )25.1()37.0()25.1()37.0()37.025.1( XPXPXP

( ) 53866.0)89435.01(64431.0)25.1(1)37.0( =−−=Φ−−Φ=

e) ¿Para qué valor x se cumple que 95.0)( =<<− xXxP ?

Tenemos que 1)(2))(1()()()()( −Φ=Φ−−Φ=−Φ−Φ=<<− xxxxxxXxP

Por lo tanto 975.02

190.0)( 95.01)(2 =

+=Φ⇒=−Φ xx

Observamos en la tabla de la F.d.a. que 96.1=x , pues 975.0)96.1( =Φ

Para los incisos a) , b) y c) se grafican las regiones correspondientes

Una propiedad importante de la distribución normal es que si ( )2,~ σµNX entonces la v.a.

baXY += con a y b números reales, 0≠a , tiene también distribución normal pero con parámetros

ba +µ y 22σa , es decir

( ) ),~ ,~ 222 σµσµ abN(abaXNX ++⇒ (14)

Podemos demostrar lo anterior primero hallando la F.d.a. de Y

1.26

b)

1.26

a)

c)


69

−=

−≤=≤+=≤=

a

byF

a

byXPybaXPyYPyG )()()( donde F es la F.d.a. de X

0>a

Por lo tanto, la f.d.p. de Y la obtenemos derivando G(y)

2

2

1

2

111)()(

−

−

−

=

−=

−==

σ

µ

πσ

a

by

eaaa

byf

a

byF

dy

dyG

dy

dyg donde

2

2

1

2

1)(

−−

= σ

µ

πσ

x

exf

Operando en el exponente se llega a

2

)(

2

1

2

11)(

+−−

= σ

µ

πσ

a

bay

ea

yg

Si 0<a entonces

−−=

−≥=≤+=≤=

a

byF

a

byXPybaXPyYPyG 1)()()(

Y derivando con respecto a y obtenemos

2

2

1

2

1111)()(

−

−

−

−=

−−=

−−==

σ

µ

πσ

a

by

eaaa

byf

a

byF

dy

dyG

dy

dyg

O sea, para 0≠a la f.d.p. de Y es

2)(

2

1

2

11)(

+−−

= σ

µ

πσ

a

bay

ea

yg

Y comparando con (13) se deduce que ),~ 22σµ abN(ab aXY ++=

Una consecuencia importante del resultado (14) es que

)1,0(~ entonces ),(~ si 2N

XYNX

σ

µσµ

−= (15)

Notar que Y se pude escribir como

−+=

σ

µ

σXY

1 es decir claramente Y es una función lineal de X

Por lo tanto aplicamos el resultado (14) con σ

1=a y

σ

µ−=b y llegamos a (15).

Si ( )2,~ σµNX entonces la F.d.a. de X es

dtexXPxF

tx2

2

1

2

1)()(

−−

∞−

∫=≤= σ

µ

πσ

F(x) no puede expresarse en términos de funciones elementales y sólo hay tablas de la F.d.a. de la

normal estándar.

Para calcular F(x) procedemos de la siguiente forma


70

−Φ=

−≤=

−≤

−=≤=

σ

µ

σ

µ

σ

µ

σ

µ xxYP

xXPxXPxF )()(

( )1,0~ NY

Ejemplos:

1- Si ( )9,3~ NX entonces

a) 3779.03

1

3

2

3

32

3

35

3

35

3

3

3

32)52( =

−Φ−

Φ=

−Φ−

−Φ=

−<

−<

−=<<

XPXP

b) 8413.0)1()1(13

30

3

3)0( =Φ=−Φ−=

−>

−=>

XPXP

c) ( ) ( ) ( )[ ] =

≤

−≤

−−=≤−≤−−=≤−−=>−

3

6

3

3

3

61636163163

XPXPXPXP

( ) ( )[ ] [ ] 0456.0)2(12221 =Φ−=−Φ−Φ−=

2- Hay dos máquinas para cortar corchos destinados para usarse en botellas de vino. La primera pro-

duce corchos con diámetros que están normalmente distribuidos con media de 3 cm y desviación es-

tándar de 0.1 cm. La segunda máquina produce corchos con diámetros que tienen una distribución

normal con media de 3.04 cm y desviación estándar de 0.02 cm. Los corchos aceptables tienen diáme-tros entre 2.9 cm y 3.1 cm. ¿Cuál máquina tiene mas probabilidad de producir un corcho aceptable?

Solución:

Sean las variables aleatorias

X: “diámetro de un corcho producido por la máquina 1”

Y: “diámetro de un corcho producido por la máquina 2”

Entonces ( )21.0,3~ NX y ( )202.0,04.3~ NY

Calculamos cuál es la probabilidad que la máquina 1 produzca un corcho aceptable

6826.01)1(2)1()1(

1.0

39.2

1.0

31.3

1.0

31.3

1.0

3

1.0

39.2)1.39.2(

=−Φ=−Φ−Φ=

=

−Φ−

−Φ=

−≤

−≤

−=≤≤

XPXP

Análogamente para la máquina 2

9987.009987.0)7()3(

02.0

04.39.2

02.0

04.31.3

02.0

04.31.3

02.0

04.3

02.0

04.39.2)1.39.2(

=−=−Φ−Φ=

=

−Φ−

−Φ=

−≤

−≤

−=≤≤

YPYP

Entonces es más probable que la máquina 2 produzca corchos aceptables.

3- El dispositivo automático de apertura de un paracaídas militar de carga se ha diseñado para abrir el

paracaídas cuando éste se encuentre a 200 m de altura sobre el suelo. Supongamos que la altitud de

apertura en realidad tiene una distribución normal con valor medio de 200 m y desviación estándar de

30 m. Habrá un daño al equipo si el paracaídas se abre a una altitud de menos de 100 m. ¿Cuál es la

probabilidad de que haya daño a la carga en al menos uno de cinco paracaídas lanzados independien-

temente?

Solución:

Sea la v.a. X: “altitud de apertura en metros de un paracaídas”


71

Entonces ( )230,200~ NX

Calculamos 0004.0)33.3(30

200100)100( =−Φ=

−Φ=<XP

Consideramos ahora la v.a. Y: “número de paracaídas entre 5 que se abren a menos de 100 metros”

Podemos considerar que ( )0004.0 ,5~ BY

Por lo tanto hay que calcular )1( ≥YP

0019984.0)0004.01(1)0004.01(0004.00

51)0(1)1( 5050

=−−=−

−==−=≥

−YPYP

4- Supóngase que la resistencia a romperse (en Kgr) de fibras de yute está descrita por una v.a. conti-

nua X normalmente distribuida con ( ) 165== XEµ Kgr y ( ) 92 == XVσ (Kgr)2. suponiendo además

que una muestra de esta fibra se considera defectuosa si 162<X . Cuál es la probabilidad de que una

fibra elegida al azar sea defectuosa?

Solución:

Deseamos conocer ( )162<XP

( ) ( )113

165

3

165162

3

165162 −=

−<

−=

−<

−=< Φ

XP

XPXP ,

puesto que 3

165−=

XZ ∼ ( )10,N . Entonces

( ) ( ) ( ).XP 111162 ΦΦ −=−=<

De la tabla tenemos ( ) 841301 .=Φ → ( ) ( ) 15870111 .=−=− ΦΦ .

Es decir ( ) 15870162 .XP =< .

Observación:

Uno puede objetar el usar una distribución normal para describir a la v.a. X que representa la resisten-

cia a romperse de la fibra ya que ésta es, obviamente, una cantidad no negativa, mientras que una v.a.

normalmente distribuida puede tomar valores que varían entre ∞− y ∞+ . Sin embargo al modelar el problema con una normal (que aparentemente debería ser invalidada como modelo por lo señalado)

vemos que les estamos asignando al suceso { }0<X una probabilidad prácticamente nula (ver también

la figura siguiente):

( ) ( ) ( ) 011551553

1650

3

1650 =−≈−=−=

−<

−=< ΦΦ

XPXP .

x [Kgr]

f(x )

0 5 10 15 1 50 180

0,5

1,0

1,5

µµµµ = 165

En casos como estos se justifica usar la distribución normal para modelar situaciones en que la varia-

ble aleatoria considerada puede tomar, por su significado, sólo valores positivos, aún cuando la normal


72

permita tomar valores tanto positivos como negativos por cuanto la probabilidad de que la v.a. tome

valores negativos es prácticamente nula.

Esperanza y varianza de una variable aleatoria con distribución normal

Dem.) Usaremos el resultado:

12

12

2

=∫+∞

∞−

−

dte

t

π

Calculamos la esperanza de X

( ) ∫+∞

∞−

−−

= dxe.xσ.π

XE σ

µx2

2

1

2

1 hacemos la sustitución

( ) +∞<<∞−=+=→−

= tyσ

dxdt,µt.σx

σ

µxt .

Luego:

( ) ( ) ∫∫∫+∞

∞−

−+∞

∞−

−+∞

∞−

−

+=+= dteπ

µdtte

π

σdte.µt.σ

πXE

ttt

222

222

222

1

Considerado como función de t, el integrando de la primera integral ( ) 2

2t

tetf−

= es una función impar

de t, es decir, verifica ( ) ( )tftf −=− . En consecuencia la integral a lo largo de un intervalo simétrico

con respecto al origen, como lo es ( )∞∞− , se anula.

El segundo sumando, por su parte, es justamente µ veces la integral 12

12

2

=∫+∞

∞−

−

dte

t

π. Entonces

( ) µXE = .

Veamos el cálculo de la varianza de X

( ) ( ) ( )[ ] ( ) 2222 µXEXEXEXV −=−= . Nos queda evaluar ( )2XE ,

( ) ∫+∞

∞−

−−

= dxe.xσ.π

XE σ

µx2

2

1

22

2

1. Hacemos nuevamente la sustitución

( ) +∞<<∞−=+=→−

= tyσ

dxdt,µt.σx

σ

µxt . Reemplazando:

( ) ( ) ∫∫∫∫+∞

∞−

−+∞

∞−

−+∞

∞−

−+∞

∞−

−

++=+= dteπ

µdte.t

π

µ.σdte.t

π

σdte.µt.σ

πXE

tttt

2

2

2222

222

2222

22

2

22

1

Ahora el integrando de la segunda integral es impar y por lo tanto se anula. Entonces

Sea ( )2,~ σµNX entonces µ=)(XE y 2)( σ=XV


73

( ) 2222

2

2

2µdte.t

π

σXE

t

+= ∫+∞

∞−

−

.

Debemos calcular la integral ∫+∞

∞−

−

dte.t

t

22

2

. Integrando por partes

con

−==

==

−−22

22 tt

evdttedv

dtdutu

→ ∫∫∞+

∞−

−

+∞

∞−

−∞+

∞−

−

+−= dteetdte.t

ttt

2222

222

.

El corchete de Barrow se anula en ambos extremos y la integral es justamente πIπ 22 = . Entonces

: 12

122

2

=∫+∞

∞−

−

dte.tπ

t

. Por lo tanto ( ) 222 µσXE += y, en consecuencia,

( ) ( ) 222222 σµµσµXEXV =−+=−=

Distribución exponencial

Sea X una v.a. continua. Se dice que tiene distribución exponencial con parámetro λ si su f.d.p. es de

la forma

0 donde contrario caso 0

0 xsi )(

> ≥

=−

λλ λx

exf

La distribución exponencial se utiliza algunas veces para modelar el tiempo que transcurre antes de que ocurra un evento. A menudo se lo llama tiempo de espera.

La siguiente figura muestra la gráfica de la densidad para diferentes valores del parámetro

4=λ

2=λ

- - - - - - 1=λ

Es fácil verificar que f(x) es una densidad bien definida

a) Claramente 0)( ≥xf para todo x

b) 1

00

=

−=

∞−∞

−

∫ λλλ

λλ

tt edte

La F.d.a. de una v.a. exponencial es sencilla:

Si 0<x entonces 0)()( =≤= xXPxF

0.5 1 1.5 2 2.5 3

0.2

0.4

0.6

0.8

1

1.2

1.4


74

Si 0≥x entonces x

xtx

te

edtexXPxF

λλ

λ

λλλ −

−−

−=

−==≤= ∫ 1)()(

00

Por lo tanto

≥−

=−

contrario caso 0

0 si 1)(

xexF

xλ

Su gráfica es

Notación: )(~ λExpX

Ejemplo:

Supongamos que el tiempo, en segundos, de respuesta en cierta terminal de computadora en línea (es

decir el tiempo transcurrido entre el fin de la consulta del usuario y el principio de la respuesta del

sistema a esa consulta) se puede considerar como una variable aleatoria con distribución exponencial

con parámetro 2.0=λ . Calcular

a) la probabilidad de que el tiempo de respuesta sea a lo sumo 10 segundos.

b) la probabilidad de que el tiempo de respuesta esté entre 5 y 10 segundos.

Solución:

Sea X la v.a., entonces )2.0(~ ExpX

a) Se pide calcular )10( ≤XP

Por lo tanto

865.0135.011)10()10( 102.0=−=−==≤

×−eFXP

b) ( ) ( ) 233.011)5()10()105( 52.0102.0=−−−=−=≤≤

×−×−eeFFXP

Esperanza y varianza de la distribución exponencial

Dem.)

Es útil calcular en general )( kXE el momento de orden k con respecto al origen siendo k un número

natural

x

F(x)

Sea )(~ λExpX entonces λ

1)( =XE y

2

1)(

λ=XV


75

( ) dxexdxxfxXExkkk

∫∫+∞

−

+∞

==00

)( λλ ( ),...,,k 210= .

Integrando por partes:

=

=−

dxedv

xux

k

λλ

−=

=−

−

x

k

ev

dxkxduλ

1

→ ∫+∞

−−∞+

−+−=

0

1

0dxexkex

xkxk

k

λλµ . El corchete de Barrow se

anula y queda ∫+∞

−−=

0

11)( dxexkXE

xkk λ

λλ . Aplicando reiteradamente se llega finalmente a

( )k

x

k

k kdxekkXE

=

−= ∫

+∞

−

λλ

λ

λ 1!

11.2...1)(

0

Por lo tanto tenemos para la esperanza y la varianza:

( )λ

1=XE

( )2

22

22 1112)(

λλλµ =

−

=−= XEXV

Propiedades de la distribución exponencial

1- Relación entre la distribución exponencial y el proceso de Poisson.

Sea T el tiempo de espera hasta el siguiente evento en un proceso de Poisson con parámetro λ .

Veamos cuál es la F.d.a. de T. Si 0<t entonces claramente 0)()( =≤= tTPtF

Si 0≥t entonces para hallar )()( tTPtF ≤= consideramos el evento complementario de { }tT ≤ .

Notar que { }tT > si y solo si no ocurre ningún evento durante las siguientes t unidades de tiempo.

Si X: “número de eventos que ocurren en las siguientes t unidades de tiempo”, entonces

{ }tT > ocurre si y solo si { }0=X ocurre, por lo tanto )0()( ==> XPtTP

Como )(~ tPX λ entonces

( ) tt

et

eXPtTPλλ λ −−

====>!0

)0()(

0

Por lo tanto

tetTPtTPtF λ−−=>−=≤= 1)(1)()(

Como F(t) es la F.d.a. de una v.a. exponencial, entonces )(~ λExpT

Por lo tanto

Consideremos un aplicación hidrológica de estas ideas

tiempo

0 t

Si los eventos siguen un proceso de Poisson con parámetro λ , y si T representa el tiempo de espera

desde cualquier punto inicial hasta el próximo evento, entonces )(~ λExpT


76

i) X = Nº de inundaciones en un período [ ]t,0 → )(~ tPX λ

ii) λ = Nº medio de inundaciones por unidad de tiempo → ( )t

XE=λ

iii) T = Tiempo transcurrido entre inundaciones → T ∼ ( )λExp

iv) ( )TE = Tiempo medio de retorno de las inundaciones → ( )λ

1=TE .

2- Propiedad falta de memoria

La distribución exponencial tiene una propiedad conocida como falta de memoria, que se muestra en el

siguiente ejemplo:

El tiempo de vida, en años, de un circuito integrado particular tiene una distribución exponencial con

parámetro 0.5. Encuentre la probabilidad de que el circuito dure más de tres años

Sea la v.a. X : “tiempo de vida, en años, de un circuito integrado particular”, entonces )5.0(~ ExpX

Y 223.0)3(1)3( 5.1 ==−=> −eFXP

Supongamos ahora que actualmente un circuito tiene cuatro años y aún funciona. Se quiere hallar la

probabilidad de que funcione tres años más.

Por lo tanto planteamos una probabilidad condicional

( ) 223.0)4(

)7(

)4(

)4y 7()4/7/ 5.1475.0

45.0

75.0

====>

>=

>

>>=>>

−−×−

×−

×−

eee

e

XP

XP

XP

XXPXXP

Observamos que )3()47()4/7/ >=−>=>> XPXPXXP

En general, la probabilidad que se tenga que esperar t unidades adicionales, dado que ya se han espe-

rado s unidades, es la misma que la probabilidad de que se tenga que esperar t unidades desde el inicio.

La distribución exponencial no “recuerda” cuánto tiempo se ha esperado.

En particular, si el tiempo de vida de un componente sigue una distribución exponencial, entonces la

probabilidad de que un componente que tiene s unidades de tiempo dure t unidades de tiempo adicio-nales es la misma que la probabilidad de que un componente nuevo dure t unidades de tiempo. En

otras palabras, un componente cuyo tiempo de vida siga una distribución exponencial no muestra nin-gún síntoma de los años o del uso.

Los cálculos hechos en el ejemplo anterior se pueden repetir para valores cualesquiera s y t y entonces se pude probar que

)()/( entonces positivos, númerosson y y )(~ si tXPsXstXPstExpX >=>+>λ

Parte 1 – Desigualdad de Chebyshev

Ley de los grandes números Prof. María B. Pintarelli

77

4 - DESIGUALDAD DE CHEBYSHEV- LEY DE LOS GRANDES NUMEROS

La desigualdad de Chebyshev es una importante herramienta teórica. Entre otras

aplicaciones constituirá un medio para comprender cómo la varianza mide la

variabilidad de una dada variable aleatoria, con respecto a su esperanza matemática.

También nos permitirá establecer con más precisión el hecho, reiteradamente señalando,

de que la frecuencia relativa Af de un suceso A asociado a un experimento aleatorio ε

tiende, cuando el número de repeticiones de ε se hace infinitamente grande, a la

probabilidad ( )AP (resultado conocido como la Ley de los grandes números). Pero

además es de utilidad práctica pues, al constituir una cota de ciertas probabilidades, nos

podrá servir como una estimación de esas mismas probabilidades.

4.1-Desigualdad de Chebyshev

Sea X una variable aleatoria cuya esperanza es ( )XE , sea c un número real cualquiera y

supongamos que ( )[ ]2cXE − existe y es finito. Entonces

Dem.) Consideraremos el caso en que X es una v.a. continua. El caso de una v.a.

discreta se demuestra en forma similar cambiando integrales por sumas.

Sea, entonces, ( )xf la fdp de X. Tenemos:

( ) ( )∫≥−

=≥−εcx:x

dxxfεcXP

Ahora bien, los valores de x que verifican εcx ≥− son los mismos que verifican

( )1

2

2

≥−

ε

cx. Entonces, puesto que ( ) 0≥xf y que ambos miembros en la desigualdad

anterior son también no negativos es:

( ) ( )( )

( )( )

( )∫∫∫∞

∞−≥−≥−

−≤

−≤=≥− dxxf.

ε

cxdxxf.

ε

cxdxxf.εcXP

εcx:xεcx:x

2

2

2

2

1

donde la última desigualdad proviene del hecho de que simplemente extiendo los

límites de integración a todos los reales pero siendo siempre el integrando positivo. De

manera que estoy agregando una contribución positiva sobre el valor de la integral

( )( )∫

≥−

−

εcx:x

dxxf.ε

cx2

2

.

Si tenemos presente la expresión para la esperanza de una función ( )XH de una

variable aleatoria X:

0>∀ε ( ) ( )[ ]2

2

1cXE

ε

εcXP −≤≥−



78

( ) ( ) ( )[ ]∫∞

∞−

= XHEdxxfxH y lo aplicamos a ( )( )

2

2

ε

cxxH

−= , tenemos finalmente:

( ) ( )( )[ ]2

22

21

cXEεε

cXEεcXP −=

−≤≥−

Observación: La desigualdad lleva el nombre del matemático ruso que la descubrió. Su

nombre aparece en una variedad de formas en la literatura: Chebyshev, Chebychev,

Tchebyshev, etc.

Formas alternativas de la desigualdad de Chebyshev.

Podemos escribir la desigualdad de Chebyshev en una serie de formas alternativas:

1a ) Tenemos en primer lugar la forma que acabamos de demostrar:

( ) ( )[ ]2

2

1cXE

εεcXP −≤≥−

2a ) Si consideramos el suceso complementario a εcX ≥− , es decir εcX <− ,

podemos escribir, recordando que ( ) ( )APAP −= 1 :

( ) ( ) ( )[ ]2

2

111 cXEε

εcXPεcXP −−≥≥−−=<− , esto es:

( ) ( )[ ]2

2

11 cXEε

εcXP −−≥<−

1b ) Si en 1a ) elegimos ( )XEc = tenemos ( )( ) ( )[ ]( )2

2

1XEXE

ε

εXEXP −≤≥− y

recordando la definición de la varianza: ( ) ( )[ ]( )2XEXEXV −= tenemos:

( )( ) ( )2ε

XVεXEXP ≤≥−

2b ) La correspondiente expresión para el suceso complementario es:

( )( ) ( )2

1ε

XVεXEXP −≥<−

1c ) Si en 1a ) elegimos ( )XEc = y además elegimos ( )XVkσkε X == , tenemos

( )( ) ( )

( ) ( )2

2

2

X

X

X

Xσk

σ

σk

XVσkXEXP =≤≥− , es decir:



79

( )( )2

1

kσkXEXP X ≤≥−

2c ) Finalmente a correspondiente expresión para el suceso complementario en 1c ) es:

( )( )2

11

kσkXEXP X −≥<−

A continuación daremos un ejemplo en el que podremos apreciar cómo la desigualdad

de Chebyshev nos permite tener estimaciones de ciertas probabilidades que en algunos

casos mejoran las “estimaciones” triviales dadas por el axioma i) de las probabilidades,

esto es, que ( ) 10 ≤≤ AP .

Ejemplo Deseamos estimar la probabilidad ( )

≥− XσXEXP

2

3

a) Sin conocer la distribución

b) Sabiendo que X∼

+−

3

11

3

11 ,U .

a) Una estimación de la probabilidad en consideración cuando no se conoce la

distribución, es decir que vale cualquiera sea la distribución puede tenerse usando la

desigualdad de Chebyshev en la forma 1c ) : ( )( )2

1

kσkXEXP X ≤≥− con

2

3=k .

Tenemos en consecuencia:

( )( )

4409

4

23

1

2

32

./

σXEXP X ==≤

≥− . Vemos que, en este caso, la estimación

mejora sustancialmente la cota superior trivial 1:

( ) 14402

3<≤

≥− .σXEXP X

Notemos que esta estimación es aplicable cualquiera se la distribución de X y vale sea

ésta discreta o continua.

b)Si sabemos que X∼

+−

3

11

3

11 ,U tenemos toda la información y podemos

calcular la probabilidad exactamente.

Tenemos:

( ) 12

3

11

3

11

=

−+

+

=

`

XE



80

( )( )

3

1

9

1

36

4

12

32

12

3

11

3

11 2

2

====

−−

+

==/

`

XVσX . Entonces:

( )

≤≤−=

<−−=

≥−=

≥−

2

3

2

11

2

111

2

11

2

3XPXPXPσXEXP X

( ) 13402

31

3

2

11

3

11

3

11

2

1

2

3

12

3.σXEXP X =−=−=

−−

+

−

−=

≥− . Este valor

exacto es menor que la cota superior dada por la desigualdad de Chebyshev:

( ) 144013402

3<≤=

≥− ..σXEXP X .

La varianza como una medida de la concentración de la fdp de una v.a. alrededor

de la esperanza.

Podemos usar las formas b) de la desigualdad de Chebyshev para interpretar a la

varianza ( )XV como una medida de la variabilidad de la variable aleatoria X con

respecto a su esperanza o en otras palabras de cómo la distribución de la v.a. X se

concentra o dispersa con respecto a la esperanza ( )XE .

De la expresión ( )( ) ( )2ε

XVεXEXP ≤≥− vemos que, para un ε dado, si ( )XV es

muy pequeño entonces la probabilidad de que X tome valores lejos de ( )XE es muy

chica, es decir hay una gran probabilidad de que X tome valores próximos a ( )XE .

Inversamente si ( )XV es grande, la probabilidad de que X tome valores alejados de

( )XE puede ser también grande. Podemos precisar un poco más esto considerando el

siguiente

Teorema. Si ( ) 0=XV entonces ( )[ ] 1== XEXP . Decimos que ( )XEX = con

probabilidad 1 (X es igual a su esperanza con probabilidad 1).

Dem.) Para cualquier 0>ε , si ( ) 0=XV tenemos de 2b ) :

( )( ) ( )( )( ) 11

2=<−→−≥<− εXEXP

ε

XVεXEXP , donde me quedo sólo con la

igualdad porque la probabilidad no pude superar a 1.

Puesto que ε puede hacerse arbitrariamente pequeño, el teorema queda demostrado.



81

4.2 - La ley de los grandes números.

La ley de los grandes números establece en forma precisa el hecho que cuando el

número de repeticiones de un experimento se hace muy grande, la frecuencia relativa

Af de un suceso A relacionado con el experimento converge en sentido probabilístico a

la probabilidad ( )AP . Daremos una versión de la Ley de los grandes números conocida

como la forma de Bernoulli.

Teorema (Forma de Bernoulli de la ley de los grandes números)

Sea un experimento probabilístico y sea A un suceso asociado con él. Consideremos n

repeticiones independientes del experimento. Sea An el número de veces que ocurre A

en las n repeticiones de forma tal que n

nf A

A = es la frecuencia relativa. Sea ( ) pAP =

(que se supone igual para todas las repeticiones). Entonces, para cualquier número

0>ε se cumple

( ) ( )2

11

εn

ppεpfP A

−−≥<− .

Dem.)

De acuerdo con su significado An , el número de veces que ocurre el suceso A en las n

repeticiones, es una variable aleatoria distribuida binomialmente con parámetros n y p:

( ) ∼ p,nBnA . Luego:

( )

( ) ( )

−=

=

pnpnV

npnE

A

A

1

Por lo tanto

( ) ( )

( ) ( )( )

−==

=

==

=

n

ppnV

nn

nVfV

pnEnn

nEfE

AA

A

AA

A

11

1

2

En consecuencia, aplicando a la v.a. Af la desigualdad de Chebyshev en la forma 2b )

( )( ) ( )2

1ε

XVεXEXP −≥<− , es decir,

( )( ) ( )2

1ε

fVεfEfP A

AA −≥<− llegamos a lo propuesto por el teorema:

( ) ( )2

11

εn

ppεpfP A

−−≥<− .

Es evidente que el teorema anterior implica que

( ) 1=<−∞→

εpfPlim An

para todo 0>ε .

Entonces decimos que, en este sentido, la frecuencia relativa Af converge a la

probabilidad ( )AP .



82

Observación: Esta convergencia, llamada convergencia en probabilidad difiere de la

convergencia normalmente usada en Cálculo (límite aritmético).

Recordemos que una sucesión ,...α,...,α,α n21 tiene límite α o también que ααlim nn

=∞→

si 0>∀ε ν∃ tal que εααn <− para todo νn > . Esto significa que, desde un n en

adelante, nα se aproxima permanentemente al valor límite α . En cambio cuando

decimos que n/nf AA = converge a ( )AP , estamos significando que la probabilidad del

suceso ( )

<− εAPf A puede hacerse arbitrariamente próximo a uno tomando un n

suficientemente grande. Pero estamos hablando de probabilidad y no de certeza como

en el caso del límite aritmético. Es decir, no significa que al tomar un n grande ocurra

ciertamente que nos aproximemos más al valor de la probabilidad sino que existe una

gran probabilidad de que eso ocurra.

Parte 1 – Variables aleatorias bidimensionales Prof. María B. Pintarelli

83

5- VARIABLES ALEATORIAS BIDIMENSIONALES

5.1 – Generalidades

Hasta ahora hemos considerado el caso de variables aleatorias unidimensionales. Esto es, el resultado del experimento de interés se registra como un único número real.

En muchos casos, sin embargo, nos puede interesar asociar a cada resultado de un experimento aleatorio,

dos o más características numéricas. Por ejemplo, de los remaches que salen de una línea de producción

nos puede interesar el diámetro X y la longitud Y. Teniendo en cuenta la inevitable variabilidad en las

dimensiones de los remaches debido a las numerosas causas presentes en el proceso de fabricación, los

podemos representar asociándoles dos variables aleatorias X e Y que pueden pensarse como una variable

aleatoria bidimensional: ( )YX , .

Sea ε un experimento aleatorio y S un espacio muestral asociado a él. Sean RSX →: , RSY →: , que

a cada resultado Ss ∈ le asignan el par de números reales ( )yx,

Llamaremos a ( )YX , variable aleatoria bidimensional.

Si en lugar de dos variables aleatorias, tenemos n variables aleatorias nXXX ,...,, 21 , llamaremos a

( )nX,...,X,X 21 variable aleatoria n-dimensional

En lo que sigue nos referiremos en particular a variables aleatorias n-dimensionales con n=2, es decir nos concentraremos en variables aleatorias bidimensionales por cuanto son las más simples de descri-

bir, fundamentalmente en relación a la notación. Pero debemos tener presente que las propiedades que estudiemos para ellas se pueden extender sin demasiada dificultad al caso general.

Al conjunto de valores que toma la variable aleatoria bidimensional (X,Y) lo llamaremos recorrido de la

v.a. (X,Y) y lo indicaremos XYR . En otras palabras ( ) ( ) ( )

∈=== SsconsYyesXx:y,xRXY, es

decir, es la imagen por ( )Y,X del espacio muestral S.

Notar que el recorrido de (X,Y) es un subconjunto del espacio Euclidiano: 2RRXY ⊆ . Como antes,

puede considerarse al recorrido XYR como un espacio muestral cuyos elementos son ahora pares de nú-

meros reales.

Como con cualquier espacio muestral, según el número de elementos que lo constituyen, podemos cla-

sificar a los recorridos XYR en numerables (finitos o infinitos) y no-numerables.

Los recorridos numerables son, en general, de la forma

( ) ( ) ( ) ( ){ }mnjiXY y,x,...,y,x,y,xm,..,jyn,...,,icony,xR 21112121 =

=== (finito)

( ) ( ) ( ){ },...y,x,y,x,..,jy,...,icony,xR jiXY 21112121 =

=== (infinito numerable)

Los recorridos no numerables son regiones o subconjuntos no numerables del plano Euclidiano. Por

ejemplo:

( )

≤≤≤≤= dyc;bxa:y,xRXY (no numerable)


84

( ){ }1:, 22≤+= yxyxRXY (no numerable)

( )

=≤≤= 321 c,c,cy,bxa:y,xR jjXY (no numerable “mixto”)

cuyas gráficas se pueden apreciar en la figura siguiente. Notar en el último recorrido, X es v.a. continua

e Y discreta.

Clasificaremos a las variables aleatorias bidimensionales de la siguiente manera:

( )Y,X es v.a. bidimensional discreta si X e Y son discretas

( )Y,X es v.a. bidimensional continua si X e Y son continuas

El caso X continua, Y discreta (o viceversa) no lo consideramos.

Sea ( )Y,X una variable aleatoria bidimensional discreta y sea XYR su recorrido (numerable). Sea

RR:p XY → una función que a cada elemento ( )ji y,x le asigna un número real ( )ji y,xp tal que

( ) ( ) XYjijiji Ry,xy,xpyY,xXP ∈∀=

== y que verifica.

a) ( ) ( ) XYjiji Ry,xy,xp ∈∀≥ 0

b) ( ) ( )( )∑ ∑∑

∈

==XYji Ryx

ji

i j

ji yxpyxp,

1,,

A esta función la llamaremos función de probabilidad puntual conjunta de la variable aleatoria bidi-

mensional ( )Y,X . En forma abreviada la designaremos fdp conjunta.

Sea ( )Y,X una variable aleatoria bidimensional continua y sea XYR su recorrido (no numerable). Sea

RR:f XY → una función que, a cada punto ( )y,x de XYR le asigna un número real ( )y,xf tal que

( ) ( ) RBdxdyyxfBPB

⊆∀= ∫∫ , y que verifica.

a) ( ) ( ) 2,0, Ryxyxf ∈∀≥

b) ( ) 1,2

=∫∫R

dxdyyxf .

A esta función la llamaremos función de densidad de probabilidad conjunta de la variable aleatoria

bidimensional ( )Y,X . En forma abreviada la designaremos también fdp conjunta.

0

0 0

0 0 a b x

c

d

y y y

1

2

3

1 2 a b x

RXY

c1

c2

c3

-1

-1


85

Ejemplos:

1-Dos líneas de producción, señaladas I y II, manufacturan cierto tipo de artículo a pequeña escala. Su-

póngase que la capacidad máxima de producción de la línea I es cinco artículos por día, mientras que

para la línea II es 3 artículos/día. Debido a los innumerables factores presentes en todo proceso de pro-

ducción, el número de artículos realmente producido por cada línea puede pensarse como una variable

aleatoria. En conjunto podemos pensar en una variable aleatoria bidimensional ( )Y,X discreta, donde la

primera componente X corresponde a la producción de la línea I y la segunda componente Y a los artí-

culos que salen de la línea II. La fdp conjunta correspondiente a variables aleatorias bidimensionales

suele presentarse, por comodidad, como una tabla. Supongamos que la para la v.a. ( )Y,X que nos inter-

esa aquí la tabla correspondiente a ( )ji y,xp es

XY 0 1 2 3 4 5

0 0 0.01 0.03 0.05 0.07 0.09

1 0.01 0.02 0.04 0.05 0.06 0.08

2 0.01 0.03 0.05 0.05 0.05 0.06

3 0.01 0.02 0.04 0.06 0.06 0.05

¿Cuál es la probabilidad de qué salgan más artículos de la línea I que de la línea II?

Antes de calcular la probabilidad que nos pide el problema, hagamos algunas consideraciones sobre la

tabla que representa a ( )ji y,xp .

Se trata de una tabla a doble entrada donde en la primera fila se indican los valores que puede tomar la

v.a. X (en este caso X=0,1,2,3,4,5) y la primera columna indica los valores que puede tomar la variable Y

( 0,1,2,3). Para determinar el valor de la ( )ji y,xp cuando la v.a. ( )Y,X toma el valor ( )ji y,x considera-

mos el número que se encuentra en la columna correspondiente a ixX = y la fila correspondiente a

jyY = . Por ejemplo: ( ) ( ) 0502424 .Y,XP,p ==== .

Podemos verificar fácilmente que la fdp conjunta definida por esta bien definida. En efecto verifica las

condiciones a) ( ) ( )XYjiji Ry,xy,xp ∈∀≥ 0 y b) ( )

( )∑

∈

=XYji Ry,x

ji y,xp 1.

Para contestar la pregunta del enunciado, consideremos el suceso XYRB ⊂ definido

B: “es el suceso que ocurre cuando la línea I produce más artículos que la línea II” o,

{ }YXB >= . Luego:

( ) ( ) ( )∑ ∑= >

==>=3

0j jiy yx

ji y,xpYXPBP 0.01+0.03+0.05+0.07+0.09+0.04+0.05+0.06+0.08+

+0.05+0.05+0.06+0.06+0.05=0.75.

2- Hay tres cajas registradoras a la salida de un supermercado. Dos clientes llegan a las cajas en diferen-

tes momentos cuando no hay otros clientes ante aquellas. Cada cliente escoge una caja al azar e indepen-

dientemente del otro.

Sean las variables aleatorias X: “ nº de clientes que escogen la caja 1” e Y: “nº de clientes que escogen la

caja 2”. Hallar la fdp conjunta de (X,Y)

Podemos suponer que el espacio muestral original S es el conjunto de pares ordenados

{ })3,3();2,3();1,3();3,2();2,2();1,2();3,1();2,1();1,1(=S donde la primera componente del par indica la

caja elegida por el cliente 1 y la segunda componente del par indica la caja elegida por el cliente 2.


86

Además notar que X como Y pueden tomar los valores 0, 1, 2

El punto muestral (3,3) es el único punto muestral que corresponde al evento { }0,0 == YX

Entonces

9

1)0,0( === YXP ; pensando de forma análoga los otros casos:

9

2)0,1( === YXP ;

9

1)0,2( === YXP ;

9

2)1,0( === YXP ,

9

2)1,1( === YXP ,

9

1)2,0( === YXP ; 0)2,2()2,1( ====== YXPYXP

Disponemos estas probabilidades en una tabla de la siguiente forma

3- Supongamos que una partícula radiactiva se localiza aleatoriamente en un cuadrado con lados de lon-

gitud unitaria. Es decir, si se consideran dos regiones de la misma área, la partícula tendrá igual probabi-lidad de estar en cualquiera de ellas. Sean X e Y las coordenadas que localizan la partícula. Un modelo

adecuado para la distribución conjunta de X e Y sería considerar a (X, Y) continua con fdp dada por

≤≤≤≤

=contrario caso 0

10 ;10 si 1),(

yxyxf

Es conveniente hacer un gráfico en el plano del dominio de la fdp

Nos preguntamos cuál es la probabilidad de que la

coordenada en x sea menor que 0.2 y la coordena-

da en y menor que 0.4 , es decir, cuál es la

)4.0,2.0( ≤≤ YXP . Para calcularla, graficamos en

el plano xy la región que corresponde al evento

intersección la región que es dominio de la fdp

Por lo tanto

∫ ∫ =×==≤≤

4.0

0

2.0

0

08.04.02.01)4.0,2.0( dxdyYXP

Y \ X 0 1 2

0 1/9 2/9 1/9

1 2/9 2/9 0

2 1/9 0 0

{ }4.0,2.0 ≤≤ YX


87

En este ejemplo la fdp es un caso particular de v.a. bidimensional uniformemente distribuida

Diremos que una variable aleatoria bidimensional continua está uniformemente distribuida en la región

XYR del plano Euclidiano R si su función de densidad de probabilidad es

( )( )

( )

∉

∈

=XY

XY

Ryxpara

Ryxparac

yxf,0

,

,

Puesto que la condición de normalización exige ( )∫∫ ∫∫ ==2

1,

R RXY

cdxdydxdyyxf debe ser

( )XYRárea

c1

=

A una v.a. ( )Y,X bidimensional continua uniformemente distribuida en su recorrido XYR la indicaremos

X∼ [ ]XYRU .

Por ejemplo, supongamos que la v.a. ( )Y,X está distribuida uniformemente en el recorrido XYR que se

muestra en la figura. ¿Cuál es su fdp conjunta?

De la figura calculamos el área del recorrido:

( ) ( )∫ ∫∫ =−==

1

0

1

0

2

6

1

2

dxxxdydxRárea

x

x

XY . Por lo tanto

( )( )

≤≤≤≤

=puntosdemáslospara

xyxxquetalyxpara

yxf0

,10,6

,

2

5.2 - Funciones de distribución marginales de una v.a. (X,Y) discreta

En el ejemplo 1, supongamos que queremos saber cuál es la probabilidad de que el número de artículos

producidos por la línea I sea 2, o sea )2( =XP

Como el evento { }2=X es igual a { } { } { } { } { }( )32102 =∪=∪=∪=∩= YYYYX , y a su vez

0

0

1

2

y

1 2 3 x

y = x

y = x2


88

{ } { } { } { } { }( )

{ } { }( ) { } { }( ) { } { }( ) { } { }( )32221202

32102

=∩=∪=∩=∪=∩=∪=∩==

==∪=∪=∪=∩=

YXYXYXYX

YYYYX

Entonces

( )

{ } { }( ) { } { }( ) { } { }( ) { } { }( )

∑=

=====+==+==+===

==∩=+=∩=+=∩=+=∩==

==

3

0

),2()3,2()2,2()1,2()0,2(

32221202

2

j

jYXPYXPYXPYXPYXP

YXPYXPYXPYXP

XP

Razonando de la misma forma podemos escribir

( ) 5,...,1,0 ),(3

0

===== ∑=

ijYiXPiXPj

Es decir obtenemos la función de distribución de probabilidad de X

Análogamente obtenemos

( ) 3,2,1,0 ),(5

0

===== ∑=

jjYiXPjYPi

Que es la función de distribución de probabilidad de Y

En general se las denomina distribuciones marginales de X e Y, y su definición sería la siguiente

Sea (X,Y) discreta y sea ( )ji y,xp (i=1,2,…n, j=1,2,…,m) su función de probabilidad conjunta (Even-

tualmente n y/o m pueden ser ∞ ).

La función de probabilidad marginal de X es

( ) ( ) ( )∑=

===m

j

jiii yxpxXPxp1

, (i=1,2,…,n)

La función de probabilidad marginal de Y es

( ) ( ) ( )∑=

===n

i

jijj yxpyYPyq1

, (j=1,2,…,m)

Observación: Remarcamos que la función de probabilidad marginal de X, es decir ( )ixp calculada a

partir de ( )ji y,xp en la forma indicada, coincide con la función de probabilidad de la variable aleatoria

unidimensional X considerada en forma aislada. Análogamente la función de probabilidad marginal de

Y, es decir ( )jyq calculada a partir de ( )ji y,xp en la forma indicada, coincide con la función de probabi-

lidad de variable aleatoria unidimensional Y considerada en forma aislada.

Ejemplo:

Siguiendo con el ejemplo 1,

( ) ( ) ( ) ( ) ( ) ( )

280

0500600800903525150555

.

....,p,p,p,pXPp

=

+++=+++===


89

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

260

06005004002001015141312111011

.

.....,p,p,p,p,p,pYPq

=

++++=+++++===

Observemos que se verifica la condición de normalización para cada una de las marginales:

( )∑=

=+++++=5

0

1280240210160080030ix

i ......xp

( )∑=

=+++=3

0

1240250260250jy

j ....yq

5.3 - Funciones de distribución marginales de una v.a. (X,Y) continua

En el ejemplo 3 supongamos que queremos hallar la probabilidad de que la coordenada x de la partícula

sea menor o igual a 0.2, es decir )2.0( ≤XP . Podemos escribir

2.01),() ,2.0()2.0(

2.0

0

1

0

2.0

0

===∞<<∞−≤=≤ ∫ ∫∫ ∫∞

∞−

dydxdydxyxfYXPXP

En general si queremos hallar )( xXP ≤ podemos plantear

∫∫ ∫∞−∞−

∞

∞−

==∞<<∞−≤=≤

xx

dxxgdydxyxfYxXPxXP )(),() ,()(

donde ∫∞

∞−

= )(),( xgdyyxf

Por definición de fdp debe ser )(xg la fdp de la v.a. X

Análogamente

∫∫ ∫∞−∞−

∞

∞−

==≤∞<<−∞=≤

yy

dxxhdxdyyxfyYXPyYP )(),() ,()(

donde ∫∞

∞−

= )(),( xhdyyxf

Por definición de fdp debe ser )(xh la fdp de la v.a. Y

En general:

Sea (X,Y) continua y sea ( )y,xf su función de densidad de probabilidad conjunta.

La función de densidad de probabilidad marginal de X es:

( ) ( )dyy,xfxg ∫∞

∞−

=

La función de densidad de probabilidad marginal de Y es:

( ) ( )dxy,xfyh ∫∞

∞−

=


90

Observación: Remarcamos aquí también que la función de de densidad de probabilidad marginal de X,

es decir ( )xg , calculada a partir de ( )y,xf en la forma indicada, coincide con la función de densidad de

probabilidad de variable aleatoria unidimensional X considerada en forma aislada. Análogamente la fun-

ción de densidad de probabilidad marginal de Y, es decir ( )yh calculada a partir de ( )y,xf en la forma

indicada, coincide con la función de densidad de probabilidad de variable aleatoria unidimensional Y

considerada en forma aislada. De manera que podemos calcular probabilidades como, por ejemplo

( ) ( )

( )∫

∫ ∫

=

==

∞<<∞−≤≤=≤≤

∞

∞−

b

a

b

a

dxxg

dydxy,xfY,bXaPbXaP

Ejemplo: Consideremos nuevamente la v.a. continua (X,Y) uniformemente distribuida cuyo recorrido

XYR dibujamos otra vez

Ya vimos que la fdp está dada por

( )( )

≤≤≤≤

=puntosdemáslospara

xyxxquetalyxpara

yxf0

,10,6

,

2

Entonces las funciones de densidad de probabilidad de X e Y son

( )( ) ( )

≤≤−==

=∫∫

∞

∞−

valoresdemáslospara

xxxdydyy,xfxg

x

x

0

10662

2

( )( ) ( )

≤≤−==

=∫∫

∞

∞−


yyydxdxyxfyh

y

y

0

1066,

0

0

1

2

y

1 2 3 x

y = x

y = x2


91

5.4 - Funciones de probabilidades condicionales

Caso discreto

Consideremos nuevamente el ejemplo de las dos líneas I y II que producen cierto artículo a pequeña

escala. Definimos la v.a. ( )Y,X cuya función de probabilidad conjunta ( )ji y,xp está dada por la tabla

anterior que repetimos

XY 0 1 2 3 4 5 q(yj)

0 0 0.01 0.03 0.05 0.07 0.09 0.25

1 0.01 0.02 0.04 0.05 0.06 0.08 0.26

2 0.01 0.03 0.05 0.05 0.05 0.06 0.25

3 0.01 0.02 0.04 0.06 0.06 0.05 0.24

p(xi) 0.03 0.08 0.16 0.21 0.24 0.28 1

Supongamos que deseamos conocer la probabilidad de que la línea I produzca tres artículos sabiendo

que la línea II ha fabricado dos. Tenemos que calcular una probabilidad condicional. Entonces

( )( )

( )( )

2.025.0

05.0

2

2,3

2

2,3

23 ====

==

===q

p

YP

YXP

YXP

En general definimos la función de probabilidad puntual de X condicional a Y como sigue:

( ) ( ) ( )( )

j

ji

jijiyq

y,xpyYxXPyxp ==== , es decir como el cociente de la función de probabilidad conjun-

ta de ( )Y,X y la función de probabilidad puntual marginal de Y.

Análogamente, definimos la función de probabilidad puntual de Y condicional a X :

( ) ( )( )

( )i

ji

ijijxp

y,xpxXyYPxyq ==== , es decir como el cociente de la función de probabilidad puntual

conjunta de ( )Y,X y la función de probabilidad puntual marginal de X.

b) Caso continuo

Como ocurre con la variables aleatoria continuas en general, el definir la probabilidad condicional de

ocurrencia de un valor dado de una de las variables aleatorias del par ( )Y,X supuesto que ocurrió la

otra, presenta las dificultades conocidas relacionadas con el hecho de que la probabilidad de un punto es

cero. Entonces probabilidades tales como ( )ji yYxXP == tienen el problema que ( ) 0== jyYP .

Sea ( )Y,X una variable aleatoria bidimensional continua cuya fdp conjunta es ( )y,xf . Sean ( )xg y

( )yh la fdp marginales de X e Y, respectivamente. Definimos la función de densidad de probabilidad de

X condicional a que Y=y, a la que denotaremos ( )yxg , de la siguiente manera:

( ) ( )( )

( ) 0>= yhconyh

y,xfyxg .


92

Análogamente, la función de densidad de probabilidad de Y condicional a que X=x, a la que denota-

remos ( )xyh , se define:

( ) ( )( )

( ) 0>= xgconxg

y,xfxyh .

De acuerdo con estas definiciones, podemos calcular, por ejemplo,

( ) ( )( )

( )ch

dxc,xf

dxcxgcYbXaP

b

a

b

a

∫∫ ===≤≤

Observemos que si quisiéramos calcular esta probabilidad usando la fdp conjunta, es decir, refiriéndonos

al recorrido completo, llegaríamos a una indeterminación:

( ) ( ) ( )[ ]( )

( )

( )0

0==

=

=≤≤==≤≤

∫ ∫

∫ ∫∞+

∞−

c

c

b

a

c

c

y,xdyfdx

y,xdyfdx

cYP

cYbXaPcYbXaP

I.

Notar la diferencia entre la función de densidad de probabilidad condicional ( )yxg y la función de den-

sidad de probabilidad marginal ( )xg :

( ) ( )bXaPdxxg

b

a

≤≤=∫ , mientras que

( ) ( )∫ =≤≤=

b

a

yYbXaPdxyxg .

Ejemplo:

Una máquina vendedora de refrescos se llena al principio de un día dado con una cantidad aleatoria Y, y

se despacha durante el día una cantidad aleatoria X (medida en galones). No se le vuelve a surtir durante

el día y entonces YX ≤

Se ha observado que (X,Y) tienen la densidad conjunta

¿Cuál es la probabilidad de que se venda menos de ½

galón, dado que la máquina contiene 1 galón al inicio del día?

Solución: Primero es conveniente hacer un gráfico de la

región del plano donde la densidad conjunta está definida

≤≤≤≤

=contrario caso 0

20 ;0 si 2/1),(

yyxyxf


93

Hallamos la densidad condicional de X dado Y. Para esto primero encontramos la fdp marginal de Y

≤≤

=

≤≤

== ∫∫∞

∞−contrario caso 0

2y0 si )2/1(

contrario caso 0

20 si )2/1(),()(

0

yydxdxyxfyh

y

Entonces la densidad condicional es

≤≤<

=

≤≤<

==

contrario caso 0

20 si 1

contrario caso 0

20 si )2/1(

2/1

)(

),()|(

yxy

yxy

xg

yxfxyh

La probabilidad que interesa es

( )2

11)1|()1|2/1(

2/1

0

2/1

∫∫ =====≤∞−

dxdxyxfYXP

Notar que si la máquina hubiera contenido 2 galones al principio del día, entonces

4

1)1|()2|2/1(

2/1

0

2

1

2/1

∫∫ =====≤∞−

dxdxyxfYXP

Así la probabilidad condicional que 2/1≤X depende de la elección de Y

5.5 – Variables aleatorias independientes

Ya se discutió el concepto de independencia entre dos eventos A y B. Esas mismas ideas podemos tras-

ladarlas en relación a dos variables aleatorias X e Y que, eventualmente, podemos considerarlas como las

componentes de una variable aleatoria bidimensional ( )Y,X .

De acuerdo con esto, intuitivamente decimos que dos variables, X e Y, son independientes si el valor que

toma una de ellas no influye de ninguna manera sobre el valor que toma la otra. Esto lo establecemos más formalmente:

a) Sea ( )Y,X una variable aleatoria bidimensional discreta. Sea ( )ji y,xp su fdp conjunta y ( )ixp y

( )jyq las correspondientes fdp marginales de X e Y. Decimos que X e Y son variables aleatorias inde-

pendientes si y sólo si

( ) ( ) ( ) ( )XYjijiji Ry,xyqxpy,xp ∈∀=

b) Sea ( )Y,X una variable aleatoria bidimensional continua. Sea ( )y,xf su fdp conjunta y ( )xg y ( )yh

las correspondientes fdp marginales de X e Y. Decimos que X e Y son variables aleatorias independien-

tes si y sólo si

( ) ( ) ( ) ( ) 2Ry,xyhxgy,xf ∈∀=


94

Observación: Notar que para poder afirmar la independencia de X e Y debe cumplirse la factorización

de la fdp conjunta como producto de las fdp marginales para todos los pares de valores de la v.a. ( )Y,X .

Por lo tanto, para verificar la independencia es necesario demostrar la validez de la factorización para

todos los pares. En cambio, es suficiente encontrar un solo par que no la verifica, para afirmar, de acuer-

do con la definición, que las variables X e Y son no independientes, es decir, que son dependientes. Esto

es, para demostrar la dependencia es suficiente con encontrar un solo par que no verifique la factoriza-

ción señalada.

Vimos que dos sucesos A y B son independientes si y sólo si ( ) ( )APBAP = y ( ) ( )BPABP = (donde

por supuesto debía ser ( ) 0≠AP y ( ) 0≠BP ). En términos de variables aleatorias, esta forma de ver la

independencia se manifiesta en la igualdad entre las fdp condicionales y las correspondientes fdp margi-

nales, como demostramos en este

Teorema

a) Sea ( )Y,X una variable aleatoria bidimensional discreta cuyas fdp conjunta, condicionales y margina-

les son, respectivamente, ( )ji y,xp ; ( )ji yxp , ( )ij xyq y ( )ixp , ( )jyq .

Entonces, X e Y son variables aleatorias independientes si y sólo si

a1) ( ) ( ) ( )XYjiiji Ry,xxpyxp ∈∀= , o

a2) ( ) ( ) ( )XYjijij Ry,xyqxyq ∈∀= , que es equivalente a lo anterior

b) Sea ( )Y,X una variable aleatoria bidimensional continua cuyas fdp conjunta, condicionales y margi-

nales son, respectivamente, ( )y,xf ; ( )yxg , ( )xyh y ( )xg , ( )yh .

Entonces, X e Y son variables aleatorias independientes si y sólo si

b1) ( ) ( ) ( ) 2Ry,xxgyxg ∈∀= , o

b2) ( ) ( ) ( ) 2Ry,xyhxyh ∈∀= , que es equivalente al anterior.

Dem.)

a) Demostraremos solamente a1). La equivalencia entre a1) y a2) la dejamos como ejercicio. Para demostrar a1) verificaremos la doble equivalencia entre ésta y la definición de v.a. independientes.

⇒ )

Sean X e Y variables aleatorias independientes. Entonces ( ) XYji Ry,x ∈∀

( ) ( )( )

( ) ( )( )

( )i

j

ji

j

ji

ji xpyq

yqxp

yq

y,xpyxp ===

Aquí la primera igualdad es la definición de fdp condicional y la segunda sale de la definición de inde-

pendencia al suponer que X e Y son independientes.

⇐ )

Supongamos que se verifica a1). Entonces ( ) XYji Ry,x ∈∀

( ) ( )( )( )

( ) ( ) ( ) ( )jijii

j

ji

iji yqxpy,xpxpyq

y,xpxpyxp =→=→= → X e Y independientes


95

Aquí, la primera implicación se debe a la definición de fdp condicional y la tercera a la definición de v.a.

independientes.

b) También demostramos sólo b1) y dejamos como ejercicio demostrar la equivalencia entre b1) y b2).

⇒ )

Sean X e Y variables aleatorias independientes. Entonces ( ) 2Ry,x ∈∀

( ) ( )( )

( ) ( )( )

( )xgyh

yhxg

yh

y,xfyxg ===

Aquí la primera igualdad es la definición de fdp condicional y la segunda sale de la definición de inde-pendencia al suponer que X e Y son independientes.

⇐ )

Supongamos que se verifica b1). Entonces ( ) 2Ry,x ∈∀

( ) ( )( )( )

( ) ( ) ( ) ( )yhxgy,xfxgyh

y,xgxgyxg =→=→= → X e Y independientes.

Aquí, la primera implicación se debe a la definición de fdp condicional y la tercera a la definición de v.a.

independientes.

Ejemplos:

1- Supongamos que una máquina se usa para un trabajo específico a la mañana y para uno diferente en

la tarde. Representemos por X e Y el número de veces que la máquina falla en la mañana y en la tarde

respectivamente. Supongamos que la tabla siguiente da la función de probabilidad conjunta ( )ji y,xp de

la variable aleatoria bidimensional discreta ( )Y,X .

Y/X 0 1 2 q(yj)

0 0.1 0.2 0.2 0.5

1 0.04 0.08 0.08 0.2

2 0.06 0.12 0.12 0.3

P(xi) 0.2 0.4 0.4 1

Deseamos saber si las variables aleatorias X e Y son independientes o dependientes.

Para demostrar que son independientes debemos probar que se verifica ( ) XYji Ry,x ∈∀

( ) ( ) ( )jiji yqxpy,xp = Verificamos directamente que

( ) ( ) ( ) 5020001000 ..qp.,p ×===

( ) ( ) ( ) 20201004010 ..qp.,p ×===

( ) ( ) ( ) 30202006020 ..qp.,p ×===

( ) ( ) ( ) 5040012001 ..qp.,p ×===

( ) ( ) ( ) 20401108011 ..qp.,p ×===

( ) ( ) ( ) 30402112021 ..qp.,p ×===

( ) ( ) ( ) 5040022002 ..qp.,p ×===

( ) ( ) ( ) 20401208012 ..qp.,p ×===

( ) ( ) ( ) 30402212022 ..qp.,p ×===

Luego X e Y son independientes.


96

Podríamos haber usado las condiciones a1) ( ) ( ) ( )XYjiiji Ry,xxpyxp ∈∀= , o su equivalente

a2) ( ) ( ) ( ) XYjijij Ry,xyqxyq ∈∀= . Veamos, como muestra para un solo valor, que se verifica

( ) ( )( )

( )24020

080

1

1212 p.

.

.

q

,pp ==== . Para demostrar la independencia por este camino habría que de-

mostrar que se cumple la condición para el resto de los pares de valores. Se deja este cálculo como ejer-cicio optativo.

2- Sean X e Y v.a. continuas que representan el tiempo de vida de dos dispositivos electrónicos. Supon-

gamos que la fdp conjunta de la v.a. continua ( )Y,X es:

( )

( )

∞<≤∞<≤

=

+−

valoresdemáslospara0

0,0

,

yxe

yxf

yx

Deseamos saber si X e Y son variables aleatorias independientes.

Calculamos las fdp marginales de X e Y :

( ) ( ) ( ) xyxedyedyy,xfxg

−

+∞

+−

+∞

∞−

∫∫ ===0

( ) ( ) ( ) yyx edxedxy,xfyh −

+∞

+−

+∞

∞−

∫∫ ===0

Luego las marginales son:

( )

∞<≤

=

−


xe

xg

x

0

0

( )

∞<≤

=

−


ye

yh

y

0

0

Vemos que efectivamente

( ) ( ) ( )

( )

∞<≤∞<≤=

==

−−+−


0,0

,

yxeee

yhxgyxf

yxyx

Es decir X e Y son v.a. independientes.

También podemos verificar la condición b1):

( ) ( )( )

( )

( )xgxe

e

e

yh

yxfyxg

x

y

yx

=

∞<≤=

==

−

−

+−


0, ( ) 2Ry.x ∈∀


97

3- Consideremos un ejemplo donde no se verifica la independencia.

Sea una v.a.b cuya fdp conjunta es

( )

≤≤≤

=valoresdemáslospara0

108

,

yxxy

yxf

En la figura siguiente mostramos el recorrido

Calculamos las fdp marginales de X e Y :

( )( )

≤≤−=

=∫


10148

1

2

x

xxxxydyxg

( )

≤≤=

=∫


10480

3

y

yyxydxyh

y podemos apreciar que para 10 ≤≤≤ yx en general es

( ) ( ) ( ) ( )yhxgyxxxyy,xf =−≠=32

1168 .

Luego X e Y son variables aleatorias dependientes.

Observaciones

1- De la definición de las fdp marginales, vemos que tanto en el caso discreto como en el continuo, la

fdp conjunta determina unívocamente las fdp marginales. Es decir, si ( )Y,X es discreta del conocimien-

to de la función de probabilidad conjunta ( )ji y,xp podemos determinar unívocamente las funciones de

probabilidad ( )ixp y ( )jyq . Análogamente, si ( )Y,X es continua del conocimiento de la función de

0

0

1

2

y

1 2 3

x

y = x

RXY


98

densidad de probabilidad conjunta ( )y,xf podemos determinar unívocamente las funciones de densidad

( )xg y ( )yh . Sin embargo la inversa no se cumple en general. Es decir del conocimiento de ( )ixp y

( )jyq no se puede, en general, reconstruir ( )ji y,xp a menos que X e Y sean variables independientes en

cuyo caso es ( ) ( ) ( )jiji yqxpy,xp = y, análogamente, en el caso continuo, del conocimiento de ( )xg y

( )yh no se puede construir en general ( )y,xf excepto cuando X e Y son independientes en cuyo caso

puedo escribir ( ) ( ) ( )yhxgy,xf =

2- Podemos observar del último ejemplo, que puede ocurrir que aún cuando la función ( )y,xf ya esté

escrita en forma factorizada como una función sólo de x por una función sólo de y, las variables X e Y

no sean independientes puesto que el dominio es tal que hace que las variables sean dependientes. Así,

en el ejemplo anterior, el recorrido ( ){ }10 ≤≤≤= yx:Y,XRXY condiciona los valores que toma x a

los valores que toma y.

3- El concepto de independencia entre dos variables aleatorias se puede generalizar a n variables aleato-

rias nXXX ,...,, 21

5.6 - Función de una variable aleatoria bidimensional

Existen muchas situaciones en las que dado una variable aleatoria bidimensional nos interesa considerar

otra variable aleatoria que es función de aquélla. Por ejemplo, supongamos que las variables aleatorias X

e Y denotan la longitud y el ancho, respectivamente, de una pieza, entonces YXZ 22 += es una v.a. que

representa el perímetro de la pieza, o la v.a. YXW .= representa el área de la pieza. Tanto Z como W

son variables aleatorias.

En general, sea S un espacio muestral asociado a un experimento probabilístico ε , sean RS:X → e

RS:Y → dos variables aleatorias que definen una variable aleatoria bidimensional ( )Y,X cuyo reco-

rrido es XYR , y sea una función de dos variables reales RR:H XY → que a cada elemento ( )y,x del re-

corrido XYR le hace corresponder un número real ( )y,xHz = , entonces la función compuesta

( ) RSYXHZ →= :, es una variable aleatoria, puesto que a cada elemento Ss ∈ le hace corresponder

un número real ( ) ( )[ ]sY,sXHz = . Diremos que la variable aleatoria Z es función de la variable aleato-

ria bidimensional (X,Y).

Algunas variables aleatorias que son función de variables aleatorias bidimensionales son YXZ += ,

Y.XZ = , Y/XZ = , ( )Y,XmínZ = , ( )Y,XmáxZ = , etc.

Lo anterior se puede generalizar si en lugar de dos variables aleatorias tenemos n variables aleatorias

nXXX ,...,, 21 , y ( )nxxxHz ,..., 21= es una función de n variables a valores reales.

Ejemplos:

1- Sea ),(~ pnBZ

Podemos escribir a Z como suma de variables aleatorias de la siguiente forma.

Recordar que Z cuenta el número de éxitos en n repeticiones o ensayos del experimento ε

Si definimos


99

−

=contrariocaso

éxitoocurrederepeticiónésimaílaensi

X i 0

1 ε

ni ,...,2,1=

Notar que a cada iX se la puede considerar ),1( pB , y además nXXX ,...,, 21 son independientes

Podemos escribir nXXXZ +++= ...21

2- Sea Z v.a. binomial negativa con parámetros r y p, es decir ),( ~ prBNZ

Si definimos

1X : “número de repeticiones del experimento requeridos hasta el 1º éxito”

2X : “número de repeticiones del experimento adicionales requeridos hasta el 2º éxito”


Y en general

iX : “número de repeticiones del experimento adicionales después del (i-1)–ésimo éxito requeridos hasta

el i-ésimo éxito”

Entonces cada variable tiene distribución geométrica con parámetro p y rXXXZ +++= ...21

Notar además que rXXX ,...,, 21 son independientes

Esperanza de una v.a. que es función de una v.a. bidimensional

Sea una variable aleatoria bidimensional ( )Y,X cuya fdp conjunta es la función de probabilidad conjun-

ta ( )ji y,xp si es discreta o la función de densidad de probabilidad conjunta ( )y,xf si es continua y sea

una función real de dos variables ( )y,xHz = de manera que podemos definir una variable aleatoria Z

que es función de la variable aleatoria bidimensional ( )Y,X de la forma ( )Y,XHZ = . Si la fdp de Z es

( )izq , si Z es discreta, o ( )zq si es continua, entonces la esperanza matemática de Z es, de acuerdo con

la definición general,

( ) ( )∑∈

=Xi Rx

ii zq.zZE (para Z discreta)

( ) ( )∫∞

∞−

= dzzzqZE (para Z continua)

Nuevamente lo interesante es considerar la posibilidad de evaluar ( )ZE sin tener que calcular previa-

mente la fdp de Z. El siguiente teorema nos muestra cómo hacerlo.

Teorema Sea (X,Y) una variable aleatoria bidimensional y sea Z=H(X,Y) una variable aleatoria que es función de (X,Y).

a) Si Z es variable aleatoria discreta que proviene de la variable aleatoria bidimensional discreta (X,Y)

cuyo recorrido es XYR y su fdp conjunta es ( )ji y,xp , entonces:

( ) ( )[ ] ( ) ( )( )∑

∈

==XYji Ry,x

jiji y,xpy,xHY,XHEZE

b) Si Z es variable aleatoria continua que proviene de la variable aleatoria continua bidimensional (X,Y)

cuya fdp conjunta es ( )y,xf , entonces:


100

( ) ( )[ ] ( ) ( )∫ ∫∞

∞−

∞

∞−

== dxdyy,xfy,xHY,XHEZE .


Ejemplo:

Supongamos que debido a innumerables causas incontrolables la corriente i y la resistencia r de un cir-

cuito varían aleatoriamente de forma tal que pueden considerarse como variables aleatorias I y R inde-

pendientes. Supongamos que las correspondientes fdp son:

( )

≤≤

=valoresdemás

ii

ig0

102

( )

≤≤

=valoresdemás

rr

rh0

309

2

Nos interesa considerar el voltaje r.iv = de manera que podemos definir la variable aleatoria R.IV = .

Específicamente deseamos conocer el valor esperado o esperanza matemática del voltaje: ( )VE .

Usando la propiedad establecida en el teorema anterior:

( ) ( ) ( )didrr,if.r,iHVE ∫ ∫∞

∞−

∞

∞−

= . Ahora bien, puesto que consideramos que I y R son variables aleatorias

independientes, la fdp conjunta de la v.a. bidimensional (I,R) es simplemete el producto de las margina-

les o sea de las fdp de las variables aleatorias I y R tomadas como variables aleatorias unidimensionales:

( ) ( ) ( )rh.igr,if = , es decir:

( )

≤≤≤≤

=valoresdemás

ryisir.ir,if

0

30109

2 2

Entonces

( ) ( )2

3

9

2

9

21

0

2

3

0

32

1

0

3

0

=== ∫∫∫∫ diidrrr.i.r.ididrVE

Esperanza de una suma de variables aleatorias

Dem.) en el teorema anterior consideramos yxyxH +=),(

Si (X,Y) es discreta

( ) ( )[ ] ( ) ( )( )

=+=== ∑∑∈∈

),()(,,,),(,

j

Ryx

iji

Ryx

jiji yxpyxyxpyxHYXHEZEXYjiXYji

Aplicando la propiedad distributiva y separando en dos sumas

( ) =+=+= ∑∑∑∈∈∈

),(),(),()(),(),(),(

j

Ryx

ijji

Ryx

ij

Ryx

iji yxpyyxpxyxpyxZEXYjiXYjiXYji

Sean X e Y dos variables aleatorias arbitrarias. Entonces ( ) ( ) ( )YEXEYXE +=+ .


101

∑ ∑∑ ∑∑∑∑∑ =+=+=j i

jij

i j

jiiji

i j

jji

i j

i yxpyyxpxyxpyyxpx ),(),(),(),(

Pero )(),(∑ =j

iji xpyxp y )(),(∑ =i

jji yqyxp , por lo tanto

)()()()( YEXEyqyxpxj

jji

i

i +=+= ∑∑

Para el caso continuo la demostración es análoga, cambiando sumatorias por integrales.

Podemos generalizar la propiedad anterior a un número finito cualquiera de variables aleatorias:

(leeremos: “la esperanza de la suma es la suma de las esperanzas”)

Dem.) Se deduce por inducción completa sobre el número n de variables aleatorias.

Observación: se deduce que la esperanza verifica la propiedad lineal:

( )∑∑==

=

n

i

ii

n

i

ii XEaXaE11

.

Ejemplos:

1- Vamos a aplicar algunas de las propiedades anteriores para calcular de una manera alternativa la espe-

ranza matemática de una variable aleatoria X distribuida binomialmente.

Sea entonces una v.a. X∼B(n,p).

Ya vimos que podemos escribir nXXXX +++= ...21 donde cada iX se la puede considerar ),1( pB ,

y además nXXX ,...,, 21 son independientes

Entonces

pXPXPXPXE iiii ====×+=×= )1()0(0)1(1)( para cualquier i

Por lo tanto

( ) ( ) ( ) ( ) nppppXEXEXEXXXEXE

vecesn

nn =+++=+++=+++=

4434421

.........)( 2121

Observación: muchas veces es conveniente descomponer una variable aleatoria como suma de otras más

simples para facilitar los cálculos

2- Esperanza de una v.a. binomial negativa

Cuando se trató la v.a. binomial negativa se dijo cuál era su esperanza. Ahora damos una demostración

Sea X v.a. binomial negativa con parámetros r y p, es decir ),( ~ prBNX

Si definimos

Sean nX,...,X,X 21 n variables aleatorias arbitrarias. Entonces:

( ) ( ) ( ) ( )nn XE...XEXEX...XXE +++=+++ 2121 o, en notación más concentrada,:

( )∑∑==

=

n

i

i

n

i

XEXE11

1


102

1X : “número de repeticiones del experimento requeridos hasta el 1º éxito”



Y en general

iX : “número de repeticiones del experimento adicionales después del (i-1)–ésimo éxito requeridos hasta

el i-ésimo éxito”

Entonces cada variable tiene distribución geométrica con parámetro p y rXXXX +++= ...21

Por lo tanto

( ) ( ) ( ) ( )p

r

pr

pppXEXEXEXXXEXE

vecesr

rr ==+++=+++=+++=11

...11

......)( 2121

44 344 21

3- Esperanza de una v.a. hipergeométrica

)( entonces ) ,( ~ SiN

nMXENM,nHX =

Para facilitar la demostración supongamos que tenemos N bolillas en una urna de las cuales M son rojas

y N-M son blancas. Queremos hallar el número esperado de bolillas rojas extraídas

Definimos las variables

−

=contrariocaso

extraídaesrojabolillaésimailasi

X i 0

1

Las variables MXXX ,..., 21 no son independientes

Se puede escribir MXXXX +++= ...21 , además

N

n

n

N

n

N

XPXE ii =

−

−

===1

1

1

1

)1()(

Por lo tanto

( ) ( ) ( ) ( )N

nM

N

nM

N

n

N

n

N

nXEXEXEXXXEXE

vecesM

MrM ==+++=+++=+++=44 344 21

.........)( 2121

En general la esperanza de un producto de variables aleatorias no es igual al producto de las esperan-

zas

(leeremos:” la esperanza del producto es el producto de las esperanzas”).

Dem.) (caso continuo)

Si ( )Y,X es una variable aleatoria bidimensional tal que X e Y son variables aleatorias independien-

tes, entonces: ( ) ( ) ( )YE.XEY.XE =


103

Sea ( ) Y.XY,XHZ == y sea ( )y,xf la fdp conjunta de la v.a. ( )Y,X . Entonces, usando el teorema

que establece que ( ) ( )[ ] ( ) ( )∫ ∫∞

∞−

∞

∞−

== dxdyy,xfy,xHY,XHEZE , tenemos:

( ) ( ) ( )∫∞

∞−

= dxdyy,xfy.xY.XE . Pero siendo X e Y variables aleatorias independientes es

( ) ( ) ( )yhxgy,xf = , donde ( )xg y ( )yh son las fdp marginales de X e Y que sabemos coinciden con las

fdp de X e Y tomadas como variables aleatorias unidimensionales. Luego:

( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ,YE.XE

dyyyhdxxxgdxdyyhxgy.xY.XE

=

== ∫∫∫∞

∞−

∞

∞−

∞

∞−

donde en la última igualdad tuvimos en cuenta la definición de esperanza de v.a. unidimensionales.

Ejemplo: Nuevamente consideramos el siguiente ejemplo

Supongamos que debido a innumerables causas incontrolables la corriente i y la resistencia r de un cir-

cuito varían aleatoriamente de forma tal que pueden considerarse como variables aleatorias I y R inde-

pendientes. Supongamos que las correspondientes fdp son:

( )

≤≤

=valoresdemás

ii

ig0

102

( )

≤≤

=valoresdemás

rr

rh0

309

2

Nos interesa considerar el voltaje r.iv = de manera que podemos definir la variable aleatoria R.IV = .

Hallar el valor esperado o esperanza matemática del voltaje: ( )VE .

Como I y R son independientes, usando la propiedad anterior

( ) )()( REIEVE =

3

2

32)2()(

1

0

31

0

=== ∫i

diiiIE 19

3

9

1

49

1

9)(

43

0

43

0

2

=×==

= ∫

rdr

rrRE

3

21

3

2)( =×=∴ VE

Varianza de una suma de variables aleatorias

.

Dem.) Escribimos la varianza en su forma alternativa

( ) ( ) ( ) XYYVXVYXV σ2++=+ con ( ) ( ) ( )YE.XEY.XEσXY −=


104

( ) [ ]( ) ( )[ ]22YXEYXEYXV +−+=+ . Desarrollamos los cuadrados y aplicamos la propiedad lineal de

la esperanza:

( ) ( ) ( ) ( )[ ]

( ) ( ) ( ) ( )[ ] ( ) ( ) ( )[ ]{ }2222

222

22

2

YEYEXEXEYEY.XEXE

YEXEYY.X.XEYXV

++−++=

+−++=+

Agrupando convenientemente:

( ) ( ) ( )[ ]{ } ( ) ( )[ ]{ } ( ) ( ) ( ){ }

( ) ( ) ( ) ( ) ( ){ }YEXEY.XEYVXV

YEXEY.XEYEYEXEXEYXV

−++=

−+−+−=+

2

22222

, es decir

( ) ( ) ( ) XYσYVXVYXV 2++=+

Observaciones:

1- Teniendo presente la definición de la desviación estándar de una v.a. X: ( )XVσX = , vemos que a la

propiedad anterior la podemos escribir:

( ) XYYX σσσYXV 222++=+

2- Análogamente se prueba que ( ) XYYXYXV σσσ 222−+=−

3- X e Y son independientes, entonces ( ) ( ) ( )YVXVYXVYXV +=−=+ )(

Esto es porque si las variables aleatorias X e Y son independientes, entonces ( ) ( ) ( )YE.XEY.XE = .

Por lo tanto la covarianza vale cero : ( ) ( ) ( ) 0=−= YE.XEY.XEσXY .

4- Podemos generalizar, usando el principio de inducción completa, al caso de n variables aleatorias

independientes:

Si nX,...,X,X 21 son n variables aleatorias independientes entonces:

( ) ( ) ( ) ( )nn XV...XVXVX...XXV +++=+++ 2121 o, en forma más compacta, ( )∑∑==

=

n

i

i

n

i

i XVXV11

.

5- Vemos que la esperanza de la suma de dos variables aleatorias X e Y es igual a la suma de las espe-

ranzas ( ) ( ) ( )YEXEYXE +=+ cualesquiera sean X e Y . En cambio la varianza de la suma de las va-

riables aleatorias X e Y es, en general, igual a la suma de las varianzas, ( ) ( ) ( )YVXVYXV +=+ , sólo si

X e Y son variables independientes.

Ejemplos: 1- Podemos ejemplificar la aplicación de las propiedades de la varianza, calculando nuevamente la va-

rianza de una v.a. X distribuida binomialmente con parámetros n y p.

Sea entonces una v.a. X∼B(n,p). Vimos que se puede escribir:

( ) ( ) ( )YE.XEY.XEσXY −= se la llama la covarianza de X e Y.


105

nXXXX +++= ...21 , donde las n variables aleatorias son independientes entre sí y tienen todas la

misma distribución:

( )pBX i ,1∼ n,...,,i 21=∀

Entonces, tratándose de n variables aleatorias independientes

( ) ( ) ( ) ( )nXVXVXVXV +++= ...21 todas la varianzas son iguales y podemos escribir la suma como n

veces una cualquiera de ellas:

( ) ( )iXnVXV = . Pero

( ) ( ) ( )[ ]22

iii XEXEXV −= .

Ya vimos que ( ) ( ) 010.1 =−+= ppXE i

Además es: ( ) ( ) pppXE i =−+= 10.1 222

Entonces: ( ) ( ) ( )[ ] ( )ppppXEXEXV iii −=−=−= 1222 .

Luego:

( ) ( ) ( )pnpXnVXV i −== 1

que es el resultado que habíamos obtenido a partir de la definición y llevando las sumas involucradas a

la forma del desarrollo de un binomio de Newton.

2- Varianza de una v.a. binomial negativa

Ya vimos que podemos escribir rXXXX +++= ...21 , donde cada variable iX tiene distribución

geométrica con parámetro p Por lo tanto

( ) ( ) ( ) ( )221

1...

p

prXVXVXVXV r

−=+++=

5.7 - Covarianza

Sean X e Y dos variables aleatorias. La covarianza de X e Y se define:

Notación: la notación usual para la covarianza de X e Y es XYσ o ),( YXCov

La última igualdad surge de desarrollar el producto y aplicar las propiedades de la esperanza:

( )[ ] ( )[ ]{ } ( ) ( ) ( ) ( ){ }YEXEY.XEYE.XY.XEYEY.XEXE +−−=−−

Teniendo presente que ( )XE y ( )YE son constantes:

( )[ ] ( )[ ]{ } ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )YE.XEY.XEYEXEYEXEYE.XEY.XEYEY.XEXE −=+−−=−− .

La esperanza en la definición debe pensarse de la siguiente manera (suponiendo que la v.a. ( )Y,X es

continua):

( ){ } ( ) ( )∫ ∫∞

∞−

∞

∞−

== dxdyyxfyxHYXHEYXCov ,,,),( con ( ) ( )[ ] ( )[ ]YEy.XExy,xH −−=

Ya vimos la siguiente propiedad

( )[ ] ( )[ ]{ } ( ) ( ) ( )YEXEYXEYEYXEXEYXCov ...),( −=−−=


106

Dem. )

Según vimos, si X e Y son variables aleatorias independientes, entonces ( ) ( ) ( )YE.XEY.XE = , de donde

se sigue la propiedad.

Propiedades de la covarianza Las siguientes propiedades son útiles y su verificación se deja como ejercicio

1- ),(),( YXbdCovdYcbXaCov =++

2- ),(),(),( ZYCovZXCovZYXCov +=+

3- ∑∑∑∑= ===

=

n

i

m

j

ji

m

j

j

n

i

i YXCovYXCov1 111

),(,

4- )(),( XVXXCov =

Ejemplo: Varianza de una v.a. hipergeométrica

−

−

−=

1)( entonces ) ,( ~ Si

N

nN

N

MN

N

MnXVNM,nHX

Para facilitar la demostración supongamos que tenemos N bolillas en una urna de las cuales M son rojas y N-M son blancas. Queremos hallar la varianza del número de bolillas blancas extraídas

Como antes definimos las variables

−

=contrariocaso

extraídaesrojabolillaésimailasi

X i 0

1

Las variables MXXX ,..., 21 no son independientes

Se puede escribir MXXXX +++= ...21

, además

N

n

n

N

n

N

XPXE ii =

−

−

===1

1

1

1

)1()( y

( )

−=

−=−=

N

n

N

n

N

n

N

nXEXEXV iii 1)()()(

2

22

Por lo tanto ),(2)()...()(1 1

21 j

M

i Mji

iiM XXCovXVXXXVXV ∑ ∑= ≤≤<

+=+++=

Por otro lado )()()();( jijiji YEXEXXEXXCov −=

Y )1(

)1()(

−

−=

NN

nnXXE ji , entonces

2

)1(

)1();(

−

−

−=

N

n

NN

nnXXCov ji

Si X e Y son variables aleatorias independientes, entonces 0),( =YXCov .


107

Aplicando algunos pasos algebraicos se llega a

−

−−=

−

−

−=

N

n

NN

n

N

n

NN

nnXXCov ji 1

1

1

)1(

)1();(

2

Reemplazando

−

−−

+

−=+=∑ ∑

= ≤≤< N

n

N

n

N

M

N

n

N

nMXXCovXVXV j

M

i Mji

ii 11

1

221),(2)()(

1 1

Nuevamente, luego de algunos cálculos algebraicos se llega a

−

−

−=

1)(

N

nN

N

MN

N

MnXV

5.8 - Coeficiente de correlación lineal.

En realidad más que la covarianza aquí nos interesa considerar una cantidad relacionada con XYσ y que

según veremos nos dará información sobre el grado de asociación que existe entre X e Y . Más concre-

tamente nos contará si existe algún grado de relación lineal entre X e Y . Esa cantidad es el coeficiente de

correlación lineal.

En el mismo sentido en que podemos tener una idea aproximada sobre la probabilidad de un suceso A si

repetimos el experimento y consideramos las ocurrencias de A en las n repeticiones,

así podemos tener también una primera idea sobre la existencia de una relación funcional, específica-

mente una relación lineal, entre X e Y si consideramos un diagrama de dispersión. Consiste en dibujar

pares de valores ( )ji y,x medidos de la variable aleatoria ( )Y,X en un sistema de coordenadas. En la

figura mostramos diversas situaciones posibles.

De la figura a se deduciría que entre X e Y no hay ningún tipo de relación funcional. La figura b sugiere la posibilidad de que exista una relación funcional que corresponde a una parábola. La figura c, por su

parte, sugiere una relación lineal entre X e Y . Este último es el comportamiento que nos interesa caracte-rizar. Con ese fin definimos el coeficiente de correlación lineal como sigue:

0 0 a b c

x x

y y y

(xi yi)

x


108

En consecuencia:

( )[ ] ( )[ ]{ }

( ) ( )

( ) ( ) ( )

( ) ( )YV.XV

YE.XEY.XE

YV.XV

YEY.XEXEρXY

−=

−−= .

Daremos una serie de propiedades de XYρ que nos permitirán establecer más concretamente su signifi-

cado.

Propiedad 1

Dem.) inmediata a partir del hecho que si X e Y son independientes entonces )()()( YEXEXYE =

Observación: La inversa no es necesariamente cierta. Puede ser que 0=XYρ y sin embargo X e Y no

sean variables aleatorias independientes. En efecto si tenemos una v.a. bidimensional ( )Y,X que da

lugar a un diagrama de dispersión como el que se muestra en la figura, veremos que correspondería a un

coeficiente de correlación lineal 0=XYρ y sin embargo la figura sugiere que entre X e Y existe la rela-

ción funcional 122 =+ YX , es decir X e Y son v.a. dependientes. En realidad, como veremos, XYρ es

una medida de la existencia de una relación lineal entre X e Y y una circunferencia se aleja mucho de

una línea recta.

Propiedad 2 :

Dem.)

y

x 0 1 2 3 -1 -2

-1

1

Sea ( )Y,X una variable aleatoria bidimensional. Definimos el coeficiente de correlación lineal entre

X e Y como YX

XY

YXCov

σσρ

),(=

Si X e Y son variables aleatorias independientes entonces 0=XYρ .

11 ≤≤− XYρ


109

Si consideramos la v.a. YX

YX

σσ+ entonces

( )XY

YXYXYX

YXCovYVXVYXV ρ

σσσσσσ+=++=

+≤ 12

),(2)()(0

22

Implicando que XYρ≤−1

Por otro lado: ( )XY

YXYXYX

YXCovYVXVYXV ρ

σσσσσσ−=−+=

−≤ 12

),(2)()(0

22

Implicando que 1≤XYρ

11 ≤≤−∴ XYρ

Propiedad 3 :

Dem.) Si 12=XYρ entonces 1=XYρ o 1−=XYρ

Si 1−=XYρ entonces de la demostración anterior se deduce que

( ) 012 =+=

+ XY

YX

YXV ρ

σσ, lo que implica que la v.a.

YX

YXZ

σσ+= tiene varianza cero. Según la

interpretación de varianza podemos deducir (en forma intuitiva) que la v.a. no tiene dispersión con res-

pecto a su esperanza, es decir la v.a. Z es una constante con probabilidad 1

Por lo tanto esto implica que BX.AY += con 0<−=X

YAσ

σ

Análogamente 1=XYρ implica que BX.AY += con 0>=X

YAσ

σ

Propiedad 4 :

Dem.) se deja como ejercicio

Observación: Claramente las propiedades anteriores establecen que el coeficiente de correlación lineal

es una medida del grado de linealidad entre X e Y.

Si 12=XYρ , entonces con probabilidad 1 es BX.AY += donde A y B son constantes.

Si X e Y son dos variables aleatorias tales que BX.AY += , donde A y B son constantes,

entonces 12 =XYρ . Si 0>A es 1=XYρ y si 0<A es 1−=XYρ .

Parte 1 – Suma de variables aleatorias y

Teorema central del límite Prof. María B. Pintarelli

110

6- SUMA DE VARIABLES ALEATORIAS Y TEOREMA CENTRAL DEL LÍMITE 6.1 – Suma de variables aleatorias independientes

Cuando se estudiaron las variables aleatorias bidimensionales se habló de una función de variable aleatoria bidimensional. En particular se nombró la suma de n variables aleatorias, pero no se dijo

nada sobre la distribución de esa v.a. suma. Es a menudo importante saber cuál es la distribución de una suma de variables aleatorias indepen-

dientes. Consideramos algunos ejemplos en el caso discreto

1- Suma de variables aleatorias independientes con distribución Poisson

)(~ ntesindependie Yy ; )(~ ; )(~ 2121 λλλλ ++⇒ PYXXPYPX

Dem.)

Consideramos el evento { }nYX =+ como unión de eventos excluyentes

{ } nkknYkX ≤≤−== 0 , , entonces

( )=

−=−===−====+

−−

=

−

==

∑∑∑!!

)()(),()( 2

0

1

00

21

kne

keknYPkXPknYkXPnYXP

knn

k

kn

k

n

k

λλ λλ

X e Y independientes

( ) ( )( )nkn

n

k

kn

k

knk

n

e

knk

n

n

e

knke 21

)(

2

0

1

)(

0

21)(

!!!

!

!!!

2121

21 λλλλλλ λλλλ

λλ+=

−=

−=

+−−

=

+−

=

−

+− ∑∑

Binomio de Newton

O sea X+Y tiene distribución Poisson con parámetro 21 λλ +

2- Suma de variables aleatorias binomiales independientes

),(~ ntesindependie Yy ; ),(~ ; ),(~ 2121 pnnBYXXpnBYpnBX ++⇒

Dem.)

Nuevamente consideramos el evento { }kYX =+ como unión de eventos excluyentes

{ } 10 , niikYiX ≤≤−== , entonces

=−

−−

=−===−====+

+−−−

===

∑∑∑ iknikinin

k

n

i

n

i

ppik

npp

i

nikYPiXPikYiXPkYXP 21

111

)1()1()()(),()(2

0

1

00

X e Y independientes

−

−= ∑

=

−+

ik

n

i

npp

n

i

knnk 2

0

11

21)1(

En la expresión anterior si rj > entonces 0=

j

r



111

Por último usamos la siguiente identidad combinatoria ∑=

+=

−

1

0

2121n

i k

nn

ik

n

i

n

Y entonces

knnk ppk

nnkYXP −+

−

+==+ 21)1()(

21

O sea X+Y tiene distribución binomial con parámetros 21 nn + y p

Observación: en los dos casos anteriores se puede generalizar el resultado a n variables aleatorias independientes, usando el principio de inducción completa, es decir

1- Si nXXX ,...,, 21 son n variables aleatorias independientes donde )(~ ii PX λ para todo

ni ,...,2,1= entonces )(~00

∑∑==

n

i

i

n

i

i PX λ

2- Si nXXX ,...,, 21 son n variables aleatorias independientes donde ),(~ pnBX ii para todo

ni ,...,2,1= entonces ),(~00

pnBXn

i

i

n

i

i ∑∑==

Suma de variables aleatorias normales independientes

Si X e Y son dos variables aleatorias continuas independientes con densidades g(x) y h(y) respecti-

vamente se puede probar (no lo demostraremos aquí) que la v.a. YXZ += tiene densidad dada

por ∫∞

∞−

+ −= dyyhyzgzf YX )()()(

Usando esto se puede demostrar el siguiente importante resultado:

Por inducción completa se puede generalizar este resultado a n variables:

De lo anterior y del hecho que ( ) ),~ ,~ 222 σµσµ abN(abaXNX ++⇒ tenemos:

Si nXXX ,...,, 21 son n variables aleatorias independientes donde ),(~ 2

iii NX σµ para todo

ni ,...,2,1= entonces ),(~1

2

00

∑∑∑===

n

i

i

n

i

i

n

i

i NX σµ

Si nXXX ,...,, 21 son n variables aleatorias independientes donde ),(~ 2

iii NX σµ para todo

ni ,...,2,1= entonces ),(~1

22

00

∑∑∑===

n

i

ii

n

i

ii

n

i

ii aaNXa σµ donde naaa ,...,, 21 son números reales

Si X e Y son variables aleatorias independientes donde ( ) ,~2

11 σµNX y ( ) ,~2

22 σµNY enton-

ces ( ) ,~2

2

2

121 σσµµ +++ NYX



112

Se dice que ∑=

n

i

ii Xa0

es una combinación lineal de variables aleatorias.

Ejemplos:

1- La envoltura de plástico para un disco magnético está formada por dos hojas. El espesor de cada

una tiene una distribución normal con media 1.5 milímetros y desviación estándar de 0.1 milí-

metros. Las hojas son independientes. a) Determine la media y la desviación estándar del espesor total de las dos hojas.

b) ¿Cuál es la probabilidad de que el espesor total sea mayor que 3.3 milímetros?

Solución: Sean las variables aleatorias X: “espesor de la hoja 1” e Y: “espesor de la hoja 2”

Entonces )1.0,5.1~ 2N(X ; )1.0,5.1~ 2

N(Y y X e Y independientes

a) Si definimos la v.a. Z: “espesor total de las dos hojas” , entonces YXZ +=

Por lo tanto )1.01.0 ,5.15.1~ 22 ++N(Z es decir )02.0 ,3~ N(Z

En consecuencia 3)( =ZE , 02.0)( == ZVZσ

b) Se pide calcular )3.3( >ZP

( ) 017.0983.0112132.2102.0

33.31

02.0

33.3

02.0

3)3.3( =−=Φ−=

−Φ−=

−>

−=>

ZPZP

2-Tengo tres mensajes que atender en el edificio administrativo. Sea Xi : “ el tiempo que toma el i- ésimo mensaje” (i = 1, 2 ,3), y sea X4 : “ el tiempo total que utilizo para caminar hacia y desde el

edificio y entre cada mensaje”. Suponga que las Xi son independientes, normalmente distribui-

das, con las siguientes medias y desviaciones estándar:

3 ,12 ,2 ,8 ,1 ,5 ,4 min,15 44332211 ======== σµσµσµσµ

Pienso salir de mi oficina precisamente a las 10.00 a.m. y deseo pegar una nota en mi puerta que dice “regreso a las t a.m.” ¿A qué hora t debo escribir si deseo que la probabilidad de mi llegada

después de t sea 0.01?

Solución: Definimos la v.a. Z: “tiempo transcurrido desde que salgo de mi oficina hasta que re-

greso”, entonces 4321 XXXXT +++=

Por lo tanto

∑∑

==

4

1

24

1

,~i

i

i

iNT σµ , y se pide hallar t tal que 01.0)( => tTP

501285154

1

=+++=∑=i

iµ y 303214 2224

1

22=+++=∑

=i

iσ

Entonces 01.030

501)( =

−Φ−=>

ttTP , es decir 99.0

30

50=

−Φ

t

Buscando en la tabla de la normal 7619.62503033.2 33.230

50=+×=⇒=

−t

t

3- El ancho del marco de una puerta tiene una distribución normal con media 24 pulgadas y des-

viación estándar de 1/8 de pulgada. El ancho de la puerta tiene una distribución normal con media 23.875 de pulgadas y desviación estándar de 1/16 de pulgadas. Suponer independencia.

a) Determine la distribución, la media y la desviación estándar de la diferencia entre el ancho del marco y de la puerta.



113

b) ¿Cuál es la probabilidad de que la diferencia entre el ancho del marco y de la puerta sea ma-

yor que ¼ de pulgada?.

c) ¿Cuál es la probabilidad de que la puerta no quepa en el marco?.

Solución: Sean las variables aleatorias

X: “ancho del marco de la puerta en pulgadas”

Y: “ancho de la puerta en pulgadas”

Entonces )1/8)( ,24~ 2N(X , )1/16)( ,875.23~ 2N(Y , X e Y independientes

a) Se pide la distribución de X-Y , )( YXE − , )( YXVYX −=−σ

125.0875.2324)()()( =−=−=− YEXEYXE

16

5

256

5

16

1

8

1)()()(

22

=∴=

+

=+=− −YXYVXVYXV σ

Por lo tanto

−

2

16

5 ,125.0~ NYX

b) Se pide la probabilidad )4/1( >− YXP

1867.08133.01)8944.0(15

521

16

5

125.025.01)4/1( =−=Φ−=

Φ−=

−Φ−=>− YXP

c) Si la puerta no entra en el marco entonces se da el evento { }YX < o equivalentemente

{ }0<− YX , por lo tanto

1867.05

521

5

52

16

5

125.00)0( =

Φ−=

−Φ=

−Φ=<− YXP

4- Supongamos que las variables aleatorias X e Y denotan la longitud y el ancho en cm, respectivamente, de una pieza.

Supongamos además que X e Y son independientes y que X ~ N(2 , 0.12 ) , Y ~ N(5 , 0.2

2 ).

Entonces Z = 2X + 2Y es una v.a. que representa el perímetro de la pieza.

Calcular la probabilidad de que el perímetro sea mayor que 14.5 cm.

Solución: tenemos que ( )2222 2.021.02 ,5222 ~ ×+××+×NZ , o sea ( )0.2 ,14 ~ NZ

La probabilidad pedida es )5.14( >ZP , entonces

( ) 119.08810.011180.112

51

2.0

145.141)5.14( =−=Φ−=

Φ−=

−Φ−=>ZP

5- Si se aplican dos cargas aleatorias 21 y XX a una viga voladiza como se muestra en la figura si-

guiente, el momento de flexión en 0 debido a las cargas es 2211 XaXa + .

a) Suponga que 21 y XX son v.a. independientes con medias 2

y 4 KLbs respectivamente, y desviaciones estándar 0.5 y

1.0 KLbs, respectivamente.



114

Si 51 =a pies y 102 =a pies, ¿cuál es el momento de flexión esperado y cuál es la desviación

estándar del momento de flexión?

b) Si 21 y XX están normalmente distribuidas, ¿cuál es la probabilidad de que el momento de

flexión supere 75 KLbs?

Solución: Sea la v.a. Z: “momento de flexión en 0”, entonces 21

105 XXZ +=

Por lo tanto

a) 5041025)(10)(5)( 21 =×+×=+= XEXEZE

4

65

4

6511025.0251105.05)( 2222 =∴=×+×=×+×=

ZZV σ

b) Si 21 y XX están normalmente distribuidas, entonces

4

65 ,50 ~ NZ

Por lo tanto

( ) 01120.6113

65101

4

65

50751)75( =−≈Φ−=

Φ−=

−Φ−=>ZP

Promedio de variables aleatorias normales independientes

Dem.) Notar que n

X

X

n

i

i∑== 1 es un caso particular de combinación lineal de variables aleatorias

donde n

ai

1= para todo ni ,...,2,1=

Además en este caso µµ =i y 22σσ =i para todo ni ,...,2,1=

Por lo tanto, X tiene distribución normal con esperanza µµµµ ===∑∑==

n

i

n

i

i nnnn 11

111 y varian-

za

nn

nnn

n

i

i

n

i

22

2

2

2

1

2

2

1

111 σσσσ =

=

=

∑∑

==

Es decir,

nNX

2

,~σ

µ

Observación: a X se lo llama promedio muestral o media muestral

Si nXXX ,...,, 21 son n variables aleatorias independientes donde ),(~ 2σµNX i para todo

ni ,...,2,1= entonces la v.a. n

X

X

n

i

i∑== 1 tiene distribución normal con

media µ y varianza n

2σ



115

Ejemplo:

Una máquina embotelladora puede regularse de tal manera que llene un promedio de µ onzas por

botella. Se ha observado que la cantidad de contenido que suministra la máquina presenta una dis-tribución normal con 1=σ onza. De la producción de la máquina un cierto día, se obtiene una

muestra de 9 botellas llenas (todas fueron llenadas con las mismas posiciones del control operati-

vo) y se miden las onzas del contenido de cada una.

a) Determinar la probabilidad de que la media muestral se encuentre a lo más a 0.3 onzas de la

media real µ para tales posiciones de control

b) ¿Cuántas observaciones deben incluirse en la muestra si se desea que la media muestral esté a

lo más a 0.3 onzas de µ con una probabilidad de 0.95?

Solución:

a) Sean las variables aleatorias :iX “contenido en onzas de la botella i” 9,...,2,1=i

Entonces ( )1,~ µNX i para cada i.

Por lo tanto

9

1,~ µNX . Se desea calcular

6318.01)9.0(2

)9.0()9.0(9.09.03.03.0

3.03.0)3.03.0()3.0(

=−Φ=

=−Φ−Φ=

≤−

≤−=

≤−

≤−=

=

≤−

≤−=≤−≤−=≤−

n

XP

nn

X

n

P

nn

X

n

PXPXP

σ

µ

σσ

µ

σ

σσ

µ

σµµ

b) Ahora se pretende que

95.0)3.03.0()3.0( =≤−≤−=≤− µµ XPXP

Entonces

95.03.01

3.03.03.0

)3.0( =

≤−

≤−=

≤−

≤−

=≤− n

n

XnP

nn

X

n

PXPµ

σσ

µ

σµ

Mediante la tabla de la acumulada de la normal estándar se tiene que

( ) ( ) ( ) 96.13.0 0.9753.0 95.013.023.01

3.0 =⇒=Φ⇒=−Φ=

≤−

≤− nnnn

n

XnP

µ

O sea 68.423.0

96.12

=

≈n

Si tomamos 43=n , entonces )3.0( ≤− µXP será un poco mayor que 0.95



116

6.2 - Teorema central del límite

Acabamos de ver que la suma de un número finito n de variables aleatorias independientes que

están normalmente distribuidas es una variable aleatoria también normalmente distribuida. Esta

propiedad reproductiva no es exclusiva de la distribución normal. En efecto, por ejemplo, ya vimos

que existen variables aleatorias discretas que la cumplen, es el caso de la Poisson y la Binomial.

En realidad, la propiedad que le da a la distribución normal el lugar privilegiado que ocupa entre todas las distribuciones es el hecho de que la suma de un número muy grande, rigurosamente un

número infinito numerable, de variables aleatorias independientes con distribuciones arbitrarias (no necesariamente normales) es una variable aleatoria que tiene, aproximadamente, una distribu-

ción normal. Este es, esencialmente, el contenido del


Observaciones:

1- Notar que ( ) ( ) µnXEXESEn

i

i

n

i

in ==

= ∑∑

== 11

y ( ) ( ) 2

11

σnXVXVSVn

i

i

n

i

in ==

= ∑∑

==

Por lo tanto 2σ

µ

n

nSZ n

n

−= es la v.a. nS estandarizada

2- Notar que

−

=

≤

−

=

≤

−

n

XPz

n

n

n

nS

Pzn

nSP

n

n

σ

µ

σ

µ

σ

µ

22, por lo tanto también se puede

enunciar el Teorema central del límite de la siguiente forma

Donde

n

XZ n σ

µ−= es el promedio muestral estandarizado

Teorema central del límite (T.C.L.):

Sean nX,...,X,X 21 variables aleatorias independientes con ( ) µ=i

XE y ( ) 2σ=iXV para todo

n,...,,i 21= , es decir independientes idénticamente distribuidas

Sea la v.a. ∑=

=n

i

in XS1

y sea 2σ

µ

n

nSZ n

n

−= .

Entonces ( ) ( )zzZPlim nn

Φ=≤∞→

, esto es ∫∞−

−

∞→=

≤

−z

xn

ndxez

n

nSP 2

2

2

2

1lim

πσ

µ

Sean nX,...,X,X 21 variables aleatorias independientes con ( ) µ=i

XE y ( ) 2σ=iXV para todo

n,...,,i 21= , es decir independientes idénticamente distribuidas

Sea la v.a. promedio muestral ∑=

=n

i

iXn

X1

1 y sea

n

XZ n σ

µ−= .

Entonces ( ) ( )zzZPlim nn

Φ=≤∞→

, esto es ∫∞−

−

∞→=

≤

−z

x

ndxez

n

XP 2

2

2

1lim

πσ

µ



117

3- Aunque en muchos casos el T.C.L. funciona bien para valores de n pequeños , en particular

donde la población es continua y simétrica, en otras situaciones se requieren valores de n mas

grandes, dependiendo de la forma de la distribución de las iX . En muchos casos de interés prácti-

co, si 30≥n , la aproximación normal será satisfactoria sin importar cómo sea la forma de la dis-

tribución de las iX . Si 30<n , el T.C.L. funciona si la distribución de las iX no está muy alejada

de una distribución normal

4- Para interpretar el significado del T.C.L., se generan (por computadora) n valores de una v.a.

exponencial con parámetro 5.0=λ , y se calcula el promedio de esos n valores. Esto se repite 1000

veces, por lo tanto tenemos 1000 valores de la v.a. X .

Hacemos un histograma de frecuencias de X , esto es, tomamos un intervalo ),( ba donde

“caen” todos los valores de X , y lo subdividimos en intervalos mas chicos de igual longitud. La

frecuencia de cada subintervalo es la cantidad de valores de X que caen en dicho subintervalo.

Se grafican estas frecuencias obteniéndose los gráficos siguientes que se pueden considerar una

aproximación a la verdadera distribución de X .

Se observa que a medida que aumenta el valor de n los gráficos se van haciendo más simétricos,

pareciéndose a la gráfica de una distribución normal.

Ejemplos:

1- Supóngase que 30 instrumentos electrónicos D1, D2, ......,D30, se usan de la manera siguiente: tan

pronto como D1 falla empieza a actuar D2. Cuando D2 falla empieza a actuar D3, etc. Supóngase

que el tiempo de falla de Di es una v.a. distribuida exponencialmente con parámetro λ = 0.1 por

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

50

100

150

12 34 567 891011121314151617181920212223242526272829303132

20

40

60

80

1 2 3 4 5 6 7 8 91011121314151617181920212223242526272829

10

20

30

40

50

1 2 3 4 5 6 7 8 9 10111213141516171819202122

10

20

30

40

n=2 n = 5

n = 15 n = 30



118

hora. Sea T el tiempo total de operación de los 30 instrumentos. ¿Cuál es la probabilidad de que T

exceda 350 horas?

Solución:

Si iX : “tiempo de falla del instrumento iD ” 30,...,2,1=i

Entonces )1.0(~ ExpX i para 30,...,2,1=i

El tiempo total de operación de los 30 instrumentos es ∑=

=30

1i

iXT , donde

3001.0

130)(30)(

30

1

=×=×=

= ∑

=

i

i

i XEXETE

30001.0

130)(30)(

2

30

1

=×=×=

= ∑

=

i

i

i XVXVTV

Entonces por T.C.L. N(0,1)~3000

300−T aproximadamente pues 30=n

La probabilidad pedida es

( ) 18141.081859.019128.013000

3003501

3000

300350

3000

300)350( =−=Φ−=

−Φ−≈

−>

−=>

TPTP

T.C.L.

2- Suponga que el consumo de calorías por día de una determinada persona es una v.a. con media

3000 calorías y desviación estándar de 230 calorías. ¿Cuál es la probabilidad de que el promedio de consumo de calorías diario de dicha persona en el siguiente año (365 días) sea entre 2959 y

3050?

Solución: Definimos las variables aleatorias

iX : “cantidad de calorías que una persona consume en el día i” 365,...,2,1=i

Se sabe que 3000)( =iXE y 2230)( =iXV

Si ∑=

=365

1365

1

i

iXX entonces 3000)( =XE y 365

230)(

22

==n

XVσ


( )

( ) ( ) 10140.315.4

365230

30002959

365230

30003050

365230

30003050

365230

3000

365230

3000295930502959

=−≈−Φ−Φ=

−

Φ−

−

Φ≈

≈

−

≤−

≤−

=≤≤X

PXP

T.C.L.



119

Aplicaciones del Teorema central del límite

Aproximación normal a la distribución binomial El Teorema central del límite se puede utilizar para aproximar las probabilidades de algunas varia-

bles aleatorias discretas cuando es difícil calcular las probabilidades exactas para valores grandes

de los parámetros.

Supongamos que X tiene una distribución binomial con parámetros n y p. Para calcular )( kXP ≤

debemos hacer la suma ∑=

==≤k

i

iXPkXP0

)()( o recurrir a las tablas de la F.d.a. , pero para valo-

res de n grandes no existen tablas, por lo tanto habría que hacer el cálculo en forma directa y mu-

chas veces es laborioso.

Como una opción podemos considerar a X como suma de variables aleatorias más simples, especí-

ficamente, si definimos

−

=contrariocaso

éxitoocurrederepeticiónésimaílaensi

X i 0

1 ε

ni ,...,2,1=

entonces cada iX se la puede considerar ),1( pB , y además nXXX ,...,, 21 son independientes

Podemos escribir ∑=

=+++=n

i

in XXXXX1

21 ... y si n es grande entonces X tendrá aproxima-

damente una distribución normal con parámetros np y )1( pnp − , es decir

( )( )1,0

1.

.

2N

ppn

pnX

n

nXZ n ≈

−

−=

−=

σ

µ si n es lo suficientemente grande

Observaciones:

1- La aproximación normal a la distribución binomial funciona bien aun cuando n no sea muy

grande si p no está demasiado cerca de cero o de uno. En particular la aproximación normal a la

binomial es buena si n es grande , 5>np y 5)1( >− pn , pero es más efectivo aplicar esta aproxi-

mación cuando 10>np y 10)1( >− pn

2- Corrección por continuidad.

Acabamos de ver que si X∼B(n,p) entonces, para n suficientemente grande, podemos considerar

que aproximadamente es X∼ ( )[ ]pp.n,p.nN −1 . El problema que surge de inmediato si deseo cal-

cular, por ejemplo, la probabilidad de que kX = (con k alguno de los valores posibles 0,1,2,…,n)

es que la binomial es una distribución discreta y tiene sentido calcular probabilidades como

( )kXP = mientras que la normal es una distribución continua y, en consecuencia, ( ) 0== kXP

puesto que para una variable aleatoria continua la probabilidad de que ésta tome un valor aislado

es cero. Esto se resuelve si se considera ( )

+≤≤−≈=

2

1

2

1kXkPkXP

También se puede usar esta corrección para mejorar la aproximación en otros casos, específica-

mente en lugar de )( kXP ≤ calculamos

+≤≈≤

2

1)( kXPkXP

Y en lugar de

−≥≈≥

2

1)( kXPkXP

En los gráficos siguientes se muestra para diferentes valores de n y p cómo aproxima la distribu-

ción ))1( ,( pnpnpN − a la distribución ) ,( pnB



120

5 10 15 20 25

0.025

0.05

0.075

0.1

0.125

0.15

0.175

2 4 6 8 10 12 14

0.05

0.1

0.15

0.2

5 10 15 20

0.05

0.1

0.15

0.2

0.25

0.3

0.35

50 60 70 80 90 100

0.02

0.04

0.06

0.08

20 40 60 80 100 120 140

0.02

0.04

0.06

0.08

0.1

2 4 6 8 10

0.1

0.2

0.3

0.4

Ejemplos:

1- Sea X∼ B(25,0.4). Hallar las probabilidades exactas de que 8≤X y 8=X y comparar estos

resultados con los valores correspondientes encontrados por la aproximación normal.

Solución:

De la tabla de la F.d.a. de la binomial encontramos 274.0)8( =≤XP

Y 120.0154.0274.0)7()8()8( =−=≤−≤== XPXPXP

Ahora usamos la aproximación normal

n = 25

p = 0.7 n = 15

p = 0.5

n =15

p = 0.9

n = 100

p = 0.7

n = 150

p = 0.1

n = 10

p = 0.1



121

( ) 2709.061.06.04.025

105.8

)1()5.8()8( =−Φ≈

××

−≤

−

−=≤≈≤

pnp

npXPXPXP

corrección por continuidad

Observar que el valor aproximado está muy cercano al valor exacto para 274.0)8( =≤XP

( )

1170.01593.02709.0

61.06

1002.1

6

105.8

6

10

6

105.75.85.7)8(

=−=

=

−≤

−≤−=

−≤

−≤

−=≤≤≈=

XP

XPXPXP

Nuevamente este valor aproximado está muy cerca del valor real de 120.0)8( ==XP

2- Suponga que el 10% de todos los ejes de acero producidos por cierto proceso están fuera de

especificaciones, pero se pueden volver a trabajar (en lugar de tener que enviarlos a la chatarra).

Considere una muestra aleatoria de 200 ejes y denote por X el número entre ellos que estén fuera de especificaciones y se puedan volver a trabajar. ¿Cuál es la probabilidad (aproximada) de que X

sea a) a lo sumo 30?

b) menos de 30? c) entre 15 y 25 (inclusive)?

Solución:

Sea la v.a. X: “número de ejes fuera de especificaciones”

Entonces )1.0,200(~ BX , además 5201.0200 >=×=np y 5180)1.01(200)1( >=−×=− pn

Por lo tanto podemos aplicar la aproximación normal a la binomial

a) la probabilidad pedida es )30( ≤XP

( ) 993244.0474.218

205.30

18

205.30

)1()5.30()30( =Φ=

−Φ≈

−≤

−

−=≤≈≤

pnp

npXPXPXP

b) La probabilidad pedida es )30( <XP

Al ser X una v.a. discreta con distribución binomial )29()30( ≤=< XPXP

( ) 98745.02391.218

205.29)5.29()29( =Φ=

−Φ≈≤≈≤ XPXP

c)

( ) ( )

( ) ( ) ( ) 80294.0190147.0212963.122963.12963.1

18

205.14

18

205.255.255.142515

=−×=−Φ=−Φ−Φ=

=

−Φ−

−Φ≈≤≤≈≤≤ XPXP

3- El gerente de un supermercado desea recabar información sobre la proporción de clientes a los

que no les agrada una nueva política respecto de la aceptación de cheques. ¿Cuántos clientes ten-

dría que incluir en una muestra si desea que la fracción de la muestra se desvíe a lo mas en 0.15 de la verdadera fracción, con probabilidad de 0.98?.

Solución:

Sea X: “número de clientes a los que no les agrada la nueva política de aceptación de cheques”



122

Entonces ),(~ pnBX donde p es desconocido y es la verdadera proporción de clientes a los que

no les agrada la nueva política de aceptación de cheques. El gerente tomará una muestra de n clien-

tes para “estimar” p con n

XX = ya que

n

XX = es la proporción de clientes a los que no les

agrada la nueva política de aceptación de cheques en la muestra de n clientes. Si no se toman a

todos los clientes, entonces n

XX = no será igual a p.

La pregunta es cuál debe ser n para que n

XX = se aleje del verdadero p en menos de 0.15 con

probabilidad 0.98 por lo menos, o sea para que ( ) 98.015.0 ≥≤− pXP

Entonces planteamos

( ) ( ) ≈

−≤

−

−≤

−

−=≤−≤−=≤−

)1(

15.0

)1()1(

15.015.015.015.0

pnp

n

pnp

npX

pnp

nPpXPpXP

T.C.L.

98.01)1(

15.02

)1(

15.0

)1(

15.0≥−

−Φ=

−

−Φ−

−Φ≈

pnp

n

pnp

n

pnp

n

Por lo tanto 99.02

198.0

)1(

15.0=

+≥

−Φ

pnp

n

Además nn

pp

n

pnp

n3.0

)5.01(5.0

15.0

)1(

15.0

)1(

15.0=

−≥

−=

−

Entonces debe cumplirse que 33.23.0 ≥n o sea 3211.603.0

33.22

=

≥n

O sea se debe tomar una muestra de al menos 61 clientes

Aproximación normal a la distribución Poisson

Se puede probar aplicando Teorema central del límite que

Es decir para λ suficientemente grande )1,0(NX

≈−

λ

λ

En la práctica si 30≥λ la aproximación es buena.

Si )(~ λPX entonces para λ suficientemente grande λ

λ−X tiene aproximadamente distribu-

ción )1,0(N



123

Observación: la demostración es sencilla si λ es igual a un número natural n pues, si considera-

mos las variables aleatorias )1(~ PX i con ni ,...,2,1= independientes, entonces ya sabemos que

∑∑

==

n

i

n

i

i PX11

1~ , es decir )(~1

nPXn

i

i∑=

Pero además por T.C.L. si n es grande ∑=

n

i

iX1

tiene aproximadamente distribución normal con pa-

rámetros nnn =×= 1µ y nnn =×= 12σ

O sea la distribución de ∑=

n

i

iX1

que es exactamente Poisson con parámetro n, se puede aproximar

con una ),( nnN , por lo tanto )1,0(Nn

nX≈

− aproximadamente para valores de n suficientemente

grandes

En los gráficos siguientes se muestra para diferentes valores de λ cómo aproxima la distribución

) ,( λλN a la distribución )(λP

20 40 60 80 100

0.01

0.02

0.03

0.04

0.05

5 10 15 20 25 30

0.05

0.1

0.15

0.2

Ejemplo:

El número de infracciones por estacionamiento en cierta ciudad en cualquier día hábil tiene una

distribución de Poisson con parámetro λ = 50. ¿Cuál es la probabilidad aproximada de que:

a) entre 35 y 70 infracciones se expidan en un día en particular?

b) el número total de infracciones expedidas durante una semana de 5 días sea entre 225 y 275?

Solución: Sea X: “número de infracciones por estacionamiento en cierta ciudad en cualquier día hábil”

Entonces )(~ λPX donde 50=λ

Como 50=λ entonces )1,0(50

50N

X≈

− (aproximadamente)

a) la probabilidad pedida es

( ) ( ) ( )

9805.0017.0997599.0

12132.28284.250

5035

50

50707035

=−=

=−Φ−Φ=

−Φ−

−Φ≈≤≤ XP

b) Sea Y: “número total de infracciones expedidas durante una semana de 5 días” Entonces )(~ λPY donde 250550 =×=λ


( ) ( ) ( )

( ) 8859.0194295.0215811.12

5811.15811.1250

250225

250

250275275225

=−×=−Φ=

=−Φ−Φ=

−Φ−

−Φ≈≤≤ YP

50=λ 3=λ

Parte 2 – Estimación puntual Prof. María B. Pintarelli

124

PARTE 2 - ESTADISTICA

7- Estimación puntual

7. 1 – Introducción

Supongamos la siguiente situación: en una fábrica se producen artículos, el interés está en la produc-

ción de un día, específicamente, de todos los artículos producidos en un día nos interesa una caracte-rística determinada, si el artículo es o no defectuoso. Sea p la proporción de artículos defectuosos en

la población, es decir en la producción de un día. Tomamos una muestra de 25 artículos, podemos definir la v.a. X: “número de artículos defectuosos

en la muestra”, y podemos asumir que ),25(~ pBX .

En Probabilidades se conocían todos los datos sobre la v.a. X, es decir conocíamos p. De esa forma

podíamos responder preguntas como: ¿cuál es la probabilidad que entre los 25 artículos halla 5 de-

fectuosos?. Si, por ejemplo, 1.0=p entonces calculábamos )5( =XP donde )1.0 ,25(~ BX .

En Estadística desconocemos las características de X total o parcialmente, y a partir de la muestra de 25 artículos tratamos de inferir información sobre la distribución de X, o dicho de otra forma tra-

tamos de inferir información sobre la población. Por ejemplo, en estadística sabremos que X tiene distribución binomial pero desconocemos p, y a

partir de la muestra de 25 artículos trataremos de hallar información sobre p.

En Estadística nos haremos preguntas tales como: si en la muestra de 25 artículos se encontraron 5

defectuosos, ¿ese hecho me permite inferir que el verdadero p es 0.1?.

El campo de la inferencia estadística está formado por los métodos utilizados para tomar decisiones

o para obtener conclusiones sobre el o los parámetros de una población. Estos métodos utilizan la

información contenida en una muestra de la población para obtener conclusiones.

La inferencia estadística puede dividirse en dos grandes áreas: estimación de parámetros y pruebas

de hipótesis.

7.2 – Muestreo aleatorio

En muchos problemas estadísticos es necesario utilizar una muestra de observaciones tomadas de la población de interés con objeto de obtener conclusiones sobre ella. A continuación se presenta la

definición de algunos términos

En muchos problemas de inferencia estadística es poco práctico o imposible, observar toda la pobla-

ción, en ese caso se toma una parte o subconjunto de la población

Para que las inferencias sean válidas, la muestra debe ser representativa de la población. Se seleccio-

na una muestra aleatoria como el resultado de un mecanismo aleatorio. En consecuencia, la selección

de una muestra es un experimento aleatorio, y cada observación de la muestra es el valor observado

de una variable aleatoria. Las observaciones en la población determinan la distribución de probabili-

dad de la variable aleatoria.

Una población está formada por la totalidad de las observaciones en las cuales se tiene cierto

interés

Una muestra es un subconjunto de observaciones seleccionada de una población


125

Para definir muestra aleatoria, sea X la v.a. que representa el resultado de tomar una observación de

la población. Sea )(xf la f.d.p. de la v.a. X. supongamos que cada observación en la muestra se ob-

tiene de manera independiente, bajo las mismas condiciones. Es decir, las observaciones de la mues-

tra se obtienen al observar X de manera independiente bajo condiciones que no cambian, digamos n

veces.

Sea iX la variable aleatoria que representa la i-ésima observación. Entonces nXXX ,...,, 21 constitu-

yen una muestra aleatoria, donde los valores numéricos obtenidos son nxxx ,...,, 21 . Las variables

aleatorias en una muestra aleatoria son independientes, con la misma distribución de probabilidad f(x) debido a que cada observación se obtiene bajo las mismas condiciones. Es decir las funciones de

densidad marginales de nXXX ,...,, 21 son todas iguales a f(x) y por independencia, la distribución de

probabilidad conjunta de la muestra aleatoria es el producto de las marginales )()...()( 21 nxfxfxf

El propósito de tomar una muestra aleatoria es obtener información sobre los parámetros desconoci-

dos de la población. Por ejemplo, se desea alcanzar una conclusión acerca de la proporción de artícu-

los defectuosos en la producción diaria de una fábrica. Sea p la proporción de artículos defectuosos

en la población, para hacer una inferencia con respecto a p, se selecciona una muestra aleatoria (de

un tamaño apropiado) y se utiliza la proporción observada de artículos defectuosos en la muestra

para estimar p.

La proporción de la muestra p se calcula dividiendo el número de artículos defectuosos en la mues-

tra por el número total de artículos de la muestra. Entonces p es una función de los valores observa-

dos en la muestra aleatoria. Como es posible obtener muchas muestras aleatorias de una población,

el valor de p cambiará de una a otra. Es decir p es una variable aleatoria. Esta variable aleatoria se

conoce como estadístico.

Estadísticos usuales

Sea nXXX ,...,, 21 una muestra aleatoria de una v.a. X donde µ=)(XE y 2)( σ=XV

Si desconocemos µ un estadístico que se utiliza para estimar ese parámetro es la media o promedio

muestral ∑=

=n

i

iXn

X1

1

Análogamente si se desconoce 2σ un estadístico usado para tener alguna información sobre ese pa-

rámetro es la varianza muestral que se define como ( )∑=

−−

=n

i

i XXn

S1

22

1

1

Otro estadístico es la desviación estándar muestral ( )∑=

−−

=n

i

i XXn

S1

2

1

1

Como un estadístico es una variable aleatoria, éste tiene una distribución de probabilidad, esperanza

y varianza.

Las variables aleatorias ( )nXXX ,...,, 21 constituyen una muestra aleatoria de tamaño n de una

v.a. X si nXXX ,...,, 21 son independientes idénticamente distribuidas

Un estadístico es cualquier función de la muestra aleatoria


126

Una aplicación de los estadísticos es obtener estimaciones puntuales de los parámetros desconoci-

dos de una distribución. Por ejemplo como se dijo antes se suelen estimar la media y la varianza de

una población.

Cuando un estadístico se utiliza para estimar un parámetro desconocido se lo llama estimador pun-

tual. Es habitual simbolizar en forma genérica a un parámetro con la letra θ y al estadístico que se

utiliza como estimador puntual de θ , simbolizarlo con Θ .

Por lo tanto Θ es una función de la muestra aleatoria: ( )nXXXh ,...,,ˆ21=Θ

Al medir la muestra aleatoria se obtienen nxxx ,...,, 21 , y entonces el valor que toma Θ es

( )nxxxh ,...,,ˆ21=θ y se denomina estimación puntual de θ

El objetivo de la estimación puntual es seleccionar un número, a partir de los valores de la muestra,

que sea el valor más probable de θ .

Por ejemplo, supongamos que 4321 ,,, XXXX es una muestra aleatoria de una v.a. X. Sabemos que X

tiene distribución normal pero desconocemos µ .

Tomamos como estimador de µ al promedio muestral X , es decir X=µ

Tomamos la muestra (medimos 4321 ,,, XXXX ) y obtenemos 32 ,27 ,30 ,24 4321 ==== xxxx

Entonces la estimación puntual de µ es 25.284

32273024=

+++=x

Si la varianza 2σ de X también es desconocida, un estimador puntual usual de 2σ es la varianza

muestral, es decir ( )∑=

−−

=n

i

i XXn

S1

22

1

1, para la muestra dada la estimación de 2σ es 12.25.

Otro parámetro que a menudo es necesario estimar es la proporción p de objetos de una población

que cumplen una determinada característica.

En este caso el estimador puntual de p sería ∑=

=n

i

iXn

p1

1ˆ donde

−

=contrariocaso

erésdeticacaracteríslatienenobservacióésimaílasi

X i 0

int1

ni ,...,2,1=

Por lo tanto ∑=

=n

i

iXn

p1

1ˆ es la proporción de objetos en la muestra cumplen la característica de inte-

rés

Puede ocurrir que se tenga más de un estimador para un parámetro, por ejemplo para estimar la me-

dia muestral se pueden considerar el promedio muestral, o también la semisuma entre 1X y nX , es

decir 2

ˆ 1 nXX +=µ . En estos casos necesitamos de algún criterio para decidir cuál es mejor estima-

dor de µ .

7.3 – Criterios para evaluar estimadores puntuales

Lo que se desea de un estimador puntual es que tome valores “próximos” al verdadero parámetro.

Podemos exigir que el estimador Θ tenga una distribución cuya media sea θ .


127

Notar que si un estimador es insesgado entonces su sesgo es cero

Ejemplos:

1- Sea nXXX ,...,, 21 una muestra aleatoria de una v.a. X donde µ=)(XE y 2)( σ=XV

Si desconocemos µ un estadístico que se utiliza usualmente para estimar este parámetro es la media

o promedio muestral ∑=

=n

i

iXn

X1

1. Veamos si es un estimador insesgado de µ . Debemos ver si

( ) µ=XE .

Usamos las propiedades de la esperanza, particularmente la propiedad de linealidad.

( ) ( )∑∑∑===

=

=

=

n

i

i

n

i

i

n

i

i XEn

XEn

Xn

EXE111

111.

Pero, tratándose de las componentes de una muestra aleatoria es:

( ) ( ) n,...,,iµXEXE i 21=∀== . Luego:

( ) .µµnn

XE ==1

2- Sea X una variable aleatoria asociada con alguna característica de los individuos de una población

y sean ( ) µXE = y ( ) 2σXV = . Sea ( )2

1

2

1

1∑

=

−−

=n

i

i XXn

S la varianza muestral (con

n/XXn

i

i

= ∑

=1

la esperanza muestral) para una muestra aleatoria de tamaño n, ( )nX,...,X,X 21 .

Entonces ( ) 22 σSE = es decir ( )2

1

2

1

1∑

=

−−

=n

i

i XXn

S es un estimador insesgado de ( ) 2σXV =

pues:

( ) ( ) ( )

−

−=

−

−= ∑∑

==

2

1

2

1

2

1

1

1

1 n

i

i

n

i

i XXEn

XXn

ESE .

Reescribiremos la suma de una forma más conveniente. Sumamos y restamos µ y desarrollamos el

cuadrado:

( ) ( ) [ ] [ ]( ) =−+−=−+−=− ∑∑∑===

2

1

2

1

2

1

n

i

i

n

i

i

n

i

i XXXXXX µµµµ

[ ] [ ][ ] [ ]∑=

−+−−+−=n

iii XXXX

1

222 µµµµ [ ] [ ] [ ] [ ] =−+−−+−= ∑∑

==

2

11

22 XnXXX

n

i

i

n

i

i µµµµ

Se dice que el estimador puntual Θ es un estimador insesgado del parámetro θ si ( ) θ=ΘE

cualquiera sea el valor verdadero de θ

La deferencia ( ) θ−ΘE se conoce como sesgo de estimador Θ . Anotamos ( ) ( ) θ−Θ=Θ ˆˆ Eb


128

[ ] [ ] [ ] [ ]2

1

22 XnXnXX

n

ii −+−−+−= ∑

=

µµµµ [ ] [ ] [ ]22

1

22 XµnXµnµX

n

i

i −+−−−=∑=

.

Esto es:

( ) [ ] [ ]21

2

2

1

XµnµXXXn

i

i

n

i

i −−−=− ∑∑==

Entonces:

( ) ( ) [ ] [ ] =

−−−

−=

−

−= ∑∑

==

2

1

2

2

1

2

1

1

1

1XnXE

nXXE

nSE

n

i

i

n

i

i µµ

[ ] [ ] =

−−−

−= ∑

=

2

1

2

1

1µµ XnEXE

n

n

i

i

( ) ( )[ ] ( ) ( ) =

−

−=

−−

−= ∑∑

==

XnVXVn

XEXnEXVn

n

i

i

n

i

i

1

2

1 1

1

1

1

−

− nnn

n

22

1

1 σσ ,

donde en la última igualdad tuvimos en cuenta que ( ) ( ) n,...,,iσXVXV i 212=∀== y que

( )n

σXV

2

= . Luego llegamos a lo que se deseaba demostrar: ( ) 22 σSE = .

3- Supongamos que tomamos como estimador de 2σ a ( )2

1

2 1ˆ ∑

=

−=n

i

i XXn

σ

Entonces notar que podemos escribir ( )( )

21

2

2

1

2 1

1

11ˆ S

n

n

n

XX

n

nXX

n

n

i

in

i

i

−=

−

−−

=−=∑

∑ =

=

σ

Por lo tanto ( ) ( ) 22222 111ˆ σσσ ≠

−=

−=

−=

n

nSE

n

nS

n

nEE

Es decir 2σ no es un estimador insesgado de 2σ , es sesgado, y su sesgo es

( ) ( ) 222222 11ˆˆ σσσσσσ

nn

nEb −=−

−=−=

Como el sesgo es negativo el estimador tiende a subestimar el valor de verdadero parámetro

En ocasiones hay más de un estimador insesgado de un parámetro θ

Por lo tanto necesitamos un método para seleccionar un estimador entre varios estimadores insesga-dos.

Varianza y error cuadrático medio de un estimador puntual

Supongamos que 1Θ y 2Θ son dos estimadores insegados de un parámetro θ . Esto indica que la

distribución de cada estimador está centrada en el verdadero parámetro θ . Sin embargo las varianzas

de estas distribuciones pueden ser diferentes. La figura siguiente ilustra este hecho.


129

-15 -10 -5 5 10 15

0.1

0.2

0.3

0.4

Como 1Θ tiene menor varianza que 2Θ , entonces es más probable que el estimador 1Θ produzca

una estimación más cercana al verdadero valor de θ . Por lo tanto si tenemos dos estimadores inses-

gados se seleccionará aquel te tenga menor varianza.

Ejemplo: Sea nXXX ,...,, 21 una muestra aleatoria de una v.a. X donde µ=)(XE y 2)( σ=XV

Suponemos µ desconocido.

Estimamos al parámetro µ con la media o promedio muestral ∑=

=n

i

iXn

X1

1. Sabemos que es un

estimador insesgado de µ . Anotamos ∑=

==n

i

iXn

X1

1

1µ

Supongamos que tomamos otro estimador para µ , lo anotamos 2

ˆ 12

nXX +=µ

Entonces como

( ) ( ) ( )( ) ( ) µµµµµ ==+=+=

+= 2

2

1

2

1

2

1

2ˆ

211

2 XEXEXX

EE n ,

2ˆ 1

2nXX +

=µ es también un estimador insesgado de µ

¿Cuál de los dos estimadores es mejor? Calculamos la varianza de cada uno utilizando las propiedades de la varianza.

Ya sabemos cuál es la varianza de ∑=

=n

i

iXn

X1

1 (se la halló para T.C.L.):

( ) =XV ( ),XVn

XVn

Xn

Vn

i

i

n

i

i

n

i

i ∑∑∑===

=

=

12

12

1

111

donde en la última igualdad hemos tenido en cuenta que, por tratarse de una muestra aleatoria, las

iX con i=1,2,…,n son variables aleatorias independientes y, en consecuencia, la varianza de la suma

de ellas es la suma de las varianzas. Si tenemos en cuenta que además todas tienen la misma distri-

bución que X y por lo tanto la misma varianza:

( ) ( ) n,...,,iσXVXV i 212

=∀== , tenemos

( ) =XV .n

σσn

n

22

2

1=

Distribución de 1Θ


θ


130

Análogamente calculamos la varianza de 2

ˆ 12

nXX +=µ :

( ) ( ) ( )24

1)()(

4

1

2ˆ

222

211

2

σσσµ =+=+=

+= XVXV

XXVV n

Vemos que si 2>n entonces )ˆ()ˆ( 21 µµ VV < . Por lo tanto si 2>n es mejor estimador 1µ

Supongamos ahora que 1Θ y 2Θ son dos estimadores de un parámetro θ y alguno de ellos no es

insesgado.

A veces es necesario utilizar un estimador sesgado. En esos casos puede ser importante el error cua-drático medio del estimador.

El error cuadrático medio puede escribirse de la siguiente forma:

( ) ( ) ( )( )2ˆˆˆ Θ+Θ=Θ bVECM

Dem.) Por definición ( ) ( )

−Θ=Θ

2ˆˆ θEECM . Sumamos y restamos el número ( )ΘE :

( ) ( ) ( )( )

−Θ+Θ−Θ=Θ

2ˆˆˆˆ θEEEECM , y desarrollamos el cuadrado:

( ) ( ) ( )( ) ( )( ) ( )( ) ( )( ) ( )( ) =

−ΘΘ−Θ+−Θ+Θ−Θ=

−Θ+Θ−Θ=Θ θθθ ˆˆˆ2ˆˆˆˆˆˆˆ 222

EEEEEEEEECM

Aplicamos propiedades de la esperanza:

( )( )( )

( )( )( )

( )( ) ( )( ) ( ) ( )( )2

0ˆ

2

ˆ

2 ˆˆˆˆˆ2ˆˆˆ

2

Θ+Θ=Θ−Θ−Θ+−Θ+

Θ−Θ=

ΘΘ

bVEEEEEE

bV

434214342144 344 21

θθ

El error cuadrático medio es un criterio importante para comparar estimadores.

Si la eficiencia relativa es menor que 1 entonces 1Θ tiene menor error cuadrático medio que 2Θ

Por lo tanto 1Θ es más eficiente que 2Θ

El error cuadrático medio de un estimador Θ de un parámetro θ está definido como

( ) ( )

−Θ=Θ

2ˆˆ θEECM

Si 1Θ y 2Θ son dos estimadores de un parámetro θ .

La eficiencia relativa de 2Θ con respecto a 1Θ se define como ( )( )2

1

ˆ

ˆ

Θ

Θ

ECM

ECM


131

Observaciones:

1- Si Θ es un estimador insesgado de θ , entonces ( ) ( )Θ=Θ ˆˆ VECM

2- A veces es preferible utilizar estimadores sesgados que estimadores insesgados, si es que tienen

un error cuadrático medio menor.

En el error cuadrático medio se consideran tanto la varianza como el sesgo del estimador.

Si 1Θ y 2Θ son dos estimadores de un parámetro θ , tales que ( ) θ=Θ1Ê ; ( ) θ≠Θ2

Ê y

( ) ( )12ˆˆ Θ<Θ VV , habría que calcular el error cuadrático medio de cada uno, y tomar el que tenga me-

nor error cuadrático medio. Pues puede ocurrir que 2Θ , aunque sea sesgado, al tener menor varianza

tome valores mas cercanos al verdadero parámetro que 1Θ

-7.5 -5 -2.5 2.5 5 7.5

0.1

0.2

0.3

0.4

Ejemplo:

Supóngase que 1Θ , 2Θ y 3Θ son dos estimadores de un parámetro θ , y que

( ) ( ) ;ˆˆ21 θ=Θ=Θ EE ( ) θ≠Θ3

Ê , 10)ˆ( 1 =θV , 6)ˆ( 2 =ΘV y ( ) 4ˆ2

3 =

−Θ θE . Haga una comparación

de estos estimadores. ¿Cuál prefiere y por qué?

Solución: Calculamos el error cuadrático medio de cada estimador

( ) ( ) 10ˆˆ11 =Θ=Θ VECM pues 1Θ es insesgado

( ) ( ) 6ˆˆ22 =Θ=Θ VECM pues 2Θ es insesgado

( ) ( ) 4ˆˆ 2

33 =

−Θ=Θ θEECM es dato

En consecuencia 3Θ es el mejor estimador de los tres dados porque tiene menor error cuadrático

medio.

Consistencia de estimadores puntuales



θ

Sea nΘ un estimador del parámetro θ , basado en una muestra aleatoria ( )nX,...,X,X 21 de tama-

ño n. Se dice que nΘ es un estimador consistente de θ si

( ) 0ˆlim =≥−Θ∞→

εθnn

P para todo 0>ε


132

Observación:

Este tipo de convergencia, que involucra a una sucesión de variables aleatorias, se llama convergen-

cia en probabilidad y es la misma que consideramos en relación a la ley de los grandes números

Suele escribirse también θP

n →Θ .

Este tipo de convergencia debe distinguirse de la considerada en relación al teorema central del lími-

te. En este último caso teníamos una sucesión de distribuciones: ( ) ( )zZPzF nZ n≤= y se considera

el límite ( ) ( ) ( )zzZPlimzFlim nn

Zn n

Φ=≤=∞→∞→

.

Se habla, entonces, de convergencia en distribución y suele indicarse ZZd

n → ∼ ( )10,N .

Teorema. Sea nΘ un estimador del parámetro θ basado en una muestra aleatoria ( )nX,...,X,X 21 .

Si ( ) θ=Θ∞→

nn

E ˆlim y ( ) 0ˆlim =Θ∞→

nn

V , entonces nΘ es un estimador consistente de θ .

Dem.) Utilizamos la desigualdad de Chebyshev 0>∀ε :

( ) ( ) ( ) ( ) ( )

Θ+Θ=Θ=

−Θ≤≥−Θ

2

222

2

ˆˆ1ˆ1ˆˆ

nnnn

n bVECME

Pεεε

θεθ

Entonces, al tomar el límite ∞→n

lim y teniendo presente que ( ) θ=Θ∞→

nn

E ˆlim y ( ) 0ˆlim =Θ∞→

nn

V , vemos que

( ) 0ˆlim =≥−Θ∞→

εθnn

P 0>∀ε , es decir nΘ es un estimador convergente de θ .

Ejemplo:

Sea X una variable aleatoria que describe alguna característica numérica de los individuos de una

población y sean ( )XEµ = y ( )XVσ =2 la esperanza poblacional y la varianza poblacional, res-

pectivamente. Sea ∑=

=n

i

iXn

X1

1 la esperanza muestral basada en una muestra aleatoria

( )nX,...,X,X 21 . Entonces X es un estimador consistente de la esperanza poblacional ( )XEµ = .

Sabemos que

a) ( ) ( )XEµXE == n∀

b) ( ) ( )n

XV

n

σXV ==

2

n∀

La propiedad a) ya me dice que X es un estimador insesgado de ( )XEµ = .

Por otra parte si a) vale para todo n, también vale en particular en el límite ∞→n :

( ) ( )XEµXElimn

==∞→

.

Además, de b) deducimos inmediatamente que

( ) 0=∞→

XVlimn

.

Por lo tanto vemos que X es un estimador consistente de ( )XEµ = .


133

7.4 – Métodos de estimación puntual

Los criterios anteriores establecen propiedades que es deseable que sean verificadas por los estima-

dores. Entre dos estimadores posibles para un dado parámetro poblacional es razonable elegir aquél

que cumple la mayor cantidad de criterios o alguno en particular que se considera importante para el

problema que se esté analizando. Sin embargo estos criterios no nos enseñan por sí mismos a cons-

truir los estimadores. Existen una serie de métodos para construir estimadores los cuales en general

se basan en principios básicos de razonabilidad. Entre éstos podemos mencionar:

- Método de los momentos

- Método de máxima verosimilitud

Método de los momentos

Se puede probar usando la desigualdad de Chebyshev el siguiente resultado:

Definimos los momentos de orden k de una variable aleatoria como:

( ) ( )∑∈

==Xi Rx

i

k

i

k

k xpxXEµ ( ),...,,k 210= Si X es discreta

( ) ( )∫+∞

∞−

== dxxfxXEµ kk

k ( ),...,,k 210= Si X es continua,

y definimos los correspondientes momentos muestrales de orden k como:

∑=

=n

i

k

ik Xn

M1

1 ( ),...,,k 210= ,

Entonces la débil de los grandes números se puede generalizar:

( ) 0lim =≥−∞→

εµkkn

MP ( ),...,,k 210= .

De acuerdo con esto parece razonable estimar los momentos poblacionales de orden k mediante los

momentos muestrales de orden k: kµ ∼ kM ( ),...,,k 210= .

Ley débil de los grandes números:

Sean ( )nX,...,X,X 21 n variables aleatorias independientes todas las cuales tienen la misma espe-

ranza ( )XEµ = y varianza ( )XVσ =2 . Sea ∑

=

=n

i

iXn

X1

1. Entonces

( ) 0lim =≥−∞→

εµXPn

Decimos que X converge a µ en probabilidad y lo indicamos: µXp

→ .


134

Supongamos, entonces, una variable aleatoria X y supongamos que la distribución de X depende de r

parámetros rθθθ ,...,, 21 , esto es la la fdp poblacional es ( )rixp θθθ ,...,,, 21 si X es discreta o

( )rxf θθθ ,...,,, 21 si es continua. Sean rµ,...,µ,µ 21 los primeros r momentos poblacionales:

( ) ( )∑∈

==Xi Rx

ri

k

i

k

k xpxXE θθθµ ,...,,, 21 ( )r,...,,k 21= Si X es discreta

( ) ( )∫+∞

∞−

== dxxfxXE r

kk

k θθθµ ,...,,, 21 ( )r,...,,k 21= Si X es continua,

y sean

∑=

=n

i

k

ik Xn

M1

1 ( )r,...,,k 21= los r primeros momentos maestrales para una muestra de tamaño n

( )nX,...,X,X 21 . Entonces el método de los momentos consiste en plantear el sistema de ecuaciones:

=

=

=

rr Mµ

Mµ

Mµ

MMM

22

11

Es decir

( )

( )

( )

=

=

=

∑∑

∑∑

∑∑

=∈

=∈

=∈

n

i

r

i

Rx

ri

r

i

n

i

i

Rx

rii

n

i

i

Rx

rii

Xn

xpx

Xn

xpx

Xn

xpx

Xi

Xi

Xi

1

21

1

2

21

2

1

1

21

1,...,,,

1,...,,,

1,...,,,

θθθ

θθθ

θθθ

MMM Si X es discreta,

o

( )

( )

( )

=

=

=

∑∫

∑∫

∑∫

=

∞+

∞−

=

∞+

∞−

=

+∞

∞−

n

i

r

ir

r

n

i

ir

n

i

ir

Xn

dxxfx

Xn

dxxfx

Xn

dxxxf

1

21

1

2

21

2

1

1

21

1,...,,,

1,...,,,

1,...,,,

θθθ

θθθ

θθθ

MMM Si X es continua.


135

Resolviendo estos sistema de ecuaciones para los parámetros desconocidos rθθθ ,...,, 21 en función de

la muestra aleatoria ( )nX,...,X,X 21 obtenemos los estimadores:

( )

( )

( )

=Θ

=Θ

=Θ

nrr

n

n

XXXH

XXXH

XXXH

,...,,ˆ

,...,,ˆ

,...,,ˆ

21

2122

2111

M

Observación:

En la forma que presentamos aquí el método necesitamos conocer la forma de la fdp poblacional, por

lo tanto estamos frente a un caso de estimación puntual paramétrica.

Ejemplos:

1- Sea X una variable aleatoria. Supongamos que X tiene distribución gama con parámetros σy λ :

X ∼ ( )λ,σΓ , es decir su fdp está dada por:

( )

>

=

−−

valoresdemás

xeσ

x

λσ)x(f

σ

xλ

0

01

1

Γ

con 0>σ ; 0>λ y ( ) ∫∞

−−=Γ

0

1dxexλ xλ .

Sea ( )nXXX ,...,, 21 una muestra aleatoria de tamaño n. Deseamos calcular los estimadores de σ y λ

dados por el método de los momentos.

Solución:

Como tenemos dos parámetros desconocidos a estimar, planteamos el sistema de ecuaciones:

=

=

22

11

Mµ

Mµ

Se puede probar que

σ.λµ =1

222

2 σ.λσ.λµ +=

Tenemos, entonces, el sistema de ecuaciones

=+

=

∑

∑

=

=n

i

i

n

i

i

Xn

σ.λσ.λ

Xn

σ.λ

1

2222

1

1

1

⇒

=+

=

∑=

n

i

iXn

X

1

2222 1..

.

σλσλ

σλ


136

Reemplazando en la segunda ecuación: ∑=

=+n

i

iXn

XX1

22 1σ ⇒

X

XXn

n

i

i∑=

−

= 1

221

σ

Y despejando λ de la primera ecuación y reemplazando la expresión hallada para σ

( )

( )

−

=

−

=

∑

∑

=

=

Xn

XX

XX

Xn

n

i

i

n

i

i

1

2

1

2

2

ˆ

ˆ

σ

λ

2- Sea ( )nXXX ,...,, 21 una muestra aleatoria de tamaño n de una v.a. X donde [ ]θ,0~ UX , θ des-

conocido. Hallar el estimador de θ por el método de los momentos.

Solución:

Planteamos la ecuación: 11 M=µ

Sabemos que 22

0)(1

θθµ =

+== XE . Entonces X=

2

θ ⇒ X2ˆ =Θ

Observación: notar que el estimador X2ˆ =Θ es un estimador consistente de θ , pues

( ) ( ) ( ) θθ

====Θ2

222ˆ XEXEE y ( ) ( ) ( ) ( )0

312

0442ˆ

22

∞→→=

−===Θ

nnnXVXVV

θθ

3- Sea ( )nX,...,X,X 21 una muestra aleatoria de una v.a. X~ ),( 2σµN .

Encuentra los estimadores de µ y σ por el método de momentos.

Solución: Planteamos las ecuaciones

=

=

22

11

Mµ

Mµ ⇒ ( )

=

=

∑=

n

i

iXn

XE

X

1

22 1

µ

pero en general es válido que 22 )()( µ−= XEXV ⇒ µ+= )()( 2XVXE

Entonces las ecuaciones quedan

=+

=

∑=

n

i

iXn

X

1

222 1µσ

µ

⇒

−=

=

∑=

2

1

22 1ˆ

ˆ

XXn

Xn

i

iσ

µ

4- Sea ( )nX,...,X,X 21 una muestra aleatoria de una v.a. X~ ),0( 2σN .

Hallar un estimador por el método de los momentos de 2σ

Solución: en este caso no es conveniente plantear 11 M=µ pues quedaría


137

la ecuación X=0 que no conduce a nada.

Entonces podemos plantear 22 M=µ es decir

∑=

=n

i

iXn

XE1

22 1)( ⇒ ∑

=

=+n

i

iXn 1

22 10σ ⇒ ∑

=

=n

i

iXn 1

22 1σ

Observación: si Θ es un estimador por el método de los momentos de un parámetro θ , el estimador

de los momentos de ( )θg es ( )Θg , si )(xg es una función inyectiva.

Por ejemplo, en el ejemplo anterior un estimador de σ por el método de los momentos sería

∑=

==n

i

iXn 1

22 1ˆˆ σσ . Notar que xxg =)( es inyectiva para los reales positivos.

Método de máxima verosimilitud

Uno de los mejores métodos para obtener un estimador puntual de un parámetro es el método de

máxima verosimilitud.

La interpretación del método sería: el estimador de máxima verosimilitud es aquel valor del pa-

rámetro que maximiza la probabilidad de ocurrencia de los valores muestrales

La adaptación para el caso en que X es una v.a. continua sería la siguiente

Notación: abreviamos estimador de máxima verosimilitud con EMV

Supongamos que X es una v.a. discreta con función de distribución de probabilidad ),( θxp , don-

de θ es un parámetro desconocido. Sean nxxx ,...,, 21 los valores observados de una muestra alea-

toria de tamaño n.

Se define la función de verosimilitud como la función de distribución conjunta de las observa-

ciones:

( ) ),().....,().,()()...()(,,...,, 21221121 θθθθ nnnn xpxpxpxXPxXPxXPxxxL =====

Notar que la función de verosimilitud es una función de θ .

El estimador de máxima verosimilitud de θ es aquel valor de θ que maximiza la función de vero-

similitud

Supongamos que X es una v.a. continua con función de densidad de probabilidad ),( θxf , donde

θ es un parámetro desconocido. Sean nxxx ,...,, 21 los valores observados de una muestra aleato-

ria de tamaño n.

Se define la función de verosimilitud como la función de distribución conjunta de las observa-

ciones:

( ) ),().....,().,(,,...,, 2121 θθθθ nn xfxfxfxxxL =

La función de verosimilitud es una función de θ .

El estimador de máxima verosimilitud de θ es aquel valor de θ que maximiza la función de vero-

similitud


138

Ejemplos:

1- Sea ( )nX,...,X,X 21 una muestra aleatoria de una v.a. X~ ),1( pB

Por ejemplo, se eligen al azar n objetos de una línea de producción, y cada uno se clasifica como

defectuoso (en cuyo caso 1=ix ) o no defectuoso (en cuyo caso 0=ix ).

Entonces )1( == iXPp , es decir es la verdadera proporción de objetos defectuosos en la producción

total.

Queremos hallar el EMV de p

Solución:

Si X~ ),1( pB entonces kkpp

kkXP

−−

==

1)1(1

)( 1,0=k

Planteamos la función de verosimilitud

( ) ( ) ( ) ( ) ( )[ ] ( )[ ] ( )[ ]nnxxxxxx

nn pppppppxppxppxppxxxL−−−

−−−==111

2121 1...11;...;;;,..,, 2211

Esto puede escribirse:

( ) ( ) ∑−∑

= =

=−

n

i

i

n

i

ixn

x

n pppxxxL 11 1;,...,, 21

Para maximizar la función de verosimilitud y facilitar los cálculos tomamos el logaritmo natural de L Pues maximizar L es equivalente a maximizar ln(L) y al tomar logaritmos transformamos productos

en sumas. Entonces

( )( ) ( )pxnpxpxxxLn

i

i

n

i

in −

−+

= ∑∑

==

1lnln;,...,,ln11

21

Y ahora podemos maximizar la función derivando e igualando a cero

( )

01

;,...,,ln 1121 =−

−

−=∂

∂∑∑

==

p

xn

p

x

p

pxxxL

n

i

i

n

i

i

n

de donde despejando p

xn

x

p

n

i

i

==∑

=1 la proporción de defectuosos en la muestra

Por lo tanto se toma como estimador a ∑=

==n

i

iXn

Xp1

1ˆ

2- El tiempo de fallar T de una componente tiene una distribución exponencial con parámetro λ :

T∼ ( )λExp , es decir la fdp es

( )

∞<≤

=

−

valoresdemás

te

tf

t

0

0

;

λλ

λ

Recordemos que la esperanza y varianza son:


139

( )λ

1=TE y ( ) 21

λ=TV , respectivamente.

Se desea calcular el estimador de máxima verosimilitud del parámetro λ para una muestra de tama-

ño n.

Solución:

La función de probabilidad es:

( ) ( ) ( ) ( ) [ ] [ ] [ ]nttt

nn eeetftftftttLλλλ

λλλλλλλ−−−

×××== ...;...;;;,...,, 21

2121 ,

que puede escribirse:

( ) ( )∑

= =

−

n

i

itn

n etttL 1;,...,, 21

λ

λλ

Nuevamente tomamos logaritmo natural

( ) ∑−==

n

iin tntttL

121 ln;,...,,ln λλσ

( )

01;,...,,ln

1

21 =∑−=∂

∂

=

n

ii

n TntttL

λλ

λ

de donde podemos despejar λ :

t

t

nn

i

i

==

∑=1

λ , entonces el estimador de λ es

∑=

=n

i

iT

n

1

λ

El método de máxima verosimilitud presenta, algunas veces, dificultades para maximizar la función

de verosimilitud debido a que la ecuación obtenida a partir de 0)( =θθ

Ld

d no resulta fácil de resol-

ver. O también puede ocurrir que los métodos de cálculo para maximizar )(θL no son aplicables.

Por ejemplo:

Sea ( )nXXX ,...,, 21 una muestra aleatoria de tamaño n de una v.a. X donde [ ]θ,0~ UX , θ descono-

cido. Hallar el estimador de θ por el método máxima verosimilitud.

Solución: La f.d.p. de X es

<<

=contrariocaso

xsixf

0

01

)(θ

θ

Planteamos la función de verosimilitud

( )( )

<

=

∀<<

=contrariocaso

xsi

contrariocaso

ixsixxxL

ii

nin

n

0

max1

0

01

,,..., 21

θθ

θθθ


140

Si derivamos con respecto a θ obtenemos 1+

−−=

n

n n

d

d

θθ

θ que es siempre menor que cero. Por lo

tanto la función de verosimilitud es una función decreciente para todos los ( )ii

xmax>θ

Si hacemos un gráfico de la función de verosimilitud

Vemos que donde la función tiene el máximo hay una discontinuidad no evitable.

Por lo tanto ( )ii

xmaxˆ =Θ

El método de máxima verosimilitud puede emplearse en el caso donde hay más de un parámetro

desconocido para estimar. En ese caso la función de verosimilitud es una función de varias variables.

Específicamente si tenemos para estimar k parámetros kθθθ ,..., 21 , entonces la función de verosimili-

tud es una función de k variables ( )knxxxL θθθ ,...,,,...,, 2121 y los estimadores de máxima verosimili-

tud kΘΘΘ ˆ,...ˆ,ˆ21 se obtienen al plantear ( si existen las derivadas parciales) y resolver el sistema de k

ecuaciones con k incógnitas kθθθ ,..., 21

( ) kixxxLd

dkn

i

,..2,10,...,,,...,, 2121 ==θθθθ

Ejemplo:

La variable aleatoria X tiene distribución ( )2σ,µN con µ y 2σ ambos parámetros desconocidos para

los cuales se desea encontrar los estimadores máxima verosimilitud. La fdp es

( )2

2

1

2

2

1

−−

= σ

µx

eσπ

σ,µ;xf ∞<<∞− x ,

La función de verosimilitud para una muestra aleatoria de tamaño n es

( )

( )2

1

22

2

2

1

2

1

22

2

1

2

1

2

1

2

21

2

2

1...

2

1

2

1,;,...,,

−−

−

−−

−−

−−

∑=

==

=σ

µ

σ

µ

σ

µ

σ

µ

πσ

σπσπσπσµ

in

i

n

xn

xxx

n

e

eeexxxL

Luego

θ ( )ii

xmax

)(θL


141

( ) ( )2

1

22

212

12ln

2,;,...,,ln ∑

=

−−−=

n

i

in

xnxxxL

σ

µπσσµ

y el sistema de ecuaciones de verosimilitud queda:

( )

( ) ( )

=−

+−=∂

∂

=

−=

∂

∂

∑

∑

=

=

02

1

2

,;,...,,ln

0,;,...,,ln

14

2

22

2

21

1

2

21

n

i

in

n

i

in

xnxxxL

xxxxL

σ

µ

σσ

σµ

σ

µ

µ

σµ

Resolvemos con respecto a µ y 2σ :

( ) ( )

−=−=

==

∑ ∑

∑

= =

=n

i

n

i

ii

n

i

i

xxn

xn

xxn

1 1

222

1

11

1

µσ

µ

Entonces los estimadores máxima verosimilitud de µ y 2σ son

( )

−=

==

∑

∑

=

=n

i

i

n

i

i

XXn

XXn

1

22

1

1ˆ

1ˆ

σ

µ

Propiedades de los estimadores máxima verosimilitud

1- Los EMV pueden ser sesgados, pero en general si Θ es el EMV de un parámetro θ basado en

una muestra de tamaño n, entonces θ=Θ∞→

)ˆ(lim En

, es decir son asintóticamente insesgados

2- Bajo condiciones bastantes generales se puede probar que los EMV son asintóticamente consis-

tentes

3- Bajo condiciones bastantes generales se puede probar que los EMV asintóticamente tienen va-

rianza mínima

4-Los EMV cumplen la propiedad de invarianza es decir:

si Θ es un EMV de un parámetro θ , el EMV de ( )θg es ( )Θg , si )(xg es una función inyectiva.

Ejemplos:

1- Si consideramos nuevamente la situación considerada en el Ejemplo 2, donde teníamos una v.a. T

cuya distribución es una exponencial: T∼ ( )λExp , entonces, si queremos el EMV de la varianza po-

blacional, podemos calcularlo recordando que ( ) 21

λ=TV , es decir, ( ) ( ) 2

1λ

λ == gTV . Vimos que

TT

nn

i

i

1ˆ

1

==

∑=

λ . Por lo tanto el EMV de la varianza es 2

2

ˆ

1ˆ

λσ = .


142

2- Sea nXXX ,........,, 21 una muestra aleatoria de una v.a. ),1( pB . Un EMV de p es ∑=

==n

i

iXn

Xp1

1ˆ

Se selecciona una muestra aleatoria de n cascos para ciclistas fabricados por cierta compañía.

Sea X : “ el número entre los n que tienen defectos” , y p = P(el casco tiene defecto).

Supongamos que solo se observa X ( el número de cascos con defectos).

Si n = 20 y x = 3, es la estimación de p es 20

3ˆ =p

El E.M.V. de la probabilidad (1-p)5, de que ninguno de los siguientes cinco cascos que se examinen

tenga defectos será ( )5ˆ1 p− y su estimación en este caso

5

20

31

−

Parte 2 – Intervalos de confianza Prof. María B. Pintarelli

143

8- Intervalos de confianza

8.1 – Introducción

Se ha visto como construir a partir de una muestra aleatoria un estimador puntual de un parámetro desconocido. En esos casos necesitábamos dar algunas características del estimador, como por

ejemplo si era insesgado o su varianza.

A veces resulta más conveniente dar un intervalo de valores posibles del parámetro desconocido,

de manera tal que dicho intervalo contenga al verdadero parámetro con determinada probabilidad.

Específicamente, a partir de una muestra aleatoria se construye un intervalo ( )21ˆ,ˆ ΘΘ donde los

extremos 1Θ y 2Θ son dos estadísticos, tal que ( )( ) αθ −=ΘΘ∈ 1ˆ,ˆ21P donde θ es el parámetro

desconocido a estimar y α es un valor real entre cero y uno dado de antemano. Por ejemplo si

05.0=α , se quiere construir un intervalo ( )21ˆ,ˆ ΘΘ tal que ( )( ) 95.0ˆ,ˆ

21 =ΘΘ∈θP , o escrito de otra

forma ( ) 95.0ˆˆ21 =Θ≤≤Θ θP

Esta probabilidad tiene el siguiente significado: como 1Θ y 2Θ son estadísticos, los valores que

ellos toman varían con los valores de la muestra, es decir si nxxx ,...,, 21 son los valores medidos de

la muestra entonces el estadístico 1Θ tomará el valor 1θ y el estadístico 2Θ tomará el valor 2θ . Si

medimos nuevamente la muestra obtendremos ahora valores ,,

2

,

1 ,...,, nxxx y por lo tanto 1Θ toma-

rá el valor ,

1θ y el estadístico 2Θ tomará el valor ,

2θ , diferentes en general de los anteriores. Esto

significa que si medimos la muestra 100 veces obtendremos 100 valores diferentes para 1Θ y 2Θ

y por lo tanto obtendremos 100 intervalos distintos, de los cuales aproximadamente 5 de ellos no

contendrán al verdadero parámetro.

Al valor α−1 se lo llama nivel de confianza del intervalo. También se suele definir como nivel de

confianza al ( ) %1001 α−

La construcción repetida de un intervalo de confianza para µ se ilustra en la siguiente figura

µ


144

8.2 – Intervalo de confianza para la media de una distribución normal, varianza conocida.

El método general para construir intervalos de confianza es el siguiente llamado método del pivo-

te:

Supongamos el siguiente caso particular, sea ( )nXXX ,...,, 21 una muestra aleatoria de tamaño n de

una v.a. X donde ),(~ 2σµNX , 2σ conocido, se quiere construir un intervalo de confianza para

µ de nivel α−1 . Supongamos 05.0=α .

1- tomamos un estimador puntual de µ , sabemos que X=µ es un estimador con buenas propie-

dades.

2- a partir de X=µ construimos el estadístico

n

XZ

σ

µ−= . Notar que Z (pivote) contiene al ver-

dadero parámetro µ y que bajo las condiciones dadas )1,0(~ NZ

3- como conocemos la distribución de Z, podemos plantear: hallar un número z tal que

( ) 95.0=≤≤− zZzP

Por la simetría de la distribución normal estándar podemos escribir

( ) ( ) ( ) ( ) 95.012 =−Φ=−Φ−Φ=≤≤− zzzzZzP ⇒ ( ) 975.0=Φ z ⇒ 96.1=z

Por lo tanto ( ) 95.096.196.196.196.1 =

≤−

≤−=≤≤−

n

XPZP

σ

µ

Despejamos µ :

95.096.196.196.196.1

96.196.196.196.1

=

+≤≤−=

−≤−≤−−=

=

≤−≤−=

≤−

≤−

nX

nXPX

nX

nP

nX

nP

n

XP

σµ

σσµ

σ

σµ

σ

σ

µ

Entonces

95.096.1;96.196.196.1 =

+−∈=

+≤≤−

nX

nXP

nX

nXP

σσµ

σµ

σ

Es decir el intervalo de confianza para µ es

+−

nX

nX

σσ96.1;96.1 y tiene nivel de confian-

za 0.95 o 95%.

Aquí n

Xσ

96.1ˆ1 −=Θ y

nX

σ96.1ˆ

2 +=Θ

Repetimos el procedimiento anterior y construimos un intervalo de confianza para µ con nivel de

confianza α−1


145

1-Partimos de la esperanza muestral ∑=

=n

iXn

X11

1 para una muestra aleatoria ( )nX,...,X,X 21 de

tamaño n. Sabemos que es un estimador insesgado y consistente de µ .

2-Construimos el estadístico

N~n/σ

µXZ

−= (0,1)

La variable aleatoria Z cumple las condiciones necesarias de un pivote

Para construir un intervalo de confianza al nivel de confianza 1-α partiendo del pivote Z, comen-

zamos por plantear la ecuación

( ) =≤≤− zZzP 1-α ,

donde la incógnita es el número real z.

Si reemplazamos la v.a. Z por su expresión tenemos:

=

+−≤−≤−−=

≤−≤−=

≤

−≤−

n

σzXµ

n

σzXP

n

σzµX

n

σzPz

n/σ

µXzP 1-α

Multiplicando todos los miembros de la desigualdad por -1 (el orden de los miembros se invierte)

llegamos a:

=

+≤≤−

n

σzXµ

n

σzXP 1-α

Evidentemente, si definimos

+=Θ

−=Θ

nzX

nzX

σ

σ

2

1

ˆ

ˆ

, hemos construido dos estadísticos 1Θ y

2Θ tales que ( )=Θ≤≤Θ 21ˆˆ µP 1-α ,

es decir hemos construido el intervalo de confianza bilateral deseado [ ]21ˆ,ˆ ΘΘ . Todos los elemen-

tos que forman los estadísticos 1Θ y 2Θ son conocidos ya que el número z verifica la ecuación

anterior, es decir (ver figura):

αz

2

αz 2

αz−

2

α

2

α

2

αzz =


146

( ) ( ) ( )zzzZzP −Φ−Φ=≤≤− =1-α donde ( )zΦ es la Fda para la v.a. N~Z (0,1)

Recordando que ( ) ( )zz Φ−=−Φ 1 , esta ecuación queda:

( ) ( )zz −Φ−Φ = ( ) 12 −Φ z =1-α , o bien (ver figura anterior),

( )2

1α

z −=Φ o de otra forma 2

)(α

=> zZP .

Al valor de z que verifica esta ecuación se lo suele indicar 2

αz . En consecuencia, el intervalo de

confianza bilateral al nivel de significación 1-α queda:

[ ]

+−=ΘΘ

nzX

nzX

σσαα

22

21 ,ˆ,ˆ

En consecuencia:

Ejemplo: Un ingeniero civil analiza la resistencia a la compresión del concreto. La resistencia está distribui-

da aproximadamente de manera normal, con varianza 1000 (psi)2. Al tomar una muestra aleatoria

de 12 especímenes, se tiene que 3250=x psi.

a) Construya un intervalo de confianza del 95% para la resistencia a la compresión promedio.

b) Construya un intervalo de confianza del 99% para la resistencia a la compresión promedio.

Compare el ancho de este intervalo de confianza con el ancho encontrado en el inciso a).

Solución:

La v. a. de interés es Xi: “resistencia a la compresión del concreto en un espécimen i” Tenemos una muestra de 12=n especímenes.

Asumimos que ),(~ 2σµNX i para 12,...,3,2,1=i con 10002 =σ

a) Queremos un intervalo de confianza para µ de nivel 95%. Por lo tanto 05.0=α

El intervalo a utilizar es

+−

nzX

nzX

σσαα

22

, .

Buscamos en la tabla de la normal estándar el valor de 96.1025.0

2

== zzα

Reemplazando:

=

×+×− 89227.3267,10773.3232

12

100096.13250,

12

100096.13250

b) repetimos lo anterior pero ahora 01.0=α

Si ( )nXXX ,...,, 21 una muestra aleatoria de tamaño n de una v.a. X donde ),(~ 2σµNX , 2σ

conocido, un intervalo de confianza para µ de nivel α−1 es

+−

nzX

nzX

σσαα

22

, (8.1)


147

El intervalo a utilizar es

+−

nzX

nzX

σσαα

22

, .

Buscamos en la tabla de la normal estándar el valor de 58.2005.0

2

== zzα

Reemplazando:

=

×+×− 55207.3273,44793.3226

12

100058.23250,

12

100058.23250

La longitud del intervalo encontrado en a) es: 35.78454

La longitud del intervalo encontrado en b) es: 47.10414

Notar que la seguridad de que el verdadero parámetro se encuentre en el intervalo hallado es ma-

yor en el intervalo b) que en el a), pero la longitud del intervalo b) es mayor que la del intervalo a).

Al aumentar el nivel de confianza se perdió precisión en la estimación, ya que a menor longitud

hay mayor precisión en la estimación.

En general la longitud del intervalo es n

zLσ

α

2

2=

Notar que:

a) si n y σ están fijos, a medida que α disminuye tenemos que 2

αz aumenta, por lo tanto L

aumenta.

b) si α y σ están fijos, entonces a medida que n aumenta tenemos que L disminuye.

Podemos plantearnos la siguiente pregunta relacionada con el ejemplo anterior: ¿qué tamaño n de muestra se necesita para que el intervalo tenga nivel de confianza 99% y longitud la mitad de la

longitud del intervalo hallado en a)? Solución: el intervalo hallado en a) tiene longitud 35.78454, y queremos que el nuevo intervalo

tenga longitud 17.89227 aproximadamente. Planteamos:

89227.171000

58.2289227.1722

≤××⇒≤=nn

zLσ

α

Despejando n :

170.8389227.17

100058.22

2

≥⇒≤

×× nn

O sea, hay que tomar por lo menos 84 especímenes para que el intervalo tenga la longitud pedida.

En general, si queremos hallar n tal que ln

zL ≤=σ

α

2

2 , donde l es un valor dado, entonces

despejando n

2

2

2

≥l

z

n

σα


148

Si estimamos puntualmente al parámetro µ con X estamos cometiendo un error en la estimación

menor o igual a n

zL σ

α

22

= , que se conoce como precisión del estimador

Ejemplo: Se estima que el tiempo de reacción a un estímulo de cierto dispositivo electrónico está

distribuido normalmente con desviación estándar de 0.05 segundos. ¿Cuál es el número de medi-ciones temporales que deberá hacerse para que la confianza de que el error de la estimación de la

esperanza no exceda de 0.01 sea del 95%?

Nos piden calcular n tal que 01.02

2

<=n

zL σ

α con 05.0=α .

Por lo tanto

2

025.001.0

05.0

≥ zn .

Además 025,0z =1.96. Entonces ( ) 04965961010

050 2

2

9750 ...

.zn . =×=

≥ .

O sea hay que tomar por lo menos 97 mediciones temporales.

Ejemplo:

Supongamos que X representa la duración de una pieza de equipo y que se probaron 100 de esas

piezas dando una duración promedio de 501.2 horas. Se sabe que la desviación estándar poblacio-

nal es σ =4 horas. Se desea tener un intervalo del 95% de confianza para la esperanza poblacional

( ) µXE = .

Solución:

En este caso, si bien no conocemos cuál es la distribución de X tenemos que el tamaño de la mues-tra es 30100 >=n (muestra grande) por lo tanto el intervalo buscado es

+−

nzX

nzX

σσαα

22

,

Puesto que 1-α=0.95 025.02

05.095.01 =→=−=→α

α

De la tabla de la normal estandarizada obtenemos 025,0z =1.96. Entonces reemplazando:

+−

100

496.1,

100

496.1 XX

Para el valor particular x =501.2 tenemos el intervalo

Para muestras tomadas de una población normal, o para muestras de tamaño 30≥n , de una

población cualquiera, el intervalo de confianza dado anteriormente en (8.1), proporciona buenos

resultados.

En el caso de que la población de la que se extrae la muestra no sea normal pero 30≥n , el ni-

vel de confianza del intervalo (8.1) es aproximadamente α−1 .

Pero para muestras pequeñas tomadas de poblaciones que no son normales no se puede garanti-

zar que el nivel de confianza sea α−1 si se utiliza (8.1).


149

=

+−=

+− 0.502,4.500

10

496.12.501,

10

496.12.501

496.1,

100

496.1

nxx .

Al establecer que

05024500 .,. es un intervalo al 95% de confianza de µ estamos diciendo que

la probabilidad de que el intervalo

05024500 .,. contenga a µ es 0.95. O, en otras palabras, la

probabilidad de que la muestra aleatoria ( )nX,...,X,X 21 tome valores tales que el intervalo aleato-

rio

+−

100

496.1,

100

496.1 XX defina un intervalo numérico que contenga al parámetro fijo

desconocido µ es 0.95.

8.2 - Intervalo de confianza para la media de una distribución normal, varianza desconocida

Nuevamente como se trata de encontrar un intervalo de confianza para µ nos basamos en la espe-

ranza muestral ∑=

=n

iXn

X11

1 que sabemos es un buen estimador de µ . Pero ahora no podemos

usar como pivote a

n/σ

µXZ

−=

porque desconocemos σ y una condición para ser pivote es que, excepto por el parámetro a esti-

mar ( en este caso µ ), todos los parámetros que aparecen en él deben ser conocidos. Entonces pro-

ponemos como pivote una variable aleatoria definida en forma parecida a Z pero reemplazando σ

por un estimador adecuado. Ya vimos que la varianza muestral definida

( )2

11

2

1

1∑

=

−−

=n

i XXn

S ,

donde X es la esperanza muestral, es un estimador insesgado de la varianza poblacional ( )XV , es

decir, ( ) ( ) 22σXVSE == n∀ . Entonces estimamos σ con S y proponemos como pivote a la va-

riable aleatoria

n/S

µXT

−= .

Pero para poder usar a T como pivote debemos conocer su distribución.

Se puede probar que la distribución de T es una distribución llamada Student con parámetro n-1.

Nota: Una v.a. continua tiene distribución Student con k grados de libertad, si su f.d.p. es de la

forma


150

( )

∞<<∞−

+

Γ

+Γ

=+

x

k

xk

k

k

xfk

1

1

2

2

1

)(

2

1

2π

Notación: ktT ~

La gráfica de la f.d.p. de la distribución Student tiene forma de campana como la normal, pero

tiende a cero más lentamente. Se puede probar que cuando ∞→k la fdp de la Student tiende a la

fdp de la )1 ,0(N .

En la figura siguiente se grafica f(x) para diferentes valores de k

1=k

6=k

- - - - - ∞=k

Anotaremos kt ,α al cuantil de la Student con k grados de libertad que deja bajo la fdp a derecha un

área de α , y a su izquierda un área de α−1 .

Luego, para construir el intervalo de confianza buscado a partir del pivote T procedemos como en

los casos anteriores:

Comenzamos por plantear la ecuación

( ) =≤≤− tTtP 1-α ,

donde la incógnita es el número real t.

Si reemplazamos la v.a. T por su expresión, tenemos sucesivamente (multiplicando por n/S y

restando X ):

=

+−≤−≤−−=

≤−≤−=

≤

−≤−

n

StXµ

n

StXP

n

StµX

n

StPt

n/S

µXtP 1-α


llegamos a:

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4


151

=

+≤≤−

n

StXµ

n

StXP 1-α


+=Θ

−=Θ

n

StX

n

StX

2

1

ˆ

ˆ

, hemos construido dos estadísticos 1Θ y 2Θ tales que ( )=Θ≤≤Θ 21ˆˆ µP 1-α ,

veamos quien es el número t que verifica la ecuación, es decir (ver figura):

( ) ( ) ( )tFtFtTtP −−=≤≤− =1-α donde ( )tF es la Fda para la v.a. T ∼ 1−nt .

Por la simetría de la distribución t de Student se deduce fácilmente de la figura anterior que

( ) ( )tFtF −=− 1 , entonces:

( ) ( )tFtF −− = ( ) 12 −tF =1-α , o bien (ver figura anterior),

( )2

1α

tF −= .

Al valor de t que verifica esta ecuación se lo suele indicar 1,

2−n

tα . En consecuencia, el intervalo de

confianza bilateral al nivel de significación 1-α queda:

+−

−− n

StX

n

StX

nn 1,2

1,2

, αα con 2

11,

2

αα −=

−ntF .

En consecuencia:

Si ( )nXXX ,...,, 21 una muestra aleatoria de tamaño n de una v.a. X donde ),(~ 2σµNX ,

2σ desconocido, un intervalo de confianza para µ de nivel α−1 es

+−

n

StX

n

StX

22

, αα (8.2)

2

αt− 2

αt

libertad de grados 4=k

2

α

2

α


152

Ejemplo:

Se hicieron 10 mediciones sobre la resistencia de cierto tipo de alambre que dieron valores

1021 x,...,x,x tales que ∑=

==10

1

481010

1

i

i .xx ohms y ( )∑=

−=10

2

9

1

!i

i xxS = 1.36 ohms. Supóngase

que X~N(µ,σ2).

Se desea obtener un intervalo de confianza para la esperanza poblacional µ al 90 %.

Tenemos que →=− 9001 .α →= 10.α 05.02/ =α

De la Tabla de la t de Student tenemos que 8331.19,05.0 =t . Entonces el intervalo de confianza

buscado es:

+−=

+−

−− 10

36.18331.148.10,

10

36.18331.148.10,

1,2

1,2 n

StX

n

StX

nnαα

Esto es: [ ]27.11 ,69.9 .

8.3 – Intervalo de confianza para la diferencia de dos medias, varianzas conocidas

Supongamos que tenemos dos variables aleatorias independientes normalmente distribuidas:

( )( )

2

222

2

111

σ,µN~X

σ,µN~X y suponemos que las varianzas 2

1σ y 2

2σ son conocidas.

Sean además

( )111211 nX,...,X,X una muestra aleatoria de tamaño 1n de 1X

( )222221 nX,...,X,X una muestra aleatoria de tamaño 2n de 2X .

Deseamos construir un intervalo al nivel de confianza α−1 para la diferencia de esperanzas

21 µµ − .

Ya sabemos cuál es la distribución del promedio de variables aleatorias normales independientes:

Si la muestra aleatoria se toma de una distribución normal, σ2 es desconocido y el tamaño de la

muestra grande, entonces se puede probar que al reemplazar σ por S, el estadístico

( )10,Nn/S

µXZ ∼

−= aproximadamente

y puedo construir el intervalo para µ como antes:

+−

n

SzX

n

SzX

22

, αα , pero su nivel es aproximadamente α−1


153

=

=

∑

∑

=

=

2

1

1 2

2

2

22

2

2

1 1

2

1

11

1

1

1

1

n

i

i

n

i

i

n

σ,µN~X

nX

n

σ,µN~X

nX

Consideremos ahora la diferencia 21 XXY −= . Si 1X y 2X tienen distribución normal y son in-

dependientes, su diferencia también es normal, con esperanza igual a la diferencia de las esperan-

zas y la varianza es la suma de las varianzas:

+−−

2

2

2

1

2

1

2121 ,N~nn

XXσσ

µµ .

Por lo tanto

( )( )1,0N~

2

2

2

1

2

1

2121

nn

XXZ

σσ

µµ

+

−−−= , es decir, tiene distribución normal estandarizada.

La v.a. Z cumple con toda las condiciones para servir de pivote y construiremos nuestro intervalo

en forma análoga a cómo hicimos en los casos anteriores: Comenzamos por plantear la ecuación

( ) =≤≤− zZzP 1-α ,

donde la incógnita es el número real z.

Reemplazamos la v.a. Z por su expresión y tenemos sucesivamente (multiplicando por n/σ y

restando X ):

( )( )

( ) ( ) ( ) ασσ

µµσσ

σσµµ

σσ

σσ

µµ

−=

++−−≤−−≤+−−−=

=

+≤−−−≤+−=

≤

+

−−−≤−

12

2

2

1

2

12121

2

2

2

1

2

121

2

2

2

1

2

12121

2

2

2

1

2

1

2

2

2

1

2

1

2121

nnzXX

nnzXXP

nnzXX

nnzPz

nn

XXzP


llegamos a:

( ) ασσ

µµσσ

−=

++−≤−≤+−− 1

2

2

2

1

2

12121

2

2

2

1

2

121

nnzXX

nnzXXP



154

+−−=Θ

+−−=Θ

,ˆ

ˆ

2

2

2

1

2

1212

2

2

2

1

2

1211

nnzXX

nnzXX

σσ

σσ

habremos construido dos estadísticos 1Θ y 2Θ tales que ( )( ) =Θ≤−≤Θ 2211ˆˆ µµP 1-α , es decir

habremos construido el intervalo de confianza bilateral deseado [ ]21 A,A . Todos los elementos que

forman los estadísticos 1Θ y 2Θ son conocidos ya que el número z verifica la ecuación anterior,

es decir:

( ) ( ) ( )zzzZzP −Φ−Φ=≤≤− =1-α donde ( )zΦ es la Fda para la v.a. N~Z (0,1)

o bien, según vimos:

( )2

1α

z −=Φ que anotamos 2

αz

En consecuencia, el intervalo de confianza bilateral al nivel de significación 1-α queda:

++−+−−

2

2

2

1

2

1

2

21

2

2

2

1

2

1

2

21 ,nn

zXXnn

zXXσσσσ

αα

Por lo tanto

Ejemplo: Se utilizan dos máquinas para llenar botellas de plástico con detergente para máquinas lavaplatos.

Se sabe que las desviaciones estándar de volumen de llenado son 10.01 =σ onzas de líquido y

15.02 =σ onzas de líquido para las dos máquinas respectivamente. Se toman dos muestras aleato-

rias, 121 =n botellas de la máquina 1 y 102 =n botellas de la máquina 2. Los volúmenes prome-

dio de llenado son 87.301 =x onzas de líquido y 68.302 =x onzas de líquido.

Asumiendo que ambas muestras provienen de distribuciones normales

Construya un intervalo de confianza de nivel 90% para la diferencia entre las medias del volumen

de llenado.

Solución:

Como 90.01 =−α entonces 10.0=α

Si 1X y

2X son dos variables aleatorias independientes normalmente distribuidas:

( )2

111 ,N~ σµX , ( )2

222 ,N~ σµX y suponemos que las varianzas 2

1σ y 2

2σ son conocidas. Un

intervalo de confianza para la diferencia 21 µµ − de nivel α−1 es

++−+−−

2

2

2

1

2

1

2

21

2

2

2

1

2

1

2

21 ,nn

zXXnn

zXXσσσσ

αα

r

(8.3)


155

Por lo tanto 65.105.0

2

== zzα

El intervalo será ( ) ( )

++−+−−

10

15.0

12

10.065.168.3087.30;

10

15.0

12

10.065.168.3087.30

2222

O sea

281620.0;09837.0

Si se conocen las desviaciones estándar y los tamaños de las muestras son iguales (es decir

nnn == 21 ), entonces puede determinarse el tamaño requerido de la muestra de manera tal que la

longitud del intervalo sea menor que l

( )2

2

2

1

2

2

2

2

2

1

2

2

2 σσσσ

α

α +

≥⇒≤+=l

z

nlnn

zL

Ejemplo: De una muestra de 150 lámparas del fabricante A se obtuvo una vida media de 1400 hs y una des-

viación típica de 120 hs. Mientras que de una muestra de 100 lámparas del fabricante B se obtuvo una vida media de 1200 hs. y una desviación típica de 80 hs.

Halla los límites de confianza del 95% para la diferencia las vidas medias de las poblaciones A y

B.

Para muestras tomadas de dos poblaciones normales, o para muestras de tamaño 301 ≥n y

302 ≥n , de dos poblaciones cualesquiera, el intervalo de confianza dado anteriormente en

(8.3), proporciona buenos resultados.

En el caso de que la población de la que se extrae la muestra no sea normal pero 301 ≥n y

302 ≥n , el nivel de confianza del intervalo (8.3) es aproximadamente α−1 .

Si las muestras aleatorias se toma de una distribución normal, donde 1σ y 2σ son desconocidos,

301 ≥n y 302 ≥n , entonces se puede probar que al reemplazar 1σ por S1 y 2σ por S2, el esta-

dístico

)1,0()(

1

2

1

1

2

1

2121 N

n

S

n

S

XX≈

+

−−− µµ. aproximadamente

y puedo construir el intervalo para 21 µµ − como antes:

++−+−−

1

2

1

1

2

1

2

21

1

2

1

1

2

1

2

21 ,n

S

n

SzXX

n

S

n

SzXX αα , (8.4)

pero su nivel es aproximadamente α−1


156

Solución:

Sean las variables aleatorias:

:1X “duración en horas de una lámpara del fabricante A”

:2X “duración en horas de una lámpara del fabricante B”

No se dice cuál es la distribución de estas variables, pero como 1501 =n y 1002 =n

podemos usar el intervalo dado en (8.4)

Tenemos que 14001 =x , 12002 =x , 1201 =s y 802 =s .

Además 95.01 =−α 1.96z z 0.025

2

==→ α

Entonces el intervalo es

=

+−−+−− 7922.224;2077.175

100

80

150

12096.112001400;

100

80

150

12096.112001400

2222

Observación: como este intervalo no contiene al cero, podemos inferir que hay diferencia entre las

medias con probabilidad 0.95, es más, podemos inferir que la media del tiempo de duración de las lámparas del fabricante A es mayor que la media del tiempo de duración de las lámparas del fabri-

cante B con probabilidad 0.95 .

8.4 – Intervalo de confianza para la diferencia de dos medias, varianzas desconocidas

Nuevamente supongamos que tenemos dos variables aleatorias independientes normalmente dis-

tribuidas:

( )( )

2

222

2

111

σ,µN~X


1σ y 2

2σ son desconocidas .

Sean además



Pero ahora 1n o 2n no son mayores que 30

Supongamos que es razonable suponer que las varianzas desconocidas son iguales, es decir

σσσ == 21

Deseamos construir un intervalo al nivel de confianza α−1 para la diferencia de esperanzas

21 µµ −

Sean 1X y 2X las medias muestrales y 2

1S y 2

2S las varianzas muestrales. Como 2

1S y 2

2S son

los estimadores de la varianza común 2σ , entonces construimos un estimador combinado de 2σ .

Este estimador es

( ) ( )

2

11

21

2

22

2

112

−+

−+−=

nn

SnSnS p

Se puede comprobar que es un estimador insesgado de 2σ .

Se puede probar que el estadístico


157

( )

21

2121

11

nnS

XXT

p +

−−−=

µµr

tiene distribución Student con 221 −+ nn grados de libertad

Por lo tanto se plantea la ecuación

ααα −=

≤≤−

−+−+1

2,2

2,2

2121 nnnntTtP

o

( )

αµµ

αα −=

≤

+

−−−≤−

−+−+1

11 2,2

21

2121

2,2

2121 nn

p

nnt

nnS

XXtP

r

Despejamos 21 µµ − y queda la expresión

αµµ αα −=

+≤−≤+−−

−+−+1

1111

212,

2

21

212,

2

212121 nn

Stnn

StXXP pnn

pnn

Entonces

Ejemplo:

Se piensa que la concentración del ingrediente activo de un detergente líquido para ropa, es afecta-da por el tipo de catalizador utilizado en el proceso de fabricación. Se sabe que la desviación es-

tándar de la concentración activa es de 3 g/l, sin importar el tipo de catalizador utilizado. Se reali-zan 10 observaciones con cada catalizador, y se obtienen los datos siguientes:

Catalizador 1: 57.9, 66.2, 65.4, 65.4, 65.2, 62.6, 67.6, 63.7, 67.2, 71.0

Catalizador 2: 66.4, 71.7, 70.3, 69.3, 64.8, 69.6, 68.6, 69.4, 65.3, 68.8

a) Encuentre un intervalo de confianza del 95% para la diferencia entre las medias de las concen-

traciones activas para los dos catalizadores. Asumir que ambas muestras fueron extraídas de po-

blaciones normales con varianzas iguales.

b) ¿Existe alguna evidencia que indique que las concentraciones activas medias dependen del cata-

lizador utilizado?

Solución:


Si 1X y 2X son dos variables aleatorias independientes normalmente distribuidas:

( )2

111 ,N~ σµX , ( )2


1σ y 2

2σ son desconocidas

e iguales, es decir σσσ == 21

Un intervalo de confianza para la diferencia 21 µµ − de nivel α−1 es

21

2,2

21

212,

2

21

11;

11

2121 nnStXX

nnStXX p

nnp

nn+−−+−−

−+−+αα (8.5)


158

:1X “ concentración del ingrediente activo con catalizador 1”

:2X “ concentración del ingrediente activo con catalizador 2”

Asumimos que ambas variables tienen distribución normal con varianzas iguales

Estamos e3n las condiciones para usar (8.5)

Tenemos que 22.651 =x , 42.682 =x , 444.31 =s , 224.22 =s , 1021 == nn

Calculamos ( ) ( )

4036.821010

224.29444.39

2

11 22

21

2

22

2

112=

−+

×+×=

−+

−+−=

nn

SnSnS p

Por lo tanto 89890.24036.8 ==pS

Buscamos en la tabla de la Student 060.218,025.02,

221

==−+

ttnn

α


[ ]52935.0;8706.5

10

1

10

189890.2060.242.6822.65;

10

1

10

189890.2060.242.6822.65

−−=

=

+×−−+×−−

b) Existe alguna evidencia que indique que las concentraciones activas medias dependen del cata-

lizador utilizado, pues el 0 no pertenece al intervalo.

En muchas ocasiones no es razonable suponer que las varianzas son iguales. Si no podemos ga-

rantizar que las varianzas son iguales, para construir un intervalo de confianza de nivel α−1 para

21 µµ − utilizamos es estadístico

1

2

1

1

2

1

2121* )(

n

S

n

S

XXT

+

−−−=

µµ

Se puede probar que *T tiene aproximadamente una distribución Student con ν grados de liber-

tad donde

( )

( ) ( )11 2

2

2

2

2

1

2

1

1

1

2

2

2

21

2

1

−+

−

+=

n

nS

n

nS

nSnSν si ν no es entero, se toma el entero más próximo a ν

Por lo tanto planteamos la ecuación

αν

αν

α −=

≤≤− 1

,2

*

,2

tTtP

Y despejando 21 µµ − el intervalo es

++−+−−

2

2

2

1

2

1

,2

21

2

2

2

1

2

1

,2

21 ,n

S

n

StXX

n

S

n

StXX

να

να

Entonces


159

Ejemplo:

Una muestra de 6 soldaduras de un tipo tenía promedio de prueba final de resistencia de 83.2 ksi y

desviación estándar de 5.2. Y una muestra de 10 soldaduras de otro tipo tenía resistencia promedio

de 71.3 ksi y desviación estándar de 3.1. supongamos que ambos conjuntos de soldaduras son muestras aleatorias de poblaciones normales. Se desea encontrar un intervalo de confianza de 95%

para la diferencia entre las medias de las resistencias de los dos tipos de soldaduras.

Solución: Ambos tamaños muestrales son pequeños y las muestras provienen de poblaciones normales. No

podemos asumir igualdad de varianzas. Entonces aplicamos (8.6)

Tenemos que 2.831 =x , 3.712 =x , 2.51 =s , 1.32 =s , 10;6 21 == nn

Como 95.01 =−α entonces 025.02

=α

Además ( )

( ) ( ) ( ) ( )718.7

9

101.3

5

62.5

10

1.3

6

2.5

11

22

222

2

2

2

2

2

1

2

1

1

1

2

2

2

21

2

1 ≈=

+

+

=

−+

−

+=

n

nS

n

nS

nSnSν

Entonces buscamos en la tabla de la Student 365.27,025.0 =t

Por lo tanto el intervalo es

=

++−+−−=

=

++−+−−

43.17,37.610

1.3

6

2.5365.23.712.83;

10

1.3

6

2.5365.23.712.83

,

2222

2

2

2

1

2

1

,2

21

2

2

2

1

2

1

,2

21n

S

n

StXX

n

S

n

StXX

να

να

Si 1X y 2X son dos variables aleatorias independientes normalmente distribuidas:

( )2

111 ,N~ σµX , ( )2


1σ y 2

2σ son desconocidas

y distintas

Un intervalo de confianza para la diferencia 21 µµ − de nivel aproximadamente α−1 es

++−+−−

2

2

2

1

2

1

,2

21

2

2

2

1

2

1

,2

21 ,n

S

n

StXX

n

S

n

StXX

να

να (8.6)

Donde

( )

( ) ( )11 2

2

2

2

2

1

2

1

1

1

2

2

2

21

2

1

−+

−

+=

n

nS

n

nS

nSnSν


160

8.5 – Intervalo de confianza para 21 µµ − para datos pareados

Hasta ahora se obtuvieron intervalos de confianza para la diferencia de medias donde se tomaban

dos muestras aleatorias independientes de dos poblaciones de interés. En ese caso se tomaban 1n

observaciones de una población y 2n observaciones de la otra población.

En muchas situaciones experimentales, existen solo n unidades experimentales diferentes y los

datos están recopilados por pares, esto es cada unidad experimental está formada por dos observa-

ciones.

Por ejemplo, supongamos que se mide el tiempo en segundos que un individuo tarda en hacer una maniobra de estacionamiento con dos automóviles diferentes en cuanto al tamaño de la llanta y la

relación de vueltas del volante. Notar que cada individuo es la unidad experimental y de esa unidad

experimental se toman dos observaciones que no serán independientes. Se desea obtener un inter-

valo de confianza para la diferencia entre el tiempo medio para estacionar los dos automóviles.

En general, supongamos que tenemos los siguientes datos ( ) ( ) ( )nn XXXXXX 2122122111 ,;...;,;,1

.

Las variables aleatorias 1X y 2X tienen medias 1µ y 2µ respectivamente.

Sea jjj XXD 21 −= con nj ,...,2,1= .

Entonces

( ) ( ) ( ) ( ) 212121 µµ −=−=−= jjjjj XEXEXXEDE

y

( ) ( ) ( ) ( ) ( ) ( )21

2

2

2

1212121 ,2,2 XXCovXXCovXVXVXXVDV jjjjjjj −+=−+=−= σσ

Estimamos ( ) 21 µµ −=jDE con ( )21

1

21

1

11XXXX

nD

nD

n

j

jj

n

j

j −=−== ∑∑==

En lugar de tratar de estimar la covarianza, estimamos la ( )jDV con ( )∑=

−−

=n

j

jD DDn

S1

2

1

1

Anotamos 21 µµµ −=D y ( )jD DV=2σ

Asumimos que ( )2,N~ DDjD σµ con nj ,...,2,1=

Las variables aleatorias en pares diferentes son independientes, no lo son dentro de un mismo par. Para construir el intervalo de confianza notar que

1/

−∼−

= n

D

D tnS

DT

µ

entonces al plantear la ecuación ( ) =≤≤− tTtP 1-α , deducimos que 1,

2−

=n

tt α

Por lo tanto el intervalo de confianza para 21 µµµ −=D de nivel α−1 se obtendrá al sustituir T

en la ecuación anterior y despejar 21 µµµ −=D

El intervalo resultante es

+−

−− n

StD

n

StD D

n

D

n 1,2

1,2

; αα

Entonces


161

Ejemplo:

Consideramos el ejemplo planteado al comienzo. Deseamos un intervalo de nivel 0.90


jX 1 : “tiempo en segundos que tarda el individuo j en estacionar automóvil 1” con nj ,...,2,1=

jX 2 : “tiempo en segundos que tarda el individuo j en estacionar automóvil 2” con nj ,...,2,1=

Medimos estas variables de manera que tenemos las siguientes observaciones

Automóvil 1 Automóvil 2 diferencia

sujeto (observación jx1 ) (observación jx2 ) jD

1 37.0 17.8 19.2

2 25.8 20.2 5.6

3 16.2 16.8 -0.6

4 24.2 41.4 -17.2

5 22.0 21.4 0.6

6 33.4 38.4 -5.0

7 23.8 16.8 7.0

8 58.2 32.2 26.0

9 33.6 27.8 5.8

10 24.4 23.2 1.2

11 23.4 29.6 -6.2

12 21.2 20.6 0.6

13 36.2 32.2 4.0

14 29.8 53.8 -24.0

A partir de la columna de diferencias observadas se calcula 21.1=D y 68.12=DS

Además 771.113,05.01,

2

==−

ttn

α , entonces el intervalo para la diferencia 21 µµµ −=D de nivel 0.90

es

−=

×+×− 21.7;79.4

14

68.12771.121.1;

14

68.12771.121.1

Cuando las observaciones se dan de a pares ( ) ( ) ( )nn XXXXXX 2122122111 ,;...;,;,1

, y las diferen-

cias

jjj XXD 21 −= son tales que ( )2,N~ DDjD σµ para nj ,...,2,1= , un intervalo de confianza

de nivel α−1 para 21 µµµ −=D

es

+−

−− n

StD

n

StD D

n

D

n 1,2

1,2

; αα (8.7)


162

8.6 – Intervalo de confianza para la varianza de una distribución normal

Supongamos que se quiere hallar un intervalo de confianza para la varianza 2σ de una distribu-

ción normal.

Sea ( )nX,...,X,X 21 una muestra aleatoria de una v.a. X, donde ),(~ 2σµNX .

Tomamos como estimador puntual de 2σ a ( )2

11

2

1

1∑

=

−−

=n

i XXn

S

Luego a partir de este estimador puntual construimos el estadístico ( )

2

21

σ

SnX

−=

Este estadístico contiene al parámetro desconocido a estimar 2σ y tiene una distribución conocida,

se puede probar que X tiene una distribución llamada ji-cuadrado con n-1 grados de libertad

Observación: Si X es una v.a. continua se dice que tiene distribución ji-cuadrado con k grados de

libertad si su f.d.p. es

( )

0

22

1)( 2

12

2

>

Γ

=−−

xexk

xfxk

k

Notación: X~2

kχ

La distribución ji-cuadrdo es asimétrica. En la figura siguiente se grafica la densidad para diferen-tes valores de k

10 20 30 40 50 60

0.02

0.04

0.06

0.08

0.1

0.12

Anotaremos k,2

αχ al cuantil de la ji-cuadrado con k grados de libertad que deja bajo la fdp a dere-

cha un área de α , y a su izquierda un área de α−1 .

Propiedades:

1- Se puede probar que si nXXX ,...,, 21 son variables aleatorias independientes con distribución

)1,0(N entonces 22

2

2

1 ... nXXXZ +++= tiene distribución ji-cuadrado con n grados de libertad.

2- Si nXXX ,...,, 21 son variables aleatorias independientes tal que iX tiene distribución ji-

cuadrado con ik grados de libertad, entonces nXXXZ +++= ...21 tiene distribución ji-cuadrado

con k grados de libertad donde nkkkk +++= ...21

3- Si 2~ kX χ entonces para k grande

− 1,12~2 kNX aproximadamente.

30

15

2

=

=

=

k

k

k


163

Para desarrollar el intervalo de confianza planteamos hallar dos números a y b tales que

( ) α−=≤≤ 1bXaP es decir ( )

ασ

−=

≤

−≤ 1

12

2

bSn

aP

Se puede probar que la mejor elección de a y b es: 2

1,2

1 −−=

na αχ y 2

1,2

−=

nb αχ

Por lo tanto

( )

αχσ

χ αα −=

≤

−≤

−−−1

1 2

1,2

2

22

1,2

1 nn

SnP

y despejando 2σ se llega a

( ) ( )

αχ

σχ αα

−=

−

≤≤−

−−−

111

2

1,2

1

22

2

1,2

2

nn

SnSnP

Entonces

Observación: un intervalo de confianza para σ de nivel α−1 , es ( ) ( )

−−

−−−

2

1,2

1

2

2

1,2

2 1 ;

1

nn

SnSn

αα χχ

Si ( )nX,...,X,X 21 es una muestra aleatoria de una v.a. X, donde ),(~ 2σµNX , un intervalo de

confianza para 2σ de nivel α−1 es

( ) ( )

−−

−−−

2

1,2

1

2

2

1,2

2 1 ;

1

nn

SnSn

αα χχ (8.8)

2

α

α−1

2

1,2

1 −− nαχ 2

1,2

−nαχ

2

α

5=k


164

Ejemplo:

Un fabricante de detergente líquido está interesado en la uniformidad de la máquina utilizada para

llenar las botellas. De manera específica, es deseable que la desviación estándar σ del proceso de

llenado sea menor que 0.15 onzas de líquido; de otro modo, existe un porcentaje mayor del desea-ble de botellas con un contenido menor de detergente. Supongamos que la distribución del volu-

men de llenado es aproximadamente normal. Al tomar una muestra aleatoria de 20 botellas, se ob-

tiene una varianza muestral 0153.02=S . Hallar un intervalo de confianza de nivel 0.95 para la

verdadera varianza del volumen de llenado.

Solución:

La v.a. de interés es X: “ volumen de llenado de una botella”

Se asume que ),(~ 2σµNX con σ desconocido.

Estamos en las condiciones para aplicar (8.8)

Tenemos que 95.01 =−α 05.0 =→ α → 91.82

19,975.0

2

1,2

1==

−−χχ α

n

y 85.322

19,025.0

2

1,2

==−

χχαn

Además 0153.02=S


( ) ( ) ( ) ( )

( ).03260 ;00884.091.8

0153.0120 ;

85.32

0153.01201 ;

12

1,2

1

2

2

1,2

2

=

×−×−=

−−

−−− nn

SnSn

αα χχ

Y un intervalo para σ es ( ) ( )1805.0 ;09.00326.0 ;00884.0 =

Por lo tanto con un nivel de 0.95 los datos no apoyan la afirmación que 15.0<σ

8.7 – Intervalo de confianza para el cociente de varianzas de dos distribuciones normales

Supongamos que se tienen dos poblaciones normales e independientes con varianzas desconocidas

2

1σ y 2

2σ respectivamente. Se desea encontrar un intervalo de nivel α−1 para el cociente de las

dos varianzas 2

2

2

1

σ

σ.

Se toma una muestra aleatoria de tamaño 1n de una de las poblaciones y una muestra de tamaño

2n de la otra población. Sean 2

1S y 2

2S las dos varianzas muestrales.

Consideramos el estadístico

21

21

22

22

σ

σ

S

S

F =

Notar que F contiene al parámetro de interés 2

2

2

1

σ

σ, pues

22

21

21

22

σ

σ

×

×=

S

SF


165

Se puede probar que F tiene una distribución llamada Fisher con 12 −n y 11 −n grados de libertad.

Observación: Sea X una variable aleatoria continua, se dice que tiene distribución Fisher con u grados de libertad

en el numerador y v grados de libertad en el denominador si su fdp es de la forma

∞<<

+

Γ

Γ

+Γ

=+

−

x

xv

uvu

xv

uvu

xfvu

uu

0

122

2)(

2

12

2

En particular si W e Y son variables aleatorias independientes ji-cuadrado con u y v grados de liber-

tad respectivamente, entonces el cociente

vY

uW

F =

Tiene una distribución Fisher con u grados de libertad en el numerador y v grados de libertad en el

denominador.

Notación: vuFF ,~

La gráfica de una distribución Fisher es similar a la de una ji-cuadrado, es asimétrica. Anotamos

vuf ,,α al cuantil que deja a su derecha un área de α bajo la curva de densidad.

Existe la siguiente relación entre los cuantiles de una vuF , y de una uvF ,

uv

vuf

f,,

,,1

1

α

α =−

Planteamos la siguiente ecuación ( ) α−=≤≤ 1bFaP y se pede probar que la mejor elección de

a y b es : 1,1,

21 12 −−−

=nn

fa α y 1,1,

212 −−

=nn

fb α

20 ;15 == vu

α

vuf ,,α


166

Entonces ασ

σαα −=

≤≤

−−−−−1

1,1,2

2

1

2

1

2

2

2

2

1,1,2

1 1212 nnnnf

S

SfP

Despejando el cociente 2

2

2

1

σ

σ queda :

ασ

σαα −=

≤≤

−−−−−1

1,1,2

2

2

2

1

2

2

2

1

1,1,2

12

2

2

1

1212 nnnnf

S

Sf

S

SP

Por lo tanto

Ejemplo:

Una compañía fabrica propulsores para uso en motores de turbina. Una de las operaciones consiste

en esmerilar el terminado de una superficie particular con una aleación de titanio. Pueden emplear-

se dos procesos de esmerilado, y ambos pueden producir partes que tienen la misma rugosidad superficial promedio. Interesaría seleccionar el proceso que tenga la menor variabilidad en la rugo-

sidad de la superficie. Para esto se toma una muestra de 12 partes del primer proceso, la cual tiene

una desviación estándar muestral 1.51 =S micropulgadas, y una muestra aleatoria de 15 partes del

segundo proceso, la cual tiene una desviación estándar muestral 7.42 =S micropulgadas. Se desea

encontrar un intervalo de confianza de nivel 90% para el cociente de las dos varianzas.

Suponer que los dos procesos son independientes y que la rugosidad de la superficie está distribui-

da de manera normal.

20 ;15 == vu

2

α

2

α

1,1,2

1 12 −−− nnf α

1,1, 12 −− nnfα

Si se tienen dos poblaciones normales e independientes con varianzas desconocidas 2

1σ y 2

2σ

respectivamente, entonces un intervalo de nivel α−1 para el cociente de las dos varianzas

2

2

2

1

σ

σes

−−−−− 1,1,2

2

2

2

1

1,1,2

12

2

2

1

1212

;nnnn

fS

Sf

S

Sαα (8.9)


167

Solución:

Estamos en las condiciones para aplicar (8.9)

Buscamos en la tabla de la Fisher 39.058.2

11

14,11,05.0

11,14,95.01,1,

21 12

====−−− f

ffnn

α

y 74.211,14,05.01,1,

212

==−−

ffnn

α


[ ]23.3 ;46.0 2.747.4

1.5 ;39.0

7.4

1.52

2

2

2

=

Como este intervalo incluye al 1, no podemos afirmar que las desviaciones estándar de los dos

procesos sean diferentes con una confianza de 90%.

8.8 – Intervalo de confianza para una proporción

Sea una población de tamaño N (eventualmente puede ser infinito) de cuyos individuos nos inter-

esa cierta propiedad A. Supongamos que la probabilidad de que un individuo de la población veri-

fique A es ( )APp = .El significado del parámetro p es, en consecuencia, el de proporción de indi-

viduos de la población que verifican la propiedad A. Podemos definir una variable

aleatoria iX que mide a los individuos de la población la ocurrencia o no de la propiedad A .

La variable aleatoria tendrá la distribución:

( )( ) ( )

( ) ( )

−===

===

=

,100

11

pXPp

pXPp

xp

i

i

es decir, Xi es una v.a. que toma sólo dos valores: 1 (si el individuo verifica A) con probabilidad p

y 0 (cuando no verifica A) con probabilidad 1-p. Esto es equivalente a decir que Xi tiene una distri-

bución binomial con parámetros 1 y p: Xi ~ B(1,p).

Supongamos que consideramos una muestra aleatoria ( )nXXX ...,, 21 de tamaño n . Si formamos

el estadístico =X nXXX +++ ...21 , es evidente que esta v.a. mide el número de individuos de la

muestra de tamaño n que verifican la propiedad A. Por lo tanto por su significado X es una v.a.

cuya distribución es binomial con parámetros n y p: X~B(n,p). De acuerdo con esto, la variable

aleatoria P definida: n

XP = representa la proporción de individuos de la muestra que verifican la

propiedad A.

Observemos que siendo Xi ~ B(1,p) es ( ) pXE i = . Y, dado que X~B(n,p), también es

( ) ( ) pnpn

XEnn

XEPE ===

=

11, es decir P es un estimador insesgado de p . Esto es de espe-

rar pues ∑=

==n

i

iXnn

XP

1

1ˆ .


168

Pero además, es fácil ver que P es estimador consistente de p . En efecto, tenemos que ( ) pPE = ,

pero también es

( ) ( )( )

n

pppnp

nn

XVPV

−=−=

=

11

12

.

Deseamos construir un intervalo de confianza de p. Es razonable basarnos en el estimador insega-

do P . Consideramos como pivote a la variable aleatoria

( )n

pp

pPZ

−

−=

1 cuya distribución es, para n suficientemente grande, aproximadamente N(0,1). En

efecto:

Siendo n

X

n

X

n

XP n+++= ...ˆ 21 , es ( ) ∑

=

=

=

n

i

i pn

XEPE

1

ˆ y ( ) ( )∑

=

−=

=

n

i

i

n

pp

n

XVPV

1

1ˆ

Por lo tanto:

( )( )1,0~

1

ˆN

n

pp

pPZ

granden−

−= ,

El pivote puede ponerse en una forma más conveniente si tenemos en cuenta que, según vimos

recién, P es estimador consistente de p y en consecuencia, en el denominador reemplazamos el

parámetro desconocido p por su estimador P , y se puede probar que :

( )≈

−

−=

n

PP

pPZ

ˆ1ˆ

ˆN(0,1). aproximadamente si n es grande

Partiendo de este pivote podemos seguir los mismos pasos de los casos anteriores para llegar al siguiente intervalo de confianza al nivel α−1 de p:

( ) ( )

−+

−−

n

PPzP

n

PPzP

ˆ1ˆˆ,

ˆ1ˆˆ

22

αα con 2

12

αα −=

Φ z .

Entonces

Si P es la proporción de observaciones de una muestra aleatoria de tamaño n que verifican una

propiedad de interés, entonces un intervalo de confianza para la proporción p de la población que cumple dicha propiedad de nivel aproximadamente α−1 es

( ) ( )

−+

−−

n

PPzP

n

PPzP

ˆ1ˆˆ ,

ˆ1ˆˆ

22

αα (8.10)


169

Observaciones:

1- Este procedimiento depende de la aproximación normal a la distribución binomial. Por lo tanto

el intervalo (8.10) se puede utilizar si 10ˆ >Pn y 10)ˆ1( >− Pn , es decir, la muestra debe contener

un mínimo de diez éxitos y diez fracasos.

2- La longitud del intervalo es ( )

n

PPzL

ˆ1ˆ2

2

−= α , pero esta expresión está en función de P

Si nos interesa hallar un valor de n de manera tal que la longitud L sea menor que un valor deter-

minado, podemos hacer dos cosas:

a) tomar una muestra preliminar, con ella estimar p con P y de la expresión anterior despejar n, lo

que lleva a

( ) ( )PP

l

z

nln

PPzL ˆ1ˆ

2

ˆ1ˆ

2

2

2

2

−

≥⇒≤−

=

α

α

b) si no tomamos una muestra preliminar, entonces acotamos ( ) ( )5.015.0ˆ1ˆ −×≤− PP , entonces

( ) ( )

2

2

22

5.015.0

2ˆ1ˆ

2

≥⇒≤−

≤−

=l

z

nln

zn

PPzL

α

αα

Ejemplo:

Un fabricante de componentes compra un lote de dispositivos de segunda mano y desea saber la proporción de la población que están fallados. Con ese fin experimenta con 140 dispositivos elegi-

dos al azar y encuentra que 35 de ellos están fallados. a) Calcular un intervalo de confianza del 99% para la proporción poblacional p.

b) ¿De qué tamaño deberá extraerse la muestra a fin de que la proporción muestral no difiera de la proporción poblacional en más de 0.03 con un 95% de confianza?

Solución:

a) El tamaño de la muestra es 140=n (muestra grande)

La proporción muestral es 25.0140

35ˆ ==P

El nivel de confianza es 9901 .α =− → 010.α = → 00502

.α

= .

De la tabla de la normal estandarizada vemos que 58.2005.0 =z . Entonces el intervalo buscado es:

( ) ( )[ ]34441.0 ,15558.0

140

25.0125.058.225.0 ,

140

25.0125.058.225.0 =

−+

−−

b) Buscamos el tamaño n de la muestra tal que con un 95% de confianza la proporción muestral P

esté a una distancia 0.03 de la proporción poblacional p, es decir buscamos n tal que


170

03.02

≤L

, por lo tanto como 05.0=α → 025.02

=α

si tomamos la muestra anterior como pre-

liminar :

( ) ( ) 3333.80025.0125.003.02

96.12ˆ1ˆ

22

2

2 =−

×

×=−

≥ PPl

z

n

α

Por lo tanto hay que tomar una muestra de tamaño por lo menos 801. como ya se tomó una mues-

tra de tamaño 140, hay que tomar otra adicional de tamaño 661140801 =−

Supongamos que no tomamos una muestra inicial, entonces directamente planteamos

1111.106703.02

96.12

2

2 =

×=

≥l

z

n

α

Entonces hay que tomar una muestra de tamaño 1068 por lo menos.

8.9 – Intervalo de confianza para la diferencia entre dos proporciones

Supongamos que existen dos proporciones de interés 1p y 2p y es necesario obtener un intervalo

de confianza de nivel α−1 para la diferencia 21 pp − .

Supongamos que se toman dos muestras independientes de tamaños 1n y 2n respectivamente de

dos poblaciones.


:1X “número de observaciones en la primera muestra que tienen la propiedad de interés”

:2X “número de observaciones en la segunda muestra que tienen la propiedad de interés”

Entonces 1X y

2X son variables aleatorias independientes y X1~B(n1,p1) ; X2~B(n2,p2)

Además 1

1

1ˆ

n

XP = y

2

2

2ˆ

n

XP = son estimadores puntuales de 1p y 2p respectivamente.

Vemos que ( ) 2121ˆˆ ppPPE −=− y ( ) ( ) ( )

2

22

1

11

21

11ˆˆn

pp

n

ppPPV

−+

−=−

Aplicando la aproximación normal a la binomial podemos decir que

( )

( ) ( ))1,0(

11

ˆˆ

2

22

1

11

2121 N

n

pp

n

pp

ppPPZ ≈

−+

−

−−−= , y como en el caso de intervalo para una proporción estima-

mos ( ) ( )

2

22

1

11 11

n

pp

n

pp −+

− con

( ) ( )2

22

1

11ˆ1ˆˆ1ˆ

n

PP

n

PP −+

− y entonces

( )

( ) ( ))1,0(

ˆ1ˆˆ1ˆ

ˆˆ

2

22

1

11

2121 N

n

PP

n

PP

ppPPZ ≈

−+

−

−−−= aproximadamente.


171

Planteamos la ecuación ( ) ( ) ( )zzzZzP −Φ−Φ=≤≤− =1-α , lo que lleva a

2

αzz = , y con una deducción análoga a las anteriores se llega al intervalo

( ) ( ) ( ) ( )

−+

−+−

−+

−−−

2

22

1

11

2

21

2

22

1

11

2

21

ˆ1ˆˆ1ˆˆˆ ;

ˆ1ˆˆ1ˆˆˆ

n

PP

n

PPzPP

n

PP

n

PPzPP αα

Entonces

Ejemplo:

Se lleva a cabo un estudio para determinar la efectividad de una nueva vacuna contra la gripe. Se

administra la vacuna a una muestra aleatoria de 3000 sujetos, y de ese grupo 13 contraen gripe.

Como grupo de control se seleccionan al azar 2500 sujetos, a los cuales no se les administra la va-

cuna, y de ese grupo 170 contraen gripe. Construya un intervalo de confianza de nivel 0.95 para la

diferencia entre las verdaderas proporciones de individuos que contraen gripe.

Solución:


:1X “número de personas que contraen gripe del grupo que recibió la vacuna”

:2X “número de personas que contraen gripe del grupo que no recibió la vacuna”

Entonces X1~B(n1,p1) ; X2~B(n2,p2) donde 30001 =n ; 25002 =n

Además 3000

13ˆ1 =P ;

2500

170ˆ2 =P

Y 96.195.01 025.0

2

==→=− zzαα

Entonces

( ) ( ) ( ) ( )

−−=

−

+

−

+−

−

+

−

−

−=

=

−+

−+−

−+

−−−

0535222.0;0738112.02500

2500

1701

2500

170

3000

3000

131

3000

13

96.12500

170

3000

13

;2500

2500

1701

2500

170

3000

3000

131

3000

13

96.12500

170

3000

13

ˆ1ˆˆ1ˆˆˆ ;

ˆ1ˆˆ1ˆˆˆ

2

22

1

11

2

21

2

22

1

11

2

21n

PP

n

PPzPP

n

PP

n

PPzPP αα

Si 1P y 2P son las proporciones muestrales de una observación de dos muestras aleatorias inde-

pendientes de tamaños 1n y 2n respectivamente que verifican la propiedad de interés, entonces

un intervalo de confianza de nivel α−1 aproximadamente es

( ) ( ) ( ) ( )

−+

−+−

−+

−−−

2

22

1

11

2

21

2

22

1

11

2

21

ˆ1ˆˆ1ˆˆˆ ;

ˆ1ˆˆ1ˆˆˆ

n

PP

n

PPzPP

n

PP

n

PPzPP αα (8.11)

Parte 2 – Test de hipótesis Prof. María B. Pintarelli

172

9- Test o prueba de hipótesis


Hasta ahora hemos estudiado el problema de estimar un parámetro desconocido a partir de una muestra aleatoria.

En muchos problemas se requiere tomar una decisión entre aceptar o rechazar una proposición sobre

algún parámetro. Esta proposición recibe el nombre de hipótesis estadística, y el procedimiento de toma

de decisión sobre la hipótesis se conoce como prueba o test de hipótesis.

Como se emplean distribuciones de probabilidad para representar poblaciones, también podemos decir

que una hipótesis estadística es una proposición sobre la distribución de probabilidad de una variable

aleatoria, donde la hipótesis involucra a uno más parámetros de esta distribución.

Por ejemplo, supongamos que cierto tipo de motor de automóvil emite una media de 100 mg de óxidos

de nitrógeno (NOx) por segundo con 100 caballos de fuerza. Se ha propuesto una modificación al diseño

del motor para reducir las emisiones de NOx. El nuevo diseño se producirá si se demuestra que la media

de su tasa de emisiones es menor de 100 mg/s. Se construye y se prueba una muestra de 50 motores

modificados. La media muestral de emisiones de NOx es de 92 mg/s, y la desviación estándar muestral

es de 21 mg/s.

La variable aleatoria de interés en este caso es X: “tasa de emisión de un motor modificado tomado al azar”.

La preocupación de los fabricantes consiste en que los motores modificados no puedan reducir todas la emisiones; es decir que la media poblacional pudiera ser 100 o mayor que 100.

Entonces, la pregunta es: ¿es factible que esta muestra pueda provenir de una v.a. con media 100 o mayor?

Éste es el tipo de preguntas que las pruebas de hipótesis están diseñadas para responder. Veremos cómo construir una prueba de hipótesis, pero podemos decir que en general se basa en construir a partir de la

muestra aleatoria un estadístico, y según el valor que tome este estadístico de prueba se aceptará o se

rechazará la hipótesis.

Se ha observado una muestra con media 92=X .

Hay dos interpretaciones posibles de esta observación:

1- La media poblacional es realmente mayor o igual que 100, y la media muestral es menor que 100

debido a la variabilidad propia de la variable aleatoria X

2- La media poblacional es en realidad menor que 100, y la media muestral refleja este hecho.

Estas dos explicaciones tienen nombres: la primera se llama hipótesis nula; la segunda es la hipótesis alternativa.

En la mayoría de las situaciones la hipótesis nula dice que el efecto que indica la muestra es atribuible solamente a la variación aleatoria del estadístico de prueba.

La hipótesis alternativa establece que el efecto que indica la muestra es verdadero.

Para hacer las cosas más precisas, todo se expresa mediante símbolos. La hipótesis nula se denota por

0H , la hipótesis alternativa se denota con 1H . Como es usual la media poblacional se anota µ . Por lo

tanto se tiene

100:0 ≥µH contra 100:1 <µH (hipótesis alternativa unilateral)

Esencialmente, para realizar una prueba de hipótesis se pone la hipótesis nula en juicio. Se asume que

0H es verdadera, de la misma manera como se empieza en un juicio bajo el supuesto de que un acusado

es inocente. La muestra aleatoria proporciona la evidencia.


173

Las hipótesis son siempre proposiciones sobre los parámetros de la población o distribución bajo

estudio, no proposiciones sobre la muestra.

Otros tipos de hipótesis que podrían formularse son

100:0 ≤µH contra 100:1 >µH (hipótesis alternativa unilateral)

o

100:0 =µH contra 100:1 ≠µH (hipótesis alternativa bilateral)

En el ejemplo tenemos 5021 ,...,, XXX muestra aleatoria de la v.a. X definida anteriormente.

Como estamos haciendo una hipótesis sobre la media poblacional es razonable tomar como estadístico

de prueba a X . El valor observado de la media muestral es 92=X .

Si el valor de X es muy “menor” que 100 entonces se considera que hay evidencia en contra 0H y se la

rechaza, aceptando la hipótesis alternativa.

Si el valor de X no es “muy menor” que 100 entonces se considera que no hay evidencia en contra 0H

y se rechaza la hipótesis alternativa.

Ya veremos como construir una regla de decisión, supongamos ahora que tenemos la siguiente regla:

≥

<

95

95

0

0

XsiHaceptase

XsiHrechazase

El intervalo

∞,95 es la zona de aceptación.

La región

∞− 95; es la zona de rechazo o región crítica.

Mientras que 95 es el punto crítico.

Como estamos tomando una decisión basados en el valor de un estadístico podemos cometer dos tipos

de errores: rechazar 0H cuando ésta es verdadera, es decir el estadístico toma valores en la zona de

rechazo cuando 0H es verdadera; o aceptar 0H cuando ésta es falsa, es decir que el estadístico tome

valores en la zona de aceptación cuando 0H es falsa.

El primero se conoce como error de tipo I, y el segundo como error de tipo II.

Debido a que la decisión se basa en variables aleatorias es posible asociar probabilidades a los errores de

tipo I y II, específicamente anotamos

)( ItipodeerrorP=α

)( IItipodeerrorP=β

A )( ItipodeerrorP=α se lo conoce como nivel de significancia del test.

Para calcular estas probabilidades debemos conocer la distribución del estadístico de prueba en el caso

de ser 0H verdadera, es decir debemos conocer la distribución del estadístico de prueba “bajo 0H ”.


174

En el ejemplo anterior la muestra es grande, ya sabemos que por T.C.L. el estadístico

)1,0(100

N

ns

XZ ≈

−= si 0H es verdadera, o sea )1,0(

5021

100N

XZ ≈

−=

Entonces para calcular α planteamos:

( )==<=

== 100/95/)( 00 µα XPVesHHrechazarPItipodeerrorP

( ) 04648.095352.016835.1

5021

10095

5021

10095

5021

100=−=−Φ=

−

Φ≈

−

<−

=X

P

Esto significa que el 4.64% de las muestras aleatorias conducirán al rechazo de la hipótesis 100:0 ≥µH

cuando el verdadero µ sea mayor o igual que 100.

En este caso el gráfico de la zona de rechazo es

Del gráfico anterior vemos que podemos reducir α al aumentar la zona de aceptación. Por ejemplo

supongamos que ahora la regla de decisión es

≥

<

93

93

0

0

XsiHaceptase

XsiHrechazase

Entonces ( )==<=


( ) 00939.099061.01357.2

5021

10093

5021

10093

5021

100=−=−Φ=

−

Φ≈

−

<−

=X

P

04648.0=α

50

21,100

2

N


175

También se puede reducir α aumentando el tamaño de la muestra. Supongamos que 85=n , entonces

( )==<=


( ) 01426.098574.01195.2

8521

10095

8521

10095

8521

100=−=−Φ=

−

Φ≈

−

<−

=X

P

También es importante examinar la probabilidad de cometer error de tipo II, esto es

) / ()( 00 falsaesHHaceptarPIItipodeerrorP ==β

Pero en este caso para llegar a un valor numérico necesitamos tener una alternativa específica pues en

nuestro ejemplo:

( )

( )µβµµµ

µβ

=

−

Φ−=

−

≥−

=

=≠≥===

5021

951

5021

95

5021

100/95) / ()( 00

XP

XPfalsaesHHaceptarPIItipodeerrorP

Donde anotamos con µ a la verdadera media poblacional desconocida.

Podemos entonces calcular β para un valor particular de µ , por ejemplo nos puede interesar como se

comporta el test cuando la verdadera media es 94=µ , entonces

( ) ( ) 3707.062930.013367.01

5021

94951

5021

9495

5021

9494 =−=Φ−=

−

Φ−=

−

≥−

=X

Pβ

Gráficamente:

100:0 =µHbajo

94:1 =µHbajo

3707.0)94( =β

rechazodezona


176

La probabilidad β de cometer error de tipo II crece a medida que el valor verdadero de µ se acerca al

valor hipotético. Por ejemplo si el verdadero valor de µ fuera 94.7 entonces

( ) ( ) 46017.053983.01101015.01

5021

7.94951

5021

7.9495

5021

7.947.94 =−=Φ−=

−

Φ−=

−

≥−

=X

Pβ

Además, la probabilidad β de cometer error de tipo II disminuye a medida que el valor verdadero de µ

se aleja del valor hipotético. Por ejemplo si el verdadero valor de µ fuera 90 entonces

( ) ( ) 04648.095352.016835.11

5021

90951

5021

9095

5021

9090 =−=Φ−=

−

Φ−=

−

≥−

=X

Pβ

0'10:0 =µHbajo

7.94:1 =µHbajo

rechazodezona

46017.0)7.94( =β

( ) 04648.090 =β

rechazodezona

90:1 =µHbajo

100:0 =µHbajo


177

También se puede reducir la probabilidad de cometer error de tipo II con el tamaño de la muestra. Por

ejemplo si 85=n entonces y 94=µ

( ) ( ) 32997.067003.014390.01

8521

94951

8521

9495

8521

9494 =−=Φ−=

−

Φ−=

−

≥−

=X

Pβ

Lo que se ha visto en los ejemplos anteriores se puede generalizar. Podemos recalcar los siguientes

puntos importantes:

1- El tamaño de la región crítica, y en consecuencia la probabilidad α de cometer error de tipo I,

siempre pueden reducirse mediante una selección apropiada de los valores críticos. 2- Los errores tipo I y II están relacionados. Una disminución en la probabilidad en un tipo de error

siempre da como resultado un aumento en la probabilidad del otro, siempre que el tamaño de la muestra no cambie.

3- En general, un aumento en el tamaño de la muestra reduce tanto a α como a β , siempre que los

valores críticos se mantengan constantes.

4- Cuando la hipótesis nula es falsa, β aumenta a medida que el valor verdadero del parámetro tiende

al valor hipotético propuesto por la hipótesis nula. El valor de β disminuye a medida que aumenta

la deferencia entre el verdadero valor medio y el propuesto.

En general el investigador controla la probabilidad α del error de tipo I cuando selecciona los valores

críticos. Por lo tanto el rechazo de la hipótesis nula de manera errónea se puede fijar de antemano. Eso

hace que rechazar la hipótesis nula sea una conclusión fuerte.

La probabilidad β de error de tipo II no es constante, sino que depende del valor verdadero del paráme-

tro. También depende β del tamaño de la muestra que se haya seleccionado. Como β está en función

del tamaño de la muestra y del valor verdadero del parámetro, la decisión de aceptar la hipótesis nula se

la considera una conclusión débil, a menos que se sepa que β es aceptablemente pequeño. Por lo tanto

cuando se acepta 0H en realidad se es incapaz de rechazar 0H . No se puede rechazar 0H pues no

hay evidencia en contra 0H .

Un concepto importante es el siguiente:

La potencia de un test es la probabilidad de rechazar la hipótesis nula. La simbolizamos ( )µπ . Para los

valores de µ tal que la alternativa es verdadera se tiene

( ) ( )µβµπ −=

= 1/ 00 falsaesHHrechazarP

Las pruebas estadísticas se comparan mediante la comparación de sus propiedades de potencia. La potencia es una medida de la sensibilidad del test, donde por sensibilidad se entiende la capacidad de

una prueba para detectar diferencias. En el ejemplo anterior, la sensibilidad de la prueba para detectar la diferencia entre una tasa de emisión

media de 100 y otra de 94 es ( ) ( ) 6293.03707.0194194 =−=−= βπ . Es decir si el valor verdadero de la

tasa de emisión media es 94, la prueba rechazará de manera correcta 0H y detectará esta diferencia el

62.93% de las veces. Si el investigador piensa que este valor es bajo entonces el investigador puede

aumentar α o el tamaño de la muestra.


178

9.2 – Prueba de hipótesis sobre la media, varianza conocida

Veamos ahora cómo construir una regla de decisión sobre la media de una población.

Supongamos que la variable aleatoria de interés X tiene una media µ y una varianza 2σ conocida.

Asumimos que X tiene distribución normal, es decir ) ,(~ 2σµNX .

Nuevamente, como en el ejemplo introductorio, es razonable tomar como estadístico de prueba al pro-

medio muestral X . Bajo las suposiciones hechas tenemos que

nNX

2

,~σ

µ .

Supongamos que tenemos las hipótesis

00 : µµ =H contra 01 : µµ ≠H

Donde 0µ es una constante específica. Se toma una muestra aleatoria nXXX ,...,, 21 de la población.

Si 00 : µµ =H es verdadera, entonces

nNX

2

0 ,~σ

µ , por lo tanto el estadístico

n

XZ

σ

µ0−= tiene distribución )1,0(N si 00 : µµ =H es verdadera

Tomamos a Z como estadístico de prueba

Si 00 : µµ =H es verdadera entonces ααα −=

≤≤− 1

22

zZzP

Es evidente que una muestra que produce un valor del estadístico de prueba que cae en las colas de la

distribución de Z será inusual si 00 : µµ =H es verdadera, por lo tanto esto es un indicador que 0H es

falsa.

Entonces la regla de decisión es:

≤

>

2

0

2

0

α

α

zZsiHaceptar

zZsiHrechazar

2

αz 2

αz− 0

)1,0(N

2

α

2

α−

Zona de aceptación


179

Notar que la probabilidad que la estadística de prueba tome un valor que caiga en la zona de rechazo si

0H es verdadera es igual a α , es decir la probabilidad de cometer error de tipo I es α pues

ααα

σ

µ

σ

µ

µµσ

µ

αα

α

=+=

−<−

+

>−

=

=

=>−

=

=

22

/)(

2

0

2

0

0

2

000

z

n

XPz

n

XP

z

n

XPVesHHrechazarPItipodeerrorP

Ejemplo:

El porcentaje deseado de SiO2 en cierto tipo de cemento aluminoso es 5.5. Para probar si el verdadero

promedio de porcentaje es 5.5 para una planta de producción en particular, se analizaron 16 muestras

obtenidas de manera independiente. Supongamos que el porcentaje de SiO2 en una muestra está nor-

malmente distribuido con 3.0=σ , y que 25.5=x .

¿Indica esto de manera concluyente que el verdadero promedio de porcentaje difiere de 5.5?. Utilice

01.0=α

Solución:

La v.a. de interés es X: “porcentaje de SiO2 en cierto tipo de cemento aluminoso”

Asumimos que )3 ,(~ 2µNX

Podemos plantear las hipótesis

5.5:0 =µH contra 5.5:1 ≠µH

Tenemos una muestra de tamaño 16=n que dio un promedio muestral 25.5=x

Como 01.0=α entonces 575.2005.0

2

== zzα

Por lo tanto la regla de decisión es

≤−

>−

575.2

163

5.5

575.2

163

5.5

0

0

XsiHaceptar

XsiHrechazar

El estadístico

163

5.5−X toma el valor 333333.0

163

5.525.50 =

−=z

Como 2

01.00 575.2333333.0 zz =<= se acepta 0H

También podemos desarrollar tests o pruebas de hipótesis para el caso de que la hipótesis alternativa es

unilateral.


180

Supongamos las hipótesis

00 : µµ =H contra 01 : µµ >H

En este caso la región crítica debe colocarse en la cola superior de la distribución normal estándar y el

rechazo de 0H se hará cuando el valor calculado de 0z sea muy grande, esto es la regla de decisión será

≤−

>−

α

α

σ

µ

σ

µ

z

n

XsiHaceptar

z

n

XsiHrechazar

0

0

0

0

De manera similar para las hipótesis

00 : µµ =H contra 01 : µµ <H

se calcula el valor del estadístico de prueba 0z y se rechaza 0H si el valor de 0z es muy pequeño, es

decir la regla de decisión será

−≥−

−<−

α

α

σ

µ

σ

µ

z

n

XsiHaceptar

z

n

XsiHrechazar

0

0

0

0

α

αz aceptaciondezona

)1,0(N

0


181

Ejemplo:

Se sabe que la duración, en horas, de un foco de 75 watts tiene una distribución aproximadamente nor-mal, con una desviación estándar de 25=σ horas. Se toma una muestra aleatoria de 20 focos, la cual

resulta tener una duración promedio de 1040=x horas

¿Existe evidencia que apoye la afirmación de que la duración promedio del foco es mayor que 1000

horas?. Utilice 05.0=α .

Solución: La v.a. de interés es X: “duración en horas de un foco tomado al azar”

Asumimos )52 ,(~ 2µNX

Podemos plantear las hipótesis

1000:0 =µH contra 1000:1 >µH

Tenemos una muestra de tamaño 20=n que dio un promedio muestral 1040=x

Como 05.0=α entonces 645.105.0 == zzα


≤−

>−

645.1

2025

1000

645.1

2025

1000

0

0

XsiHaceptar

XsiHrechazar

El estadístico toma el valor

2025

1000−=

XZ toma el valor 1554.7

2025

100010400 =

−=z

Como 05.00 645.11554.7 zz =>= se rechaza 0H

P- valor

Hasta ahora se dieron los resultados de una prueba de hipótesis estableciendo si la hipótesis nula fue o

no rechazada con un valor especificado de α o nivel de significancia.

A menudo este planteamiento resulta inadecuado, ya que no proporciona ninguna idea sobre si el valor

calculado del estadístico está apenas en la región de rechazo o bien ubicado dentro de ella. Además, esta

forma de establecer los resultados impone a otros usuarios el nivel de significancia predeterminado.

αz− 0

α

)1,0(N

aceptaciondezona


182

Para evitar estas dificultades, se adopta el enfoque del p-valor. El valor p o p-valor es la probabilidad de

que el estadístico de prueba tome un valor que sea al menos tan extremo como el valor observado del

estadístico de prueba cuando la hipótesis nula es verdadera. Es así como el p-valor da mucha informa-

ción sobre el peso de la evidencia contra 0H , de modo que el investigador pueda llegar a una conclusión

para cualquier nivel de significancia especificado. La definición formal del p-valor es la siguiente:

Para las pruebas de distribuciones normales presentadas hasta el momento, es sencillo calcular el p-

valor.

Si 0z es el valor calculado del estadístico de prueba Z, entonces el p-valor es

a) si las hipótesis son 0100 : contra : µµµµ ≠= HH

( ) ( ) ( ) ( )[ ] ( )[ ] ( )[ ]000000 1212111 zzzzzZPzZPvalorp Φ−=−Φ−=−Φ−Φ−=<−=>=−

b) si las hipótesis son 0100 : contra : µµµµ >= HH

( ) ( ) ( )000 11 zzZPzZPvalorp Φ−=≤−=>=−

c) si las hipótesis son 0100 : contra : µµµµ <= HH

( ) ( )00 zzZPvalorp Φ=<=−

Un p-valor muy chico significa mucha evidencia en contra de 0H ; un p-valor alto significa que no hay

evidencia en contra 0H

Notar que:

αα ciasignifican de nivelcon acepta se entonces Si 0Hvalorp −<

αα ciasignifican de nivelcon rechaza se entonces Si 0Hvalorp −>

Esto se ilustra en las siguientes figuras:

Ejemplos: 1- En el ejemplo anteúltimo referido al porcentaje deseado de SiO2 en cierto tipo de cemento aluminoso

las hipótesis eran: 5.5:0 =µH contra 5.5:1 ≠µH ; y el estadístico de prueba tomó el valor

2

01.00 575.2333333.0 zz =<= ; por lo tanto se aceptaba 0H .

El valor p es el nivel de significancia más pequeño que conduce al rechazo de la hipótesis nula 0H

α

αz

valorp −

0z 0z αz

rechazodezona rechazodezona


183

En esta caso ( ) ( )[ ] ( )[ ] [ ] 7414.062930.01233333.01212 00 =−=Φ−=Φ−=>=− zzZPvalorp

Como el p-valor es muy alto no hay evidencia en contra 0H . Se necesitaría tomar un valor de α

mayor a 0.7414 para rechazar 0H .

2- En el último ejemplo, sobre la duración, en horas, de un foco de 75 watts, las hipótesis eran

1000:0 =µH contra 1000:1 >µH ; y el estadístico Z tomó el valor 05.00 645.11554.7 zz =>= ;

por lo tanto se rechazaba 0H .

En este caso

( ) ( ) ( ) 01554.711 00 ≈Φ−=Φ−=>=− zzZPvalorp

Como el p-valor es casi cero hay mucha evidencia en contra de 0H . Prácticamente para ningún

valor de α se acepta 0H

Error de tipo II y selección del tamaño de la muestra

En la prueba de hipótesis el investigador selecciona directamente la probabilidad del error de tipo I. Sin

embargo, la probabilidad β de cometer error de tipo II depende del tamaño de la muestra y del valor

verdadero del parámetro desconocido.


0100 : contra : µµµµ ≠= HH

Entonces si anotamos con µ al valor verdadero del parámetro

( )

≠≤−

== 0

2

000 µµ

σ

µβ αz

n

XPfalsaesHHaceptarP

Como la hipótesis nula es falsa, entonces

n

X

σ

µ0− no tiene distribución )1,0(N

Por lo tanto hacemos lo siguiente:

nn

X

n

X

n

X

σ

µµ

σ

µ

σ

µµµ

σ

µ 000 −+

−=

−+−=

− ; y ahora como )1,0(~ N

n

X

σ

µ− pues se estandarizó a

X con el verdadero µ , entonces

=

≠≤−

≤−=

≠≤−

= 0

2

0

2

0

2

0 µµσ

µµµ

σ

µβ ααα z

n

XzPz

n

XP

( ) ( )=

−

−≤−

≤−

−−=

≠≤−

+−

≤−=

n

z

n

X

n

zPz

nn

XzP

σ

µµ

σ

µ

σ

µµµµ

σ

µµ

σ

µαααα

0

2

0

2

0

2

0

2


184

( ) ( ) ( ) ( )

−−−Φ−

−−Φ=

−

−−Φ−

−

−Φ= nznz

n

z

n

zσ

µµ

σ

µµ

σ

µµ

σ

µµαααα

0

2

0

2

0

2

0

2

En consecuencia

Para un valor específico de µ y un valor de α dado, podemos preguntarnos qué tamaño de muestra se

necesita para que β sea menor que un valor dado en particular 0β .

Por ejemplo si 00 >− µµ entonces podemos aproximar ( )

00

2

≈

−−−Φ nz

σ

µµα , y planteamos que

( )( )

00

2

βσ

µµµβ α <

−−Φ= nz . Buscamos en la tabla de la )1,0(N para qué z se cumple que

( ) 0β=Φ z , lo anotamos 0βz− , y entonces podemos escribir

( ) ( )

( )2

0

2

2

20

2

0

2

0

00

µµ

σ

σ

µµ

σ

µµβα

βαβα−

+

>⇒−

<+⇒−<−

−

zz

nnzzznz

En el caso de ser 00 <− µµ entonces podemos aproximar ( )

10

2

≈

−−Φ nz

σ

µµα , y planteamos que

( )( )

00

2

1 βσ

µµµβ α <

−−−Φ−= nz . Es decir

( )

−−−Φ<− nz

σ

µµβ α

0

2

01

Buscamos en la tabla de la )1,0(N para qué z se cumple que ( ) 01 β−=Φ z , lo anotamos 0βz , y enton-

ces podemos escribir

( ) ( ){ ( )2

0

2

2

2

0-

0

2

0

2

0

0

00

µµ

σ

σ

µµ

σ

µµβα

µµ

βαβα−

+

>⇒−

−<+⇒>−

−−<

zz

nnzzznz

En consecuencia queda la misma fórmula que la anterior Por lo tanto

Si las hipótesis son 0100 : contra : µµµµ ≠= HH , entonces

( )( ) ( )

−−−Φ−

−−Φ= nznz

σ

µµ

σ

µµµβ αα

0

2

0

2

Si las hipótesis son 0100 : contra : µµµµ ≠= HH , entonces

( )2

0

22

20

µµ

σβα

−

+

>

zz

n


185

En forma análoga se pude probar que si las hipótesis son

0100 : contra : µµµµ >= HH

Entonces

( ) =

≠≤−

== 0

0

00 µµσ

µβ αz

n

XPfalsaesHHaceptarP

( ) ( ) ( )

−−Φ=

−

−Φ=

−

−≤−

=

≠≤−

+−

= nz

n

z

n

z

n

XPz

nn

XP

σ

µµ

σ

µµ

σ

µµ

σ

µµµ

σ

µµ

σ

µαααα

000

0

0

Entonces

Y si tenemos las hipótesis 0100 : contra : µµµµ <= HH

( )

( ) ( )

−−−Φ−=

−

−−≥−

=

≠−≥−

+−

=

=

≠−≥−

==

nz

n

z

n

XPz

nn

XP

z

n

XPfalsaesHHaceptarP

σ

µµ

σ

µµ

σ

µµµ

σ

µµ

σ

µ

µµσ

µβ

ααα

α

00

0

0

00

00

1

Entonces

Y además con una deducción análoga al caso de alternativa bilateral:

Si las hipótesis son 0100 : contra : µµµµ >= HH , (o 01 : µµ >H ) entonces

( )

( )2

0

22

0

µµ

σβα

−

+>

zzn

Si las hipótesis son : 0100 : contra : µµµµ >= HH entonces

( )( )

−−Φ= nz

σ

µµµβ α

0

Si las hipótesis son : 0100 : contra : µµµµ <= HH entonces

( )( )

−−−Φ−= nz

σ

µµµβ α

01


186

Ejemplos:

1- En el ejemplo referido al porcentaje deseado de SiO2 en cierto tipo de cemento aluminoso las

hipótesis eran: 5.5:0 =µH contra 5.5:1 ≠µH ; y el estadístico de prueba tomó el valor

2

01.00 575.2333333.0 zz =<= ; por lo tanto se aceptaba 0H . Teníamos 16=n y 3=σ

Si el verdadero promedio de porcentaje es 6.5=µ y se realiza una prueba de nivel 01.0=α con

base en n = 16, ¿cuál es la probabilidad de detectar esta desviación?

¿Qué valor de n se requiere para satisfacer 01.0=α y 01.0)6.5( =β ?

Solución:

La probabilidad de detectar la desviación es la potencia del test cuando 6.5=µ , es decir

( ) ( )6.51/6.5 00 βπ −=

= falsaesHHrechazarP

Como estamos con hipótesis alternativa bilateral, calculamos

( )( ) ( )

( ) ( )( ) ( )

( ) ( ) 0107.06.5 9893.099664.0199266.0

708.2441.2163

5.56.5575.216

3

5.56.5575.2

6.56.56.5 0

2

0

2

=⇒=−−=

=−Φ−Φ=

−−−Φ−

−−Φ=

=

−−−Φ−

−−Φ=

π

σ

µ

σ

µβ αα nznz

Ahora se quiere hallar n tal que 01.0)6.5( =β , como el test es bilateral podemos usar directamente la

fórmula con 33.201.00== zzβ

( )

( )( )

21654 1225.216535.56.5

333.2575.22

22

2

0

2

2

2

0

≥⇒=−

+=

−

+

> n

zz

nµµ

σβα

2- En el último ejemplo, sobre la duración, en horas, de un foco de 75 watts, las hipótesis eran

1000:0 =µH contra 1000:1 >µH ; y el estadístico Z tomó el valor 05.00 645.11554.7 zz =>= ;

por lo tanto se rechazaba 0H .

En este caso 25=σ y 20=n

Si la verdadera duración promedio del foco es 1050 horas, ¿cuál es la probabilidad de error de tipo

II para la prueba? ¿Qué tamaño de muestra es necesario para asegurar que el error de tipo II no es mayor que 0.10 si la

duración promedio verdadera del foco es 1025 hs. ?

Solución:

Como las hipótesis son 1000:0 =µH contra 1000:1 >µH entonces

( )( ) ( )

( ) 029927.72025

10001050645.10 ≠−Φ=

−−Φ=

−−Φ= nz

σ

µµµβ α

Para hallar n tal que ( ) 1.01025 ≤β aplicamos la fórmula con 285.11.00== zzβ


187

( )

( )( )

( )9 584.8

10001025

25285.1645.12

22

2

0

22

0 ≥⇒=−

+=

−

+> n

zzn

µµ

σβα

Relación entre test de hipótesis e intervalos de confianza

Existe una estrecha relación entre la prueba de hipótesis bilateral sobre un parámetro µ y el intervalo de

confianza de nivel α−1 para µ .

Específicamente supongamos que tenemos las hipótesis

0100 : contra : µµµµ ≠= HH

La regla de decisión es

≤−

>−

2

00

2

00

α

α

σ

µ

σ

µ

z

n

XsiHaceptar

z

n

XsiHrechazar

Aceptar 0H si

2

0ασ

µz

n

X≤

− es equivalente a: aceptar 0H si

2

0

2

αα σ

µz

n

Xz ≤

−≤− ; y esto es a

su vez equivalente, despejando 0µ , a:

aceptar 0H si n

zXn

zX σµσαα

2

0

2

−≤≤− ; es decir si

−−∈

nzX

nzX σσµ αα

22

0 ;

Pero resulta que

−−

nzX

nzX σσ

αα

22

; es el intervalo de confianza que se construiría para el

verdadero parámetro µ de nivel α−1 .

Por lo tanto la regla de decisión queda:

−−∈

−−∉

nzX

nzXsiHaceptar

nzX

nzXsiHrechazar

σσµ

σσµ

αα

αα

22

00

22

00

;

;

Ejemplo:

En el ejemplo referido al porcentaje deseado de SiO2 en cierto tipo de cemento aluminoso las

hipótesis eran: 5.5:0 =µH contra 5.5:1 ≠µH ;

y teníamos 16=n ; 3=σ ; un promedio muestral 25.5=x


188

Como 01.0=α entonces 575.2005.0

2

== zzα

Construimos un intervalo de confianza de nivel 99.001.011 =−=−α

[ ]18125.7 ;31875.316

3575.225.5 ;

16

3575.225.5;

22

=

+−=

−−

nzX

nzX σσ

αα

Entonces la regla de decisión es:

[ ]

[ ]

∈

∉

18125.7 ;31875.35.5

18125.7 ;31875.35.5

0

0

siHaceptar

siHrechazar

Como [ ]18125.7 ;31875.35.5 ∈ , entonces se acepta 0H .

9.3 – Prueba de hipótesis sobre la media, varianza desconocida para muestras grandes

Hasta ahora se ha desarrollado el procedimiento de test de hipótesis para la hipótesis nula

: 00 µµ =H suponiendo que 2σ es conocida, pero en la mayoría de las situaciones prácticas 2σ es

desconocida. En general si 30≥n , entonces la varianza muestral 2S está próxima a 2σ en la mayor

parte de las muestras, de modo que es posible sustituir 2S por 2σ . Es decir el estadístico

)1,0(0 N

nS

XZ ≈

−=

µ aproximadamente, si 30≥n si : 00 µµ =H

Además, si no podemos decir que la muestra aleatoria proviene de una población normal, sea 2σ cono-

cida o no, por T.C.L. los estadísticos

)1,0(0 N

nS

XZ ≈

−=


Y

)1,0(0 N

n

XZ ≈

−=

σ


Las pruebas de hipótesis tendrán entonces un nivel de significancia aproximadamente de α

Ejemplo:

Un inspector midió el volumen de llenado de una muestra aleatoria de 100 latas de jugo cuya etiqueta

afirmaba que contenían 12 oz. La muestra tenía una media de volumen de 11.98 oz y desviación están-

dar de 0.19 oz. Sea µ la verdadera media del volumen de llenado para todas las latas de jugo reciente-

mente llenadas con esta máquina. El inspector probará 12:0 =µH contra 12:1 ≠µH

a) Determinar el p-valor

b) ¿Piensa que es factible que la media del volumen de llenado es de 12 oz?


189

Solución:

La v.a. de interés sería X: “volumen de llenado de una lata tomada al azar”

No se especifica ninguna distribución para X. Anotamos µ=)(XE y 2)( σ=XV , ambas desconocidas.

Se toma una muestra de 100=n latas y se obtiene 98.11=x y 19.0=s

Las hipótesis son 12:0 =µH contra 12:1 ≠µH

El estadístico de prueba es

100

120

S

X

nS

XZ

−=

−=

µ y si 12:0 =µH es verdadera entonces )1,0(NZ ≈

El estadístico Z toma el valor 0526.1

10019.0

1298.110 −=

−=z

Como la hipótesis alternativa es bilateral entonces

( ) ( )[ ] [ ] 29372.085314.0120526.1120 =−=Φ−≈>=− zZPvalorp

Como el p-valor es mayor que 0.05 se considera que no hay evidencia en contra de 12:0 =µH

Por lo tanto es factible que la media del volumen de llenado sea de 12 oz

9.4 – Prueba de hipótesis sobre la media de una distribución normal, varianza desconocida

Cuando se prueban hipótesis sobre la media µ de una población cuando 2σ es desconocida es posible

utilizar los procedimientos de prueba dados anteriormente siempre y cuando el tamaño de la muestra sea

grande ( 30≥n ). Estos procedimientos son aproximadamente válidos sin importar si la población de

interés es normal o no. Pero si la muestra es pequeña y 2σ es desconocida debe suponerse que la distri-

bución de la variable de interés es normal.

Específicamente, supongamos que la v.a. de interés tiene distribución ),( 2σµN donde µ y 2σ son

desconocidas.

Supongamos las hipótesis 0100 : contra : µµµµ ≠= HH

Sea nXXX ,...,; 21 una muestra aleatoria de tamaño n de la v.a. X y sean X y 2S la media y la varianza

muestrales respectivamente.

El procedimiento se basa en el estadístico

nS

XT

/

0µ−=

El cual, si la hipótesis nula es verdadera, tiene distribución Student con n-1 grados de libertad.

Entonces, para un nivel α prefijado, la regla de decisión es

≤

>

−

−

1,2

0

1,2

0

n

n

tTsiHaceptar

tTsiHrechazar

α

α

es decir

≤−

>−

−

−

1,2

00

1,2

00

n

n

t

nS

XsiHaceptar

t

nS

XsiHrechazar

α

α

µ

µ


190

La lógica sigue siendo la misma, si el estadístico de prueba toma un valor inusual, entonces se consi-

dera que hay evidencia en contra 0H y se rechaza la hipótesis nula. Como ahora la distribución del

estadístico es Student, nos fijamos si T toma un valor 0t en las colas de la distribución Student con n-1

grados de libertad.

Si la alternativa es 01 : µµ >H entonces la regla de decisión es

≤

>

−

−

1,0

1,0

n

n

tTsiHaceptar

tTsiHrechazar

α

α

Si la alternativa es 01 : µµ <H entonces la regla de decisión es

−≥

−<

−

−

1,0

1,0

n

n

tTsiHaceptar

tTsiHrechazar

α

α

Ejemplo:

Antes de que una sustancia se pueda considerar segura para enterrarse como residuo se deben caracteri-

zar sus propiedades químicas. Se toman 6 muestras de lodo de una planta de tratamiento de agua resi-

dual en una región y se les mide el pH obteniéndose una media muestral de 6.68 y una desviación están-

dar muestral de 0.20. ¿Se puede concluir que la media del pH es menor que 7.0? Utilizar 05.0=α y

suponer que la muestra fue tomada de una población normal.

Solución: La v.a. de interés es X: “pH de una muestra de lodo tomada al azar”

Asumimos que X tiene distribución ),( 2σµN

Las hipótesis serían 0.7: contra 0.7: 10 <= µµ HH

El estadístico de prueba es 6/

0.7

S

XT

−= y toma el valor 919.3

6/20.0

0.768.60 −=

−=t

Buscamos en la tabla de la distribución Student 015.25,05.01, ==− tt nα

Entonces como 015.2919.3 5,05.01,0 −=−=−<−= − ttt nα se rechaza 0H , por lo tanto hay evidencia que

0.7<µ

P-valor de un test t

En este caso el cálculo del p- valor se realiza considerando:

Si 0t es el valor calculado del estadístico de prueba T, entonces el p-valor es

a) las hipótesis son 0100 : contra : µµµµ ≠= HH

( ) ( ) ( )( )000 121 tTPtTPtTPvalorp ≤−=≤−=>=−

b) las hipótesis son 0100 : contra : µµµµ >= HH

( ) ( )00 1 tTPtTPvalorp ≤−=>=−

c) las hipótesis son 0100 : contra : µµµµ <= HH

( )0tTPvalorp ≤=−

Para calcular el p-valor en una prueba t nos encontramos con la dificultad que las tablas de la Student no

son completas, por lo tanto en algunas ocasiones se deberá acotar el p-valor En el ejemplo anterior para calcular el p-valor de la prueba como es un test con alternativa unilateral

( ) ( )919.30 −≤=≤=− TPtTPvalorp


191

Buscamos en la tabla de la distribución Student la fila donde figuran 5=ν grados de libertad y vemos

que el valor 3.919 no está tabulado.

Pero 032.4919.3365.3 << , y ( ) 01.0365.35 =>TP y ( ) 005.0032.45 =>TP

Por lo tanto ( ) 01.0919.3005.0 5 <>< TP , es decir

( ) 01.0919.3005.0 5 <−<=−< TPvalorp

Podemos deducir que existe evidencia de que la media del pH es menor que 0.7

9.5 – Prueba de hipótesis sobre la diferencia de dos medias, varianzas conocidas


( )( )

2

222

2

111

σ,µN~X


1σ y 2

2σ son conocidas.

Sean además



El interés recae en probar que 021 ∆=− µµ donde 0∆ es un valor fijado, por ejemplo si 00 =∆

entonces se querrá probar que 021 =− µµ es decir que las medias son iguales.

Ya sabemos que bajo las suposiciones anteriores

=

=

∑

∑

=

=

2

1

1 2

2

222

2

2

1 1

2

111

1

1

1

1

n

i

i

n

i

i

n

σ,µN~X

nX

n

σ,µN~X

nX

Y además

+−−

2

2

2

1

2

12121 ,N~

nnXX

σσµµ .

Por lo tanto

( )( )1,0N~

2

2

2

1

2

1

2121

nn

XXZ

σσ

µµ

+

−−−= , es decir, tiene distribución normal estandarizada.

Si consideramos las hipótesis

02110210 : contra : ∆≠−∆=− µµµµ HH


192

Entonces usamos como estadístico de prueba a

2

2

2

1

2

1

021

nn

XXZ

σσ+

∆−−=

Y ( )1,0N~

2

2

2

1

2

1

021

nn

XXZ

σσ+

∆−−= si : 0210 ∆=− µµH es verdadera

Por lo tanto la regla de decisión será

≤

>

2

0

2

0

α

α

zZsiHaceptar

zZsiHrechazar

donde

2

2

2

1

2

1

021

nn

XXZ

σσ+

∆−−=

Si 0211 : ∆>− µµH entonces la regla de decisión es

≤

>

α

α

zZsiHaceptar

zZsiHrechazar

0

0

Si 0211 : ∆<− µµH entonces la regla de decisión es

−≥

−<

α

α

zZsiHaceptar

zZsiHrechazar

0

0

Ejemplos:

1- Un diseñador de productos está interesado en reducir el tiempo de secado de una pintura tapaporos.

Se prueban dos fórmulas de pintura. La fórmula 1 tiene el contenido químico estándar, y la fórmula 2

tiene un nuevo ingrediente secante que debe reducir el tiempo de secado. De la experiencia se sabe que

la desviación estándar del tiempo de secado es 8 minutos, y esta variabilidad no debe verse afectada

por la adición del nuevo ingrediente. Se pintan 10 especímenes con la fórmula 1 y otros 10 con la fór-

mula 2. los tiempos promedio de secado muestrales fueron 1211 =x minutos y 1122 =x minutos res-

pectivamente.

¿A qué conclusiones debe llegar el diseñador del producto sobre la eficacia del nuevo ingrediente uti-

lizando 05.0=α ?

Solución:

Aquí las hipótesis son 0: contra 0: 211210 >−=− µµµµ HH


10

8

10

8 22

21

+

−=

XXZ y toma el valor 52.2

10

8

10

8

112121

220 =

+

−=z

Buscamos en la tabla de la normal estándar 645.105.0 == zzα


193

Como 645.152.2 05.00 ==>= zzz α se rechaza 0H al nivel 0.05 y se concluye que el nuevo ingredien-

te disminuye el tiempo de secado.

El cálculo del p-valor y la deducción de β la probabilidad de cometer error de tipo II se obtienen de

manera análoga a los casos anteriores. Por ejemplo para la alternativa bilateral la expresión para β

es la siguiente donde anotamos δµµ =∆−∆=∆−− 021

( )

+

−−Φ−

+

−Φ==

2

2

2

1

2

12

2

2

2

1

2

12

00

nn

z

nn

zfalsaesHHaceptarPσσ

δ

σσ

δβ αα

En el ejemplo anterior el ( ) ( ) ( ) 0059052.2152.20 −=Φ−=>=>=− ZPzZPvalorp

También es posible obtener fórmulas para el tamaño de la muestra necesario para obtener una β espe-

cífica para una diferencia dada en las medias δµµ =∆−∆=∆−− 021 y α . Si asumimos que

nnn == 21 entonces

9.6 – Prueba de hipótesis sobre la diferencia de dos medias, varianzas desconocidas

Caso 1: 2

2

2

1 σσ ≠


( )( )

2

222

2

111

σ,µN~X

σ,µN~X y las varianzas 2

1σ y 2

2σ son desconocidas .

y además

( )111211 nX,...,X,X es una muestra aleatoria de tamaño 1n de 1X

( )222221 nX,...,X,X es una muestra aleatoria de tamaño 2n de 2X .

Para 0211 : ∆≠− µµH es

( )2

2

2

2

1

2

20

δ

σσβα +

+

>

zz

n

Para 0211 : ∆>− µµH o 0211 : ∆<− µµH es ( ) ( )

2

2

2

2

1

2

0

δ

σσβα ++>

zzn


194

Si las muestras aleatorias se toma de una distribución normal, donde 1σ y 2σ son desconocidos,

301 ≥n y 302 ≥n , entonces se puede probar que al reemplazar 1σ por S1 y 2σ por S2, el estadístico

)1,0()(

1

2

1

1

2

1

2121 N

n

S

n

S

XX≈

+

−−− µµ. aproximadamente

Por lo tanto si anotamos

1

2

1

1

2

1

021

n

S

n

S

XXZ

+

∆−−= valen las reglas de decisión vistas en la sección anterior,

con la diferencia que el nivel de significancia del test será aproximadamente α−1

Si ahora 1n o 2n no son mayores que 30, entonces

1

2

1

1

2

1

021*

n

S

n

S

XXT

+

∆−−=

tiene distribución aproximadamente Student con ν grados de libertad bajo la hipótesis

0210 : ∆=− µµH donde

( )( ) ( )

11 2

2

2

2

2

1

2

1

1

1

2

2

2

21

2

1

−+

−

+=

n

nS

n

nS

nSnSν si ν no es entero, se toma el entero más próximo a ν

Por lo tanto, si las hipótesis son

02110210 : contra : ∆≠−∆=− µµµµ HH entonces la regla de decisión es

≤

>

να

να

,2

*

0

,2

*

0

tTsiHaceptar

tTsiHrechazar


≤

>

να

να

,

*

0

,

*

0

tTsiHaceptar

tTsiHrechazar


−≥

−<

να

να

,

*

0

,

*

0

tTsiHaceptar

tTsiHrechazar

Ejemplo:

Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si producen un flujo

de corriente equivalente. El departamento de ingeniería ha obtenido los datos siguientes:


195

Diseño 1 151 =n 2.241 =x 102

1 =s

Diseño 2 102 =n 9.232 =x 202

2 =s

Con 10.0=α se desea determinar si existe alguna diferencia significativa en el flujo de corriente me-

dio entre los dos diseños, donde se supone que las poblaciones son normales.

Solución: Las variables aleatorias de interés son

:1X “flujo de corriente en diseño 1”

:2X “flujo de corriente en diseño 2”

Asumimos que ( )2

111 ,N~ σµX y ( )2

222 ,N~ σµX donde los parámetros son desconocidos

Las hipótesis serían 0: contra 0: 211210 ≠−=− µµµµ HH


1015

2

1

2

1

21*

SS

XXT

+

−= que en este caso toma el valor 18.0

10

20

15

10

9.232.24*

0 =

+

−=t

Debemos buscar en la tabla de la distribución Student νν

α,

2

10.0,

2

tt = entonces calculamos

( )( ) ( )

( )

( ) ( )15 9333.14

110

1020

115

1510

10201510

11

22

2

2

2

2

2

2

1

2

1

1

1

2

2

2

21

2

1 =⇒=

−+

−

+=

−+

−

+= νν

n

nS

n

nS

nSnS

Por lo tanto 753.115,05.0,

2

== ttν

α

Como 753.118.0 15,05.0

*

0 =<= tt entonces se acepta 0: 210 =− µµH

No hay evidencia fuerte que las medias de los dos flujos de corriente sean diferentes.

Si calculamos el p-valor

( ) ( ) 40.018.0**

0

* >>=>=− TPtTPvalorp

Caso 2: 22

2

2

1 σσσ ==


( )( )

2

222

2

111

σ,µN~X

σ,µN~X y las varianzas 2

1σ y 2

2σ son desconocidas pero iguales.

y además




196

Sean 1X y 2X las medias muestrales y 2

1S y 2

2S las varianzas muestrales. Como 2

1S y 2

2S son los

estimadores de la varianza común 2σ , entonces construimos un estimador combinado de 2σ . Este

estimador es

( ) ( )

2

11

21

2

22

2

112

−+

−+−=

nn

SnSnS p

Se puede comprobar que es un estimador insesgado de 2σ .

Ya vimos que se puede probar que el estadístico

21

021

11

nnS

XXT

p +

∆−−=

r

tiene distribución Student con 221 −+ nn grados de libertad

Por lo tanto, si las hipótesis son

02110210 : contra : ∆≠−∆=− µµµµ HH entonces la regla de decisión es

≤

>

−+

−+

2,2

0

2,2

0

21

21

nn

nn

tTsiHaceptar

tTsiHrechazar

α

α


≤

>

−+

−+

2,0

2,0

21

21

nn

nn

tTsiHaceptar

tTsiHrechazar

α

α


−≥

−<

−+

−+

2,0

2,0

21

21

nn

nn

tTsiHaceptar

tTsiHrechazar

α

α

Ejemplo: Se tienen las mediciones del nivel de hierro en la sangre de dos muestras de niños: un grupo de niños

sanos y el otro padece fibrosis quística. Los datos obtenidos se dan en la siguiente tabla:

sanos 91 =n 9.181 =x 22

1 9.5=s

enfermos 132 =n 9.112 =x 22

2 3.6=s

Podemos asumir que las muestras provienen de poblaciones normales independientes con iguales va-

rianzas. Es de interés saber si las dos medias del nivel de hierro en sangre son iguales o distintas. Utilizar

05.0=α

Solución:

Las variables de interés son

:1X “nivel de hierro en sangre de un niño sano tomado al azar”

:2X “nivel de hierro en sangre de un niño con fibrosis quística tomado al azar”


197

Asumimos que ( )2

11 ,N~ σµX y ( )2

22 ,N~ σµX

Consideramos las hipótesis

0: contra 0: 211210 ≠−=− µµµµ HH

Para calcular el valor del estadístico de prueba, primero calculamos

( ) ( ) ( ) ( )14.6

2139

3.61139.519

2

11 22

21

2

22

2

112 =−+

−+−=

−+

−+−==

nn

SnSnSS pp


13

1

9

1

21

+

−=

pS

XXT

r

y toma el valor 63.2

13

1

9

114.6

9.119.180 =

+

−=t

Buscamos en la tabla de la distribución Student 086.220,025.02,

221

==−+

ttnn

α

Como 086.263.2 20,025.00 =>= tt entonces se rechaza 0: 210 =− µµH

Si calculamos el p-valor de la prueba

( )( ) ( )( ) ( )63.2263.21212 0 >=<−=<−=− TPTPtTPvalorp

Vemos de la tabla de la Student que 528.220,01.0 =t y 845.220,005.0 =t por lo tanto

( ) 01.0263.22005.02 ×<>=−<× TPvalorp es decir 02.001.0 <−< valorp

9.7 – Prueba de hipótesis sobre la diferencia de dos medias para datos de a pares

Ya se vio el caso, cuando se habló de intervalos de confianza para una diferencia de medias, de datos

dados de a pares, es decir ( ) ( ) ( )nn XXXXXX 2122122111 ,;...;,;,1

.

Las variables aleatorias 1X y 2X tienen medias 1µ y 2µ respectivamente.

Consideramos jjj XXD 21 −= con nj ,...,2,1= .

Entonces

( ) ( ) ( ) ( ) 212121 µµ −=−=−= jjjjj XEXEXXEDE

y

( ) ( ) ( ) ( ) ( ) ( )21

2

2

2

1212121 ,2,2 XXCovXXCovXVXVXXVDV jjjjjjj −+=−+=−= σσ

Estimamos ( ) 21 µµ −=jDE con ( ) 21

1

21

1

11XXXX

nD

nD

n

j

jj

n

j

j −=−== ∑∑==

En lugar de tratar de estimar la covarianza, estimamos la ( )jDV con ( )∑=

−−

=n

j

jD DDn

S1

2

1

1


198

Anotamos 21 µµµ −=D y ( )jD DV=2σ

Asumimos que ( )2,N~ DDjD σµ con nj ,...,2,1=

Las variables aleatorias en pares diferentes son independientes, no lo son dentro de un mismo par.

Para construir una regla de decisión nuevamente, consideramos el estadístico

nS

DT

D

D

/

µ−= con distribución 1−nt

Si tenemos las hipótesis

02110210 : contra : ∆≠−∆=− µµµµ HH

Entonces el estadístico de prueba es

nS

DT

D /

0∆−= y tiene distribución 1−nt si 0210 : ∆=− µµH es verdadera

Por lo tanto, la regla de decisión es

≤

>

−

−

1,2

0

1,2

0

n

n

tTsiHaceptar

tTsiHrechazar

α

α

donde nS

DT

D /

0∆−=


≤

>

−

−

1,0

1,0

n

n

tTsiHaceptar

tTsiHrechazar

α

α


−≥

−<

−

−

1,0

1,0

n

n

tTsiHaceptar

tTsiHrechazar

α

α

Ejemplo:

Se comparan dos microprocesadores en una muestra de 6 códigos de puntos de referencia para determi-

nar si hay una diferencia en la rapidez. Los tiempos en segundos utilizados para cada procesador en cada

código están dados en la siguiente tabla:

Código

1 2 3 4 5 6

Procesador A 27.2 18.1 27.2 19.7 24.5 22.1

Procesador B 24.1 19.3 26.8 20.1 27.6 29.8

¿Puede concluir que las medias de la rapidez de ambos procesadores son diferentes con nivel de signifi-

cancia 0.05?

Solución:

Las variables aleatorias de interés son

:1X “rapidez del procesador A en un código tomado al azar”

:2X “rapidez del procesador B en un código tomado al azar”

Como ambas variables se miden sobre un mismo código no podemos asumir que son independientes.


199

Las hipótesis son 0: contra 0: 211210 ≠−=− µµµµ HH

Necesitamos la muestra de las diferencias jD :

3.1, -1.2; 0.4; -0.4; -3.1; -7.7

De esta muestra obtenemos 483333.1−=d y 66246.3=Ds

Además 05.0=α → 571.25,025.01,

2

==−

ttn

α

El estadístico de prueba es 6/DS

DT = y toma el valor 99206.0

6/66246.3

483333.10 =

−=t

Como 571.299206.0 5,025.01,

2

0 ==<=−

tttn

α entonces se acepta la hipótesis nula. No hay evidencia de que

las medias de la rapidez de ambos procesadores sean diferentes.

9.8 – Tests de hipótesis sobre la varianza

Supongamos que se desea probar la hipótesis de que la varianza de una población normal es igual a un

valor específico, por ejemplo 2

0σ .

Sea ( )nX,...,X,X 21 una muestra aleatoria de tamaño n de una v.a. X, donde ),(~ 2σµNX .

Tomamos como estimador puntual de 2σ a ( )2

11

2

1

1∑

=

−−

=n

i XXn

S

Luego a partir de este estimador puntual construimos el estadístico ( )

2

21

σ

SnX

−=

Este estadístico contiene al parámetro desconocido a estimar 2σ y ya sabemos que tiene una distribu-

ción llamada ji-cuadrado con n-1 grados de libertad


2

0

2

0 : σσ =H contra 2

0

2

1 : σσ ≠H

Tomamos como estadístico de prueba a

( )2

0

21

σ

SnX

−= y si 2

0

2

0 : σσ =H es verdadera , entonces ( )

2

0

21

σ

SnX

−= ~ 2

1−nχ

Nuevamente, el razonamiento es: si el estadístico X que bajo 2

0

2

0 : σσ =H tiene distribución 2

1−nχ toma

un valor “inusual”, se considera que hay evidencia en contra H0

Recordar que la distribución 2

1−nχ es asimétrica. Entonces la regla de decisión es

≤≤

<>

−−−

−−−

2

1,2

2

1,2

10

2

1,2

1

2

1,2

0

nn

nn

XsiHaceptar

XóXsiHrecahzar

αα

αα

χχ

χχ

donde ( )

2

0

21

σ

SnX

−=


200

Si 2

0

2

1 : σσ >H entonces la regla de decisión es

≤

>

−

−

2

1,0

2

1,0

n

n

XsiHaceptar

XsiHrecahzar

α

α

χ

χ

Si 2

0

2

1 : σσ <H entonces la regla de decisión es

≥

<

−−

−−

2

1,10

2

1,10

n

n

XsiHaceptar

XsiHrecahzar

α

α

χ

χ

Para calcular el p-valor, si el estadístico X tomó el valor 0x , y teniendo en cuenta que no hay simetría en

la distribución ji-cuadrado, hacemos:

Si 2

0

2

1 : σσ >H entonces ( )0xXPvalorp >=−

Si 2

0

2

1 : σσ <H entonces ( )0xXPvalorp <=−

Si 2

0

2

1 : σσ ≠H entonces ( ) ( )

><=− 00 ,min2 xXPxXPvalorp

Ejemplo:

Consideremos nuevamente el ejemplo visto en la sección de intervalos de confianza para la varianza sobre la máquina de llenado de botellas. Al tomar una muestra aleatoria de 20 botellas se obtiene una

varianza muestral para el volumen de llenado de 0153.02=s oz

2.

Si la varianza del volumen de llenado es mayor que 0.01 oz2, entonces existe una proporción inaceptable

de botellas que serán llenadas con una cantidad menor de líquido. ¿Existe evidencia en los datos mues-

trales que sugiera que el fabricante tiene un problema con el llenado de las botellas? Utilice 05.0=α

Solución:

La variable de interés es X: “volumen de llenado de una botella tomada al azar”

Asumimos ),(~ 2σµNX

Los datos son 0153.02=s de una muestra de tamaño 20=n

Las hipótesis son 01.0: 2

0 =σH contra 01.0: 2

1 >σH

05.0=α → 14.302

19,05.0

2

1, ==− χχα n

El estadístico de prueba es ( )

01.0

191 2

2

0

2SSn

X×

=−

=σ

y toma el valor

07.2901.0

0153.019

01.0

19 2

0 =×

=×

=S

x

Como <= 07.290x 14.302

19,05.0 =χ entonces no hay evidencia fuerte de que la varianza del volumen

de llenado sea menor que 0.01 Para calcular el p-valor

( ) ( )07.290 >=>=− XPxXPvalorp


201

Buscamos en la tabla de la distribución ji-cuadrado y vemos que en la fila con 19=ν no figura 29.07,

pero 27.20 < 29.07 < 30.14, y además

( )

( )10.005.0

05.014.30

10.020.27<−<⇒

=>

=>valorp

XP

XP

En la figura siguiente se ilustra la situación

9.9 – Tests de hipótesis sobre la igualdad de dos varianzas

Supongamos que tenemos interés en dos poblaciones normales independientes, donde las medias y las varianzas de la población son desconocidas. Se desea probar la hipótesis sobre la igualdad de las dos

varianzas, específicamente: Supongamos que tenemos dos variables aleatorias independientes normalmente distribuidas:

( )( )

2

222

2

111

σ,µN~X

σ,µN~X y 1µ ; 2µ ; 2

1σ y 2

2σ son desconocidos

y además



Sean 2

1S y 2

2S las varianzas muestrales, 2

1S y 2

2S son los estimadores de 2

1σ y 2

2σ respectivamente.

Consideramos el estadístico

22

22

21

21

σ

σ

S

S

F =


202

Notar que F contiene al parámetro de interés 21

221

σ

σ, pues

21

22

22

21

σ

σ

×

×=

S

SF

Sabemos que F tiene una distribución llamada Fisher con 11 −n y 12 −n grados de libertad.

Sean las hipótesis 2

2

2


2

2

11 : σσ ≠H

Tomamos como estadístico de prueba a 2

2

2

1

S

SF =

Vemos que 2

2

2

1

S

SF = ~ 1,1 21 −− nnF si 2

2

2

10 : σσ =H es verdadera

Recordando que la distribución Fisher es asimétrica, la regla de decisión es

≤≤

<>

−−−−−

−−−−−

2

1,1,2

2

1,1,2

10

2

1,1,2

1

2

1,1,2

0

2121

2121

nnnn

nnnn

fFfsiHaceptar

fFófFsiHrecahzar

αα

αα

Si 2

2

2

11 : σσ >H entonces la regla de decisión es

≤

>

−−

−−

2

1,1,0

2

1,1,0

21

21

nn

nn

fFsiHaceptar

fFsiHrecahzar

α

α

Si 2

2

2

11 : σσ <H entonces la regla de decisión es

≥

<

−−−

−−−

2

1,1,10

2

1,1,10

21

21

nn

nn

fFsiHaceptar

fFsiHrecahzar

α

α

Para calcular el p-valor, si el estadístico F tomó el valor 0f , y teniendo en cuenta que no hay simetría

en la distribución Fisher, hacemos:

Si 2

2

2

11 : σσ >H entonces ( )0fFPvalorp >=−

Si 2

2

2

11 : σσ <H entonces ( )0fFPvalorp <=−

Si 2

2

2

11 : σσ ≠H entonces ( ) ( )

><=− 00 ,min2 fFPfFPvalorp

Ejemplo:

En una serie de experimentos para determinar la tasa de absorción de ciertos pesticidas en la piel se aplicaron cantidades medidas de dos pesticidas a algunos especímenes de piel. Después de un tiempo

se midieron las cantidades absorbidas (en gµ ). Para el pesticida A la varianza de las cantidades absor-

bidas en 6 muestras fue de 2.3; mientras que para el B la varianza de las cantidades absorbidas en 10 especímenes fue de 0.6. Suponga que para cada pesticida las cantidades absorbidas constituyen una

muestra aleatoria de una población normal. ¿Se puede concluir que la varianza en la cantidad absorbi-

da es mayor para el pesticida A que para el B? Utilizar 05.0=α

Solución:

Las variables aleatorias de interés son


203

:1X “cantidad absorbida de pesticida A en un espécimen de piel tomado al azar”

:2X “cantidad absorbida de pesticida B en un espécimen de piel tomado al azar”

Asumimos que ( )2

111 ,N~ σµX y ( )2

222 ,N~ σµX

Las hipótesis son 2

2

2


2

2

11 : σσ <H

Los datos son 3.22

1 =s y 6.02

2 =s

61 =n ; 102 =n

El estadístico de prueba es 2

2

2

1

S

SF = y toma el valor 83.3

6.0

3.20 ==f

Buscamos en la tabla de la distribución Fisher 48.39,5,05.0 =f

Como 9,5,05.00 48.383.3

6.0

3.2ff =>== se rechaza 2

2

2

10 : σσ =H

Para saber cuánta evidencia hay contra la hipótesis nula, calculamos el p-valor

De la tabla de la Fisher vemos que 06.683.348.3 9,5,01.09,5,05.0 =<<= ff

Por lo tanto 05.001.0 <−< valorp

En la figura siguiente se ilustra la situación

9.10 – Tests de hipótesis sobre una proporción

En muchos problemas se tiene interés en una variable aleatoria que sigue una distribución binomial. Por ejemplo, un proceso de producción que fabrica artículos que son clasificados como aceptables o

defectuosos. Lo más usual es modelar la ocurrencia de artículos defectuosos con la distribución bino-

mial, donde el parámetro binomial p representa la proporción de artículos defectuosos producidos.

En consecuencia, muchos problemas de decisión incluyen una prueba de hipótesis con respecto a p.

Consideremos las hipótesis

00 : ppH = contra 01 : ppH ≠


204

Supongamos que consideramos una muestra aleatoria ( )nXXX ...,, 21 de tamaño n , donde Xi tiene

una distribución binomial con parámetros 1 y p: Xi ~ B(1,p).

Ya sabemos que =X nXXX +++ ...21 , es una v.a. cuya distribución es binomial con parámetros n

y p: X~B(n,p). De acuerdo con esto, la variable aleatoria P definida: n

XP = representa la proporción

de individuos de la muestra que verifican la propiedad de interés.

Además

( ) ( ) pnpn

XEnn

XEPE ===

=

11, y ( ) ( )

( )n

pppnp

nn

XVPV

−=−=

=

11

12

Consideramos el estadístico de prueba

( )

n

pp

pPZ

00

0

1

ˆ

−

−=

Si 00 : ppH = es verdadera entonces ( )

)1,0(1

ˆ

00

0 N

n

pp

pPZ ≈

−

−= aproximadamente por T.C.L.


≤

>

2

0

2

0

α

α

zZsiHaceptar

zZsiHrechazar

donde ( )

n

pp

pPZ

00

0

1

ˆ

−

−=

Si 01 : ppH > entonces la regla de decisión es

≤

>

α

α

zZsiHaceptar

zZsiHrechazar

0

0

Si 01 : ppH < entonces la regla de decisión es

−≥

−<

α

α

zZsiHaceptar

zZsiHrechazar

0

0

Observaciones:

1- La prueba descrita anteriormente requiere que la proporción muestral esté normalmente distribuida.

Esta suposición estará justificada siempre que 100 >np y ( ) 101 0 >− pn , donde 0p es la proporción

poblacional que se especificó en la hipótesis nula.

2- También se podía haber tomado como estadístico de prueba a ( )00

0

1 pnp

npXZ

−

−= donde X~B(n,p)

Ejemplo:

Un fabricante de semiconductores produce controladores que se emplean en aplicaciones de motores

automovilísticos. El cliente requiere que la fracción de controladores defectuosos en uno de los pasos

de manufactura críticos no sea mayor que 0.05, y que el fabricante demuestre esta característica del

proceso de fabricación con este nivel de calidad, utilizando 05.0=α . E fabricante de semiconductores


205

toma una muestra aleatoria de 200 dispositivos y encuentra que 4 de ellos son defectuosos. ¿El fabri-

cante puede demostrar al cliente la calidad del proceso?

Solución:

Sea la v.a. X: “número de controladores defectuosos en la muestra”

Entonces X ~ B(200, p) donde p es la proporción de controladores defectuosos en el proceso

Las hipótesis son 05.0:0 =pH contra 05.0:1 <pH

Como 05.0=α entonces 645.105.0 −=−=− zzα

El estadístico de prueba es ( ) ( )

200

05.0105.0

05.0ˆ

1

ˆ

00

0

−

−=

−

−=

P

n

pp

pPZ y toma el valor 95.10 −=z

Como <−= 95.10z 645.105.0 −=−=− zzα entonces se rechaza 0H , y se concluye que la fracción de

controladores defectuosos es menor que 0.05.

Calculamos el p-valor

( ) ( ) ( ) 0256.095.195.10 =−Φ=−<=<=− ZPzZPvalorp

Valor de β y selección del tamaño de la muestra

Podemos obtener expresiones aproximadas para la probabilidad de cometer error de tipo II de manera análoga a las obtenidas para los test para la media

Si 01 : ppH ≠ entonces

( )

( )

( )

( )

( )

−

−+−

Φ−

−

−+−

Φ≈

≈

=

n

pp

n

ppzpp

n

pp

n

ppzpp

falsaesHHaceptarPp

1

1

1

1 00

2

000

2

0

00

αα

β

Si 01 : ppH < entonces

( )

( )

( )

−

−−−

Φ−≈

=

n

pp

n

ppzpp

falsaesHHaceptarPp1

1

1

000

00

α

β

Si 01 : ppH > entonces

( )

( )

( )

−

−+−

Φ≈

=

n

pp

n

ppzpp

falsaesHHaceptarPp1

1 000

00

α

β


206

Estas ecuaciones pueden resolverse para encontrar el tamaño aproximado de la muestra n para que con

un nivel de significancia de α la probabilidad de cometer error de tipo II sea menor o igual que un

valor específico 0β . Las ecuaciones se deducen como en casos anteriores y son

Si 01 : ppH ≠ entonces

( ) ( )2

0

00

2

110

−

−+−

≥pp

ppzppz

n

βα

Si 01 : ppH < ó 01 : ppH > entonces ( ) ( )

2

0

00 110

−

−+−≥

pp

ppzppzn

βα

Ejemplo:

Volviendo al ejemplo anterior, supongamos que la verdadera proporción de componentes defectuosos

en el proceso es 03.0=p , ¿cuál es el valor de β si 200=n y 05.0=α ?

Solución:

Ya que la alternativa es 01 : ppH < aplicamos la fórmula

( )

( )

( )

( )

( )( ) 67.044.01

200

03.0103.0

05.0105.0645.103.005.0

1

1

1

1

000

00

=−Φ−=

−

−−−

Φ−=

=

−

−−−

Φ−≈

=

n

n

pp

n

ppzpp

falsaesHHaceptarPpα

β

Como la probabilidad de aceptar que el proceso tiene la calidad deseada cuando en realidad 03.0=p

es bastante alta, podemos preguntar qué tamaño de muestra se necesita para que en el test anterior sea

1.0<β si la verdadera proporción de defectuosos es 03.0=p . En este caso aplicamos la fórmula

donde 28.11.00== zzβ

( ) ( ) ( ) ( )832

05.003.0

03.0103.028.105.0105.0645.11122

0

00 0 ≈

−

−+−=

−

−+−≥

pp

ppzppzn

βα

La muestra requerida es muy grande, pero la diferencia a detectar 05.003.00 −=− pp es bastante pe-

queña.

9.11 – Tests de hipótesis sobre dos proporciones


207

Las pruebas de hipótesis sobre diferencia de medias pueden adaptarse al caso donde tenemos dos pa-

rámetros binomiales 1p y 2p de interés.

Específicamente, supongamos que se toman dos muestras aleatorias


( )222221 nX,...,X,X es una muestra aleatoria de tamaño

2n de 2X

Donde ),1(~ 11 pBX ; ),1(~ 22 pBX y 1X y 2X independientes.

Ya sabemos que ∑=

=1

1

1

1

1

1ˆn

i

iXn

P y ∑=

=2

1

2

2

2

1ˆn

i

iXn

P son estimadores insesgados de 1p y 2p respecti-

vamente, con varianzas ( ) ( )

1

111

1ˆn

ppPV

−= y ( ) ( )

2

222

1ˆn

ppPV

−=


0: contra 0: 211210 ≠−=− ppHppH

Notar que si la hipótesis nula es verdadera entonces ppp == 21 , donde p es desconocido.

El estadístico

( )

+−

−=

21

21

111

ˆˆ

nnpp

PPZ tiene distribución aproximadamente )1,0(N por T.C.L. si

0: 210 =− ppH es verdadera. Tomamos como estimador de p a 21

1 1

21

1 2

ˆnn

XX

P

n

i

n

i

ii

+

+

=∑ ∑

= = y lo reempla-

zamos en Z

Entonces el estadístico de prueba es

( )

+−

−=

21

21

11ˆ1ˆ

ˆˆ

nnPP

PPZ que bajo 0: 210 =− ppH se puede pro-

bar que tiene distribución aproximadamente )1,0(N

Entonces la regla de decisión es

≤

>

2

0

2

0

α

α

zZsiHaceptar

zZsiHrechazar

donde

( )

+−

−=

21

21

11ˆ1ˆ

ˆˆ

nnPP

PPZ

Si 0: 211 >− ppH entonces la regla de decisión es

≤

>

α

α

zZsiHaceptar

zZsiHrechazar

0

0

Si 0: 211 <− ppH entonces la regla de decisión es

−≥

−<

α

α

zZsiHaceptar

zZsiHrechazar

0

0

Ejemplo:


208

En una muestra de 100 lotes de un producto químico comprado al distribuidor A, 70 satisfacen una

especificación de pureza. En una muestra de 70 lotes comprada al distribuidor B, 61 satisfacen la es-

pecificación. ¿Pude concluir que una proporción mayor de los lotes del distribuidor B satisface la es-

pecificación?

Solución:

Los parámetros de interés son 1p y 2p las verdaderas proporciones de lotes que cumplen las especifi-

caciones de pureza.

Tenemos una muestra aleatoria ( )111211 nX,...,X,X de tamaño 1001 =n donde 7.0

100

701ˆ1

1

1

1

1 === ∑=

n

i

iXn

P

Y otra muestra ( )222221 nX,...,X,X de tamaño 702 =n donde

70

611ˆ2

1

2

2

2 == ∑=

n

i

iXn

P

Las hipótesis son 0: contra 0: 211210 <−=− ppHppH


( )

+−

−=

21

21

11ˆ1ˆ

ˆˆ

nnPP

PPZ donde

21

1 1

21

1 2

ˆnn

XX

P

n

i

n

i

ii

+

+

=∑ ∑

= =

En este caso 170

131

70100

6170ˆ

21

1 1

21

1 2

=+

+=

+

+

=∑ ∑

= =

nn

XX

P

n

i

n

i

ii

El estadístico toma el valor 6163.2

70

1

100

1

170

1311

170

131

70

61

100

70

0 −=

+

−

−

=z

Para saber cuánta evidencia hay contra 0: 210 =− ppH calculamos el p-valor

( ) ( ) 0045.06163.20 =−Φ=<=− zZPvalorp

Como el p-valor es menor que 0.05, se considera que hay mucha evidencia contra 0: 210 =− ppH y

se rechaza la hipótesis nula.

Valor de β

Cuando 0: 210 =− ppH es falsa, la varianza de 21ˆˆ PP − es

( ) ( ) ( ) ( ) ( )

2

22

1

112121

11ˆˆˆˆn

pp

n

ppPVPVPPV

−+

−=+=−

Anotamos ( ) ( ) ( ) ( ) ( )

2

22

1

112121ˆˆ

11ˆˆˆˆ21 n

pp

n

ppPVPVPPV

PP

−+

−=+=−=

−σ


209

Entonces

Si 0: 211 ≠− ppH

( ) ( )

−−

+−

Φ−

−−

+

Φ≈

−− 2121ˆˆ

21

212

ˆˆ

21

212

1111

PPPP

ppnn

qpzppnn

qpz

σσβ

αα

Donde 21

2211

nn

pnpnp

+

+= y pq −=1

Si 0: 211 >− ppH entonces

( )

−−

+

Φ≈

− 21ˆˆ

21

21

11

PP

ppnn

qpz

σβ

ε

Si 0: 211 <− ppH entonces

( )

−−

+−

Φ−≈

− 21ˆˆ

21

21

11

1

PP

ppnn

qpz

σβ

α

Podemos deducir fórmulas para el tamaño de la muestra, nuevamente asumiendo que nnn == 21

Parte 2 – Regresión lineal simple Prof. María B. Pintarelli

210

10 – REGRESIÓN LINEAL SIMPLE


En muchos problemas existe una relación entre dos o más variables, y resulta de interés estudiar la naturaleza de esa relación. El análisis de regresión es la técnica estadística para el modelado y

la investigación de la relación entre dos o más variables. Veamos un ejemplo.

Los resortes se usan en aplicaciones por su capacidad para alargarse (contraerse) bajo carga. La

rigidez de un resorte se mide con la constante del resorte, que es la longitud del resorte que se

alargará por unidad de la fuerza o de la carga. Para asegurarse de que un resorte dado funciona

adecuadamente es necesario calcular la constante de resorte con exactitud y precisión.

En este experimento hipotético un resorte se cuelga verticalmente con un extremo fijo, y los pe-

sos se cuelgan uno tras otro del otro extremo. Después de colgar cada peso se mide la longitud

del resorte. Sean nxxx ,...,, 21 los pesos, y sea il la longitud del resorte bajo la carga ix .

La ley de Hooke establece que

ii xl 10 ββ +=

donde 0β representa la longitud del resorte cuando no tiene carga y 1β es la constante del resor-

te.

Sea iy la longitud medida del resorte bajo la carga ix . Debido al error de medición iy será dife-

rente de la longitud verdadera il . Se escribe como

iii ly ε+=

donde iε es el error en la i-ésima medición. Al combinar ambas ecuaciones se obtiene

iii xy εββ ++= 10 (10.1)

En la ecuación (10.1), iy es la variable dependiente, ix es la variable independiente, 0β y 1β

son los coeficientes de regresión, y iε se denomina error. A la ecuación (10.1) se la llama mo-

delo de regresión lineal simple. La tabla siguiente presenta los resultados del experimento y la figura el diagrama de dispersión

de y contra x.

Peso (lb) Longitud medida (pulg) Peso (lb) Longitud medida (pulg)

x y x y

0,0 5,06 2,0 5,40

0,2 5,01 2,2 5,57

0,4 5,12 2,4 5,47

0,6 5,13 2,6 5,53

0,8 5,14 2,8 5,61

1,0 5,16 3,0 5,59

1,2 5,25 3,2 5,61

1,4 5,19 3,4 5,75

1,6 5,24 3,6 5,68

1,8 5,46 3,8 5,80


211

La idea es utilizar estos datos para estimar los coeficientes de regresión. Si no hubiese error en la

medición, los puntos se encontrarían en una línea recta con pendiente 1β y ordenada al origen

0β , y estas cantidades serían fáciles de determinar. La idea es entonces que los puntos están dis-

persos de manera aleatoria alrededor de una recta que es la recta de regresión lineal xl 10 ββ += .

En general podemos decir que al fijar el valor de x observamos el valor de la variable Y. Si bien x

es fijo, el valor de Y está afectado por el error aleatorio ε . Por lo tanto ε determina las propie-

dades de Y. Escribimos en general

εββ ++= xY 10

donde x es, por ahora, una variable no aleatoria, ε es la v.a. del error y asumimos que

0)( =εE y 2)( σε =V

Entonces Y es una variable aleatoria tal que

( ) ( ) ( ) xExxExYE 101010 ββεββεββ +=++=++=

( ) ( ) ( ) 2

10 σεεββ ==++= VxVxYV

En consecuencia, el modelo de regresión verdadero ( ) xxYE 10 ββ += es una recta de valores

promedio.

Notar que lo anterior implica que existe una distribución de valores de Y para cada x, y que la

varianza de esta distribución es la misma para cada x. La siguiente figura ilustra esta situación

Notar que se utilizó una distribución normal para describir la variación aleatoria en ε . Por lo

tanto la distribución de Y también será normal. La varianza 2σ determina la variabilidad en las

observaciones Y. por lo tanto, cuando 2σ es pequeño, los valores observados de Y caen cerca de

la línea, y cuando 2σ es grande, los valores observados de Y pueden desviarse considerablemen-

te de la línea. Dado que 2σ es constante, la variabilidad en Y para cualquier valor de x es la

misma.

Peso(lb)

Longit

ud(p

ulg

)

0 1 2 3 4

5

5,2

5,4

5,6

5,8


212

10.2 – Regresión lineal simple- Estimación de parámetros

Para estimar los coeficientes de regresión se utiliza el método de mínimos cuadrados.

Supongamos que se tienen n pares de observaciones ),();....;,();,( 2211 nn yxyxyx . Realizamos

una gráfica representativa de los datos y una recta como posible recta de regresión

Anotamos a la recta de regresión estimada con xy 10ˆˆˆ ββ +=

x

y

110 xββ +

210 xββ +

1x 2x

( ) xxYE 10 ββ +=

iy

iy

ix

Recta de regresión

estimada


213

Las estimaciones de 0β y 1β deben dar como resultado una línea que en algún sentido se “ajuste

mejor” a los datos. El método de mínimos cuadrados consiste en estimar 0β y 1β de manera tal

que se minimice la suma de los cuadrados de las desviaciones verticales mostradas en la figura

anterior.

La suma de los cuadrados de las desviaciones de las observaciones con respecto a la recta de

regresión es

( )∑=

−−=n

i

ii xyL1

2

10ˆˆ ββ

Los estimadores de mínimos cuadrados de 0β y 1β , que anotamos 0β y 1β , deben satisfacer las

siguientes ecuaciones

( )

( )

=−−−=∂

∂

=−−−=∂

∂

∑

∑

=

=

n

i

iii

n

i

ii

xxyL

xyL

1

10

1

1

10

0

0ˆˆ2

0ˆˆ2

βββ

βββ

(10.2)

Después de simplificar las expresiones anteriores, se llega a

=+

=+

∑ ∑ ∑

∑ ∑

= = =

= =n

i

n

i

n

i

iiii

n

i

n

i

ii

yxxx

yxn

1 1 1

2

10

1 1

10

ˆˆ

ˆˆ

ββ

ββ

(10.3)

Las ecuaciones (10.3) reciben el nombre de ecuaciones normales de mínimos cuadrados.

La solución de estas ecuaciones dan como resultado las estimaciones de mínimos cuadrados 0β

y 1β

xy 10ˆˆ ββ −= (10.4)

∑∑

∑∑∑

=

=

=

==

−

−

=

n

i

n

i

i

i

n

i

n

i

i

n

i

i

ii

n

x

x

n

yx

xy

1

2

12

1

11

1β (10.5)

donde n

y

y

n

i

i∑== 1 y

n

x

x

n

i

i∑== 1


214

Las diferencias iii yye ˆ−= con ni ,...,1= se llaman residuos. El residuo ie describe el error

en el ajuste del modelo en la i-ésima observación iy .

Para agilizar la notación son útiles los siguientes símbolos

( )n

x

xxxS

n

i

in

i

n

i

iixx

2

1

1 1

22

−=−=

∑∑ ∑ =

= =

(10.6)

( )n

yx

yxxxyS

n

i

i

n

i

in

i

n

i

iiiixy

−=−=

∑∑∑ ∑ ==

= =

11

1 1

(10.7)

Entonces con esta notación podemos escribir xx

xy

S

S=1β

Ejemplo: Ajustamos un modelo de regresión lineal a los datos del ejemplo anterior. La estimación de la

constante del resorte es 1β y 0β la estimación de la longitud sin carga.

De la tabla obtenemos

9.1=x 3885.5=y

6.26=xxS 4430.5=xyS

Entonces 2046.06.26

4430.5ˆ1 ===

xx

xy

S

Sβ y 9997.49.12046.03885.5ˆˆ

10 =×−=−= xy ββ

La ecuación de la recta estimada es

xyxy 2046.09997.4ˆˆˆˆ10 −=⇒+= ββ

La figura siguiente muestra el gráfico de dispersión con la recta de regresión estimada

X

Y

0 1 2 3 4

5

5,2

5,4

5,6

5,8


215

Podemos utilizar la recta de regresión estimada para predecir la longitud del resorte bajo una

carga determinada, por ejemplo con una carga de 1.3 lb:

pulg.27.5)3.1(2046.09997.4ˆ =−=y

Podemos también estimar la longitud del resorte bajo una carga de 1.4 lb:

pulg.29.5)4.1(2046.09997.4ˆ =−=y

Notar que la longitud medida para una carga de 1.4 lb es 5.19 pulg., pero la estimación de míni-mos cuadrados de 5.29 pulg. Está basada en todos los datos y es más precisa (tiene menor incer-

tidumbre). Mas adelante calcularemos la varianza de estos estimadores.

Observaciones:

1- Las estimaciones de mínimos cuadrados 1β y 0β son valores de variables aleatorias y dicho

valor varía con las muestras. Los coeficientes de regresión 0β y 1β son constantes desconocidas

que estimamos con 1β y 0β .

2- Los residuos ie no son lo mismo que los errores iε . Cada residuo es la diferencia iii yye ˆ−=

entre el valor observado y el valor ajustado, y se pueden calcular a partir de los datos. Los errores

iε representan la diferencia entre los valores medidos iy y los valores ix10 ββ + . Como los va-

lores verdaderos de 0β y 1β no se conocen entonces, los errores no se pueden calcular.

3- ¿Qué sucede si se quisiera estimar la longitud del resorte bajo una carga de 100 lb? La esti-

mación de mínimos cuadrados es pulg.46.25)100(2046.09997.4ˆ =−=y pero esta estimación no

es confiable, pues ninguno de los pesos en el conjunto de datos es tan grande. Es probable que el

resorte se deformara, por lo que la ley de Hooke no valdría. Para muchas variables las relaciones

lineales valen dentro de cierto rango, pero no fuera de él. Si se quiere saber cómo respondería el

resorte a una carga de 100 lb se deben incluir pesos de 100 lb o mayores en el conjunto de datos.

Por lo tanto no hay que extrapolar una recta ajustada fuera del rango de los datos. La relación

lineal puede no ser válida ahí.

10.3 – Propiedades de los estimadores de mínimos cuadrados y estimación de 2σ

Los estimadores de 1β y 0β los anotamos

xY 10ˆˆ ββ −=

( )

xx

n

i

ii

xx

xY

S

xxY

S

S∑

=

−

== 11β (10.8)

Como 1β y 0β son estimadores de 1β y 0β respectivamente, son variables aleatorias, por lo

tanto podemos calcular su esperanza y varianza. Como estamos asumiendo que x no es v.a. en-

tonces 1β y 0β son funciones de la v.a. Y.

Recordemos que el modelo es εββ ++= xY 10 , si medimos n veces la variable Y tenemos

iii xY εββ ++= 10

donde asumimos ( ) 0=iE ε ; ( ) 2σε =iV ni ,...,2,1= y nεεε ,...,, 21 independientes


216

Por lo tanto

( ) ( ) ( ) iiii xExxExYE 101010 ββεββεββ +=++=++=

( ) ( ) ( ) 2

10 σεεββ ==++= iiiiVxVxYV

Consideramos

( )

xx

n

i

ii

xx

xY

S

xxY

S

S∑

=

−

== 11β . Podemos ver a 1β como una combinación lineal de las

variables iY , entonces

( )( )

( ) ( )( ) =−=

−=

−

=

= ∑∑

∑

==

=n

i

ii

xx

n

i

ii

xxxx

n

i

ii

xx

xyxxYE

SxxYE

SS

xxY

ES

SEE

11

1

1

11β

( )( ) ( ) ( ) 11

1 1

10

1

10

111ββββββ ==

−+−=−+= ∑ ∑∑= ==

xx

xx

n

i

n

i

iii

xx

n

i

ii

xx

SS

xxxxxS

xxxS

Notar que ( ) 01

111

=

−=−=−

∑∑∑∑ =

=== n

x

nxxnxxx

n

i

in

i

i

n

i

i

n

i

i

y ( ) ( )( ) xx

n

i

ii

n

i

ii Sxxxxxxx =−−=− ∑∑== 11

Por lo tanto

( )

xx

n

i

ii

xx

xy

S

xxY

S

S ∑=

−

== 11β es un estimador insesgados de 1β

Veamos ahora la varianza de 1β

( )( )

( ) ( )( ) =−=

−=

−

=

= ∑∑

∑

==

=n

i

ii

xx

n

i

ii

xxxx

n

i

ii

xx

xyxxYV

SxxYV

SS

xxY

VS

SVV

1

2

21

2

1

1

11β

( )xx

xx

xx

n

i

i

xxS

SS

xxS

22

21

22

2

11 σσσ ==−= ∑

=

Por lo tanto

(10.9)

( ) 11

ˆ ββ =E y ( )xxS

V2

1ˆ σ

β =


217

Con un enfoque similar calculamos la esperanza y la varianza de 0β

( ) ( ) ( ) ( ) ( ) =−=−

=−=−= ∑∑

=

= xYEn

xn

Y

ExEyExYEEn

i

i

n

i

i

1

1

1

1

110

1ˆˆˆ βββββ

( ) 0110110

1βββββββ =−+=−+= ∑

=

xxxxn

n

i

i

Calculamos la varianza de 0β , para esto planteamos:

( ) ( ) ( ) ( )( ) ( )xYCovxVYVxYVV 1110ˆ,2ˆˆˆ ββββ −+=−=

Tenemos que

( ) ( )nn

YVn

Yn

VYVn

i

n

i

i

n

i

i

2

1

2

21

21

111 σσ ===

= ∑∑∑

===

r

Y ( ) 0, =ji YYCov por indep.

( ) ( ) ( )( )( )

( ) ( ) ( ) ( ) 01

,1

,1

,1ˆ,ˆ,

1

2

1

2

1

11 1

11

=−=−=−=

=−=

−==

∑∑∑

∑∑ ∑

===

== =

n

i

i

xx

n

i

i

xx

n

i

iii

xx

n

i

iii

xx

n

i

n

i xx

i

ii

xxnS

xxxnS

xYYCovxxnS

x

xxYYCovnS

xS

xxYY

nCovxYCovxxYCov

σσ

ββ

Por lo tanto

( ) ( ) ( ) ( )( ) ( )

+=−+=−+=−=

xxxx S

x

nSx

nxYCovxVYVxYVV

22

22

2

12

110

10ˆ,2ˆˆˆ σ

σσββββ

Entonces

( 10.10)

Necesitamos estimar la varianza desconocida 2σ que aparece en las expresiones de ( )0βV y

( )1βV .

Los residuos iii yye ˆ−= se emplean para estimar 2σ . La suma de los cuadrados de los residuos

es

( )∑=

−=n

i

iiR yySS1

2ˆ (10.11)

( ) 00ˆ ββ =E y ( )

+=

xxS

x

nV

22

0

1ˆ σβ


218

Puede demostrarse que 22

−=

n

SSE R

σ , en consecuencia 2

2σ=

−n

SSE R .

Entonces se toma como estimador de 2σ a

2

ˆ 2

−=

n

SSRσ (10.12)

Puede obtenerse una fórmula más conveniente para el cálculo de RSS , para esto primero notar

que las ecuaciones normales (10.2) se pueden escribir como

( )

( )

=−−

=−−

∑

∑

=

=n

i

iii

n

i

ii

xxy

xy

1

10

1

10

0ˆˆ

0ˆˆ

ββ

ββ

⇒

=

=

∑

∑

=

=n

i

ii

n

i

i

xe

e

1

1

0

0

Entonces

( ) ( )( ) ( ) ( )

( ) ( ) ( ) ( )yyexyyeyexeye

xyeyyeyyyyyySS

i

n

i

ii

n

i

ii

n

i

iiii

n

i

i

ii

n

i

iii

n

i

i

n

i

iiii

n

i

iiR

−=−−=−=−−=

=−−=−=−−=−=

∑∑∑∑∑

∑∑∑∑

====

====

1

1

1

0

1

10

1

10

1111

2

ˆˆˆˆ

ˆˆˆˆˆˆ

ββββ

ββ

Por lo tanto

( ) ( )( ) ( )( )

( )( ) ( )( ) xyyyi

n

i

ii

n

i

i

i

n

i

iii

n

i

iii

n

i

iR

SSyyxxyyyy

yyxxyyyyxyyyeSS

1

1

1

1

1

11

1

10

1

ˆˆ

ˆˆˆˆ

ββ

ββββ

−=−−−−−=

=−−+−=−−−=−=

∑∑

∑∑∑

==

===

También se puede escribir

xx

xy

yyxy

xx

xy

yyxyyyRS

SSS

S

SSSSSS

2

1ˆ −=−=−= β

En resumen xx

xy

yyRxyyyRS

SSSSSSSS

2

1 ó ˆ −=−= β (10.13)

Por lo tanto 2

ˆ

2

2

−

−

=n

S

SS

xx

xy

yy

σ

Y si anotamos a la desviación estándar estimada de 0β y 1β con 0β

s y 0β

s respectivamente

entonces


219

xxS

s2

ˆ

ˆ

1

σβ

= y

+=

xxS

x

ns

22

ˆ

1ˆ

0

σβ (10.14)

Ejemplo:

En el ejemplo anterior se calculó, 9.1=x , 3885.5=y , 6.26=xxS , 4430.5=xyS .

Calculamos ahora ( ) 1733.120

1

2=−=∑

=i

iyy yyS y entonces

003307.018

6.26

4430.51733.1

2ˆ

22

2 =

−

=−

−

=n

S

SS

xx

xy

yy

σ

0111.0000124.06.26

003307.0ˆ 2

ˆ1

====xxS

sσ

β

02478219.06.26

9.1

20

1003307.0

1ˆ

222

ˆ0

=

+=

+=

xxS

x

ns σ

β

Observación:

La varianza de 0β y 1β se puede disminuir tomando valores ix muy dispersos con respecto a

x pues de esta forma aumenta xxS

Para construir intervalos de confianza para los coeficientes de regresión o para construir pruebas

de hipótesis con respecto a 0β o 1β necesitamos asumir que los errores iε tienen distribución

normal. Entonces ),0(~ 2σε Ni

Observación:

Si ),0(~ 2σε Ni entonces, como iii xY εββ ++= 10 , resulta que ),(~ 2

10 σββ ii xNY + . Se

pueden calcular entonces los EMV de los parámetros y llegaríamos a que son los mismos que

los encontrados usando mínimos cuadrados. De modo que la función que cumple la suposi-

ción de normalidad de los iε no es otra que la de justificar el uso del método de mínimos cua-

drados, que es el mas sencillo de calcular.

Ya vimos que 0β y 1β pueden considerarse combinaciones lineales de las iY , por lo tanto 0β y

1β son combinación lineal de variables aleatorias independientes con distribución normal y eso

implica que

+

xxS

x

nN

22

00

1,~ˆ σββ y

xxSN

2

11 ,~ˆ σββ (10.15)


220

Y entonces

( )1,0~

1

-ˆ

22

00N

S

x

n xx

+σ

ββ y ( )1,0~

ˆ

2

11 N

S xx

σ

ββ − (10.16)

Bajo la suposición que los errores tienen distribución normal, se puede probar que

2

2-n2~ χ

σ

RSS (10.17)

Y también se puede probar que

2-n2

2

00 ~

1ˆ

-ˆt

S

x

n xx

+σ

ββ y

2-n2

11 ~ˆ

ˆt

S xx

σ

ββ − (10.18)

10.4 – Inferencias estadísticas sobre los parámetros de regresión

Suponemos que los errores tiene distribución normal, con media cero, varianza 2σ y son in-

dependientes.

Inferencias sobre 1β

Tests de hipótesis sobre 1β

Se desea probar la hipótesis de que la pendiente 1β es igual a una constante, por ejemplo 10β .


1010 : ββ =H contra 1010 : ββ ≠H


xxS

T2

101

ˆ

ˆ

σ

ββ −= que bajo 0H tiene distribución Student con n-2 gra-

dos de libertad.


≤

>

−

−

2,2

0

2,´2

0

n

n

tTsiHaceptar

tTsiHrechazar

α

α

Si 1011 : ββ >H se rechaza 1010 : ββ =H si 2, −> ntT α

Si 1011 : ββ <H se rechaza 1010 : ββ =H si 2, −−< ntT α


221

Un caso especial importante es cuando 0: 10 =βH contra 0: 10 ≠βH

Estas hipótesis están relacionadas con la significancia de la regresión.

Aceptar 0: 10 =βH es equivalente a concluir que no hay ninguna relación lineal entre x e Y.

Si 0: 10 =βH se rechaza implica que x tiene importancia al explicar la variabilidad en Y. Tam-

bién puede significar que el modelo lineal es adecuado, o que aunque existe efecto lineal pueden obtenerse mejores resultados agregando términos polinomiales de mayor grado en x.

Ejemplos:

1- El fabricante del resorte de los datos de la ley de Hooke afirma que la constante del resorte 1β

es al menos 0.23 pulg/lb. Se ha calculado que la constante del resorte es 2046.0ˆ1 =β pulg/lb. ¿Se

puede concluir que la afirmación del fabricante es falsa?

Solución: Se requiere una prueba de hipótesis para contestar la pregunta. Las hipótesis serían

23.0: 10 =βH contra 23.0: 10 <βH


xxxx SS

T2

1

2

101

ˆ

23.0ˆ

ˆ

ˆ

σ

β

σ

ββ −=

−=

Se calculó anteriormente 0111.0ˆ 2

=xxS

σ, entonces el valor 0t que toma el estadístico es

28.20111.0

23.02046.00 −=

−=t

Calculamos el p-valor recordando que bajo 23.0: 10 =βH , 2-n~ tT :

( )28.2−<=− TPvalorp

Vemos en la tabla de la distribución Student que en la fila 18=ν grados de libertad

( )

( )

=>

=>

01.0552.2

025.0101.2

TP

TP ⇒ 025.001.0 <−< valorp

Por lo tanto se rechaza 23.0: 10 =βH

2- La capacidad de una unión soldada de alongarse bajo tensión está afectada por el compuesto

químico del metal de soldadura. En un experimento para determinar el efecto del contenido de

carbono (x) sobre la elongación (y) se alongaron 39 soldaduras hasta la fractura, y se midió tanto

el contenido de carbono (en partes por mil) como la elongación (en %). Se calcularon los si-

guientes resúmenes estadísticos:

6561.0=xxS ; 9097.3−=xyS ; 3319.4ˆ =σ


222

Suponiendo que x e y siguen un modelo lineal, calcular el cambio estimado en la elongación de-

bido a un aumento de una parte por mil en el contenido de carbono. ¿Se debe utilizar el modelo

lineal para pronosticar la elongación del contenido de carbono?

Solución:

El modelo lineal es εββ ++= xy 10 , y el cambio de elongación debido a un aumento de una

parte por mil en el contenido de carbono es 1β .

Las hipótesis serían 0: 10 =βH contra 0: 10 ≠βH

La hipótesi nula establece que incrementar el contenido de carbono no afecta la elongación,

mientras que la hipótesis alternativa establece que sí afecta la elongación.

El estadístico de prueba

xxxx SS

T2

1

2

101

ˆ

ˆ

ˆ

ˆ

σ

β

σ

ββ=

−= si 0: 10 =βH es verdadera tiene distribución

Student con 2−n gados de libertad.

Calculamos

( )959.5

6561.0

9097.3ˆ 1

1 −=−

=

−

==

∑=

xx

n

i

ii

xx

xy

S

xxy

S

Sβ

348.56561.0

3319.4ˆˆ 2

===

xxxx SS

σσ

El valor que toma el estadístico de prueba es 114.1348.5

959.50 =

−=t

Y ( ) 20.010.02114.1 =×>>=− TPvalorp

Por lo tanto no hay evidencia en contra de la hipótesis nula. No se puede concluir que el modelo lineal sea útil para pronosticar la elongación a partir del contenido de carbono.

Intervalos de confianza para 1β

Podemos construir intervalos de confianza para 1β de nivel α−1 utilizando el hecho que el es-

tadístico 2-n

2

11 ~ˆ

ˆt

Sxx

σ

ββ −. El intervalo sería

+−

−−xx

nxx

n St

St

2

2,2

1

2

2,2

1

ˆˆ ;ˆˆ σ

βσ

β αα (10.19)


223

Ejemplo:

Determinar un intervalo de confianza de nivel 0.95 para la constante del resorte de los datos de la

ley de Hooke.

Solución:

Se calculó antes 2046.0ˆ1 =β y 0111.0

ˆ 2

=xxS

σ

El número de grados de libertad es 18220 =− , y 05.0=α por lo tanto

101.218,025.02,

2

==−

ttn

α


( ) ( )[ ] [ ]228.0 ;181.00111.0101.22046.0 ;0111.0101.22046.0 =−−

Inferencias sobre 0β

De manera similar a lo visto sobre 1β , se pueden deducir intervalos de confianza y tests de hipó-

tesis para 0β

Específicamente, si tenemos las hipótesis

0000 : ββ =H contra 0000 : ββ ≠H


+

xxS

x

n

T2

2

000

1ˆ

-ˆ

σ

ββ y bajo 0000 : ββ =H tenemos que 2-n~ tT


≤

>

−

−

2,2

0

2,´2

0

n

n

tTsiHaceptar

tTsiHrechazar

α

α

Si 0001 : ββ >H se rechaza 0000 : ββ =H si 2, −> ntT α

Si 0001 : ββ <H se rechaza 0000 : ββ =H si 2, −−< ntT α

Intervalos de confianza de nivel α−1 se deducen de manera análoga a lo visto anteriormente,

donde usamos el hecho que el estadístico 2-n2

2

00 ~

1ˆ

-ˆt

S

x

n

T

xx

+σ

ββ

El intervalo es

++

+−

−−

1ˆˆ ;

1ˆˆ

22

2,2

0

22

2,2

0xx

nxx

n S

x

nt

S

x

nt σβσβ αα (10.20)


224

Ejemplo:

En los datos de la ley de Hooke determine un intervalo de confianza de nivel 0.99 para la longi-

tud del resorte no cargado.

Solución:

La longitud del resorte no cargado es 0β . Se ha calculado anteriormente 9997.4ˆ0 =β y

02478219.01

ˆ2

2ˆ0

=

+=

xxS

x

ns σ

β

El número de gados de libertad es 18220 =− y como 01.0=α entonces

878.218,005.02,

2

==−

ttn

α


( ) ( )[ ] [ ]071023.5 ;9283.4 02478219.0878.29997.4 ;024782193.0878.29997.4 =−−

10.5 – Intervalo de confianza para la respuesta media

A menudo es de interés estimar mediante un intervalo de confianza 010 xββ + , es decir estimar

la media ( )0xYE para un valor específico 0x .

Un estimador puntual razonable para 010 xββ + es 010ˆˆ xββ + .

Sabemos que ( ) 010010ˆˆ xxE ββββ +=+ .

Como de costumbre necesitamos construir un estadístico a partir de 010ˆˆ xββ + que contenga al

parámetro de interés, (en este caso 010 xββ + ) y del cual conozcamos la distribución de probabi-

lidad.

Pensamos en el estadístico ( )

( )010

010010

ˆˆ

ˆˆˆˆ

xV

xEx

ββ

ββββ

+

+−+

Nos falta calcular ( )010ˆˆ xV ββ + . Para esto nuevamente observamos que 010

ˆˆ xββ + es una com-

binación lineal de las variables iY

( ) ( ) =−+=−+=+−=+ ∑∑==

xxS

SY

nxxY

nxxYx

xx

xYn

i

i

n

i

i 0

1

01

1

011010

1ˆ1ˆˆˆˆ βββββ

( )( )

( )( )

−

−+=−

−

+= ∑∑

∑=

=

=

xxS

xx

nYxx

S

xxY

Yn xx

in

i

i

xx

n

i

iin

i

i 0

1

01

1

11

Por lo tanto:


225

( ) ( )( ) ( )

( )( )

( )( )

( )( )

( )( ) =

−

−+−

−+=

−

−+=

=

−

−+=

−

−+=+

∑∑

∑∑

==

==

xxnS

xxxx

S

xx

nxx

S

xx

n

xxS

xx

nYVxx

S

xx

nYVxV

xx

i

xx

in

ixx

in

i

xx

in

i

i

xx

in

i

i

0

2

02

2

21

2

2

0

1

2

2

0

1

0

1

010

211

11ˆˆ

σσ

ββ

( )( )

( )( ) =

−

−+−

−+= ∑ ∑

= =

n

i

n

i

i

xx

i

xx

xxnS

xxxx

S

xx

n1 1

02

2

2

02 21σ

Notar que ( ) 01

=−∑=

n

i

i xx y ( ) xx

n

i

i Sxx =−∑=1

2 entonces

( )

−+=

xxS

xx

n

2

02 1σ

Por lo tanto

( )

−+++

xxS

xx

nxNx

2

02

010010

1 ;~ˆˆ σββββ (10.21)

Como 2σ es desconocido lo reemplazamos por 2

ˆ 2

−=

n

SSRσ , y puede probarse que

( )

( )

−+

+−+

xxS

xx

n

xx

2

02

010010

1ˆ

ˆˆ

σ

ββββ tiene distribución Student con 2−n grados de libertad

Razonando como en casos anteriores, el intervalo de confianza para 010 xββ + de nivel α−1 es

( ) ( )

−+++

−+−+

−−

1ˆˆˆ ;

1ˆˆˆ

2

02

2,2

010

2

02

2,2

010

xxn

xxn S

xx

ntx

S

xx

ntx σββσββ αα

(10.22)

Ejemplo:

Mediante los datos de la ley de Hooke calcular un intervalo de confianza de nivel 0.95 para la

longitud media de un resorte bajo una carga de 1.4 lb

Solución:

Para aplicar (10.22) necesitamos calcular 010ˆˆ xββ + ; 2σ ; x ; xxS .

En este caso 4.10 =x y 05.0=α , por lo tanto 101.218,025.02,

2

==−

ttn

α

Ya tenemos calculado de ejemplos anteriores:

0575.0ˆ =σ

9.1=x


226

6.26=xxS

9997.4ˆ0 =β y 2046.0ˆ

1 =β

De aquí ya calculamos 286.54.12046.09997.4ˆˆ010 =×+=+ xββ

Entonces el intervalo es:

( ) ( )

[ ]32.5 ;26.5

6.26

9.14.1

20

10575.0101.2286.5 ;

6.26

9.14.1

20

10575.0101.2286.5

2

2

2

2

=

=

−++

−+−

Observaciones:

1- Notar que el ancho del intervalo de confianza para ( )0xYE depende del valor de 0x . El an-

cho del intervalo es mínimo cuando xx =0 y crece a medida que xx −0 aumenta.

2- Al repetir los cálculos anteriores para varios valores diferentes de 0x pueden obtenerse inter-

valos de confianza para cada valor correspondiente de ( )0xYE .

En la figura siguiente se presenta el diagrama de dispersión con la recta estimada y los corres-

pondientes intervalos de confianza de nivel 0.95 graficados con las líneas inferior y superior re-feridos al ejemplo anterior. Se origina entonces una banda de confianza que envuelve a la recta

estimada.

10.6 – Intervalos de predicción para futuras observaciones

Una aplicación importante de un modelo de regresión es la predicción de observaciones nuevas o

futuras de Y, correspondientes a un nivel especificado de la variable x.

Si 0x es el valor de x de interés, entonces una estimación puntual de la observación

00100 εββ ++= xY es 0100ˆˆˆ xY ββ += .

X

Y

0 1 2 3 4

5

5,2

5,4

5,6

5,8


227

Para hallar un intervalo de predicción para 0100 xY ββ += de nivel α−1 debemos construir un

estadístico a partir de 0100ˆˆˆ xY ββ += .

Primero notamos que si 0Y es una nueva observación, entonces 0Y es independiente de las ob-

servaciones utilizadas para desarrollar el modelo de regresión.

Consideramos 00 YY − . Calculamos su esperanza y varianza:

( ) ( )( ) ( ) ( ) 0ˆˆˆ0100010010001000 =+−++=+−++=− xExxxEYYE ββεββββεββ

( ) ( ) ( ) ( ) ( ) ( )

( )

−++=

=

−++=++++=+=−

xx

xx

S

xx

n

S

xx

nxVxVYVYVYYV

2

02

2

022

01000100000

11

1ˆˆˆˆ

σ

σσββεββ

Por lo tanto

( )

−++−

xxS

xx

nNYY

2

02

00

11 ;0~ˆ σ (10.23)

En consecuencia

( )

( )1 ;0~1

1

ˆ

2

02

00 N

S

xx

n

YY

xx

−++

−

σ

(10.24)

Si reemplazamos 2σ por su estimación 2σ se puede probar que

( )

2-n2

02

00 ~1

1ˆ

ˆt

S

xx

n

YY

xx

−++

−

σ

(10.25)

Por el argumento usual llegamos al siguiente intervalo de predicción de nivel α−1 para 0Y :

( ) ( )

−+++

−++

xxxx S

xx

ntY

S

xx

ntY

2

02

2-n,2

0

2

02

2-n,2

0

11ˆˆ ;

11ˆ-ˆ σσ αα (10.26)

Ejemplo:

Calcular el intervalo de predicción con nivel 0.95 para la elongación de un resorte bajo una car-

ga de 1.4 lb.

Solución:

El intervalo es


228

( ) ( )

[ ]5.41034 ;16165.5

6.26

9.14.1

20

110575.0101.2286.5 ;

6.26

9.14.1

20

110575.0101.2286.5

2

2

2

2

=

=

−+++

−++−

Observaciones: 1- Un intervalo de confianza es un intervalo que contiene, con un nivel de confianza fijado, un

parámetro determinado de interés. Un intervalo de predicción es un intervalo que contiene, con un nivel de confianza fijado, una variable aleatoria de interés.

2- El ancho del intervalo de predicción es mínimo cuando xx =0 y crece a medida que xx −0

aumenta.

Al comparar (10.25) con (10.21) se observa que el intervalo de predicción en el punto 0x siem-

pre es más grande que el intervalo de confianza en 0x . Esto se debe a que el intervalo de predic-

ción depende tanto del error del modelo ajustado como del error asociado con las observaciones

futuras.

3- Al repetir los cálculos anteriores para varios valores diferentes de 0x pueden obtenerse los

intervalos de predicción. En la figura siguiente se presenta el diagrama de dispersión con la recta

estimada y los correspondientes intervalos de confianza y de predicción de nivel 0.95 graficados

con las líneas inferior y superior referidos al ejemplo anterior. Se originan entonces una banda

de confianza (línea continua) y otra banda de predicción (línea entrecortada) que envuelven a la

recta estimada. Esto ilustra que los intervalos de confianza son menos amplios que los intervalos

de predicción.

10.7 – Índice de ajuste

Si consideramos el ajuste por mínimos cuadrados de los pares de datos ( )ii Yx , al modelo

εβ += 0Y

X

Y

0 1 2 3 4

5

5,2

5,4

5,6

5,8


229

Entonces es fácil verificar que el estimador de mínimos cuadrados de 0β es Y , y la suma de

residuos al cuadrado es ( )∑=

−=n

i

iYY YYS1

2. Por otro lado si consideramos el modelo lineal

εββ ++= xY 10

Entonces tenemos un valor de ( )∑=

−=n

i

iiR yySS1

2ˆ que será menor o igual a ( )∑

=

−=n

i

iYY YYS1

2.

La cantidad 2R se define como

YY

R

S

SSR −= 12 (10.27)

y es llamado coeficiente de determinación. Vemos que 2R será cero si 01 =β y será uno si

( )∑=

=−=n

i

iiR yySS1

20ˆ , lo que significa ajuste lineal perfecto.

En general 10 2≤≤ R . El valor de 2R se interpreta como la proporción de variación de la res-

puesta Y que es explicada por el modelo. La cantidad 2R es llamada índice de ajuste, y es a

menudo usada como un indicador de qué tan bien el modelo de regresión ajusta los datos. Pero

un valor alto de R no significa necesariamente que el modelo de regresión sea correcto.

Ejemplo:

En el ejemplo de la ley de Hooke, tenemos ( ) 1733.120

1

2=−=∑

=i

iyy yyS , y

059526.06.26

4430.51733.1

2

=−=RSS

Por lo tanto 949266.01733.1

059526.0112

=−=−=YY

R

S

SSR

El índice de ajuste R es a menudo llamado coeficiente de correlación muestral. Si la variable

fijada x es una variable aleatoria, entonces tendríamos una v.a. bidimensional ( )YX , con una

distribución de probabilidad conjunta, y tenemos una muestra de pares ( )ii YX , ni ,...,1= . Su-

pongamos que estamos interesados en estimar ρ el coeficiente de correlación entre X e Y. Es

decir

( )( ) ( )( )[ ]( ) ( )YVXV

YEYXEXE −−=ρ

Es razonable estimar

( )( ) ( )( )[ ]YEYXEXE −− con ( )( )∑=

−−n

i

ii YYXXn 1

1

( )XV con ( )∑=

−n

i

i XXn 1

21 y ( )YV con ( )∑

=

−n

i

i YYn 1

1


230

Por lo tanto un estimador natural de ρ es

( )( )

( ) ( )R

SS

S

YYXX

YYXX

YYXX

XY

n

i

i

n

i

i

n

i

ii

==

−−

−−

=

∑∑

∑

==

=

1

2

1

2

1ρ (10.28)

Es decir el índice de ajuste estima la correlación entre X e Y

Si X es una variable aleatoria, entonces se observan pares independientes ( )ii YX , con ni ,...,1=

que cumplen el modelo

iii XY εββ ++= 10

Si asumimos que iX y iε son independientes y que las iε tienen todas la misma distribución

con ( ) 0=iE ε , entonces ( ) iii XXYE 10 ββ +=

Si además suponemos que ( )2,0~ σε Ni entonces se puede probar que los estimadores de

máxima verosimilitud para los parámetros 0β y 1β son

XY 10ˆˆ ββ −=

y

( )

( ) XX

XY

n

i

i

n

i

ii

S

S

XX

XXY

=

−

−

=

∑

∑

=

=

1

2

1

1β

Es decir son los mismos estimadores a los dados por el método de mínimos cuadrados en el caso de suponer que X es una variable matemática.

También se puede probar que bajo las suposiciones hechas (10.17) y (10.18) siguen siendo

válidas.

Las distribuciones de los estimadores dependen ahora de las distribuciones de las iX . Puede

probarse que siguen siendo insesgados, y que su distribución condicional en las iX es normal,

pero en general su distribución no será normal.

10.8 – Análisis de residuos

El ajuste de un modelo de regresión requiere varias suposiciones. La estimación de los paráme-

tros del modelo requiere la suposición de que los errores son variables aleatorias independientes

con media cero y varianza constante. Las pruebas de hipótesis y la estimación de intervalos re-

quieren que los errores estén distribuidos de manera normal. Además se supone que el grado del


231

modelo es correcto, es decir, si se ajusta un modelo de regresión lineal simple, entonces se supo-

ne que el fenómeno en realidad se comporta de una manera lineal.

Se debe considerar la validez de estas suposiciones como dudosas y examinar cuán adecuado es

el modelo que se propone. A continuación se estudian métodos que son útiles para este propósi-

to.

Los residuos de un modelo de regresión son iii yye ˆ−= ni ,...,2,1= . A menudo el análisis de

los residuos es útil para verificar la hipótesis de que los errores tienen una distribución que es

aproximadamente normal con varianza constante, y también para determinar la utilidad que tiene la adición de más términos al modelo.

Es posible estandarizar los residuos mediante el cálculo de 2σ

ie ni ,...,2,1= .

También se puede probar que la varianza del i-ésimo residuo ie es igual a

( )( )

−+−=

xx

i

iS

xx

neV

2

2 11σ

Y entonces podemos considerar al i-ésimo residuo estudentizado que se define como

( )

−+−

=

xx

i

i

i

S

xx

n

er

2

2 11σ

y tiene desviación estándar unitaria.

Si los errores tienen una distribución normal, entonces aproximadamente el 95% de los residuos

estandarizados deben caer en el intervalo )2 ;2(− . Los residuos que se alejan mucho de este

intervalo pueden indicar la presencia de un valor atípico, es decir, una observación que no es

común con respecto a los demás datos.

A menudo es útil hacer una gráfica de residuos contra la variable independiente x. En este caso la

gráfica tendría que ser una nube de puntos sin ningún patrón en el intervalo )2 ;2(− ; pues

iii yye ˆ−= sería lo que queda de iy al quitarle la influencia de ix . Si en la gráfica aparece al-

gún patrón quiere decir que no estamos quitando de las y toda la influencia de las x.

Patrones usuales para las gráficas de residuos suelen ser los de las siguientes figuras: en la figura a) se representa la situación ideal, una nube de puntos sin ningún patrón en el intervalo )2 ;2(− .

Las figuras b) , c) y d) representan anomalías. Si los residuos aparecen como en b) o c) indican

que el modelo es inadecuado. La figura d) muestra residuos que indican que la varianza de las

observaciones varía con la magnitud de x. Comúnmente se utiliza una transformación de datos

sobre la respuesta y para eliminar este problema. Las transformaciones más utilizadas para esta-

bilizar la varianza son y , ( )yln o y

1 .

En la figura d) la varianza de las observaciones disminuye con el aumento de x


232

a)

x

resi

duos

0 0,4 0,8 1,2 1,6 2

-1,7

-0,7

0,3

1,3

2,3

b)

x

resi

duos

0 0,4 0,8 1,2 1,6 2

-3,3

-1,3

0,7

2,7

4,7

c)

x

resi

duos

0 0,4 0,8 1,2 1,6 2

-3,3

-1,3

0,7

2,7

4,7


233

Ejemplo: Para los datos sobre la ley de Hooke la gráfica de residuos es

Para el caso en que ( )YX , es una v.a. bidimensional, no siempre se está interesado en la relación

lineal que defina ( )XYE / . Si no, únicamente saber si X e Y son variables aleatorias independien-

tes. Si asumimos que la distribución conjunta de ( )YX , es una distribución llamada normal bi-

variada, entonces probar que 0=ρ es equivalente a probar que X e Y son independientes.

Se puede probar que si la distribución conjunta de ( )YX , es normal bivariada, entonces R es el

estimador de máxima verosimilitud de ρ . Pero es difícil obtener la distribución de probabilidad

para R. Se puede superar esta dificultad en muestras bastante grandes al utilizar el hecho que el

estadístico ( )

−

+

R

R

1

1ln

21 tiene aproximadamente una distribución normal con media

( )

−

+=

ρ

ρµ

1

1ln

21 y varianza

3

12

−=

nσ .

d)

x

resi

duos

0 0,4 0,8 1,2 1,6 2

-3,3

-1,3

0,7

2,7

4,7

X

resi

duos

0 1 2 3 4

-2,5

-1,5

-0,5

0,5

1,5

2,5


234

Por lo tanto para probar la hipótesis 00 : ρρ =H podemos utilizar el estadístico de prueba

( ) ( )

3

1

1

1ln

21

1

1ln

21

0

0

−

−

+−

−

+

=

n

R

R

Zρ

ρ

(10.29)

Para construir intervalos de confianza de nivel α−1 para ρ , se despeja en ( )

−

+=

ρ

ρµ

1

1ln

21

el coeficiente ρ y se llega a

1

12

2

+

−=

µ

µ

ρe

e (10.30)

Ejemplo:

En un estudio de los tiempos de reacción, el tiempo de respuesta a un estímulo visual (x) y el tiempo de respuesta a un estímulo auditivo (y) se registraron para cada una de 10 personas.

Los tiempos se midieron en minutos. Se presentan en la siguiente tabla.

x 161 203 235 176 201 188 228 211 191 178

y 159 206 241 163 197 193 209 189 169 201

a) Determinar un intervalo de confianza de nivel 0.95 para la correlación entre los tiempos de

reacción.

b) Determinar el p-valor para 3.0:0 =ρH contra 3.0:1 >ρH

Solución:

a) Se calcula

( )( )

( ) ( )8159.0

1

2

1

2

1 ==

−−

−−

=

∑∑

∑

==

=

YYXX

XY

n

i

i

n

i

i

n

i

ii

SS

S

YYXX

YYXX

R

Luego calcula ( ) ( ) 1444.18159.01

8159.01ln

21

1

1ln

21 =

−

+=

−

+

R

R

Como ( )

−

+

R

R

1

1ln

21 está distribuido normalmente con varianza

3

12

−=

nσ , el intervalo para

( )

−

+=

ρ

ρµ

1

1ln

21 es

[ ]8852.1 ;4036.0 310

196.11444.1 ;

310

196.11444.1 =

−+

−−


235

Para hallar el intervalo para ρ aplicamos la transformación (10.30) y se obtiene

( )

( )

( )

( )1

1

1

18852.12

8852.12

4036.02

4036.02

+

−<<

+

−

e

e

e

eρ ⇒ 955.0383.0 << ρ

b) Si 3.0:0 =ρH es verdadera entonces el estadístico

( ) ( )

310

1

3.01

3.01ln

21

1

1ln

21

−

−

+−

−

+

=R

R

Z tiene aproximadamente distribución )1,0(N

El valor observado de ( )

−

+

R

R

1

1ln

21 es 1.1444, por lo tanto el estadístico toma el valor

2088.20 =z

Entonces ( ) 0136.02088.2 =>=− ZPvalorp . Entonces se rechaza 3.0:0 =ρH y se con-

cluye que 3.0>ρ

236

TABLAS ESTADISTICAS

Distribución Binomial acumulada……………………………………………….237

Distribución Poisson acumulada………………………………………………...243

Distribución Normal acumulada………………………………………………...248

Puntos porcentuales superiores para distribución Student………………………250

Puntos porcentuales superiores para distribución Ji-cuadrada…………………..251

Puntos porcentuales superiores para distribución Fisher………………………..252

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

Documents

Libro Mate3