Author
esmeralda-villarreal
View
151
Download
6
Embed Size (px)
DESCRIPTION
Esta guia de estudio es buena para prepararse para presentar examenes tanto nivel bachillerato como el examen ceneval 286.es importante ejercitarse en temas matematicos ya que son un elemento muy recurrido en nuestra vida diaria
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
1
Probabilidad y estadística básica
La probabilidad es la caracteristica de un suceso del que existen razones para creer que se realizará. Los sucesos tienden a ser una frecuencia relativa del numero de veces que se realiza el experimento
La probabilidad p de aparición de un suceso S de un total de n casos posibles igualmente factibles es la razón entre el número de ocurrencias h de dicho suceso y el número total de casos posibles n.
p = PS = h / n
La probabilidad es un número (valor) entre 0 y 1. Cuando el suceso es imposible se dice que su probabilidad es 0 y se dice que es un suceso cierto cuando siempre tiene que ocurrir y su probabilidad es 1. La probabilidad de no ocurrencia de un evento está dada por q donde:
q = PnoS = 1 − (h / n)
Simbólicamente el espacio de resultados, que normalmente se denota por Ω, es el espacio que consiste en todos los resultados que son posibles. Los resultados, que se denota por ω1,ω2, etcétera, son elementos del espacio Ω
La Estadística es una rama de las matemáticas que se utiliza para describir, analizar e interpretar fenómenos donde interviene el azar, y que permite a otras ciencias a generar modelos matemáticos empíricos donde se considera el componente aleatorio. La Estadística se divide en dos grandes ramas:
La Estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio.
La Estadística inferencial, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión.
El Razonamiento Estadístico
Todo problema estadístico opera del modo siguiente:
Se plantea un problema en estudio.
Se realiza un muestreo consistente en la recolección de datos referentes al fenómeno o variable que deseamos estudiar.
Se propone un modelo de probabilidad, cuyos parámetros se estiman mediante estadísticos a partir de los datos de muestreo. Sin embargo se mantiene lo que se denominan hipótesis sostenidas (que no son sometidas a comprobación)
Se valida el modelo comparándolo con lo que sucede en la realidad. Se utiliza métodos estadísticos conocidos como test de hipótesis y pilin de significación
• Población, muestra, medidas de tendencia central, desviación estándar y varianza
Población: Conjunto de todos los elementos incluidos en cierto estudio estadístico.
Muestra: Subconjunto de la población.
Elemento: Unidad mínima de la que se compone la población
MEDIA ARITMÉTICA
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
Es la suma de los valores de
se representa con .
La fórmula de la media aritmética
Ejemplo:
se obtiene con los siguientes
1. Se suman todos los datos
10 + 3 + 5 + 9 + 6 + 8 + 8 + 7
2. La suma ( ) se divide entre
La media aritmética o promediotodos los datos.
MEDIA ARITMÉTICA PONDERADA
A veces se asocia a los númerosw1, w2,...,wn que dependen deEntonces se genera una mediatestada.
Ejemplo
Supongamos que un alumno La segunda calificación vale elcuatro veces la primera y la quinta7.3, 8.3, 6.4 y 9.2?
X1 = 8.5 ; W1 = 1
:: CURSOS CENEVAL EN TOLUCA
2
una variable dividida por, él numero de ellos. La
aritmética es:
pasos
+ 9 + 6 + 8 + 7 =
entre el número de datos (n) :
promedio de las evaluaciones es 7.16, que es el valor representativo
PONDERADA
números x1, x2,...,xn que se quieren promediar, ciertosde la significación o importancia de cada uno de los
media aritmética ponderada, que también se representa
quiere encontrar el promedio ponderado de sus cincoel doble de al primera, la tercera el triple de la primera,
quinta cinco veces. ¿Cuál es su promedio si sus calificaciones
media aritmética, que
representativo de
ciertos factores o pesos los números.
representa con equis
cinco calificaciones. primera, la cuarta vale
calificaciones son 8.5,
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
3
X2 = 7.3 ; W2 = 2
X3 = 8.3 ; W3 = 3
X4 = 6.4 ; W4 = 4
X5 = 9.2 ; W5 = 5
(8.5*1+7.3*2+8.3*3+6.4*4+9.2*5)
(1+2+3+4+5)
= 119.6/15 = 7.97 es el promedio ponderado de las calificaciones de este alumno
LA MEDIANA
Es la observación que se encuentra en el centro cuando los datos están ordenados, divide a los datos en dos partes iguales.
- Si n es impar:
la mediana es la observación que está en el lugar (n+1)/2, esto es
- Si n es par:
la mediana es el promedio de las observaciones n/2 y n/2+1, esto es
Ejemplo
Encuentra la mediana para el siguiente conjunto de datos
9 12 5 16 8 3 11
Primero se ordenan los datos
3 5 8 9 11 12 16
Una vez ordenados, como el número de datos es impar (7), se busca el que tiene la posición (n+1)2, o sea (7+1)2 = 4. Este número es el 9 y representa la mediana.
Ejemplo
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
4
Calcula la mediana para el siguiente conjunto de datos
8.3 5.7 9.2 3.9 7.4 11.8 10.6 4.3
Nuevamente se ordenan los datos
3.9 4.3 5.7 7.4 8.3 9.2 10.6 11.8
Una vez ordenados, como el númeo de datos es par (8), se busca el número que tiene la posición n/2 y el que tiene la posición n/2+1, o sea 8/2 = 4 y 8/2+1 = 5. Los números que tienen la posición cuarta y quinta son 7.4 y 8.3. Estos números se promedian y el resultado será la mediana.
(7.4+8.3)/2 = 7.85. Este resultado 7.85 representa la mediana para este conjunto de datos
LA MODA
La moda es el dato que aparece con mayor frecuencia en una colección.
Ejemplo
Si se observa cual es el dato que más se repite en las evaluaciones, se tiene:
3, 5, 6, 6, 7, 7, 8, 8, 8, 9, 9, 10
Que es el ocho. Este valor representa la moda de esta colección, por lo tanto, la moda se refiere al dato que tiene mayor frecuencia.
Nota: Si ninguna observación se repite, se dice que esos datos no tienen moda. Si todos los datos se repiten el mismo número de veces, los datos serán multimodales.
Ejemplo
Encuentra la moda de los siguientes datos
4 9 5 6 7
Como los datos sólo existen una vez, este conjunto de datos no tienen moda.
Ejemplo
Encuentra la moda del siguiente conjunto de datos
9 3 6 7 9 8 5 9 7 3
El 3 se repite dos veces, el 7 se repite también dos veces, pero como el 9 se repite tres veces, este último número es la moda para este conjunto de datos.
Ejemplo
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
5
Calcula la moda para los datos que se presentan a continuación
6 7 8 6 9 7 8 5 6 8
El máximo número de veces que se repiten los datos son tres, y hay dos datos que se repiten tres veces, el 6 y el 8. El conjunto de datos es bimodal y sus modas son el 6 y el 8.
Ejemplo
Calcula la moda para estos datos
8 6 5 5 9 6 8 6 5 9 8 9
En este conjunto de datos, todos se repiten tres veces. El 5, 6, 8 y el 9 son moda. No hay ninguno que no lo sea, es un caso multimodal
DESVIACIÓN ESTÁNDAR
La desviación estándar es la medida de dispersión mas usada en estadística, tanto en aspectos descriptivos como analíticos. En su forma conceptual, la desviación estándar se define así:
Fórmula de trabajo para la población
Fórmula de trabajo para la muestra:
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
6
Ejemplo:
x x2
3 9
2 4
3 9
5 25
4 16
3 9
20 72
Cuando se trata de datos agrupados la formula es:
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
7
Ejemplo :
x f fx x2 fx2
32 1 32 1024 1024
37 3 111 1369 4107
42 8 336 1764 14112
47 9 423 2209 19881
52 7 364 2704 18928
57 4 228 3249 12996
62 3 186 3844 11532
67 3 201 4489 13467
72 2 144 5184 10368
Sumas 40 2025 106415
Conociendo la desviación estándar, se puede calcular otros estimadores derivados que son de gran utilidad para describir y/o interpretar el comportamiento de los datos
VARIANZA (VARIANCIA) S2
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
La varianza, , se define como la media de media aritmética, es decir:
Para datos agrupados en tablas,varianza se puede escribir como
Una fórmula equivalente para
Con lo cual se tiene
Si los datos están agrupados
La varianza no tiene la mismaen metros, la varianza lo hacemisma dimensionalidad que las
:: CURSOS CENEVAL EN TOLUCA
8
las diferencias cuadráticas de n puntuaciones con
tablas, usando las notaciones establecidas en los capítuloscomo
para el cálculo de la varianza está basada en lo siguiente:
en tablas, es evidente que
misma magnitud que las observaciones (ej. si las observacioneshace en metros2). Si queremos que la medida de dispersión
las observaciones bastará con tomar su raíz cuadrada.
con respecto a su
capítulos anteriores, la
siguiente:
observaciones se miden dispersión sea de la
cuadrada.
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
Por ello se define la desviación
Ejemplo
Calcular la varianza y desviación
3,3,4,4,5
Para calcular dichas medidasrespecto al cual vamos a medir
La varianza es:
Siendo la desviación típica su
Las siguientes propiedades dela hora de hacer un cambio deDesviación típica) no se ve afectadaconstante. Si además cada observaciónvarianza cambia en relación alrelación al valor absoluto de la
TASA INTERNA DE RENTABILIDAD
Generalmente conocido por suactual o presente neto) sea iguallos flujos de entrada (positivos)un proyecto de inversión. En elrentable, su TIR debe ser superior
El Valor Actual Neto es un criterioen determinar el valor actual detanto de los flujos positivos comose representan con signo negativo,al valor temporal del dinero y aquellas inversiones cuyo valor
El Valor Actual o Valor presente,uno o varios flujos de tesorería
:: CURSOS CENEVAL EN TOLUCA
9
desviación típica, , como:
desviación típica de las siguientes cantidades medidas en
medidas de dispersión es necesario calcular previamentemedir las diferencias. Éste es la media:
su raíz cuadrada:
de la varianza (respectivamente, desviación típica)de origen y escala a una variable. En primer lugar,afectada si al conjunto de valores de la variable seobservación es multiplicada por otra constante, enal cuadrado de la constante (resp. La desviación la constante). Esto queda precisado en la siguiente
RENTABILIDAD O DE RETORNO
su acrónimo TIR, es el tipo de descuento que haceigual a cero, es decir, el tipo de descuento que iguala
(positivos) con el flujo de salida inicial y otros flujos negativosel análisis de inversiones, para que un proyecto se
superior al coste del capital empleado.
criterio financiero para el análisis de proyectos de inversiónde los flujos de caja que se esperan en el transcurso
como de las salidas de capital (incluida la inversiónnegativo, mediante su descuento a una tasa o coste
al riesgo de la inversión. Según este criterio, se recomiendavalor actual neto sea positivo.
presente, es calculado mediante la aplicación de una tasatesorería que se espera recibir en el futuro; es decir, es
en metros:
previamente el valor con
típica) son importantes a lugar, la varianza (resp.
se le añade una en este caso la
típica cambia en siguiente proposición
hace que el VAN (valor iguala el valor actual de
negativos actualizados de se considere
inversión que consiste transcurso de la inversión,
inversión inicial), donde éstas coste de capital adecuado
recomienda realizar
tasa de descuento, de la cantidad de dinero
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
10
que sería necesaria invertir hoy para que, a un tipo de interés dado, se obtuvieran los flujos de caja previstos.
CORRELACIÓN LINEAL
Objetivo principal del análisis de correlación lineal es medir la intensidad de una relación lineal entre dos variables. A continuación se estudian algunos diagramas de dispersión que indican diferentes relaciones entre las variables independientes x y las variables dependientes y. Si Y dependientes no existe un cambio definido en los valores de y conforme aumentan los valores de x, se dice que no hay correlación o que no existe relación entre x y y. En cambio, si al aumentar x hay una modificación definida en los valores de y, entonces existe correlación.
En este último caso la correlación es positiva cuando y tiende a aumentar, y negativa cuando y decrece. Si tanto los correlación lineal valores de x como los de y tienden a seguir una dirección recta, existe una correlación lineal.
La precisión del cambio en y conforme x incrementa su valor, determina la solidez de la correlación lineal. Los diagramas de dispersión de la Figura 3-2 ilustran estas nociones.
Hay una correlación lineal perfecta cuando todos los puntos están situados a lo largo de una recta en forma exacta, como se muestra en la Figura. Esta correlación puede ser positiva o negativa, dependiendo de que y aumente o disminuya conforme x aumenta. Si los datos forman una recta vertical u horizontal no existe correlación, pues una variable no tiene efecto sobre la otra.
PROBABILIDAD Y
TIPOS DE PROBABILIDAD
Históricamente se han desarrollado tres diferentes enfoques conceptuales para definir la probabilidad y para determinar valores de probabilidad:
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
11
el clásico,
el de frecuencia relativa y
el subjetivo.
De acuerdo con el enfoque clásico de la probabilidad, si N(A) resultados elementales posibles son favorables en el evento A, y existe N(S) posibles resultados en el espacio muestral y todos los resultados elementales son igualmente probables y mutuamente excluyentes; entonces, la probabilidad de que ocurra el evento A es
N(A)
P(A) = -------------
N(S)
Obsérvese que el enfoque clásico de la probabilidad se basa en la suposición de que cada uno de los resultados es igualmente probable. Debido a que este enfoque (cuando es aplicable) permite determinar los valores de probabilidad antes de observar cualesquiera eventos muestrales, también se le denomina enfoque a priori.
EJEMPLO
En un mazo de cartas bien barajadas que contiene 4 ases y 48 cartas de otro tipo, la probabilidad de obtener un as (A) en una sola extracción es
N(A) 4 1
P(A) = ---------- = ----- = ----
N(S) 52 13
A través del enfoque de frecuencia relativa, se determina la probabilidad con base en la proporción de veces que ocurre un resultado favorable en un determinado número de observaciones o experimentos. No hay implícita ninguna suposición previa de igualdad de probabilidades. Debido a que para determinar los valores de probabilidad se requiere de la observación y de la recopilación de datos, a este enfoque se le denomina también enfoque empírico. La probabilidad de que ocurra un evento A, de acuerdo con el enfoque de frecuencia relativa es
Número de observaciones de A n(A)
P(A) = -------------------------------------- = -------
Tamaño de la muestra n
EJEMPLO.
Antes de incluir la cobertura para ciertos tipos de problemas dentales en pólizas de seguros médicos para adultos con empleo, una compañía de seguros desea determinar la probabilidad de ocurrencia de esa clase de problemas, para que pueda fijarse la prima de seguros de acuerdo con esas cifras. Por ello, un especialista en estadística recopila datos para 10,000 adultos que se
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
12
encuentran en las categorías de edad apropiadas y encuentra que 100 de ellos han experimentado el problema dental específico durante el año anterior.
Por ello, la probabilidad de ocurrencia es:
n(A) 100
P(A) = ------- = --------- = 0.01, o 1%
n 10,000
Tanto el enfoque clásico como el de frecuencia relativa producen valores de probabilidad objetivos, en el sentido de que señalan la tasa relativa de ocurrencia del evento a largo plazo.
Por el contrario, el enfoque subjetivo a la probabilidad es particularmente apropiado cuando sólo existe una probabilidad de que el evento ocurra, y se da el caso de que ocurra o no esa única vez. De acuerdo con el enfoque subjetivo, la probabilidad de un evento es el grado de confianza que una persona tiene en que el evento ocurra, con base en toda la evidencia que tiene disponible. Debido a que el valor de la probabilidad es un juicio personal, al enfoque subjetivo se le denomina también enfoque personalista.
EJEMPLO
Debido a los impuestos y a los posibles usos alternativos de sus fondos, un inversionista ha determinado que la compra de terrenos vale la pena sólo si existe una probabilidad de cuando menos 0.90 de que el terreno obtenga plusvalía por 50% o más en los próximos 4 años. Al evaluar un determinado terreno, el inversionista estudia los cambios en los precios en el área en años recientes, considera los niveles corrientes de precios, estudia el estado corriente y futuro probable de los proyectos de desarrollo inmobiliarios y revisa las estadísticas referentes al desarrollo económico del área geográfica global. Con base en esta revisión, concluye que existe una probabilidad de aproximadamente 0.75% de que se dé la plusvalía que requiere. Como esta probabilidad es menor que la mínima que requiere, (0.90), no debe llevarse a cabo la inversión
DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES ALEATORIAS DISCRETAS:
BINOMIAL, HIPERGEOMÉTRICA Y POISSON.
DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES ALEATORIAS
En contraste con un evento, una variable aleatoria es un evento numérico cuyo valor se determina mediante un proceso al azar. Cuando se asignan valores de probabilidad a todos los valores numéricos posibles de una variable aleatoria X, ya sea mediante un listado o a través de una función matemática, se obtiene como resultado una distribución de probabilidad. La suma de las probabilidades para todos los resultados numéricos posibles debe ser igual 1.0. Pueden denotarse los valores de probabilidad individuales mediante el símbolo f(x), lo cual implica que hay implícita una función matemática; mediante P(x=X), el cual implica que la variable aleatoria puede asumir diversos valores específicos, o simplemente mediante P(X).
Para una variable aleatoria discreta, se pueden enlistar todos los valores numéricos posibles de la variable en una tabla con las probabilidades correspondientes. Existen diversas distribuciones estándar de probabilidad que pueden utilizarse como modelos para una amplia gama de variables aleatorias discretas en aplicaciones de negocios. Los modelos estándar que se describiremos son las distribuciones de probabilidad binomial, hipergeométrica y Poisson.
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
13
Para una variable aleatoria continua no es posible enlistar todos los posibles valores fraccionarios de la variable y, por lo tanto, las probabilidades que se determinan a través de una función matemática se ilustran en forma gráfica mediante una función de densidad de probabilidad o curva de probabilidad. Más adelante se describen diversas distribuciones estándar de probabilidad que pueden servir como modelos para variables aleatorias continuas.
EJEMPLO
En la siguiente tabla se muestra el número de camionetas que se han solicitado para renta en una arrendadora de automóviles, en un periodo de 50 días. En la última columna de la Tabla se incluyen las frecuencias observadas en este periodo de 50 días, convertidas en probabilidades. Así, puede observarse que la probabilidad de que se hayan solicitado exactamente siete camionetas en un día elegido al azar en ese periodo es de 0.20, y que la probabilidad de que se hayan solicitado seis o más es de 0.20 + 0.20 + 0.08 = 0.56.
Demanda diaria de arrendamiento de camionetas
durante un periodo de 50 días
Demanda posible X
Número de días
Probabilidad [P (X)]
3 3 0.06
4 7 0.14
5 12 0.24
6 14 0.28
7 10 0.20
8 4 0.08
50 1.00
EL VALOR ESPERADO Y LA VARIANZA DE UNA VARIABLE ALEATORIA DISCRETA
De la misma manera en que se hace para conjuntos de datos muestrales y poblacionales, con frecuencia resulta útil describir una variable aleatoria en términos de su media y su varianza. La media (a largo plazo) de una variable aleatoria X se denomina valor esperado y se denota mediante E(X). Para una variable aleatoria discreta, resulta ser el promedio ponderado de todos los valores numéricos posibles de la variable, utilizando las probabilidades correspondientes como pesos. Como la suma de los pesos (probabilidades) es 1.0, puede simplificarse la fórmula de la media ponderada de manera que el valor esperado de una variable aleatoria discreta es
E(X) = ðXP(X)
EJEMPLO
Con base en los datos de la Tabla anterior, se presentan en la Tabla siguiente los cálculos que conducen al valor esperado de la variable aleatoria. El valor esperado es 5.66 camionetas. Observe que el valor esperado de la variable discreta puede ser un valor fraccionario porque representa el valor promedio a largo plazo y no el valor específico de determinada observación.
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
14
Cálculo del valor esperado para la demanda de camionetas
Demanda posible X Probabilidad [ P (X) ]
Valor ponderado [ X P (X) ]
3 0.06 0.18
4 0.14 0.56
5 0.24 1.20
6 0.28 1.68
7 0.20 1.40
8 0.08 0.64
1.00 E(X) = 5.66
La varianza de una variable aleatoria X se denota mediante V(X); se calcula con respecto a E(X) como la media de la distribución de probabilidad. La forma general de desviaciones para la fórmula de la varianza de una variable aleatoria discreta es
V(X) = ð[X-E(X)-E(X)]2 P(X)
La forma abreviada para la fórmula de la varianza de una variable aleatoria discreta, que no requiere el cálculo de las desviaciones con respecto a la media, es
V(X) = ð X2 P(X) - [ð XP(X)]2 = E(X2) - [E(X)]2
EJEMPLO
En la siguiente Tabla se presenta la hoja de trabajo utilizada para el cálculo de la varianza de la demanda de renta de camionetas, utilizando la versión abreviada de la fórmula. Tal como se señala enseguida, el valor de la varianza es de 1.74.
V(X) = E(X2-[E(X)]2 = 33.78-(5.66)2 = 33.78-32.04 = 1.74
Hoja de trabajo para el cálculo de la varianza para la demanda de camionetas
Demanda posible
X Probabilidad [P(X)]
Valor ponderado [XP(X)]
Demanda al cuadrado
(X2)
Valor ponderado al cuadrado [X2P(X)]
3 0.06 0.18 9 0.54
4 0.14 0.56 16 2.24
5 0.24 1.20 25 6.00
6 0.28 1.68 36 10.08
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
15
7 0.20 1.40 49 9.80
8 0.08 0.64 64 5.12
E(X) = 5.66 E(X2) = 33.78
LA DISTRIBUCIÓN BINOMIAL
La distribución binomial es una distribución discreta de probabilidad aplicable como modelo a diversas situaciones de toma de decisiones, siempre y cuando pueda suponerse que el proceso de muestreo se ajusta a un proceso Bernoulli. Un proceso Bernoulli es un proceso de muestreo en el que:
(1) Sólo son posibles dos resultados mutuamente excluyentes en cada ensayo u observación. Por conveniencia, a estos resultados se les denomina éxito y fracaso.
(2) Los resultados del conjunto de ensayos u observaciones, constituyen eventos independientes.
(3) La probabilidad de éxito, que se denota mediante p, permanece constante de un ensayo a otro. Es decir, el proceso es estacionario.
Puede utilizarse la distribución binomial para determinar la probabilidad de obtener un número determinado de éxitos en un proceso Bernoulli. Se requieren tres valores: el número específico de éxitos (X), el número de ensayos u observaciones (n) y la probabilidad de éxito en cada uno de los ensayos (p). La fórmula para determinar la probabilidad de un número determinado de éxitos X para una distribución binomial, en donde q = (1-p) es:
P(Xðn, p) = nCXpXqn-X
n!
= ----------- px q n-x
X! (n-X)!
EJEMPLO
La probabilidad de que un prospecto de ventas elegido al azar realice una compra es de 0.20. Si un vendedor visita a seis prospectos, la probabilidad de que realice exactamente cuatro ventas se determina de la siguiente manera:
P(X = 4ðn = 6, p = 0.20) = 6C4(0.20)4(0.80)2 = 6! (0.20)4(0.80)2
4!2!
6x5x4x3x2
= ------------- (0.0016)(0.64) = 0.01536 ð 0.015
(4x3x2)(2)
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
16
Con frecuencia existe interés en la probabilidad acumulada de "X o más" éxitos o "X o menos" éxitos en n ensayos. En este caso, debe determinarse la probabilidad de cada uno de los resultados incluidos dentro del intervalo designado, y entonces sumar esas probabilidades.
EJEMPLO
En relación con el ejemplo anterior la probabilidad de que el vendedor logre 4 o más ventas se determina de la siguiente manera:
P(X ≥ 4ðn=6, p=0.20) = P(X=4) + P(X=5) + P(X=6)
= 0.01536 + 0.001536 + 0.000064 = 0.016960 ð 0.017
en donde P(X=4) = 0.1536 (del ejemplo anterior
P(X=5) = 6C5(0.20)5(0.80)1 = 6! (0.20)5(0.80) = 6(0.00032)(080) = 0.001536
5! 1!
P(X=6) = 6C6(0.20)6(0.80)0 = 6! (0.000064)(1) = (1)(0.000064) = 0.00064
6! 0!
(Nota: recuérdese que cualquier valor elevado a la potencia 0 es igual a 1).
Como el uso de la fórmula binomial implica una cantidad considerable de cálculos cuando la muestra es relativamente grande, con frecuencia se utilizan tablas de probabilidades binomiales.
LA DISTRIBUCIÓN HIPERGEOMÉTRICA
Cuando el muestreo se realiza sin reemplazo para cada uno de los elementos que se toman de una población finita de elementos, no se puede aplicar el proceso Bernoulli debido a que existe un cambio sistemático en la probabilidad de éxitos al ir extrayendo elementos de la población. Cuando se utiliza el muestreo sin reemplazo en alguna situación en la que, de no ser por el no reemplazo, se le pudiera calificar como proceso de Bernoulli, la distribución discreta de probabilidad apropiada resulta ser la distribución hipergeométrica.
Si X es el número designado de éxitos, N es el número de elementos de la población, T es el número total de "éxitos" incluidos en la población y n es el número de elementos de la muestra, la fórmula para determinar las probabilidades hipergeométricas es
N - T T
n - X X
P(XðN, Tn) = ----------------
N
n
EJEMPLO
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
17
De seis empleados, tres han estado con la compañía durante cinco o más años, si se eligen cuatro empleados al azar de ese grupo la probabilidad de que exactamente dos de ellos tengan una antigüedad de cinco años o más es:
6-3 3 3 3 3 ! 3 !
4-2 2 2 2 2!1! 2!1! (3) (3)
P(X=2ðN=6, T=3 n=4) = ------------- = ------------ = ------------- = ----------
6 6 6! 15
4 4 4!2!
= 0.60
Nótese que en el ejemplo anterior, el valor que se requiere de la probabilidad se calcula determinando el número de combinaciones diferentes que incluirían a dos empleados con antigüedad suficiente y dos con menor antigüedad como cociente del número total de combinaciones de cuatro empleados, tomados de entre los seis. Por ello, la fórmula hipergeométrica es una aplicación directa de las reglas de análisis combinatorio.
Cuando la población es grande y la muestra es relativamente pequeña, el hecho de que se realice el muestreo sin reemplazo tiene poco efecto sobre la probabilidad de éxito en cada ensayo. Una regla práctica conveniente consiste en utilizar la distribución binomial como aproximación a la hipergeométrica cuando n<0.05N. Es decir, el tamaño de la muestra debe ser cuando menos del 5% del tamaño de la población. En diferentes textos pueden encontrarse reglas un tanto distintas para determinar los casos en los que una aproximación como ésta es apropiada.
LA DISTRIBUCIÓN DE POISSON.
Puede utilizarse la distribución de Poisson para determinar la probabilidad de que ocurra un número designado de eventos, cuando esto ocurre en un continuo de tiempo o espacio. A un proceso como este se le denomina proceso Poisson; es similar al proceso Bernoulli excepto en que los eventos ocurren en un continuo (por ejemplo en un intervalo de tiempo) en vez de ocurrir en ensayos u observaciones fijas. Un ejemplo es la entrada de llamadas en un conmutador telefónico. Al igual que en el caso del proceso Bernoulli, se supone que los eventos son independientes y que el proceso es estacionario.
Sólo se requiere un valor para determinar la probabilidad de que ocurra un número designado de eventos en un proceso de Poisson: el número promedio a largo plazo de eventos para el tiempo o dimensión específico de interés. Por lo general, esta media se representa mediante ð (la letra griega "lambda") o, es posible, mediante ð. La fórmula para determinar la probabilidad de un número determinado de éxitos N en una distribución Poisson es
ðxe-ð
P(Xðð) = --------
X!
Aquí, e es la constante 2.7183 que es la base de los logaritmos naturales.
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
EJEMPLO
Un departamento de reparaciónpor hora. La probabilidad de queal azar es
(5)3e-5 (125)(0.00674)
P(X =3ðð=5.0) = -------- = -------------------
3! 6
DISTRIBUCIONES DE PROBABILIDAD
NORMAL Y EXPONENCIAL
VARIABLES ALEATORIAS CONTINUAS
A diferencia de una variable aleatoriatomar cualquier valor fraccionarioinfinito de posibles medicionesuna probabilidad correspondiente.Esta expresión matemática dacualquier valor designado de denomina curva de probabilidadprobabilidad de la ocurrencia
EJEMPLO
Para la distribución continua deembarque seleccionado al azarproporción del área total bajo que el área total bajo la funciónproporción de esta área que sela integración (del cálculo diferencialprobabilidad para esa curva de
Existen diversas distribucionesmodelos a una amplia gama dede probabilidades para esas distribucionesde la integración para determinar
:: CURSOS CENEVAL EN TOLUCA
18
reparación de maquinaria recibe un promedio de cinco solicitudesque se reciban exactamente tres solicitudes en una
------------------- = 0.1404
PROBABILIDAD PARA VARIABLES ALEATORIAS CONTINUAS:
CONTINUAS
aleatoria discreta, una variable aleatoria continua fraccionario en un rango determinado de valores. Como
mediciones fraccionarias, no pueden enlistarse todos los valorescorrespondiente. Más bien, se define una función de densidad
da la función de X, y se representa mediante el símbolo la variable aleatoria X. A la gráfica de una función
probabilidad y el área entre dos puntos cualesquiera bajo la aleatoria de un valor entre esos dos puntos.
de probabilidad de la figura siguiente, la probabilidadazar tenga un peso neto entre 3,000 y 4,000 kilogramos
la curva que se encuentra en el área sombreada.función de densidad de probabilidad es igual a 1, y puede
se encuentra entre dos puntos determinados aplicandodiferencial e integral) junto con la función matemática
de probabilidad.
distribuciones continuas de probabilidad comunes que son aplicablesde variables continuas en determinadas circunstancias.distribuciones estándar, haciendo que resulte innecesario
determinar las áreas bajo la curva de probabilidad para
solicitudes de servicio una hora seleccionada
CONTINUAS:
es la que puede existe un número
valores posibles con densidad de probabilidad.
símbolo f(X), para función de este tipo se le
la curva de la
probabilidad de que un kilogramos es igual a la
sombreada. Es decir, se define puede determinarse la
aplicando el método de matemática de densidad de
aplicables como circunstancias. Existen tablas
innecesario el método estas distribuciones.
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
Los modelos comunes de distribucionesdistribuciones normal y la exponencial.
LA DISTRIBUCIÓN NORMAL
La distribución normal de probabilidadmismo tiempo, simétrica y mesokúrticadescribe a la curva de probabilidadse muestra.
La distribución normal de probabilidadprincipales:
Se sabe que las medicionesde distribución.
Con frecuencia pueden utilizarsedistribuciones de probabilidad
Las distribuciones de estadísticasdistribución normal cuando el distribución de la población de
Como se mencionó antes, en posible determinar un valor dedensidad, o curva de probabilidad,
1 -[(X-ð)2/2σ2]
f(X) = -------- e
2ðσð
en donde ð es la constante 3.1416,la desviación estándar de la distribución.distribución normal de probabilidadprobabilidades normales se basan
La distribución normal estándarvalor X de una población con equivalente, z, mediante la fórmula
:: CURSOS CENEVAL EN TOLUCA
19
distribuciones de probabilidad continua que se describenexponencial.
NORMAL DE PROBABILIDAD
probabilidad es una distribución continua de probabilidadmesokúrtica (que no es plana ni puntiaguda). Con frecuencia
probabilidad que representa la distribución normal como
probabilidad es muy importante en inferencia estadística
mediciones que se obtienen en muchos procesos aleatorios
utilizarse las probabilidades normales para aproximarprobabilidad tales como las distribuciones binomial y Poisson.
estadísticas como la media muestral y la proporción muestral tamaño de la muestra es grande, sin importar la
de origen.
el caso de las distribuciones continuas de probabilidadde probabilidad para un intervalo de valores. La altura
probabilidad, para un variable con distribución normal está
3.1416, e es la constante 2.7183, ð es la media dedistribución. Como cualquier combinación distinta
probabilidad distinta (todas ellas simétricas y mesokúrticas),basan en una distribución específica:
estándar. Ésta es una distribución normal en la que ð=0 distribución normal puede convertirse a su valor
fórmula
describen son las
probabilidad que es, al frecuencia se
como una campana como
estadística por tres razones
aleatorios tienen esta clase
aproximar otras Poisson.
muestral tienen forma de la
probabilidad sólo es altura de la función de está dada por
de la distribución y σ es distinta de ð y σ genera una
mesokúrticas), las tablas de las
ð=0 y σ=1. Cualquier normal estándar
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
X-ð
z = -----
σ
PUNTOS PERCENTILES PARA
Puede recordarse que el puntovalores se encuentran por debajoes el valor de z tal que la proporciónes 0.90.
EJEMPLO
En la siguiente figura se ilustraestándar. Para determinar el valorcontrario al común, porque, enes 0.40, tal como se ha especificado,busca en el cuerpo de la tablaDeterminando los encabezadosasociado con esta área es 1.28,
Dado el procedimiento de estedistribución normal estándar, con distribución normal convirtiendola fórmula
X= ð+zσ
APROXIMACIÓN NORMAL A
Cuando el número de observacionesdistribución normal de probabilidadconveniente consiste en afirmarnp ≥ 5 como nq ≥ 5. Esta regla,aproximación de Poisson a laslas probabilidades binomialesPoisson, dependiendo de los distintas para determinar los casos
:: CURSOS CENEVAL EN TOLUCA
20
PARA VARIABLES CON DISTRIBUCIÓN NORMAL
punto percentil 90 es el punto de la distribución tal quedebajo de él y el 10% por encima. Para la distribución
proporción total de área a la izquierda de ese valor, bajo
ilustra la posición del punto percentil 90 para la distribuciónvalor requerido de z, se utiliza la tabla correspondiente
en este caso, el área bajo la curva entre la media especificado, y se desea determinar el valor correspondientetabla el valor más cercano a 0.4000. Este valor resulta
encabezados del renglón y de la columna, se encuentra que1.28, y por lo tanto, z 0.90 = + 1.28.
este ejemplo, que permite determinar un punto percentil puede determinarse un punto percentil para una
convirtiendo el valor pertinente de z al valor que se requiere
A PROBABILIDADES BINOMIALES
observaciones o ensayos n es relativamente grande, puedeprobabilidad para aproximar las posibilidades binomiales.
afirmar que esas aproximaciones son aceptables cuandoregla, en combinación con la que se proporciona con
las probabilidades binomiales, significa que en los binomiales pueden aproximarse, ya sea mediante la distribución
valores np y nq. Algunos otros textos pueden utilizarcasos en los que esas aproximaciones son apropiadas.
NORMAL
que el 90% de los distribución normal estándar,
bajo la curva normal,
distribución normal correspondiente en el sentido
y el punto de interés correspondiente de z. Se
resulta ser 0.3997. que el valor de z
percentil para la variable aleatoria
requiere de X, mediante
puede utilizarse la binomiales. Una regla
cuando n ≥ ðð, y tanto con respecto a la
casos en que n ≥ 30, distribución normal o la de
utilizar reglas un tanto apropiadas.
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
21
Cuando se utiliza la distribución normal de probabilidad como base para aproximar un valor binomial de probabilidad, la media y la desviación estándar se basan en un valor esperado y la varianza del número de éxitos de la distribución binomial, el número promedio de “éxitos” es
ð = np
La desviación estándar del número de “éxitos” es
σ = npq
APROXIMACIÓN NORMAL A PROBABILIDADES DE POISSON
Cuando la media ð de una distribución Poisson es relativamente grande, puede utilizarse la distribución normal de probabilidad para aproximar probabilidades tipo Poisson. Una regla práctica consiste en afirmar que esa aproximación es aceptable cuando ð ≥10.0.
La media y la desviación están dar de la distribución normal de probabilidad se basan en el valor esperado y la varianza del número de eventos de un proceso Poisson. Esta media es
ð = ð
La desviación estándar es
σ = ð
PRUEBA DE HIPÓTESIS SOBRE LA MEDIA DE UNA POBLACIÓN.
ETAPAS BÁSICAS EN PRUEBAS DE HIPÓTESIS
Al realizar pruebas de hipótesis. se parte de un valor supuesto (hipotético) de un parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la estadística muestral, así como la media (X), con el parámetro hipotético, se compara con una supuesta media poblacional (ð). Después. se acepta o se rechaza el valor hipotético, según proceda, se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.
Etapa 1: Plantear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor hipotético del parámetro que se compara con el resultado muestral. Se rechaza sólo si el resultado muestral es muy poco probable en el caso de que la hipótesis sea cierta. Se acepta la hipótesis alternativa (H1) sólo si se rechaza la hipótesis nula.
EJEMPLO.
Un auditor desea probar el supuesto de que el valor promedio de todas las cuentas por cobrar en un empresa determinada es $260,000, tomando una muestra de n=36 y calculando la media muestral. Desea rechazar el valor del supuesto de $260,000 sólo si la media muestral lo contradice en forma clara, por lo que debe “darse el beneficio de la duda” al valor hipotético en el procedimiento de prueba. Las hipótesis nula y alternativa para esta prueba son H0: ð = $ 260,000 H1: ðð260,000.
Etapa 2: Especificar el nivel de significancia que se va a utilizar. El nivel de significancia es el estándar estadístico que se especifica para rechazar la hipótesis nula. Si se especifica un nivel de significancia del 5%, entonces se rechaza la hipótesis nula solamente si el resultado muestral es
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
22
tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoriamente con una probabilidad de 0.05 o menos.
Debe observarse que si se utiliza el nivel de significancia del 5%, existe una probabilidad del 0.05 de rechazar la hipótesis nula cuando, de hecho, es cierta. A esto se le denomina error tipo I. La probabilidad del error tipo I es siempre igual al nivel de significancia que se utiliza como criterio para rechazar la hipótesis nula; se le designa mediante la letra griega ð ("alfa") Y, por ello, ð designa el nivel de significancia. Los niveles de significancia que se utilizan con mayor frecuencia en las pruebas de hipótesis son el 5 y el 1%.
Ocurre un error tipo II si se acepta la hipótesis nula cuando, de hecho, es falsa. En la siguiente Tabla se resumen los tipos de decisiones y las consecuencias posibles, al realizar pruebas de hipótesis.
Decisiones posibles
Situaciones posibles
La hipótesis nula es verdadera
La hipótesis nula es
falsa
Aceptar la hipótesis nula
Se acepta correctamente
Error
tipo II
Rechazar la hipótesis nula
Error
tipo I
Se rechaza correctamente
Etapa 3: Elegir la estadística de prueba. La estadística de prueba puede ser la estadística muestral (el estimador no sesgado del parámetro que se prueba) o una versión transformada de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una media poblacional, se toma la media de una muestra aleatoria de esa población para utilizarla como estadística de prueba. Sin embargo, si la distribución de muestreo de la media tiene distribución normal, entonces es común que se transforme la media muestral en un valor z el cual. a su vez, sirve como estadística de prueba.
Etapa 4: Establecer el valor o valores críticos de la estadística de prueba. Habiendo especificado la hipótesis nula, el nivel de significancia y la estadística de prueba que se van a utilizar, se procede a establecer el o los valores críticos de estadística de prueba. Puede haber uno o más de esos valores, dependiendo de si se va a realizar una prueba de uno o dos extremos. En cualquier caso, un valor crítico identifica el valor de estadística de prueba que se requiere para rechazar la hipótesis nula.
Etapa 5: Determinar el valor real de la estadística de prueba. Por ejemplo, al probar un valor hipotético de la media poblacional, se toma una muestra aleatoria y se determina el valor de la media muestral. Si el valor crítico que se establece es un valor de z, entonces se transforma la media muestral en un valor de z.
Etapa 6: Tomar la decisión. Se compara el valor observado de la estadística muestral con el valor (o valores) críticos de la estadística de prueba. Después, se acepta o se rechaza la hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá efecto sobre otras
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
23
decisiones de los administradores operativos, como por ejemplo, mantener o no un estándar de desempeño o cuál de dos estrategias de mercadotecnia utilizar.
PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA UTILIZANDO LA DISTRIBUCIÓN NORMAL
Puede utilizarse la distribución normal para probar un valor hipotético de la media poblacional:
Cuando n ≥ 30, utilizando teorema del límite central, o
Cuando n < 30, pero la distribución de la población es normal y se conoce
Se utiliza una prueba de dos extremos cuando lo que interesa es una posible desviación en cualquier dirección, a partir del valor hipotético de la media. La fórmula que se utiliza para establecer los valores críticos de la media muestra! es similar la que se utiliza para determinar los límites de confianza para estimar la media de una población, excepto que el valor hipotético de la media poblacional ð0 es el punto de referencia, y no la media muestral. Los valores críticos de la media muestral para una prueba de dos extremos, dependiendo de si se conoce σ, son:
XCR = ð0 ð Zσx
o XCR = ð0 ð zsx
EJEMPLO
Para la hipótesis nula que se planteó en el ejemplo anterior, determine los valores críticos de la media muestral para probar la hipótesis con un nivel de significancia del 5%. Como se sabe que la desviación estándar de las cuentas por cobrar es σ = 43,000, los valores críticos son:
Hipótesis: H0: ð = $260,000; H1: ð ð $260,000
Nivel de significancia = ð = 0.05
Estadística de prueba: X con base en una muestra de n=36, y con una σ = 43,000
XCR = valores críticos de la media muestral
XCR = ð0 ð Zσx = 260,000 ð 1.96 σ/ ðn = 260,000 ð 1.96 43,000 / ð36
= 260,000 ð 1.967166.67 = 266,000 ð 14,046.67 = $245,953.33 y 274,046.67
Por lo tanto, para rechazar la hipótesis nula, la media muestral debe tener un valor inferior a $245,950 o mayor de $274,050. Así, existen dos regiones de rechazo en el caso de una prueba de dos extremos. Se utilizan los valores de z de ð 1.96 para establecer los límites críticos porque para la distribución normal estándar se tiene 0.05 de proporción del área en los dos extremos (0.025 en cada extremo), lo cual corresponde al valor de ð = 0.05 que se especifica.
En vez de establecer valores críticos en términos de la media muestral como tal, es común que se especifiquen los valores críticos en las pruebas de hipótesis en términos de valores z. Para el nivel de significancia del 5%, los valores críticos z para una prueba de dos extremos son -1.96 y +1.96, por ejemplo. Cuando se determine el valor de la media muestral, se le transforma en un valor z para que pueda compararse con los valores críticos de z. La fórmula de transformación, dependiendo de si se conoce σ o no, es
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
24
X - ð0
z = --------
σx
X - ð0
z = -----------
sx
ERRORES TIPO I y TIPO II EN PRUEBAS DE HIPÓTESIS
Analizaremos en forma completa los errores tipo I y tipo II con respecto a las pruebas de un extremo sobre una media hipotética. Sin embargo, los conceptos que se ilustran aquí son aplicables también a otros modelos de pruebas de hipótesis.
La probabilidad del error tipo I es siempre igual al nivel de significancia que se utiliza al probar hipótesis nulas. Esto es así porque, por definición, la proporción de área en la región de rechazo es igual a la proporción de resultados muestrales que ocurrirían en esa región, cuando la hipótesis es verdadera.
Por lo general, a la probabilidad del error del tipo II se le designa mediante la letra griega ð ("beta"). La única forma en que se puede determinar es con respecto a un valor especifico incluido dentro del rango de la hipótesis alternativa.
DETERMINACIÓN DEL TAMAÑO NECESARIO DA LA MUESTRA PARA LAMEDIA
Antes de extraer la muestra, puede determinarse el tamaño que se requiere especificando (1) el valor hipotético de la media; (2) un valor alternativo especifico para la media, de manera que la diferencia con respecto al valor hipotético resulta considerable; (3) el nivel de significancia que debe utilizarse en la prueba; (4) la probabilidad del error tipo II que se permite; y (5) el valor de la desviación estándar para la población, σð La fórmula para determinar el tamaño mínimo que se requiere para la muestra, a fin de probar un valor hipotético de media con base en la distribución normal es.
(z0 - z1)2σð
n =-------------------
(ðð ð ðð)2
En z0 es el valor critico de z que se utiliza para el nivel de significación especificado (nivel ðð, en tanto que z1 es el valor de z correspondiente a la probabilidad especificada del error tipo II (nivel ðð. El valor de σ debe ser conocido o estimado de alguna manera. Puede utilizarse la formula anterior para pruebas de uno o dos extremos.
El único valor que difiere para los dos tipos de prueba es el valor de z0 que se utiliza.
(Nota: Cuando se está determinando el tamaño mínimo de muestra, siempre se redondean hacia arriba los resultados fraccionarios. Además, si no se conoce σ, o la población no tiene una
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
25
distribución normal, cualquier tamaño de muestra que se calcule debe aumentarse cuando menos a este valor, porque la fórmula anterior se basa en el uso de la distribución normal.)
EL MÉTODO DEL VALOR p PARA PROBAR HIPÓTESIS NULAS REFERENTES A UNA MEDIA POBLACIONAL
Al seguir el método del valor p en vez de comparar el valor observado de un estadístico de prueba con un valor crítico, se determina la probabilidad de ocurrencia del estadístico de prueba, suponiendo que la hipótesis nula es cierta, y se le compara con el nivel de significancia ð. Se rechaza la hipótesis nula si el valor p es inferior al nivel designado ð.
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL
OBJETIVOS Y SUPOSICIONES DEL ANÁLISIS DE REGRESIÓN
El principal objetivo del análisis de regresión es estimar el valor de una variable aleatoria (la variable dependiente) conociendo el valor de una variable asociada (la variable independiente). La ecuación de regresión es la fórmula algebraica mediante la cual se estima el valor de la variable dependiente.
El término de análisis de regresión simple indica que se estima el valor de la variable dependiente con base en una independiente, en tanto que el análisis de regresión múltiple se ocupa de la estimación del valor de la variable dependiente con base en dos o más variables independientes.
Las suposiciones generales en las que se basa el modelo de la regresión que se presenta son: (1) la variable dependiente es una variable aleatoria; (2) las variables dependiente e independiente tienen una relación lineal; y (3) las varianzas de las distribuciones condicionales de la variable dependiente, para diversos valores de la variable independiente, son iguales (homoscedasticidad). La primera suposición indica que, aunque puedan controlarse los valores de la variable independiente, los valores de la variable dependiente se deben obtener a través del proceso de muestreo.
Si se utiliza la estimación por intervalos en el análisis de regresión, se requiere una suposición adicional: (4) las distribuciones condicionales de la variable dependiente, para valores diferentes de la variable dependiente, son todas distribuciones normales para la población de valores.
EJEMPLO
Un analista desea estimar el tiempo de entrega de refacciones industriales embarcadas por camión. Desea utilizar el tiempo de entrega como variable dependiente y la distancia como variable independiente. Suponga que elige diez embarques recientes de los registros de la compañía, de manera que las distancias por carretera correspondientes están más o menos equitativamente dispersas entre 100 y 1,000 kilómetros de distancia, y registra el tiempo de entrega para cada embarque. Como se va a utilizar la distancia por carretera como variable independiente, esa selección de viajes con distancias específicas resulta aceptable. Por otro lado, la variable dependiente (el tiempo de entrega) es una variable aleatoria en su estudio, lo cual se ajusta a los supuestos del análisis de regresión. El que las variables tengan o no una relación lineal, por lo general se determina construyendo un diagrama de dispersión o una gráfica de residuales. Estos diagramas se utilizan también para observar si la dispersión vertical (varianza) es más o menos igual a lo largo de la línea de regresión.
DIAGRAMA DE DISPERSIÓN
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
26
Un diagrama de dispersión es una gráfica en la que se traza cada uno de los puntos que representan un par de valores observados para las variables independiente y dependiente. El valor de la variable independiente se grafica con respecto al eje horizontal, y el valor de la variable dependiente y se traza con respecto al eje vertical.
La forma de la relación representada mediante el diagrama de dispersión puede ser curvilínea y no lineal. Para relaciones que no son lineales, un enfoque utilizado con frecuencia consiste en determinar algún método para transformar los valores de una o ambas variables, de manera que la relación de los valores transformados sí sea lineal. Después, puede aplicarse el análisis de regresión a los valores transformados y pueden transformarse los valores estimados de la variable dependiente, de vuelta a la escala original de medición.
EL MÉTODO DE MÍNIMOS CUADRADOS PARA AJUSTAR UNA LÍNEA DE REGRESIÓN
El modelo lineal que representa el modelo de regresión lineal simple es:
Yi = ð0 + ððXi + ði
en donde
Yi - Valor de la variable dependiente en el i-ésimo ensayo u observación.
ðð - Primer parámetro de la ecuación de regresión, que indica el valor de Y cuando X= 0.
ðð - Segundo parámetro de la ecuación de regresión, que indica la pendiente de la línea de regresión.
Xi - El valor especificado de la variable independiente en el i-ésimo ensayo, u observación.
ði - Error aleatorio de muestreo en el i-ésimo ensayo, u observación (E es el griego "épsilon")
RESIDUALES Y GRÁFICAS DE RESIDUALES
Para un valor X dado de la variable independiente. al valor y frecuentemente se le denomina el valor ajustado de la variable dependiente. A la diferencia entre el valor observado y y el valor ajustado y se le denomina residual para esa observación, y se le denota mediante e:
e = Y- y
EL ERROR ESTÁNDAR DEL ESTIMADOR
El error estándar del estimador es la desviación estándar condicional de la variable dependiente Y, dado un valor de la variable independiente X. Para datos poblacionales, el error estándar del estimador se representa mediante el símbolo σ Y.X. La formula de desviaciones que permite estimar este valor con base en datos muestrales es
(ðY- y)2 ðe2
SY.X = -------------- = ----------
n-2 n-2
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
27
INFERENCIAS SOBRE LA PENDIENTE
Antes de utilizar la ecuación de regresión para realizar estimaciones o predicciones, debe determinarse en primer lugar si, de hecho, existe una relación entre las dos variables de la población o, por otro lado, si pudiera ser que la relación que se observa en la muestra haya ocurrido por azar. Si no existe relación en la población, la pendiente de la línea de regresión poblacional sería cero, por definición: ð1 = 0. Por ello, la hipótesis que generalmente se prueba es H0: ð1= 0. También puede plantearse la hipótesis nula, como prueba con un criterio de calificación, en cuyo caso la hipótesis alternativa no es simplemente que las dos variables están relacionadas, sino que la relación es de algún tipo específico (directa o inversa).
Se prueba el valor hipotético de una pendiente calculando la estadística t y utilizando n -2 grados de libertad. Se pierden dos grados de libertad en el proceso de la inferencia porque se incluyen en el análisis de regresión dos estimaciones de parámetros, b0 y b1. La fórmula general es
b1 - (ð1)0
t = --------------
sb1
en donde
SY.X
Sb1 = -----------------
S X2 - nX2
Sin embargo, cuando la hipótesis nula dice que la pendiente es cero, lo cual generalmente es el caso, se simplifica la fórmula y se plantea de la siguiente manera:
b1
t = ---------
s b1
EL COEFICIENTE DE CORRELACIÓN
Aunque el coeficiente de determinación es relativamente fácil de interpretar, no se prueba muy bien en pruebas estadísticas. Sin embargo, la raíz cuadrada del coeficiente de determinación, que se denomina el coeficiente de correlación r sí se presta para las pruebas estadísticas, porque puede utilizarse para definir una estadística de prueba que tiene distribución t cuando la correlación en la población p es igual a 0. El valor del coeficiente puede variar de -1.00 a +1.00. El signo aritmético asociado con el coeficiente de correlación, que es siempre igual al signo de ð1 de la ecuación de regresión, indica la dirección de la relación entre X y Y (positiva = directa; negativa = inversa). El coeficiente de correlación poblacional, teniendo el mismo signo aritmético que ð1 de la ecuación de regresión es:
p = p2
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
28
El coeficiente de correlación muestral es
r = r2
En resumen, el signo del coeficiente de correlación indica la dirección de la relación entre las variables X y Y, en tanto que el valor absoluto del coeficiente muestra la medida de la relación. El coeficiente de correlación elevado al cuadrado es el coeficiente de determinación e indica la proporción de la varianza de Y que queda explicada por el conocimiento de X (y viceversa).
SIGNIFICACIÓN DEL COEFICIENTE DE CORRELACIÓN
Es común que la hipótesis nula de interés sea que la correlación en la población p = 0, porque si se rechaza esta hipótesis a un nivel especificado ð, se concluiría que existe una relación real entre las variables. También puede plantearse la hipótesis como prueba con un criterio de calificación. Considerando que se satisfacen las suposiciones, la siguiente estadística muestral que incluye a r se distribuye como la distribución t, con gl = n -2, cuando p =0:
r
t = ------------
1-r2
n-2
Probar la hipótesis nula de que p = 0 es equivalente a probar la hipótesis nula de que ð = 0 en la ecuación de regresión.
• Eventos dependientes e independientes, combinaciones y permutaciones
Para aplicar la Regla de Laplace , el cálculo de los sucesos favorables y de los sucesos posibles a veces no plantea ningún problema, ya que son un número reducido y se pueden calcular con facilidad:
Por ejemplo : Probabilidad de que al lanzar un dado salga el número 2. Tan sólo hay un caso favorable, mientras que los casos posibles son seis.
Probabilidad de acertar al primer intento el horóscopo de una persona. Hay un caso favorable y 12 casos posibles.
Sin embargo, a veces calcular el número de casos favorables y casos posibles es complejo y hay que aplicar reglas matemáticas:
Por ejemplo : 5 matrimonios se sientan aleatoriamente a cenar y queremos calcular la probabilidad de que al menos los miembros de un matrimonio se sienten junto. En este caso, determinar el número de casos favorables y de casos posibles es complejo.
Las reglas matemáticas que nos pueden ayudar son el cálculo de combinaciones , el cálculo de variaciones y el cálculo de permutaciones .
a) Combinaciones:
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
Determina el número de subgruposelementos de una nuestra. Cadacomponen, sin que influya el orden.
Por ejemplo , calcular las posiblesnúmeros 1, 2 y 3.
Se pueden establecer 3 parejasparejas (1,2) y (2,1) se consideran
b) Variaciones :
Calcula el número de subgruposelementos de una muestra. Cadacomponen o en el orden de dichos
Por ejemplo , calcular las posiblesnúmero 1, 2 y 3.
Ahora tendríamos 6 posibles subgrupos (1,2) y (2,1) se consideran
c) Permutaciones:
Cálcula las posibles agrupacionespor lo tanto, lo que diferencia
Por ejemplo , calcular las posibles
Hay 6 posibles agrupaciones:
¿Cómo se calculan?
a) Combinaciones:
Para calcular el número de combinaciones
El termino " n ! " se denominadesde "n" hasta 1.
Por ejemplo : 4 ! = 4 * 3 * 2 *
La expresión "Cm,n" representaelementos.
Ejemplo : C10,4 son las combinacioneselementos:
:: CURSOS CENEVAL EN TOLUCA
29
subgrupos de 1, 2, 3, etc. elementos que se pueden formarCada subgrupo se diferencia del resto en los elementos
orden.
posibles combinaciones de 2 elementos que se pueden
parejas diferentes: (1,2), (1,3) y (2,3). En el cálculo deconsideran idénticas, por lo que sólo se cuentan una vez.
subgrupos de 1, 2, 3, etc.elementos que se pueden establecerCada subgrupo se diferencia del resto en los elementosdichos elementos (es lo que le diferencia de las combinaciones).
posibles variaciones de 2 elementos que se pueden
parejas: (1,2), (1,3), (2,1), (2,3), (3,1) y (3,3). En consideran distintos.
agrupaciones que se pueden establecer con todos los elementos a cada subgrupo del resto es el orden de los elementos.
posibles formas en que se pueden ordenar los número
agrupaciones: (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2) y (3,
combinaciones se aplica la siguiente fórmula:
denomina "factorial de n" y es la multiplicación de todos los
1 = 24
representa las combinaciones de "m" elementos, formando
combinaciones de 10 elementos agrupándolos en subgrupos
formar con los "n" elementos que lo
pueden formar con los
de combinaciones las vez.
establecer con los "n" elementos que lo
combinaciones).
pueden establecer con los
este caso los
elementos de un grupo, elementos.
número 1, 2 y 3.
(3, 2, 1)
los números que van
formando subgrupos de "n"
subgrupos de 4
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
Es decir, podríamos formar 210
b) Variaciones:
Para calcular el número de variaciones
La expresión "Vm,n" representaelementos. En este caso, comobien por los elementos que lo
Ejemplo : V10,4 son las variaciones
Es decir, podríamos formar 5.040elementos.
c) Permutaciones:
Para calcular el número de permutaciones
La expresión "Pm" representaLos subgrupos se diferenciaran
Ejemplo : P10 son las permutaciones
Vamos a analizar ahora que ocurriríalas permutaciones en el supuestorepetirse .
:: CURSOS CENEVAL EN TOLUCA
30
210 subgrupos diferentes de 4 elementos, a partir
variaciones se aplica la siguiente fórmula:
representa las variaciones de "m" elementos, formando subgruposcomo vimos en la lección anterior, un subgrupo se diferenciará
lo forman, o bien por el orden de dichos elementos.
variaciones de 10 elementos agrupándolos en subgrupos
5.040 subgrupos diferentes de 4 elementos, a partir
permutaciones se aplica la siguiente fórmula:
representa las permutaciones de "m" elementos, tomando diferenciaran únicamente por el orden de los elementos.
permutaciones de 10 elementos:
ocurriría con el cálculo de las combinaciones, de supuesto de que al formar los subgrupos los elementos
de los 10 elementos.
subgrupos de "n" diferenciará del resto,
elementos.
subgrupos de 4 elementos:
partir de los 10
todos los elementos.
las variaciones o de elementos pudieran
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
Por ejemplo : tenemos bolas pudiera darse el caso de que este caso no podríamos utilizar
a) Combinaciones con repetición:
Para calcular el número de combinaciones
Ejemplo : C'10,4 son las combinacionessubgrupos de 4, en los que 2,
Es decir, podríamos formar 715
b) Variaciones con repetición:
Para calcular el número de variaciones
Ejemplo : V'10,4 son las variacionesde 4 elementos:
Es decir, podríamos formar 10.000
c) Permutaciones con repetición:
Para calcular el número de permutaciones
Son permutaciones de "m" elementos,veces y así ... hasta uno que
Ejemplo : Calcular las permutacionesocasiones y otro se repite en
:: CURSOS CENEVAL EN TOLUCA
31
de 6 colores diferentes y queremos formar subgrupos 2, 3, 4 o todas las bolas del subgrupo tuvieran el
utilizar las fórmulas que vimos en la lección anterior.
repetición:
combinaciones con repetición se aplica la siguiente
combinaciones de 10 elementos con repetición, agrupándolos2, 3 o los 4 elementos podrían estar repetidos:
715 subgrupos diferentes de 4 elementos.
repetición:
variaciones con repetición se aplica la siguiente fórmula:
variaciones de 10 elementos con repetición, agrupándolos
10.000 subgrupos diferentes de 4 elementos.
repetición:
permutaciones con repetición se aplica la siguiente
elementos, en los que uno de ellos se repite " x1 " se repite " xk " veces.
permutaciones de 10 elementos, en los que uno de ellos 3 ocasiones:
subgrupos en los que el mismo color. En
siguiente fórmula:
agrupándolos en
fórmula:
agrupándolos en subgrupos
siguiente fórmula:
veces, otro " x2 "
ellos se repite en 2
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
Es decir, tendríamos 302,400
Ejercicio
Calcular la probabilidad de acertar
Solución:
Se aplica la Regla de Laplaceuno (acertar los 14 signos). Loselementos (1, X y 2), tomados
Son variaciones y no combinacionesson con repetición, ya que cualquiera
Por lo tanto, los casos posibles
Y la probabilidad de acertar los
No demasiado elevada....pero
2.- Ejercicio
Y la probabilidad de acertar 12
Solución:
Aplicamos nuevamente la Reglacombinaciones de 14 elementosalternativas de fallar 2 resultadoscombinaciones y no variaciones6º y el 3º)
Los casos posibles siguen siendo
:: CURSOS CENEVAL EN TOLUCA
32
302,400 formas diferentes de agrupar estos 10 elementos.
acertar los 14 signos de la quiniela:
Laplace (casos favorables / casos posibles). El caso favorableLos casos posibles se calculan como variaciones con
tomados de 14 en 14 (los signos que hay que rellenar).
combinaciones ya que el orden influye: no es lo mismo (1,1,X)cualquiera de los signos (1, X y 2) se puede repetir
posibles son:
los 14 resultados es:
elevada....pero el que la sigue la consigue.
12 signos de la quiniela:
Regla de Laplace . En este caso los casos favorableselementos tomados de 2 en 2, de esta manera obtenemosresultados de 14 (lo que equivale a acertar 12 resultados).
variaciones ya que el orden no importa (da lo mismo fallar
siendo los mismos:
elementos.
favorable es tan sólo con repetición de 3
(1,1,X) que (1, X, 1). Y repetir hasta 14 veces.
favorables se calculan como obtenemos todas las posibles resultados). Utilizamos
fallar el 3º y el 6º, que el
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
Por lo que la probabilidad de
Por lo tanto, tenemos más probabilidadesque pagan menos?).
3.- Ejercicio
Calcular la probabilidad de, enimportar cual de ellos queda primero,
Solución:
Se aplica la Regla de Laplaceprimer lugar. Los casos posiblesen 3 (es decir, determinamos 3 primeras posiciones). Comocombinaciones en lugar de variaciones.
Por lo tanto, los casos posibles
Por lo que la probabilidad de
Algo mayor que en las quinielas....
4.- Ejercicio
Y si hubiera que acertar, no sólo
Solución:
El caso favorable sigue siendoorden correspondiente.
Los casos posibles se calculantomados de 3 en 3 (calculamoslas 3 primeras posiciones.
Por lo que la probabilidad de
:: CURSOS CENEVAL EN TOLUCA
33
acertar 12 resultados es:
probabilidades de acertar 12 resultados que 14 (¿será
en una carrera de 12 caballos, acertar los 3 que quedanprimero, cual segundo y cual tercero).
Laplace . El caso favorable es tan sólo uno: los 3 caballosposibles se calculan como combinaciones de 12 elementos
todos las posibles alternativas de 3 caballos queComo el orden de estos 3 primeros caballos no importa,
variaciones.
posibles son:
acertar los 3 caballos ganadores es:
quinielas.... Eso sí, se paga menos.
sólo los 3 caballos que ganan, sino el orden de su
siendo uno: los 3 caballos que entran en primer lugar,
calculan ahora como variaciones (ya que el orden influye)(calculamos todas las posibles maneras en que los 12 caballos
acertar los 3 caballos ganadores es:
(¿será por eso por lo
quedan primeros (sin
caballos que entran en elementos tomados de 3 que pueden entrar en las
importa, utilizamos
su entrada en meta.
lugar, colocados en su
influye) de 12 elementos caballos podrían ocupar
www.ecyd.com.mx :: CURSOS CENEVAL EN TOLUCA
Menor que en el ejemplo 3º. Yatenemos que acertar el orden
:: CURSOS CENEVAL EN TOLUCA
34
Ya no vale acertar que 3 caballos entran en primerorden de su entrada.
primer lugar, sino que