ESTADISTICA TAREA 1.docx

INSTITUTO TECNOLOGICO DE ORIZABA

ESTADISTICA INFERENCIAL I

TAREA 1

EQUIPO:

MIGUEL GONZALEZ DIAZ

HERNANDEZ FUENTES OLIVER

TEZOCO ZEPAHUA PABLO OSWALDO

RAMIREZ MARIANO

1

ESTADISTICA INFERENCIAL I

1.1 Ejemplos de población finita……………………………………

1.2 Ejemplos de población infinitas………………………………..

1.3 Que es y cómo se representa las medidas de estadística….

1.4 En que consiste la representatividad de una muestra………

1.5 Ejemplos de variable discreta………………………………….

1.6 Ejemplos de variable continúa ………………………………...

1.7 Teoremas de probabilidad y estadística………………………

1.8 formulas………………………………………………………….

1.9 Formulas más importantes…………………………………….

2

¿Qué es la estadística?

La estadística es la parte de las matemáticas que se ocupa de los métodos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis

Población Finita: es el conjunto compuesto por una cantidad limitada de elementos, como el número de especies, el número de estudiantes, el número de obreros.

Ejemplo 1: Calcule la media de los siguientes números:

10, 11, 12, 12, 13

1. Sumar las cantidades < 10 + 11 + 12 + 12 + 13 = 58> 2. Dividir la suma por la cantidad de elementos < 58/5> 3. El resultado es la media <11.6>

Ejemplo 2: Buscar la moda de:

14 16 18 16 15 12 14 14 16 18 20 16 16

El 14 se repite 3 veces. El 18 se repite 2 veces. El 16 se repite 5 veces.

Por lo tanto, la moda es 16.

Ejemplo 3: Buscar la moda de:

23 35 45 33 47 31 29 22

Como ningún número se repite, no tiene moda.

3

Población infinita

Ejemplo 1: Desde la perspectiva de un modelo de espera, la situación de espera

se genera del siguiente modo:

1.- Cuando un cliente llega a la instalación se forma una cola de espera (fila o

línea).

2.-El servidor elige un cliente de la línea de espera para comenzar a prestar el

servicio.

3.-Al finalizar un servicio, el cliente abandona el servicio y se repite el proceso de

elegir un cliente (en espera).

Ejemplo 2:

¿Cuántas palabras de tres letras se pueden formar con cinco consonantes y tres vocales de modo que cada palabra comience y termine en consonante?

C V C

--- --- --- 5.3.4 = 60 (regla del producto)

5 3 4

Ejemplo 3:

Un estudiante que realiza un examen debe responder 7 de las 10 preguntas. El orden no importa. ¿De cuántas formas puede responder el examen?

Existen

10 10! 10.9.8

C7 = --- = ------ = 120

7!3! 3.2.1

Combinaciones posibles de preguntas que puede contestar.

4

MEDIDAS DE ESTADÍSTICA

Medidas descriptivas

Las medidas descriptivas son valores numéricos calculados a partir de la muestra y que nos resumen la información contenida en Ella.

Medidas de Posición: Cuantiles

Los cuantiles son valores de la distribución que la dividen en partes iguales, es decir, en intervalos, que comprenden el mismo número de valores. Los más usados son los cuartiles, los deciles y los percentiles.

PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones, y por encima queda el 85%

5

CUARTILES: son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un caso particular de los percentiles:

- El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de los datos- El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que la mitad de los datos- El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes de los datos

DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son también un caso particular de los percentiles.

Ejemplo:

Dada la siguiente distribución en el número de hijos (Xi) de cien familias, calcular sus cuartiles.

Solución:

1.Primer cuartil:

2.Segundo cuartil:

3.Tercer cuartil:

xi ni Ni

0 14 14

1 10 24

2 15 39

3 26 65

4 20 85

5 15 100

n=100

6

Medidas de Centralización

Nos dan un centro de la distribución de frecuencias, es un valor que se puede tomar como representativo de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones en un conjunto de datos. Por orden de importancia, son:

MEDIA: (media aritmética o simplemente media). es el promedio aritmético de las observaciones, es decir, el cociente entre la suma de todos los datos y el número de ellos. Si xi es el valor de la variable y ni su frecuencia, tenemos que:

Si los datos están agrupados utilizamos las marcas de clase, es decir ci en vez de xi.

MEDIANA (Me): es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. Si el número de datos es impar la mediana será el valor central, si es par tomaremos como mediana la media aritmética de los dos valores centrales.

7

MODA (M0): es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. No tiene porque ser única.

Medidas de Dispersión

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras.

MEDIDAS DE DISPERSIÓN ABSOLUTAS

VARIANZA ( s2 ): es el promedio del cuadrado de las distancias entre cada observación y la media aritmética del conjunto de observaciones.

Haciendo operaciones en la fórmula anterior obtenemos otra fórmula para calcular la varianza:

Si los datos están agrupados utilizamos las marcas de clase en lugar de Xi.

8

DESVIACIÓN TÍPICA (S): La varianza viene dada por las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersión la desviación típica que se define como la raíz cuadrada positiva de la varianza

Para estimar la desviación típica de una población a partir de los datos de una muestra se utiliza la fórmula (cuasi desviación típica):

RECORRIDO O RANGO MUESTRAL (Re). Es la diferencia entre el valor de las observaciones mayor y el menor. Re = xmax - xmin

MEDIDAS DE DISPERSIÓN RELATIVAS

COEFICIENTE DE VARIACIÓN DE PEARSON: Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación de Pearson que se define como el cociente entre la desviación típica y el valor absoluto de la media aritmética

CV representa el número de veces que la desviación típica contiene a la media aritmética y por lo tanto cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media.

9

Medidas de Forma

Comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de barras de la distribución, con la distribución normal.

Medida de asimetría

Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coinciden.

Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más lentamente por la derecha que por la izquierda.

Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda.

Existen varias medidas de la asimetría de una distribución de frecuencias. Una de ellas es el Coeficiente de Asimetría de Pearson:

Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y negativo cuando existe asimetría a la izquierda.

10

Medida de apuntamiento o curtosis

Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones según su grado de curtosis:

Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

11

Representatividad de una muestra Cuando hablamos de Representatividad de una muestra, ¿a qué nos referimos?

- tendrá que ver con un porcentaje determinado del tamaño de la población

- ¿un 20% es suficiente?

- ¿con un 50% alcanzará?,

- ¿o tendrá que ver con la variabilidad de la característica a analizar en la

población?

Veamos el siguiente ejemplo que nos ayudará a no olvidar de que trata la

Representatividad de una muestra.

"Si tenemos dos cortes de telas de unos 8 metros cada uno para hacer unas

cortinas, una es lisa de color amarillo y la otra estampada con flores de diversos

colores y tipos, y necesitamos elegir unos botones adecuados para adornarlas, el

color del barral para colgarlas y el hilo para coserlas, al salir de casa para ir a

buscar todo lo que necesitamos no cargaríamos con los cortes de telas; tan solo

con llevar una muestrita de cada una tendríamos idea exacta de la tela, la

pregunta es:

- ¿la muestra a cortar de tela amarilla será del mismo tamaño que de la

estampada?

Claro que NO, con un cortecito pequeño que hagamos en la punta del corte de

tela amarillo tenemos idea clara del color, sin embargo de la estampada

necesitamos obtener un pedazo de tela más grande y así tener idea de todos los

colores que tiene y que me pudieran servir a la hora de elegir los accesorios.

12

Tamaño de una muestra

En estadística el tamaño de la muestra es el número de sujetos que componen la muestra extraída de una población, necesarios para que los datos obtenidos sean representativos de la población.

Objetivos de la determinación del tamaño adecuado de una muestra

Estimar un determinado con el nivel de confianza deseado.

1. Detectar una determinada diferencia, si realmente existe, entre los grupos de estudio con un mínimo de garantía.

2. Reducir costes o aumentar la rapidez del estudio.

La determinación de un tamaño adecuado de la muestra tendría como objetivo su factibilidad. Así:

1. Si el número de sujetos es insuficiente habría que modificar los criterios de selección, solicitar la colaboración de otros centros o ampliar el período de reclutamiento. Los estudios con tamaños muéstrales insuficientes, no son capaces de detectar diferencias entre grupos, llegando a la conclusión errónea de que no existe tal diferencia.

2. Si el número de sujetos es excesivo, el estudio se encarece desde el punto de vista económico y humano. Además es poco ético al someter a más individuos a una intervención que puede ser menos eficaz o incluso perjudicial.

Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la muestra para datos globales es la siguiente:

N: es el tamaño de la población o universo (número total de posibles encuestados).

K: es una constante que depende del nivel de confianza que asignemos. El nivel de confianza indica la probabilidad de que los resultados de nuestra investigación sean ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar con una probabilidad del 4,5%. Los valores de k se obtienen de la tabla de la distribución normal estándar N (0,1).

Representatividad de una muestra

13

Muestra estadística

En estadística una muestra estadística (también llamada muestra aleatoria o simplemente muestra) es un subconjunto de casos o individuos de una población estadística.

Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir esta característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. En tales casos, puede obtenerse una información similar a la de un estudio exhaustivo con mayor rapidez y menor coste (véanse las ventajas de la elección de una muestra, más abajo).

Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la población porque el manejo de un menor número de datos provoca también menos errores en su manipulación. En cualquier caso, el conjunto de individuos de la muestra son los sujetos realmente estudiados.

El número de sujetos que componen la muestra suele ser inferior que el de la población, pero suficiente para que la estimación de los parámetros determinados tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea idóneo es preciso recurrir a su cálculo

Ventajas de la elección de una muestra

El estudio de muestras es preferible, en la mayoría de los casos, por las siguientes razones:

1. Si la población es muy grande (en ocasiones, infinita, como ocurre en determinados experimentos aleatorios) y, por tanto, imposible de analizar en su totalidad.

2. Las características de la población varían si el estudio se prolonga demasiado tiempo.

3. Reducción de costos: al estudiar una pequeña parte de la población, los gastos de recogida y tratamiento de los datos serán menores que si los obtenemos del total de la población.

4. Rapidez: al reducir el tiempo de recogida y tratamiento de los datos, se consigue mayor rapidez.

5. Viabilidad: la elección de una muestra permite la realización de estudios que serían imposible hacerlo sobre el total de la población.

6. La población es suficientemente homogénea respecto a la característica medida, con lo cual resultaría inútil malgastar recursos en un análisis exhaustivo (por ejemplo, muestras sanguíneas).

7. El proceso de estudio es destructivo o es necesario consumir un artículo para extraer la muestra (ejemplos: vida media de una bombilla, carga soportada por una cuerda, precisión de

14

Tamaño de una muestra

En estadística el tamaño de la muestra es el número de sujetos que componen la muestra extraída de una población, necesarios para que los datos obtenidos sean representativos de la población.

Objetivos de la determinación del tamaño adecuado de una muestra

1. Estimar un parámetro determinado con el nivel de confianza deseado.2. Detectar una determinada diferencia, si realmente existe, entre los grupos de

estudio con un mínimo de garantía.3. Reducir costes o aumentar la rapidez del estudio.

Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la muestra para datos globales es la siguiente:

N: es el tamaño de la población o universo (número total de posibles encuestados).

K: es una constante que depende del nivel de confianza que asignemos. El nivel de confianza indica la probabilidad de que los resultados de nuestra investigación sean ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar con una probabilidad del 4,5%. Los valores de k se obtienen de la tabla de la distribución normal estándar N (0,1).

15

Variables discretas

Una variable discreta es una variable que solo puede tomar valores dentro de un conjunto numerable, es decir, no acepta cualquier valor sino solo aquellos que pertenecen al conjunto. En estas variables se dan de modo inherente separaciones entre valores observables sucesivos. Dicho con más rigor, se define una variable discreta como la variable que hay entre dos valores observables (potencialmente), hay por lo menos un valor no observable (potencialmente).

10 ejemplos:

1 El número de los alumnos de un salón de clase

2 El número de los habitantes de una casa

3 El número de los jugadores en un partido de futbol

4 El número de animales en una granja

5 El número de visitas a un museo

6 El número de personas en un autobús

7 El número de niños en un parque de diversiones

8 Los habitantes de una colonia

9 Número de casas en una manzana

10 Los trabajadores de en una área de trabajo

16

Variables continuas

Una variable continua puede tomar un valor cualquiera dentro de un rango predeterminado. Y siempre entre dos valores observables va a existir un tercer valor intermedio que también podría tomar la variable continua. Una variable continua toma valores a lo largo de un continuo, esto es, en todo un intervalo de valores. Un atributo esencial de una variable continua es que, a diferencia de una variable discreta, nunca puede ser medida con exactitud; el valor observado depende en gran medida de la precisión de los instrumentos de medición. Con una variable continua hay inevitablemente un error de medida.

10 ejemplos:

1 la estatura de una persona

2 el peso de una persona

3 la velocidad de un autobús en un tiempo determinado

4 la Longitud de una línea

5 El tiempo

6 La capacidad de un recipiente

7 la medición de un terreno

8 El peso un objeto

9 La temperatura en un día soleado

10 El promedio de las asignaturas

17

TEOREMAS DE PROBABILIDAD

Teorema de la probabilidad total

El teorema de la probabilidad total afirma lo siguiente:

Sea una partición sobre el espacio muestral y sea un suceso cualquiera

del que se conocen las probabilidades condicionales , entonces la probabilidad del suceso viene dada por la expresión:

Teorema de Bayes

En la teoría de la probabilidad el teorema de Bayes es un resultado enunciado por Thomas Bayes en 1763 que expresa la probabilidad condicional de un evento aleatorio A dado B en términos de la distribución de probabilidad condicional del evento B dado A y la distribución de probabilidad marginal de sólo A.

En términos más generales y menos matemáticos, el teorema de Bayes es de enorme relevancia puesto que vincula la probabilidad de A dado B con la probabilidad de B dado A. Es decir que sabiendo la probabilidad de tener un dolor de cabeza dado que se tiene gripe, se podría saber (si se tiene algún dato más), la probabilidad de tener gripe si se tiene un dolor de cabeza, muestra este sencillo ejemplo la alta relevancia del teorema en cuestión para la ciencia en todas sus ramas, puesto que tiene vinculación íntima con la comprensión de la probabilidad de aspectos causales dados los efectos observados.

Sea un conjunto de sucesos mutuamente excluyentes y exhaustivos, y tales que la probabilidad de cada uno de ellos es distinta de cero (0). Sea

B un suceso cualquiera del que se conocen las probabilidades condicionales .

Entonces, la probabilidad viene dada por la expresión:

dónde:

son las probabilidades a priori.

es la probabilidad de en la hipótesis .

son las probabilidades a posteriori.

18

FÓRMULA DE BAYES

Con base en la definición de Probabilidad condicionada, obtenemos la Fórmula de Bayes, también conocida como la Regla de Bayes:

Teorema del límite central

El teorema del límite central o teorema central del límite indica que, en condiciones muy generales, si Sn es la suma de n variables aleatorias independientes, entonces la función de distribución de Sn «se aproxima bien» a una distribución normal (también llamada distribución gaussiana, curva de Gauss o campana de Gauss). Así pues, el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes es lo suficientemente grande

Definición

De manera formal, normalizada y compacta el enunciado del teorema es:3

Teorema del límite central: Sea , , ..., un conjunto de variables aleatorias, independientes e idénticamente distribuidas con media μ y varianza σ2

distinta de cero. Sea

Entonces

.

Es muy común encontrarlo con la variable estandarizada Zn en función de la media

muestra ,

Puesto que son equivalentes, así como encontrarlo en versiones no normalizadas como puede ser:

Teorema (del límite central): Sea , , ..., un conjunto de variables aleatoria, independientes e idénticamente distribuidas de una distribución con

19

media μ y varianza σ2≠0. Entonces, si n es suficientemente grande, la variable aleatoria

Tiene aproximadamente una distribución normal con y .

Nota: es importante remarcar que este teorema no dice nada acerca de la distribución de , excepto la existencia de media y varianza

Teorema de Bernoulli El Teorema de Bernoulli es un caso particular de la Ley de los grandes números, que precisa la aproximación frecuencia de un suceso a la probabilidad p de que este ocurra a medida que se va repitiendo el experimento.

Dados un suceso A, su probabilidad p de ocurrencia, y n pruebas independientes para determinar la ocurrencia o no-ocurrencia de A.Sea f el número de veces que se presenta A en los n ensayos y un número positivo cualquiera, la probabilidad de que la frecuencia relativa f/n discrepe de p en más de (en valor absoluto) tiende a cero al tender n a infinito. Es decir:

Teorema de Moivre-Laplace En probabilidad el teorema de Moivre-Laplace es una aproximación normal a la distribución binomial. Se trata de un caso particular del Teorema central del límite. Establece que la distribución binomial del número de éxitos en n pruebas independientes de Bernoulli con probabilidad de éxito p en cada intento es, aproximadamente, una

distribución normal de media np y desviación típica , (cabe aclarar que q = 1-p), si n es suficientemente grande y se satisfacen determinadas condiciones.

El teorema apareció por primera vez en la segunda edición de The Doctrine of Chances, de Abraham de Moivre, publicado en 1738. Los "ensayos de Bernoulli" no se llamaron así en ese libro, pero De Moivre escribió lo suficiente sobre la distribución de probabilidad del número de veces que aparecía "cara" cuando se lanzaba una moneda 1800 veces.

El teorema

20

Si , entonces para k en el entorno -de np, se puede aproximar

En forma de límite el teorema establece que:

cuando

21

FORMULAS

Moda

La moda, Mo, es el valor que tiene mayor frecuencia absoluta.

1º Todos los intervalos tienen la misma amplitud.

L i -1 es el límite inferior de la clase modal.

f i es la frecuencia absoluta de la clase modal.

f i - -1 es la frecuencia absoluta inmediatamente inferior a la en clase modal.

f i -+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.

a i es la amplitud de la clase.

También se utiliza otra fórmula de la moda que da un valor aproximado de ésta:

2º Los intervalos tienen amplitudes distintas.

En primer lugar tenemos que hallar las alturas.

La clase modal es la que tiene mayor altura.

La fórmula de la moda aproximada cuando existen distintas amplitudes es:

22

Mediana

Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

1 Si la serie tiene un número impar de medidas la mediana es la puntuación central de la misma.

2 Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos puntuaciones centrales.

Mediana para datos agrupados

Es la semisuma de las frecuencias absolutas.

L i -1 es el límite inferior de la clase donde se encuentra .

F i -1 es la frecuencia acumulada anterior a la clase mediana.

a i es la amplitud de la clase.

Media aritmética

La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos.

23

Cuartiles

Los cuartiles son los tres valores de la variable dividen a un conjunto de datos ordenados en cuatro partes iguales.

Cálculo de los cuartiles

1 Ordenamos los datos de menor a mayor.

2 Buscamos el lugar que ocupa cada cuartil mediante la expresión

.

Cálculo de los cuartiles para datos agrupados

En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.

Deciles

Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.

Cálculo de deciles

Ordenamos los datos de menor a mayor.

Buscamos la puntuación, en la serie, o la clase, en la tabla de las frecuencias

acumuladas, donde se encuentra , .

24

Percentiles

Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.

Cálculo de percentiles

Ordenamos los datos de menor a mayor.

Buscamos la puntuación, en la serie, o la clase, en la tabla de las frecuencias

acumuladas, donde se encuentra ,.

Desviación media

La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.

Desviación media para datos agrupados

25

Varianza

La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

Varianza para datos agrupados

Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

Varianza para datos agrupados

Desviación típica

La desviación típica es la raíz cuadrada de la varianza.

Desviación típica para datos agrupados

26

Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

Desviación típica para datos agrupados

Coeficiente de variación

El coeficiente de variación es la relación entre la desviación típica de una muestra y su media.

Coeficiente de variación en tanto por ciento

Puntuaciones diferenciales

Las puntuaciones diferenciales resultan de restarles a las puntuaciones directas la media aritmética.

xi = Xi − X

Puntuaciones típicas

Las puntuaciones típicas son el resultado de dividir las puntuaciones diferenciales entre la desviación típica. Este proceso se llama tipificación.

27

FORMULAS MÁS IMPORTANTES

28

29

Documents

ESTADISTICA TAREA 1.docx