25
20 ARGUETA LÓPEZ ALEJANDRA BELEN UNIDAD TEMÁTICA 1: ESTADÍSTICA DESCRIPTIVA 1.1 Recopilación de datos Uso de técnicas y herramientas que pueden ser utilizadas para desarrollar sistemas de información, los cuales pueden ser la entrevistas, la encuesta, el cuestionario, la observación, el diagrama de flujo y el diccionario de datos. 1.1.1 Datos no agrupados Es el conjunto de datos obtenidos en una recopilación que no han sido clasificados en clases o categorías, pues no es necesario clasificar dichos datos. Cuando la muestra contiene pocos elementos los datos pueden ser analizados sin necesidad de formar clases con ellos; a esto se le denomina “tratamiento de datos no agrupados”. Es aquella distribución que indica las frecuencias con que aparecen los datos estadísticos, desde el menor de ellos hasta el mayor de ese conjunto sin que se haya hecho ninguna modificación al tamaño de las unidades originales. En estas distribuciones cada dato mantiene su propia identidad después que la distribución de frecuencia se ha elaborado. En estas distribuciones los valores de cada variable han sido solamente reagrupados, siguiendo un orden lógico con sus respectivas frecuencias. EJEMPLO 1.1

Unidad Temática 1

Embed Size (px)

DESCRIPTION

Unidad tematica uno metodo estadistico

Citation preview

Page 1: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

UNIDAD TEMÁTICA 1: ESTADÍSTICA DESCRIPTIVA

1.1 Recopilación de datos

Uso de técnicas y herramientas que pueden ser utilizadas para desarrollar sistemas de

información, los cuales pueden ser la entrevistas, la encuesta, el cuestionario, la

observación, el diagrama de flujo y el diccionario de datos. 

1.1.1 Datos no agrupados

Es el conjunto de datos obtenidos en una recopilación que no han sido clasificados en

clases o categorías, pues no es necesario clasificar dichos datos. Cuando la muestra

contiene pocos elementos los datos pueden ser analizados sin necesidad de formar

clases con ellos; a esto se le denomina “tratamiento de datos no agrupados”.

Es aquella distribución que indica las frecuencias con que aparecen los datos

estadísticos, desde el menor de ellos hasta el mayor de ese conjunto sin que se haya

hecho ninguna modificación al tamaño de las unidades originales. En estas

distribuciones cada dato mantiene su propia identidad después que la distribución de

frecuencia se ha elaborado. En estas distribuciones los valores de cada variable han

sido solamente reagrupados, siguiendo un orden lógico con sus respectivas

frecuencias.

EJEMPLO 1.1

Datos agrupados

Es el conjunto de datos obtenidos en una recopilación que han sido organizados en

varias clases o categorías. El fin de agruparlos es resumir la información adquirida;

generalmente, los elementos son de gran tamaño, por lo cual requieren ser agrupados,

1

Page 2: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

esto implica: ordenar, clasificar y expresarlos en una tabla de frecuencias; para que los

datos puedan clasificarse se debe de verificar que éstos sean significativos, esto es,

que la información sea “repetitiva” y una vez hecha dicha clasificación verificar que

tenga coherencia y lógica.

Es aquella distribución en la que la disposición tabular de los datos estadísticos se

encuentra ordenados en clases y con la frecuencia de clase; es decir, los datos

originales de varios valores adyacentes del conjunto se combinan para formar un

intervalo de clase. No existen normas establecidas para determinar cuándo es

apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que

cuando el número total de datos (N) es igual o superior a 50 y además el rango o

recorrido de la serie de datos es mayor de 20, entonces, se utilizara la distribución de

frecuencia para datos agrupados, también se utilizara este tipo de distribución cuando

se requiera elaborar gráficos lineales como el histograma, el polígono de frecuencia o la

gráfica ojiva.

La razón fundamental para utilizar la distribución de frecuencia de clases es

proporcionar mejor comunicación acerca del patrón establecido en los datos y facilitar la

manipulación de los mismos. Los datos se agrupan en clases con el fin de sintetizar,

resumir, condensar o hacer que la información obtenida de una investigación sea

manejable con mayor facilidad.

Los datos agrupados se refieren al hecho de que estén ordenados, clasificados y

contados.

EJEMPLO 1.1.1

2

Page 3: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

1.2 Ordenación y clasificación

Cuando los datos contienen una gran cantidad de elementos, para facilitar los cálculos

es necesario agruparlos.

1.2.1 N° de intervalos de clase

Número de Intervalos de Clase  (ni).- No debe ser menor de 5 y mayor de 12, ya que un

número mayor o menor de clases podría oscurecer el comportamiento de los datos.

Para calcular el número de intervalos se aplica la regla de Sturges:

Siendo n el tamaño de la muestra.

1.2.2 Tamaño de intervalo

El Ancho del Intervalo (i).- Se obtiene dividiendo el Rango para el número de intervalos

Cuando el valor de i no es exacto, se debe redondear al valor superior más cercano.

Esto altera el valor de rango por lo que es necesario efectuar un ajuste.

EJEMPLO 1.2

3

Page 4: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

1.2.3 Distribución de frecuencias

La distribución de frecuencias o tabla de frecuencias es una ordenación en forma

de tabla de los datos estadísticos, asignando a cada dato su frecuencia

correspondiente.

Frecuencia absoluta

La frecuencia absoluta es el número de veces que aparece un determinado valor en un

estudio estadístico.

Se representa por fi.

La suma de las frecuencias absolutas es igual al número total de datos, que se

representa por N.

4

Page 5: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula)

que se lee suma o sumatoria.

Frecuencia relativa

La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado

valor y el número total de datos.

Se puede expresar en tantos por ciento y se representa por fr.

fr=fiN

La suma de las frecuencias relativas es igual a 1.

Frecuencia acumulada

La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores

inferiores o iguales al valor considerado.

Se representa por fa.

Frecuencia relativa acumulada

La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un

determinado valor y el número total de datos. Se puede expresar en tantos por ciento.

Este tipo de tablas de frecuencias se utiliza con variables discretas.

EJEMPLO 1.2.1

5

Page 6: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

Distribución de frecuencias agrupadas

La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si

las variables toman un número grande de valores o la variable es continua.

Se agrupan los valores en intervalos que tengan la misma

amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente.

Límites de la clase

Cada clase está delimitada por el límite inferior de la clase y el límite superior de la

clase.

Amplitud de la clase

La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.

Marca de clase

La marca de clase es el punto medio de cada intervalo y es el valor que representa a

todo el intervalo para el cálculo de algunos parámetros.

M .C= Ls+Li2

6

Page 7: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

EJEMPLO 1.2.2

1.3 Estudio descriptivo

Un estudio descriptivo es un tipo de metodología a aplicar para deducir un bien o

circunstancia que se esté presentando; se aplica describiendo todas sus dimensiones,

en este caso se describe el órgano u objeto a estudiar. Los estudios descriptivos se

centran en recolectar datos que describan la situación tal y como es.

1.3.1 Medidas de tendencia central. Media, Moda, Mediana, Media ponderada.

Nos indican en torno a qué valor (centro) se distribuyen los datos.

Las medidas de centralización son:

Media aritmética

La media aritmética es el valor promedio de la distribución.

EJEMPLO 1.3

7

Page 8: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

Para datos agrupados:

Mediana

La mediana es la puntación de la escala que separa la mitad superior de la distribución

y la inferior, es decir divide la serie de datos en dos partes iguales.

EJEMPLO 1.3.1

La serie ordenada de 9 datos es:

1, 3. 7. 14, 16. 30, 99. 120, 2,000.

La mediana es el quinto dato ordenado que divide a la serie en 2 grupos de 4 datos

cada uno. Esto es. Me — 16.

8

Page 9: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

Para datos agrupados:

Moda

El dato que más veces se repite.

La moda no siempre existe y si existe, no siempre es única.

En matemática, la moda es el valor de la variable en el que existe un máximo absoluto

(o dos o más máximos relativos iguales).

La moda es una medida promedio que se usa cuando se quiere señalar el valor más

común de una serie de datos. Por ejemplo, los comerciantes se estoquean con

productos que están de moda.

La moda es el promedio menos importante debido a su ambigüedad.

9

Page 10: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

EJEMPLO 1.3.2

La moda de los datos:

a) 7, 9, 7, 8, 7, 4, 7, 13, 7 es igual a 7. Esta serie de dalos es unimodal.

b) 5, 3, 4, 5, 7, 3, 5, 6 3 es igual tanto a 3, como a 5. Esta serie de dalos es

bimodal.

c) 31, 11, 12, 19 no existe. (También vale decir que cada uno de los datos es una

moda).

Para datos agrupados:

Media ponderada

La media ponderada es una medida de tendencia central, que es apropiada cuando en

un conjunto de datos cada uno de ellos tiene una importancia relativa (o peso) respecto

de los demás datos. Se obtiene multiplicando cada uno de los datos por su ponderación

10

Page 11: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

(peso) para luego sumarlos, obteniendo así una suma ponderada; después se divide

esta entre la suma de los pesos, dando como resultado la media ponderada.

EJEMPLO 1.3.3

1.3.2 Medidas de dispersión. Rango, Desviación, Media Absoluta, Varianza, Desviación

Estándar, Coeficiente de variación

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores

de la distribución.

Las medidas de dispersión son:

Rango o recorrido

11

Page 12: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

El rango de variación o recorrido, R, de una serie de datos, es la diferencia entre sus

valores máximo y mínimo. Esto es: R= Xmax-Xmin, siendo x max el valor máximo y x

min el valor mínimo.

El rango es una medida de dispersión muy fácilmente calculable, pero es muy inestable,

ya que depende únicamente de los dos valores extremos. Su valor puede cambiar

grandemente si se añade o elimina un sólo dato. Por tanto su uso es muy limitado.

EJEMPLO 1.3.4

Dadas las dos series de datos

a) 1, 4, 4, 5, 5, 5, 5, 6, 6, 9

b) 1, 2, 3, 4, 5, 6, 7, 8, 9

Ambas series tienen la misma media, 5, y el mismo rango, 8, pero las dos series no

tienen la misma dispersión, ya que la segunda tiene mayor variabilidad.

El empleo del rango como medida de comparación de variación puede estar justificado

cuando se precise rápidamente de una medida de dispersión y no haya tiempo de

calcular algunas de las otras.

Desviación media absoluta

La desviación media es la media aritmética de los valores absolutos de

las desviaciones respecto a la media.

Varianza

La varianza, es una medida que cuantifica el grado de dispersión o de variación de los

valores de una variable cuantitativa con respecto a su media aritmética. Si los valores

tienden a concentrarse alrededor de su media, la varianza será pequeña. Si los valores

tienden a distribuirse lejos de la media, la varianza será grande.

12

Page 13: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

Para datos no agrupados:

13

Page 14: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

Para datos agrupados:

Coeficiente de Variación

Su fórmula expresa la desviación estándar como porcentaje de la media aritmética,

mostrando una mejor interpretación porcentual del grado de variabilidad que la

desviación típica o estándar. Por otro lado presenta problemas ya que a diferencia de

la desviación típica este coeficiente es variable ante cambios de origen. Por ello es

importante que todos los valores sean positivos y su media dé, por tanto, un valor

positivo. A mayor valor del coeficiente de variación mayor heterogeneidad de los

valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la

variable. Suele representarse por medio de las siglas C.V.

Se calcula:

Desviación Estándar

14

Page 15: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

La desviación típica o desviación estándar (denotada con el símbolo σ o s, dependiendo

de la procedencia del conjunto de datos) es una medida de dispersión para variables de

razón (variables cuantitativas o cantidades racionales) y de intervalo. Se define como la

raíz cuadrada de la varianza de la variable.

EJEMPLO 1.3.5

1.3.3 Medidas de sesgo y curtosis. Coeficiente de asimetría de Pearson y el momento

tres. Curtosis momento cuatro o por percentiles.

Coeficiente de asimetría de Pearson

El coeficiente de asimetría de Pearson CAP mide la diferencia entre la media y

la moda respecto a la dispersión del conjunto X=(x1, x2,…, xN).

Este procedimiento, menos usado, lo emplearemos solamente en distribuciones

unimodales y poco asimétricas.

15

Page 16: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

Si CAP<0: la distribución tiene una asimetría negativa, puesto que la media es menor

que la moda.

Si CAP=0: la distribución es simétrica.

Si CAP>0: la distribución tiene una asimetría positiva, ya que la media es mayor que

la moda.

EJEMPLO 1.3.6

EJEMPLO 1.3.7

16

Page 17: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

Curtosis momento cuatro

Permite medir el grado de la agudeza de una distribución, es decir, para saber cuán

agudo o plano es un polígono de frecuencias.

Observemos los tipos de curtosis, en las siguientes

gráficas:

En la figura A se observa que ambas curvas son simétricas y tienen la misma

media, mientras que una de las curvas es más cúrtica. La figura B se le denomina

mesocúrtica (intermedio con punta). La figura C se le denomina leptocúrtica (delgada

con punta) y la figura D se le denomina platicúrtica (aplanado con punta).

El coeficiente de curtosis de un grupo de datos, es una medida del

apuntamiento o aplastamiento de su polígono de frecuencias, se define como:

En donde C75 es el percentil 75, etc.

Cuando el coeficiente de curtosis tiende a 0,5; esto es, si las diferencias C75–C25 y

C90-C10, son aproximadamente iguales, la curva se llama leptocúrtica.

Si el coeficiente de curtosis tiende a 0, esto es, cuando la diferencia C75–C25 es

pequeña, respecto de C90-C10, la curva se llama platicúrtica.

Si el coeficiente de curtosis es aproximadamente 0,25; esto es, si C90-C10

es aproximadamente el doble de C75–C25 , la curva se llama mesocúrtica.

17

Page 18: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

1.4 Graficas.

Un gráfico o representación gráfica es un tipo de representación de datos,

generalmente numéricos, mediante recursos

gráficos (líneas, vectores, superficies o símbolos), para que se manifieste visualmente

la relación matemática o correlación estadística que guardan entre sí. 

Para datos no agrupados:

Escalonada: Altamente utilizados en distribuciones para variable con frecuencia discreta.  Este tipo de diagramas presentan  un perfil escalonado, produciéndose un salto en cada uno de los valores definidos de la variable aleatoria. Es continua por la derecha, pero no por la izquierda.   La cuantía de cada salto es precisamente la probabilidad en ese punto, la función de cuantía.

De líneas:

Para datos agrupados:

1.4.1 Histograma

18

Page 19: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

Está formado por rectángulos cuya base es la amplitud del intervalo y tiene la

característica que la superficie que corresponde a las barras es representativa de la

cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases

que tienen el mismo tamaño o diferente (intervalo variable). La utilización de los

intervalos de amplitud variable se recomienda cuando en alguno de los intervalos, de

amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos

de los intervalos sean mucho mayor que la de los demás, logrando así que las

observaciones se hallen mejor repartidas dentro del intervalo.

EJEMPLO 1.4

1.4.2 Polígono de Frecuencias

Se puede obtener uniendo cada punto medio (marca de clase) de los rectángulos del

histograma con líneas rectas, teniendo cuidado de agregar al inicio y al final marcas de

clase adicionales, con el objeto de asegurar la igualdad del áreas.

EJEMPLO 1.4.1

19

Page 20: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

1.4.3 Ojivas

Cuando se trata de relacionar observaciones en un mismo aspecto para dos colectivos

diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia, es

necesario tener una base estándar, la frecuencia relativa. La ojiva representa

gráficamente la forma en que se acumulan los datos y permiten ver cuantas

observaciones se hallan por arriba o debajo de ciertos valores. Es útil para obtener una

medida de los cuartiles, deciles, percentiles.

EJMPLO 1.4.2

1.4.4 Pastel

En los gráficos de sectores, también conocidos como diagramas de "tartas", se divide

un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase

le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Un

ejemplo se muestra en la gráfica. Como se puede observar, la información que se debe

mostrar en cada sector hace referencia al número de casos dentro de cada categoría y

al porcentaje del total que estos representan. Si el número de categorías es

excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo

suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de tres

categorías. En este caso se pueden apreciar con claridad dichos subgrupos.

20

Page 21: Unidad Temática 1

ARGUETA LÓPEZ ALEJANDRA BELEN

EJEMPLO 1.4.3

REFERENCIAS BIBLIOGRÁFICASBehar, R., & Yepez, M. (2007). Estadítica. Un enfoque descriptivo. Cali: Universidad del

Valle. Pags 151-181

Zamora, M. C. (2003). Estadítica descriptiva e inferencial. Lima: Moshera. Pags 52-85

REFERENCIAS ELECTRÓNICASDitutor. (10 de 09 de 15). Obtenido de

http://www.ditutor.com/estadistica/estadistica.html

http://colposfesz.galeon.com/est501/probabi/teo/cap402/cap402.htm

21