23
Estadística Descriptiva Profesor: José Aldinever Bonilla Ariza Cali, de 2015

ESTADISTICA DESCRIPTIVA - ENVIO2

Embed Size (px)

DESCRIPTION

apuntes del profesor de la universidad

Citation preview

Estadstica DescriptivaProfesor: Jos Aldinever Bonilla ArizaCali, de 2015IntroduccinCuando coloquialmente se habla de estadstica, se suele pensar en una relacinde datos numricos presentada de forma ordenada y sistemtica.Slo cuando nos adentramos en un mundo ms especfico como es el campo dela investigacin de las Ciencias Naturales, Ciencias Sociales, Medicina, Biologa,Ingeniera, Psicologa, ... empezamos a percibir que la Estadstica no slo es algoms, sino que se convierte en la nica herramienta que, hoy por hoy, permite darluzyobtener resultados, ypor tantobeneficios, encualquier tipodeestudio,cuyosmovimientosyrelaciones, por suvariabilidadintrnseca, nopuedanserabordadas desde la perspectiva de las leyes deterministas.Toma de decisiones bajo IncertidumbrePodramos, desde un punto de vista ms amplio, definir la estadstica como laciencia que estudia cmo debe emplearse la informacin y cmo dar una gua deaccin en situaciones prcticas que entraan incertidumbre.DefinicinLa Estadstica es la mezcla entre ciencia y arte la cual se ocupa de los mtodosy procedimientos para recoger, clasificar, resumir, hallar regularidadesy analizar losdatos, siempre y cuando la variabilidad e incertidumbre sea unacausa intrnseca de los mismos; as como de realizar inferencias apartir de ellos, con la finalidad de ayudar a la toma de decisiones y en su casoformular predicciones.Algunas Aplicaciones: Ingeniera Compaas de Seguros Estudios de Mercado Control de Calidad Instrumentos Financieros Medicina Experimentos y encuestasInferencialDescriptivaEtapas de la metodologa estadstica1) Definicin del problema: Justificacin del estudio, determinacin de objetivos,planteamiento de hiptesis, definicin de parmetros.2) Definicin de la poblacin: Poblacin de inters del estudio.3) Definicin de las estrategias de anlisis: Plan de anlisis, ruta preliminar.4) Determinacin de las variables de inters: Definicin de las caractersticas dela poblacinqueproporciona lainformacin necesariaparael logrodelosobjetivos del estudio.5) Diseodel estudio: Diseodel experimento, definir si serealizacensoomuestreo y diseo del muestreo6) Recoleccin de la informacin: Control sobre los instrumentos y tambin sobreel proceso de medicin7) Procesamiento descriptivo de los datos: Aplicacin de la estadsticadescriptiva.8) Inferencia estadstica: Proceso inductivo que permite inferir a toda la poblacin.9) Conclusiones y planteamiento de nuevas hiptesis: Conclusiones clarasexplicando alcances y limitaciones.Conceptos bsicosIndividuos o elementos: Personasu objetosque contienen cierta informacinque se desea estudiar.Poblacin: conjunto (N) de individuos o elementos que cumplen ciertaspropiedades comunes.Muestra: es el subconjunto (n) de la poblacin que es estudiada y a partir de lacual se sacan conclusiones sobre las caractersticas de la poblacin.Las muestras puedenser probabilsticas ono probabilsticas. Unamuestraprobabilstica se elige mediante reglas matemticas, por lo que la probabilidaddeseleccindecadaunidadesconocidadeantemano. Por el contrario, unamuestra no probabilstica no ser rige por las reglas matemticas de laprobabilidad.Ejemplos de stas ltimas son la muestra accesible (que est conformada porpersonas de fcil acceso para el investigador como ser colegas o alumnos de suclase) ylamuestravoluntaria(dondelossujetosdelamuestranohansidoseleccionados matemticamente).Lamodalidadmselementaldemuestraprobabilsticaeslamuestraaleatoriasimple, procedimientomedianteel cul todaslasmuestrasdeundeterminadotamao, poseen el mismo "chance" de ser extradas.Conceptos bsicosOtro procedimiento similar de muestreo aleatorio es el llamado muestreo aleatoriosistemtico en elcualse escoge uno de cada x componentes dellistado de lapoblacin. Elinvestigador selecciona al azar un punto de partida y un intervalomuestral. As si el punto de partida fuera el 11 y el intervalo el 5 se elegiran el 11,16, 21, hasta completar la lista.Siempre que se desee adecuar la representacin de diferentes subconjuntos hayque recurrir a una muestra estratificada. Las caractersticas de las submuestras(estratos o segmentos) pueden contemplar casi cualquier tipo de variables: edad,sexo, religin, nivel de ingresos, etc. Los estratos pueden as definirse medianteunnmeroprcticamenteilimitadodecaractersticas. Puedeser unmuestreoestratificado proporcional o no proporcional. Nota:(en el capitulo de inferencia seaborda ms el tema de muestreo)Conceptos bsicosPoblacin y MuestraPoblacinMuestraConceptos bsicosParmetro: Valor que caracteriza un aspecto de la poblacin.Estadstico: Funcin definida sobre los valores numricos de caractersticamedibles deuna muestra.Consideremos la poblacin formada por todos los estudiantes de la UniversidadJaveriana (finita). La altura media de todos los estudiantes es el parmetro . Elconjunto formado por los alumnos del programa Administracin es una muestrade dicha poblacin y la altura media de esta muestra, es un estadstico.Variable: Caracterstica de la poblacin que se analiza en el estudio estadstico.(salario, color de ojos, sexo, nmero de hijos etc.)Error muestral: Diferencia entre el valor del parmetro poblacional y el producidopor el estadistico o estadigrafo basado en una muestra.Sesgo muestral: Tendencia a favorecer la seleccin de determinados individuosde la poblacin.Tipos de VariablesVariablescualitativas(ocategricas): aquellasquenoaparecenenformanumrica, sinocomocategoras oatributos (sexo, profesin, color deojos).Variables cuantitativas: Las que pueden expresarse numricamente(temperatura, salario, nmero de goles en un partido). Se pueden cuantificar losresultadosexperimentalespor mediodeinstrumentosadoptandounidadesdemedida para valorar los diferentes resultados.Variablesdiscretas:sonel resultadodecontar yslotomanvaloresenteros(nmero de hijos).Variables continuas: son elresultado de medir, y pueden contener decimales(temperatura, peso, altura). Sepuedensubdividir avoluntad. Puedentomar,entonces, cualquier valor de un determinado intervalo.Escalas de MedicinEscala nominal: Nombres o clases que se utilizan para organizar los datos encategoras separadas y distintas. Ej: El sexo de los individuos se clasificasimbolizando con un 0 hembra y con un 1 varn, color de ojos etc.Escala ordinal: Mediciones que jerarquizan los datos en categoras, ordenadasen virtud de un determinado criterio. Ej: Nivelsocioeconmico, 1,,6, niveldedolor, nivel de preferencia etc.Escala de intervalos: Mediciones respecto de una escala numrica en la cual ladiferencia entre valores tiene interpretacin y la ubicacin del cero es arbitrario.La principal limitacin de este tipo de escalas es que no tiene un cero absoluto. Elnmero cero no representa realmente la ausencia absoluta de la caractersticaque se desea medir. Ej: Inteligencia, temperatura en grados centgrados yFahrenheit.Escala de razn: Mediciones respecto de una escala numrica en la cual tanto ladiferenciacomoloscocientestieneninterpretacinylaubicacindel ceroesabsoluto. Ej Longitud, ingresos familiares.Escalas de MedicinResumen de Tipos de variables y Escalas de MedicinNominalOrdinalEscala de medicinCualitativa o AtributoIntervaloRaznEscala de medicinDiscretaContinuaCuantitativa o NmericaVariablesEscalas de MedicinTipo Informacin deducible EjemplosNominalRelaciones igual que odistinto queSexo, estado civil, diagnstico clnico.OrdinalRelaciones mayor que oigual queDureza, nivel socioeconmico, grado deasertividadIntervaloIgualdad o desigualdad dediferenciasTemperatura, inteligencia.RaznIgualdad o desigualdad derazonesLongitud, peso.Estadstica DescriptivaProporcionaprocedimientosquepermitenorganizar, procesar ypresentar losdatos mustrales con el fin de extraer informacin relevante que este contenidaen ellos.Tcnicas para la recoleccin y clasificacin de datosUnavezsehayanobtenidolosdatosquenosinteresanconvieneordenarlossegn algn criterio, que nos permitir observar con mayor facilidad ladistribucin de los datos y el lugar dnde termina un grupo y comienza otro.Distribucin de frecuenciasEl agrupamiento de datos no slo reporta ventajas, sino que presenta elinconvenientedel "error deagrupamiento", quesonlas alteraciones queseproducen al realizar algunos agrupamientos al variar n.Frecuenciaabsoluta: consisteenordenar losdatosdemaneraqueenunacolumna aparezca la variable (sea deltipo nominal, ordinalo intervalo) y en laotra columna aparezcan las frecuencias absolutas ni(El nmero de veces que serepite cada categora o dato).Estadstica DescriptivaFrecuencia relativa: Es la fraccin o porcentaje del nmero de datos (hi=ni/n), esigual al nmero de casos en la categora dividida por el nmero total de casos enla distribucin (hi=ni/n). El valor de una proporcin no puede ser mayor que 1. Los% se obtienen a partir de las proporciones multiplicado por 100. La suma de los% es 100.Frecuenciaabsolutaacumulada: seformaal indicar paracadacategoraelnmero de casos por debajo de dicha categora. Es decir calcular el nmero dedatos menores o iguales que xiNi= n1 + n2 ++niSi la frecuencia absoluta acumulada se expresa como una fraccin o porcentajede toda la muestra, aparece lo que se conoce como frecuencia relativaacumulada que se representa por Hi Hi= Ni/n = h1 +h2 ++ hiEstadstica DescriptivaVariable discreta: Ejemplo: se le pregunto a 20 personas el nmero de hijos quetiene : 4, 0, 1, 2, 3, 0, 1,1, 3, 0, 1, 1, 2, 2, 2, 3, 2, 2, 1, 2n3 = 7 Indica que en la muestra hay 7 personas con dos hijos.h3 = 0.35 Indica que de la muestra el 35% de las personas encuestadas tienendos hijos.N3 = 16 Indica que 16 personas encuestadas tiene hasta dos hijos.H3 = 0.80 Indica que el 80% de las personas encuestadas tienen hasta dos hijos.Estadstica DescriptivaVariablescontinuas: Ejemplo: Se muestranlosdatoscorrespondientesde 21registros de tiempos en realizar una prueba, medida en minutos.Agrupar los datos en una tabla estadstica.Nmero de intervalos k = si n no es muy grande y 1 + 3,22 log (n ) en otrocaso.En primer lugar hay que observar que si denominamos X a la variable ``tiempo enla prueba esta es una variable de tipo cuantitativa y continua. Por tanto a la horade ser ordenados los resultados en una tabla estadstica, esto se ha de haceragrupndolos en intervalos de longitud conveniente. Esto nos lleva a perder ciertogradodeprecisin. Paraquelaperdidadeinformacinnoseamuyrelevanteseguimos el criterio de utilizar intervalos (no son demasiadas lasobservaciones). Lo siguiente es determinar la longitud de cada intervalo, ai , Loms cmodo es tomar la misma longitud en todos losintervalos, ai=a (aunqueesto no tiene por qu ser necesariamente as), donde:Rango = max(xi) min(xi) = 72 39 = 33a = Rango/k = 33/5 = 6.6 Entonces tomaremos k=5 intervalos de longitud a=7comenzando por l0=xmin=39 58 42 51 54 40 39 4956 58 57 59 63 58 6670 72 71 69 70 68 64n5 58 , 4 21 =Estadstica DescriptivaMarca de clase (xi); es el punto medio entre el lmite superior e inferior del intervalo ci = (Li-1 + Li)/2. Estadstica DescriptivaTcnicas de Representacin GrficaEn muchos casos, la forma ms adecuada y atractiva de presentar la informacinnumricaes atravs degrficas ydiagramas. stos tienenlaventajaquepermiten una asimilacinvisual de lascaractersticasdelosdatosmsrpidaque la contemplacin de la tablas numricas.Diagramas de barras:Los diagramas de barras constituyen una herramienta muy adecuada paracomparar los tamaos relativos de cantidades que se distribuyen, en el espacio,en el tiempo.ValorobservadoFrec. Abs. Frec. Rel.Frec. Abs. Acumu.Frec. Rel. Acumu.xinihiNiHiX1= 0 3 0.15 3 0.15X2= 1 6 0.30 9 0.45X3= 2 7 0.35 16 0.80X4= 3 3 0.15 19 0.95X5= 4 1 0.05 20 1.00Total 20 1.00De igual forma se puede realizar con las frecuencias relativas (eje y).Estadstica DescriptivaDiagramas de lneas:Unaformaalternativadeilustrar laevolucindeunacantidadalolargodeltiempo, consisteendibujar ungrfico con losdiferentesvaloresalolargo deltiempo. Situando el tiempo a lo largo del eje horizontal, y la cantidad numrica deinters en eje vertical, se obtiene, para cada observacin, un punto del grfico.Uniendo los puntos consecutivos mediante lneas, se obtiene un grfico de lneasque proporciona una idea visual de la evolucin fcil y rpida de la variable. Ej:Se presenta el nmero de visitas registradas en los ltimos cinco aos.Nmero de visitas por ao18001900200021002200230024002500260027002000 2001 2002 2003 2004 2005AoNmero de visitasEstadstica DescriptivaDiagramas circulares (tortas):Son tiles para representar la divisin de un todo en las partes que losconstituyen. La torta se construye de forma que elrea de cada fragmento esproporcional al nmero total. Ej: El nmero de hijosDiagrama de torta (nmero de hijos)15%30%35%15%5%X1= 0X2= 1X3= 2X4= 3X5= 4Estadstica DescriptivaHistogramas de frecuencia:Unhistograma se construye a partir de la tabla estadstica, representando sobrecada intervalo, un rectngulo que tiene a este segmento como base. El criteriopara calcular la altura de cada rectngulo es el de mantener la proporcionalidadentre lasfrecuenciasabsolutas(o relativas) de cada intervalo y elrea de losmismos.Polgono de frecuencias:El polgono de frecuenciasseconstruyefcilmentesi tenemosrepresentadopreviamente elhistograma, yaqueconsiste en unir mediantelneasrectaslospuntos del histograma que corresponden a las marcas de clase. Para representarel polgono de frecuencias en el primer y ltimo intervalo, suponemos queadyacentesaellosexistenotrosintervalosdelamismaamplitudyfrecuencianula, y se unen por una lnea recta los puntos del histograma que corresponden asus marcas de clase. Obsrvese que de este modo, el polgono de frecuenciastieneencomnconel histogramael quelasreasdelasgrficassobreunintervalo son idnticas. Vanse ambas grficas diferenciales representadas en laparte superior de la figura. Ejemplo:Estadstica DescriptivaIntervalosTiempos(min.)ciniNi0 -- 2 1 2 22 -- 4 3 1 34 -- 6 5 4 76 -- 8 7 3 108 -- 10 9 2 1212Histograma y polgono de frecuenciaspara la variable X (tiempos)0 2 4 6 8 10012345Frec. Abs. Estadstica DescriptivaIntervalosTiempos (min.)ciniHi Ni0 -- 2 1 2 0.16 22 -- 4 3 1 0.25 34 -- 6 5 4 0.58 76 -- 8 7 3 0.83 108 --10 9 2 1 1212Diagrama de distribucin de frecuencias acumulada (ojiva):El diagramaintegral paraunavariablecontinuasedenominatambinpolgono de frecuencias acumulado, y se obtiene como la poligonaldefinida en abscisas a partir de los extremos de los intervalos en los quehemos organizado la tabla de la variable, y en ordenadas por alturas queson proporcionales a las frecuencias acumuladas.00,20,40,60,810 2 4 6 8 10Frec. Acum. Rel.0246810121402 46 810Frec. Abs. Acum.