Análisis Univariado

Embed Size (px)

Citation preview

Anlisis Univariado.

Consiste en el anlisis de cada una de las variables estudiadas por separado, es decir, el anlisis esta basado en una sola variable. Las tcnicas ms frecuentes de anlisis univariado son la distribucin de frecuencias para una tabla univariada y el anlisis de las medidas de tendencia central de la variable. Se utiliza nicamente en aquellas variables que se midieron a nivel de intervalo o de razn (ver Therese L. Baker, 1997). La distribucin de frecuencias de la variable requiere de ver como estn distribuidas las categoras de la variable, pudiendo presentarse en funcin del nmero de casos o en trminos porcentuales.Elanlisis multivariantees un mtodoestadsticoutilizado para determinar la contribucin de varios factores en un simple evento o resultado. Los factores de estudio son los llamadosfactores de riesgo(bioestadstica),variables independientesovariables explicativas. El resultado estudiado es elevento, lavariable dependienteo lavariable respuesta.El anlisis multivariante mediante tcnicas de proyeccin sobre variables latentes tiene muchas ventajas sobre los mtodos deregresintradicionales: se puede utilizar la informacin de mltiples variables de entrada, aunque stas no sean linealmente independientes puede trabajar con matrices que contengan ms variables que observaciones puede trabajar con matrices incompletas, siempre que los valores faltantes estn aleatoriamente distribuidos y no superen un 10% puesto que se basan en la extraccin secuencial de los factores, que extraen la mayor variabilidad posible de la matriz de las X (variables explicativas, tienen que ser dependientes) pueden separar la informacin del ruido. Se asume que las X se miden con ruido.MARCO TEORICOREGRESIN.-Se define como unprocedimientomediante el cual se trata de determinar si existe o no relacin de dependencia entre dos o ms variables. Es decir, conociendolos valoresde una variable independiente, se trata de estimar losvalores, de una o ms variables dependientes.La regresin en forma grafica, trata de lograr que una dispersin de las frecuencias sea ajustada a una lnea recta o curva.Clases de RegresinLa regresin puede ser Lineal y Curvilnea o no lineal, ambos tipos de regresin pueden ser a su vez:a. Esta regresin se utiliza con mayor frecuencia en lascienciaseconmicas, y sus disciplinas tecnolgicas. Cualquier funcin no lineal, es linealizada para su estudio y efectos prcticos en las ciencias econmicas,modelosno lineales y lineales multiecuacionales.Objetivo: Se utiliza laregresin linealsimple para:1.- Determinar la relacin de dependencia que tiene una variable respecto a otra.2.- Ajustar ladistribucinde frecuencias de una lnea, es decir, determinar la forma de la lnea de regresin.3.- Predecir un dato desconocido de una variable partiendo de losdatosconocidos de otra variable.Por ejemplo: Podra ser una regresin de tipo lineal:Enuna empresadeserviciodeInternetbusca relacionar las ganancias que obtiene cadacomputadoracon el numero de usuarios que ingresan a dicha cabina diariamente. En la tabla representa Y (Ganancias S/.) e X (Numero de usuarios)Y10098991021021119710410296

X116961101059910610010998108

Coeficiente de RegresinIndica el nmero de unidades en que se modifica la variable dependiente "Y" por efecto delcambiode la variable independiente "X" o viceversa en una unidad de medida.Clases de coeficiente de Regresin:El coeficiente de regresin puede ser: Positivo, Negativo y Nulo.Es positivo cuando las variaciones de la variable independiente X son directamente proporcionales a las variaciones de la variable dependiente "Y"Es negativo, cuando las variaciones de la variable independiente "X" son inversamente proporcionales a las variaciones de las variables dependientes "Y"Es nulo o cero, cuando entre las variables dependientes "Y" e independientes "X" no existen relacin alguna.

Procedimiento para hallar el Coeficiente de RegresinPara determinar elvalordel coeficiente de regresin de una manera fcil y exacta es utilizando elmtodode los Mnimos Cuadrados de dos maneras:1.- Forma DirectaDe la ecuacin de la recta:

Siy, se obtienen a partir de las ecuaciones normales:

Aplicando normales Y sobre X tenemos:

El Coeficiente de Regresin es

De la misma manera la recta de regresin de "X" sobre "Y" ser dada de la siguiente manera:

Donde:yse obtienen a partir de las ecuaciones normales:

Aplicando normales X sobre Y tenemos:

2.- Forma Indirecta del Mtodo de los Mnimos Cuadrados.El fundamento de este mtodo es de las desviaciones de X respecto a su media aritmtica. X

Ecuacin deysobrexEcuacin deysobrexDonde:

x, y = desviacionesX = media aritmticaY = media aritmticab. Regresin Simple: Este tipo se presenta cuando una variable independiente ejerce influencia sobre otra variable dependiente. Ejemplo: Y = f(x)c. Regresin Mltiple: Este tipo se presenta cuando dos o ms variables independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z).Por ejemplo: Podra ser una regresin de tipo mltiple:UnaEmpresadedesarrollodesoftwareestablece relacionar susVentasen funcin del numero de pedidos de los tipos de software que desarrolla (Sistemas, Educativos y Automatizaciones Empresariales), para atender 10proyectosen el presente ao.En la Tabla representa Y (Ventas miles de S/.) e X (N pedidos de sistemas), W (N de pedidos de Aplicaciones Educativas) y Z (N de pedidos de Automatizaciones empresariales).Y440455470510506480460500490450

X50403545515553483844

W10514011013012511510010311898

Z75687064677270736974

Objetivo: Se presentara primero elanlisisde regresin mltiple al desarrollar y explicar el uso de la ecuacin de regresin mltiple, as como el error estndar mltiple de estimacin. Despus se medir lafuerzade la relacin entre las variables independientes, utilizando los coeficientes mltiples de determinacin.Anlisis de Regresin MltipleDispone de una ecuacin con dos variables independientes adicionales:

Se puede ampliar para cualquier nmero "m" de variables independientes:

Parapoderresolver y obteneryen una ecuacin de regresin mltiple elclculose presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el mtodo de mnimo de cuadrados:

Para poder resolver se puede utilizarprogramasinformticos como AD+, SPSS y Minitab yExcel.El error estndar de la regresin mltipleEs una medida de dispersin la estimacin se hace ms precisa conforme el grado de dispersin alrededor del plano de regresin se hace mas pequeo.Para medirla se utiliza la formula:

Y : Valores observados en la muestra: Valores estimados a partir a partir de la ecuacin de regresinn : Nmero de datosm : Nmero de variables independientesEl coeficiente de determinacin mltipleMide la tasa porcentual de los cambios de Y que pueden ser explicados por,ysimultneamente.

III.- APLICACION DE REGRESION MULTIPLEMediante el siguiente problema podremos ilustrar la aplicacin de Regresin Multiple:En la Facultad deIngenierade Sistemas y Computo de laUniversidad"Inca Garcilaso de la Vega" se quiere entender los factores deaprendizajede los alumnos que cursan la asignatura dePHP, para lo cual se escoge al azar unamuestrade 15 alumnos y ellos registran notas promedios en las asignaturas deAlgoritmos,Base de DatosyProgramacincomo se muestran en el siguiente cuadro.AlumnoPHPAlgoritmosBase de DatosProgramacin

113151513

213141312

313161314

415201416

516181817

615161715

712131511

813161415

913151413

1013141310

1111121210

1214161114

1315171615

1415191416

1515131510

Lo que buscamos es construir unmodelopara determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y Programacin.Se presentara la siguiente ecuacin a resolver:

Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresin o utilizando Regresin de Anlisis de datos, en la Hoja de Calculo de Excel podemos calcular tambin los coeficientes de regresin:

Por lo tanto podemos construir la ecuacin de regresin que buscamos:

El Error Estndar de Regresin MltipleMediante esta medida de dispersin se hace ms preciso el grado de dispersin alrededor del plano de regresin, se hace ms pequeo.Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llamaerror tpicoy para explicar la relacin del aprendizaje de PHP que se viene desarrollando es de0.861El coeficiente de determinacin mltiple (r2)Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables mltiples, utilizando la si siguiente formula:

IV.- CONCLUSIONESEl 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas obtenidas por las asignaturas de Algoritmos, Base de Datos y Programacin.

Leer ms:http://www.monografias.com/trabajos30/regresion-multiple/regresion-multiple.shtml#ixzz2yagEzRNc

MEDIDAS DETENDENCIA CENTRALLamedidas de centralizacinnos indican en torno a qu valor (centro) se distribuyen los datos.Lamedidas de centralizacinson:ModaLamodaes elvalorque tienemayor frecuencia absoluta.Se representa porMo.Se puede hallar lamodaparavariables cualitativasycuantitativas.Hallarlamodade la distribucin:2, 3, 3, 4, 4, 4, 5, 5Mo= 4Si en un grupo haydos o varias puntuacionescon lamisma frecuenciay esa frecuencia es la mxima, ladistribucinesbimodalomultimodal, es decir, tienevarias modas.1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9Mo= 1, 5, 9Cuando todas laspuntuacionesde un grupo tienen lamisma frecuencia,nohaymoda.2, 2, 3, 3, 6, 6, 9, 9Sidos puntuaciones adyacentestienen lafrecuencia mxima, lamodaes elpromediode las dos puntuaciones adyacentes.0, 1, 3, 3, 5, 5, 7, 8Mo = 4

Clculo de la moda para datos agrupados1 Todos los intervalos tienen la misma amplitud.

Lies el lmite inferior de la clase modal.fies la frecuencia absoluta de la clase modal.fi--1es la frecuencia absoluta inmediatamente inferior a la en clase modal.fi-+1es la frecuencia absoluta inmediatamente posterior a la clase modal.aies la amplitud de la clase.Tambin se utiliza otrafrmulade lamodaque da unvalor aproximadode sta:

EjemploCalcularlamodade una distribucin estadstica que viene dada por la siguiente tabla:fi

[60, 63)5

[63, 66)18

[66, 69)42

[69, 72)27

[72, 75)8

100

2 Los intervalos tienen amplitudes distintas.En primer lugar tenemos que hallar las alturas.

La clase modal es la que tiene mayor altura.

Lafrmulade lamoda aproximadacuando existen distintas amplitudes es:

EjemploEn la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y sobresaliente) obtenidas por un grupo de 50 alumnos.Calcular la moda.fihi

[0, 5)153

[5, 7)2010

[7, 9)126

[9, 10)33

50

MedianaEs elvalorque ocupa ellugar centralde todos losdatoscuando stos estnordenados de menor a mayor.Lamedianase representa porMe.Lamedianase puedehallarslo paravariables cuantitativas.Clculo de la mediana1Ordenamoslosdatosdemenor a mayor.2Si la serie tiene unnmero impar de medidaslamedianaes lapuntuacin centralde la misma.2, 3, 4, 4, 5, 5, 5, 6, 6Me= 53Si la serie tiene unnmero parde puntuaciones lamedianaes lamediaentre las dospuntuaciones centrales.7, 8, 9, 10, 11, 12Me= 9.5Clculo de la mediana para datos agrupadosLamedianase encuentra en elintervalodonde lafrecuencia acumuladallega hasta lamitad de la suma de las frecuencias absolutas.Es decir tenemos que buscar el intervalo en el que se encuentre.

Lies el lmite inferior de la clase donde se encuentra la mediana.es la semisuma de las frecuencias absolutas.Fi-1es lafrecuencia acumuladaanterior a la clase mediana.aies la amplitud de la clase.Lamedianaesindependientede lasamplitudesde losintervalos.EjemploCalcularlamedianade una distribucin estadstica que viene dada por la siguiente tabla:fiFi

[60, 63)55

[63, 66)1823

[66, 69)4265

[69, 72)2792

[72, 75)8100

100

100 / 2 = 50Clase modal: [66, 69)

Media aritmticaLamedia aritmticaes elvalorobtenido alsumartodos losdatosydividirel resultado entre elnmerototal dedatos.es el smbolo de lamedia aritmtica.

EjemploLos pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.

Media aritmtica para datos agrupadosSi losdatosvienenagrupadosen una tabla de frecuencias, la expresin de lamediaes:

Ejercicio de media aritmticaEn un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la tabla.Calcula la puntuacin media.xifixi fi

[10, 20)15115

[20, 30)258200

[30,40)3510350

[40, 50)459405

[50, 60558440

[60,70)654260

[70, 80)752150

421 820

Propiedades de la media aritmtica1Lasumade lasdesviacionesde todas las puntuaciones de una distribucin respecto a lamediade la misma igual acero.

Las suma de las desviaciones de los nmeros 8, 3, 5, 12, 10 de su media aritmtica 7.6 es igual a 0:8 7.6 + 3 7.6 + 5 7.6 + 12 7.6 + 10 7.6 == 0. 4 4.6 2.6 + 4. 4 + 2. 4 =02Lamedia aritmticade loscuadradosde lasdesviaciones de los valores de la variable con respecto a unnmerocualquiera se hacemnimacuando dichonmerocoincide con lamedia aritmtica.

3Si a todos los valores de la variable se lessumaun mismonmero, lamedia aritmticaquedaaumentadaen dichonmero.4Si todos los valores de la variable semultiplicanpor un mismonmerolamedia aritmticaquedamultiplicadapor dichonmero.

Observaciones sobre la media aritmtica1Lamediase puedehallarslo paravariables cuantitativas.2Lamediaesindependientede lasamplitudesde losintervalos.3Lamediaes muy sensible a laspuntuaciones extremas. Si tenemos una distribucin con los siguientes pesos:65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg.Lamediaes igual a 74 kg, que es unamedida de centralizacinpoco representativa de la distribucin.4Lamediano se puede calcular si hay un intervalo con unaamplitud indeterminada.xifi

[60, 63)61.55

[63, 66)64.518

[66, 69)67.542

[69, 72)70.527

[72, )8

100

En este caso no es posible hallar lamediaporque no podemos calcular lamarca de clasede ltimo intervalo.

MEDIDAS DE DISPERSION1- PLANTEAMIENTO TORICO-CONCEPTUAL:Elconocimientode la forma de ladistribuciny del respectivo promedio de una coleccin devaloresde una variable, puede servir para tener una idea bastante clara de la conformacin, pero no de de la homogeneidad de cada una delos valorescon respecto a la medida de tendencia central aplicada.En el caso de lasvariablescon valores que pueden definirse en trminos de algunaescalade medida de igual intervalo, puede usarse un tipo de indicador que permite apreciar el grado de dispersin o variabilidad existente en elgrupode variantes en estudio.A estosindicadoresles llamamosmedidas de dispersin, por cuanto que estn referidos a lavariabilidadque exhiben los valores de las observaciones, ya que si no hubiere variabilidad o dispersin en losdatosinters, entonces no habra necesidad de la gran mayora de las medidas de laestadsticadescriptiva.Las medidas de tendencia central tienen comoobjetivoel sintetizar los datos en unvalorrepresentativo, las medidas de dispersin nos dicen hasta que punto estas medidas de tendencia central son representativas comosntesisde lainformacin. Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar varias muestras.

LA DISPERSIN.Al igual que sucede con cualquier conjunto de datos, la media, la mediana y lamodaslo nos revelan una parte de la informacin que necesitamos acerca de las caractersticas de los datos. Para aumentar nuestro entendimiento del patrn de los datos, debemos medir tambin su dispersin, extensin o variabilidad.La dispersin es importante porque: Proporciona informacin adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posicin central es menos representativa de los datos. Ya que existenproblemascaractersticos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersin antes de abordar esos problemas. Quiz se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersin de valores con respecto al centro de distribucin o esto presentariesgosinaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones ms grandes.Pero si hay dispersin en la mayora de los datos, y debemos estar en capacidad de describirla. Ya que la dispersin ocurre frecuentemente y su grado de variabilidad es importante, cmo medimos la variabilidad de una distribucin emprica?. Vamos a considerar slo algunas medidas de dispersin absolutas: el rango, la varianza, la desviacin estndar y el coeficiente de variacin.1.1.-EL RANGO O RECORRIDO ( R ):Es la medida de variabilidad ms fcil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor ms alto (Xn Xmax.) y el mas bajo (X1 Xmin) en un conjunto de datos.Rango para datos no agrupados;R = Xmx.-Xmn= Xn-X1Ejemplo:Se tienen las edades de cinco estudiantes universitarios de Ier ao, a saber: 18,23, 27,34 y 25., para calcular la media aritmtica (promedio de las edades, se tiene que:R = Xn-X1 ) = 34-18 = 16 aosCon datos agrupados no se saben los valores mximos y mnimos. Si no hay intervalos de clases abiertos podemos aproximar el rango mediante el uso de loslmitesde clases. Se aproxima el rango tomando el limite superior de la ltimaclasemenos el limite inferior de la primera clase.Rango para datos agrupados;R= (lim. Sup. de la clase n lim. Inf. De la clase 1)Ejemplo:Si se toman los datos del ejemplo resuelto al construir la tabla de distribucin de frecuencia de lascuentaspor cobrar deCabreras y Asociadosque fueron los siguientes:ClasesP.M.Xififrfafafrafra

7.420 21.83514.628100.3310300.331.00

21.835 36.25029.04340.1314200.460.67

36.250 50.66543.45850.1719160.630.54

50.665 65.08057.87330.1022110.730.37

65.080 79.49572.28830.102580.830.27

79.495 93.91086.70350.173051.000.17

TotalXXX301.00XXXXXXXXXXXX

Leer ms:http://www.monografias.com/trabajos43/medidas-dispersion/medidas-dispersion.shtml#ixzz2yahtmkNnEl rango de ladistribucinde frecuencias se calcula as:R= (lim. Sup. de laclasen lim. Inf. De la clase 1)= (93.910 7.420) = 86.49 Propiedades del Rango o Recorrido: El recorrido es la medida de dispersin ms sencilla de calcular e interpretar puesto que simplemente es la distancia entrelos valoresextremos (mximo y mnimo) en una distribucin Puesto que el recorrido se basa en losvaloresextremos ste tiende s ser errtico. No es extrao que en una distribucin dedatoseconmicos o comerciales incluya a unos pocos valores en extremo pequeos o grandes. Cuando tal cosa sucede, entonces el recorrido solamente mide la dispersin con respecto a esos valores anormales, ignorando a los dems valores de la variable. La principal desventaja del recorrido es que slo esta influenciado por los valores extremos,, puesto que no cuenta con los dems valores de la variable. Por tal razn, siempre existe el peligro de que el recorrido ofrezca unadescripcindistorsionada de la dispersin. En elcontrolde lacalidadse hace un uso extenso del recorrido cuando la distribucin a utilizarse no la distorsionan y cuando elahorrodeltiempoal hacer los clculos es un factor de importancia.1.2.-LA VARIANZA (S2 2 ):La varianza es una medida de dispersin relativa a algn punto de referencia. Ese punto de referencia es la media aritmtica de la distribucin. Ms especficamente, la varianza es una medida de que tan cerca, o que tan lejos estn los diferentes valores de su propia media aritmtica. Cuando ms lejos estn las Xi de su propia media aritmtica, mayor es la varianza; cuando ms cerca estn las Xi a su media menos es la varianza. Y se define y expresa matemticamente de la siguiente manera:

La varianza para datos no agrupadosDado un conjunto de observaciones, tales como X1, X2, , Xn, la varianza denotada usualmente por la letra minscula griega (sigma) elevada al cuadrado (2)y en otros casosS2segn otros analistas,se define como:el cuadrado medio de las desviaciones con respecto a su media aritmtica"Matemticamente, se expresa como:Ejemplo:Se tienen las edades de cinco estudiantes universitarios de Ier ao, a saber: 18,23, 25, 27, y 34. Al calcular la media aritmtica (promedio de las edades, se obtuvo 25.4 aos, encontrar la varianza de las edades de estos estudiantes:Para calcular se utiliza una tablaestadsticadetrabajode la siguiente manera:Xi( Xi - )( Xi - )2

18(18 25.5)=-7.4(-7.4)2=54.76

23(23 25.5)=-2.4(-2.4)2= 5.76

25(25 25.5)=-0.4(-0.4)2= 0.16

27(27 25.5)= 1.6( 1.64)2= 2.16

34(34 25.5)= 8.6( 8.6)2 =73.96

Totalxxxx137.20

Respuesta: la varianza de las edades es de 27.4 aos

La varianza para datos agrupadosSi en una tabla de distribucin de frecuencias. Los puntosmediosde las clases son X1, X2, , Xn; y las frecuencias de las clases f1, f2, , fn; la varianza se calcula as:(Xi-)2f12 = ----------------fiSin embargo la formula anterior tiene algn inconveniente para su uso en la practica, sobre todo cuando se trabaja con nmeros decimales o cuando la media aritmtica es un nmero entero. Asimismo cuando se trabaja conmquinascalculadoras, La tarea de computar la varianza se simplifica utilizando laformula de computacinque se da a continuacin:Xi2fi - [(Xifi)2/N]2 = ----------------------------Ndonde N=fiEjemplo:Se tienen los datos de unamuestrade 30cuentaspor cobrar de la tiendaCabreras y Asociadosdispuestos en una tabla de distribucin de frecuencias, a partir de los cuales se deber calcular la varianza, para lo cual se construye la siguiente tabla estadstica de trabajo, si se calcul anteriormente la media aritmtica y se fij en 43.458 (ver ejemplo del calculo en "media aritmtica para datos agrupados) de la siguiente maneraclasesPunto mediosXifiXi2XifiX2fi

7.420 21.83514.62810213.978146.2802,139.780

21.835 36.25029.0434843,496116.1723,373.984

36.250 50.66543.45851,888.598217.2709,442.990

50.665 65.08057.87333,349.284173.61910,047.852

65.080 79.49572.28835,225.555216.86415,676.665

79.495 93.91086.70357,533.025433.96537,665.125

TotalXXX3019,053.9361,304.19078,346.396

= 21,649.344 / 30 = 721.645Respuesta: la varianza de las cuentas por cobrar es igual B/.721.645 Propiedades de la varianza : s siempre unvalorno negativo, que puede ser igual o distinta de 0. Ser 0 solamente cuando Xi= La varianza es la medida de dispersin cuadrtica optima por ser la menor de todas. Si a todos los valores de la variable se le suma una constante la varianza no se modifica. Vemoslo:

Si a xi le sumamos una constante xi = xi + k tendremos (sabiendo que)

Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por el cuadrado de dicha constante. Vemoslo:Si a xi = xi k tendremos (sabiendo que)

Si en una distribucin obtenemos una serie de subconjuntos disjuntos, la varianza de la distribucin inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la expresin

SiendoNi el n de elementos del subconjunto (i)S2i la varianza del subconjunto (i)1.3.-LA DESVIACIN ESTNDAR (S )Esuna medida de la cantidad tpica en la que los valores del conjunto de datos difieren de la media.Es la medida de dispersin ms utilizada, se le llama tambin desviacin tpica. La desviacin estndar siempre se calcula con respecto a la media y es un mnimo cuando se estima con respecto a este valor.Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raz cuadrada positiva de esta. A la desviacin se le representa por la letra minscula griega "sigma" ( ) por la letra S mayscula, segn otros analistas.Clculo de la Desviacin Estndar = 2 S = S2Ejemplo:Del calculo de la varianza de las edades de cinco estudiantes universitarios de primer ao se obtuvo 2=27.44, como la desviacin estndar es la raz cuadrada positiva, entonces = 27.44 = 5.29 aos.Igualprocedimientose aplica para encontrar le desviacin estndar de lascuentas por cobrarde la Tienda Cabreras y Asociados, recordemos que la varianza obtenida fue de 721.645, luego entonces la desviacin estndar es igual a =721.645 = 26.86 balboas. Propiedades de la Desviacin EstndarA su vez la desviacin estndar, tambin tiene una serie de propiedades que se deducen fcilmente de las de la varianza (ya que la desviacin tpica es la raz cuadrada positiva de la varianza): La desviacin estndar es siempre un valor no negativo S ser siempre 0 por definicin. Cuando S = 0 X = xi (para todo i). Es la medida de dispersin ptima por ser la ms pequea. La desviacin estndar toma en cuenta las desviaciones de todos los valores de la variable Si a todos los valores de la variable se le suma una misma constante la desviacin estndar no vara. Si a todos los valores de la variable se multiplican por una misma constante, la desviacin estndar queda multiplicada por el valor absoluto de dicha constante.1.4.- El Coeficiente de Variacin de Pearson (C.V.)Las medidas de tendencia central tienen comoobjetivoel sintetizar los datos en un valor representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de tendencia central son representativas comosntesisde lainformacin. Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar varias muestras.El problema de las medidas de dispersin absolutas es que normalmente son un indicador que nos daproblemasa la hora de comparar. Comparar muestras devariablesque entre s no tienen cantidades en las mismas unidades, de ah que en ocasiones se recurra a medidas dedispersin relativas.Un problema que se plantea, tanto la varianza como la desviacin estndar, especialmente a efectos de comparaciones entre distribuciones, es el de la dependencia respecto a las unidades de medida de la variable. Cuando se quiere comparar el grado de dispersin de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el llamado"Coeficiente de Variacin de Pearson", del que se demuestra que nos da un nmero independiente de las unidades de medidas empleadas, por lo que entre dos distribuciones dadas diremos que posee menor dispersin aquella cuyo coeficiente de variacin sea menor., y quese define como la relacin por cociente entre la desviacin estndar y la media aritmtica; o en otras palabras es la desviacin estndar expresada como porcentaje de la media aritmtica.Definicin del Coeficiente de Variacin

Donde:C.V. representa el nmero de veces que la desviacin tpica contiene a la media aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la representatividad de la media. Propiedades del Coeficiente de Variacin : Si a todos los valores de la variable se le suma una misma constante el coeficiente de variacin queda alterado.Ejemplo:Suponga que Usted trabaja en una compaa deventas, que ofrece como premio de incentivo al mejor vendedor del trimestre anterior las entradas al palco empresarial en la serie final debisbolde las grandes ligas en losEstados Unidos(E,E,U,A,).De losregistrosde ventas se tienen los siguientes datos de ventas, expresados en porcentajes de cumplimiento de las metas fijadas mensualmente:Vendedor A 95 105 100Vendedor B 100 90 110El promedio trimestral de cumplimiento de las metas de ventas de ambos vendedores es igual y equivale al 100%, pero Ud. Slo le puede dar el premio de incentivo a uno de ellos. Cul usted escogera?. En base a que criterio. Explique.Este problema se resuelve utilizando el coeficiente de variacin, para estos efectos es necesario encontrar la desviacin estndar trimestral de las ventas de cada uno de la siguiente manera:Vendedor AXi( Xi - )( Xi - )2

9595 100 = -5(-5)2 = 25

105105 100 = 5( 5)2 = 25

100100 100 = 0( 0)2 = 0

TotalXXX50

La desviacin estndar es =(50/3) = 16.667 = 4.08, luego entonces el coeficiente de variacin es igual a: 4.08C.VA= --------- = ----------- =0.0408 100Vendedor BXi( Xi - )( Xi - )2

100100 100 = 0( 0 )2 = 0

9090 100 = -10(-10)2 = 100

110110 100 = 10( 10)2 = 100

TotalXXX200

La desviacin estndar es =(200/3) = 66.667 = 8.16, luego entonces el coeficiente de variacin es igual a:

Respuesta: Dado que el vendedor A tiene menor coeficiente de variacin, A l le corresponde recibir el premio de incentivo.

Leer ms:http://www.monografias.com/trabajos43/medidas-dispersion/medidas-dispersion2.shtml#ixzz2yai3gGz5DISTRIBUCION DE FRECUENCIASUnadistribucin de frecuenciasotabla de frecuenciases unaordenacinen forma detablade losdatos estadsticos, asignando a cadadatosufrecuencia correspondiente.Tipos de frecuenciaFrecuencia absolutaLafrecuencia absolutaes elnmero de vecesque aparece un determinadovaloren un estudio estadstico.Se representa porfi.Lasuma de las frecuencias absolutases igual al nmero total de datos, que se representa porN.

Para indicar resumidamente estas sumas se utiliza la letra griega(sigma mayscula) que se lee suma o sumatoria.

Frecuencia relativaLafrecuencia relativaes elcocienteentre la frecuencia absolutade un determinado valor y elnmero total de datos.Se puede expresar en tantos por ciento y se representa porni.

La suma de las frecuencias relativas es igual a 1.Frecuencia acumuladaLafrecuencia acumuladaes lasuma de las frecuencias absolutasde todos losvalores inferiores o igualesalvalorconsiderado.Se representa porFi.Frecuencia relativa acumuladaLafrecuencia relativa acumuladaes elcocienteentre lafrecuencia acumuladade un determinadovalory elnmero total de datos. Se puede expresar en tantos por ciento.EjemploDurante el mes de julio, en una ciudad se han registrado las siguientes temperaturas mximas:32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.xiRecuentofiFiniNi

27I110.0320.032

28II230.0650.097

29690.1940.290

307160.2260.516

318240.2580.774

32III3270.0970.871

33III3300.0970.968

34I1310.0321

311

Este tipo detablas de frecuenciasse utiliza convariables discretas.

Distribucin de frecuencias agrupadasLadistribucin de frecuencias agrupadasotabla con datos agrupadosse emplea si lasvariablestoman unnmero grande de valoreso lavariable es continua.Seagrupanlosvaloresenintervalosque tengan lamisma amplituddenominadosclases. A cadaclasese le asigna sufrecuencia correspondiente.Lmites de la claseCadaclaseestdelimitadapor ellmite inferior de la clasey ellmite superior de la clase.Amplitud de la claseLaamplitud de la clasees ladiferenciaentre ellmite superior e inferiorde laclase.Marca de claseLamarca de clasees elpunto mediode cadaintervaloy es elvalorque representa a todo elintervalopara elclculode algunosparmetros.Construccin de una tabla de datos agrupados3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.1 se localizan los valores menor y mayor de la distribucin. En este caso son 3 y 48.2 Se restan y se busca un nmero entero un poco mayor que la diferencia y que sea divisible por el nmero de intervalos de queramos poner.Es conveniente que el nmero de intervalos oscile entre 6 y 15.En este caso, 48 - 3 = 45, incrementamos el nmero hasta 50 : 5 = 10 intervalos.Se forman los intervalos teniendo presente que el lmite inferior de una clase pertenece al intervalo, pero el lmite superior no pertenece intervalo, se cuenta en el siguiente intervalo.cifiFiniNi

[0, 5)2.5110.0250.025

[5, 10)7.5120.0250.050

[10, 15)12.5350.0750.125

[15, 20)17.5380.0750.200

[20, 25)22.53110.0750.2775

[25, 30)27.56170.1500.425

[30, 35)32.57240.1750.600

[35, 40)37.510340.2500.850

[40, 45)42.54380.1000.950

[45, 50)47.52400.0501

401

DISTRIBUCION DE FRECUENCIASEjercicio 6Las calificaciones de 50 alumnos en Matemticas han sido las siguientes:5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.Construir latabla de distribucin de frecuenciasy dibuja eldiagrama de barras.

xifiFiniNi

0110.020.02

1120.020.04

2240.040.08

3370.060.14

46130.120.26

511240.220.48

612360.240.72

77430.140.86

84470.080.94

92490.040.98

101500.021.00

501.00

Diagrama de barras

Ejemplo: Quieren conocer si un grupo de individuos est a favor o en contra de la exhibicin de imgenes violentas por televisin, para lo cual han recogido los siguientes datos:

La inspeccin de los datos originales no permite responder fcilmente a cuestiones como cul es la actitud mayoritaria del grupo, y resulta bastante ms difcil determinar la magnitud de la diferencia de actitud entre hombres y mujeres.Podemos hacernos mejor idea si disponemos en una tabla los valores de la variable acompaados del nmero de veces (la frecuencia) que aparece cada valor:

X: Smbolo genrico de la variable.f: Frecuencia (tambin se simboliza como ni).La distribucin de frecuencias de los datos del ejemplo muestra que la actitud mayoritaria de los individuos del grupo estudiado es indiferente.La interpretacin de los datos ha sido facilitada porque se ha reducido el nmero de nmeros a examinar (en vez de los 20 datos originales, la tabla contiene 5 valores de la variable y 5 frecuencias).Generalmente las tablas incluyen varas columnas con las frecuencias relativas (son el nmero de ocurrencias dividido por el total de datos, y se simbolizan "fr" o "pi"), frecuencias acumuladas (la frecuencia acumulada es el total de frecuencias de los valores iguales o inferiores al de referencia, y se simbolizan "fa" o "na". No obstante la frecuencia acumulada tambin es definida incluyendo al valor de referencia), frecuencias acumuladas relativas (la frecuencia acumulada relativa es el total de frecuencias relativas de los valores iguales o inferiores al de referencia, y se simbolizan "fr" o "pa")Ejemplo: Consideremos el siguiente grupo de datos:

La distribucin de freciemcias es:

La reduccin de datos mediante el agrupamiento en frecuencias no facilita su interpretacin: La tabla es demasiado grande. Para reducir el tamao de la tabla agrupamos los valores en intervalos, y las frecuencias son las de los conjuntos de valores incluidos en los intervalos:

Ahora es ms sencillo interpretar los datos. Por ejemplo, podemos apreciar inmediatamente que el intervalo con mayor nmero de datos es el 34-39, o que el 75% de los datos tiene valor inferior a 46.Este tipo de tabla es denominado "tabla de datos agrupados en intervalos".Elementos bsicos de las tablas de intervalos: Intervalo: Cada uno de los grupos de valores de la variable que ocupan una fila en una distribucin de frecuencias Lmites aparentes: Valores mayor y menor del intervalo que son observados en la tabla. Dependen de la precisin del instrumento de medida. En el ejemplo, los lmites aparentes del intervalo con mayor nmero de frecuencias son 34 y 39. Lmites exactos: Valores mximo y mnimo del intervalo que podran medirse si se contara con un instrumento de precisin perfecta. En el intervalo 34-39, estos lmites son 33.5 y 39.5 Punto medio del intervalo (Mco Marca de clase): Suma de los lmites dividido por dos. Mc del intervalo del ejemplo= 36.5 Amplitud del intervalo: Diferencia entre el lmite exacto superior y el lmite exacto inferior. En el ejemplo es igual a 6.

ANALISIS BIVARIADO

Regresin Lineal Multiple Regresin Logit y Probit Anlisis Manova

EJEMPLO DE ANOVAEjemplo 1Se quiere evaluar la eficacia de distintas dosis de un frmaco contra la hipertensin arterial, comparndola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningn tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el frmaco a una dosis determinada y al quinto el mismo frmaco a otra dosis. Las presiones arteriales sistlicas de los 25 sujetos al finalizar los tratamientos son:Grupo

12345

180172163158147

173158170146152

175167158160143

182160162171155

181175170155160

La tabla de anova es:Fuente de variacinGLSSMSF

Tratamiento42010,64502,6611,24

Error20894,444,72

Total242905,04

ComoF0,05(4,20)=2,87 y 11,24>2,87 rechazamos la hiptesis nula y concluimos que los resultados de los tratamientos son diferentes.Nota: Para hacerlo con un paquete estadstico, p.e. el SPSS, deberamos crear un archivo con 2 variables:Trata(con un cdigo distinto para cada grupo, p.e. de 1 a 5) yPresioncon la presin arterial de cada individuo al acabar el estudio. Para calcular elAnovadesplegamos los mens que se ven en la grfica:

La tabla deanovaque devuelve el programa es

CORRELACIONUna compaa desea hacer predicciones del valor anual de sus ventas totales en cierto pas a partir de la relacin de stas y la renta nacional. Para investigar la relacin cuenta con los siguientes datos:X189190208227239252257274293308316

Y402404412425429436440447458469469

X representa la renta nacional en millones de euros e Y representa las ventas de la compaa en miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive). Calcular:1Larecta de regresinde Y sobre X.2Elcoeficiente de correlacin lineale interpretarlo.3Si en 2001 la renta nacional del pas fue de 325 millones de euros. Cul ser la prediccin para las ventas de la compaa en este ao?Solucin2La informacin estadstica obtenida de una muestra de tamao 12 sobre la relacin existente entre la inversin realizada y el rendimiento obtenido en cientos de miles de euros para explotaciones agrcolas, se muestra en el siguiente cuadro:Inversin (X)111416151618202114201911

Rendimiento (Y)23565371061056

Calcular:1Larecta de regresindel rendimiento respecto de la inversin.2La previsin de inversin que se obtendr con un rendimiento de 1 250 000 .Solucin3El nmero de horas dedicadas al estudio de una asignatura y la calificacin obtenida en el examen correspondiente, de ocho personas es:Horas (X)2016342327321822

Calificacin (Y)6.568.5799.57.58

Se pide:1Recta de regresin de Y sobre X.2Calificacin estimada para una persona que hubiese estudiado 28 horas.Solucin4En la tabla siguiente se indica la edad (en aos) y la conducta agresiva (medida en una escala de cero a 10) de 10 nios.Edad666.777.47.988.28.58.9

Conducta agresiva9678742331

1Obtener larecta de regresinde la conducta agresiva en funcin de la edad.2A partir de dicha recta, obtener el valor de la conducta agresiva que correspondera a un nio de 7.2 aos.Solucin5Los valores de dos variables X e Y se distribuyen segn la tabla siguiente:Y/X1005025

14110

18230

22012

Se pide:1Calcular lacovarianza.2Obtener e interpretar el coeficiente decorrelacin lineal.3Ecuacin de larecta de regresinde Y sobre X.Solucin6Las puntuaciones obtenidas por un grupo de alumnos en una batera de test que mide la habilidad verbal (X) y el razonamiento abstracto (Y) son las siguientes:22>Y/X22>2022>3022>4022>50

22>(25-35)6400

22>(35-45)3610

22>(45-55)0253

22>(55-65)0127

Se pide:1Existecorrelacinentre ambas variables?2Segn los datos de la tabla, si uno de estos alumnos obtiene una puntuacin de 70 puntos en razonamiento abstracto, en cunto se estimar su habilidad verbal?Solucin7Se sabe que entre el consumo de papel y el nmero de litros de agua por metro cuadrado que se recogen en una ciudad no existe relacin.1Cul es el valor de lacovarianzade estas variables?2Cunto vale el coeficiente decorrelacin lineal?3Qu ecuaciones tienen las dosrectas de regresiny cul es su posicin en el plano?Solucin8En una empresa de transportes trabajan cuatro conductores. Los aos de antigedad de permisos de conducir y el nmero de infracciones cometidas en el ltimo ao por cada uno de ellos son los siguientes:Aos (X)3456

Infracciones (Y)4321

Calcular elcoeficiente de correlacin lineale interpretarlo.Solucin9Una persona rellena semanalmente una quiniela y un boleto de lotera primitiva anotando el nmero de aciertos que tiene. Durante las cuatro semanas del mes de febrero, los aciertos fueron:Quiniela (X)6868

Primitiva (Y)1221

Obtener elcoeficiente de correlacin lineale interpretarlo. Ofreceran confianza las previsiones hechas con las rectas de regresin?