18
Probabilidad y estadística fundamental Grupo 2 Presentado por: Carlos Andrés Pinzón Profesor Wilson Andrés Sarmiento 12 de diciembre del 2014

Trabao Regresión Lineal

Embed Size (px)

DESCRIPTION

un ejemplo para enterder estadistica

Citation preview

Probabilidad y estadstica fundamental

Grupo 2

Presentado por:

Carlos Andrs Pinzn

Profesor

Wilson Andrs Sarmiento

12 de diciembre del 2014

ndice:1) Introduccin2) Marco terico Regresin lineal Prueba de chpiro R Project R comander3) Datos4) Anlisis de datos5) conclusiones6) bibliografa

Introduccin:

En este informe se va a estudiar bsicamente la relacin entre la longitud y el peso de los perros clasificados por su raza, de acuerdo a los datos previos adquiridos gracias al libro applied veterinary clinical nutrition escrito por los veterinarios Andrea J.falseti y Sean J.Delaney publicado en el ao 2012.Suele ser muy curioso examinar esta especie en general del reino animal debido a que es uno de los animales con mayor variedad gentica por lo que sus especmenes suelen tener grandes diferencias fsicas entre s, generando la gran curiosidad la cual es bsicamente si podra ser posible que exista una relacin directa entre la longitud del cuerpo de estos animales con su peso.Para esto se disponen datos de un estudio echo por estos mismos autores los cuales nos darn la informacin necesaria para establecer una hiptesis con lo visto en el curso de probabilidad y estadstica fundamental de este semestre.Se va a disponer de ayuda de un software llamado R Project el cual es uno de los ms importantes programas para ayuda en trabajos estadsticos como el que se llevara a cabo en este informe.El programa posee varios paquetes de datos los cuales nos facilita la manipulacin de este software, para este anlisis se va a utilizar el paquete de datos llamado rcomander el cual es un paquete muy fcil de descargar por internet y nos da un interfaz ms amigable con el usuario para la manipulacin de este programa.Vamos partir bajo la hiptesis nula de que existe una relacin lineal entre el peso y la altura de los perros, con esto dicho vamos a utilizar el mtodo de mnimos cuadrados para definir la regresin lineal y posteriormente se realizara una prueba de shapiro para establecer si existe normalidad entre los datos tomados con un nivel de significancia del 1%.De ser verdad esta hiptesis se podra establecer una relacin entre peso y altura para todos los perros en general diferentemente de la raza lo cual resultara muy til en el rea veterinario de esta especie como tal.

Marco teorico:

Regresin lineal: En estadstica un modelo deregresin lineales un modelode una variable dependiente de una o ms variables explicativas en el que se supone que la funcin que vincula las variables explicativas a la variable dependiente es lineal en su parmetros.Formalmente, se modela la relacin entre una variable aleatoria, y un vector de variables aleatorias.En general, el modelo lineal se puede escribir como sigue:

El trminose refiere a lavariable dependiente.El vectores el conjunto devariables explicativas:.La variable aleatoriadenota eltrmino de error.A veces se llamaperturbacin.Supongamos que uno tiene datos variables.Se busca estimar el vectorde parmetros:.Laregresinlineal se llama, ya que impone una forma funcional lineal en los parmetros del modelo.Tambin se conoce comomodelo linealomodelo de regresin lineal.En general, el modelo de regresin lineal se refiere a un modelo en el que laexpectativa condicionaldesaberes una transformacin a.Sin embargo, tambin podemos considerar los modelos en los que est condicionada la mediana desabero cualquier cuartil de la distribucin delos conocimientoses una transformacin afn deuno.El modelo de regresin lineal a menudo se calcula por elmtodo de mnimos cuadrados, pero hay muchos otros mtodos de estimacin de este modelo.Se puede por ejemplo estimar el modelo demxima verosimilitudo porinferencia bayesiana.Aunque presentado a menudo juntos, el modelo lineal y el mtodo de mnimos cuadrados no significan lo mismo.El modelo lineal se refiere a una clase de modelos que se puede estimar por una variedad de mtodos, y el mtodo de mnimos cuadrados es un mtodo de estimacin.Se puede utilizar para estimar los diversos tipos de modelos.

Prueba de chpiro: Laprueba de Shapiro-Wilkes una estadsticoprueba de significacinque comprueba la hiptesis de que la subyacente poblacin de una muestra se distribuye normalmente. La prueba fue desarrollada por Samuel Shapiro y Wilk Martin desarrollado y 1965, presentado por primera vez.Lahiptesis nulaH0asume una distribucin normal de la poblacin est presente.Por el contrario, subordinado a la hiptesis alternativaH1que no se da una distribucin normal.Si el valor de laestadstica de pruebaes mayor que el valor crtico, la hiptesis nula no se rechaza y se asume que una distribucin normal.Si, en su defecto, elvalor pde la prueba se determinar, la hiptesis nula no se rechaza en general, si el valor de p es mayor que el especificadonivel de significacin.El mtodo de ensayo fue publicado en 1965 por el estadounidense Samuel Shapiro y el canadiense Martin Wilk y es el resultado de su idea original, el anlisis de la informacin grfica para la distribucin normal utilizandoun estadistico pararesumir en un ndice.La lata de prueba para verificarunivariadoutilizarse muestras con 3-5000 observaciones.Un desarrollo adicional de la prueba, la llamadaprueba H de Royston, permite la verificacin de muestreo multidimensional de ladistribucin normal multivariante.Adems de otras pruebas conocidas de distribucin normal, como laprueba de Kolmogorov-Smirnovo laprueba de chi cuadrado, la prueba de Shapiro-Wilk se caracteriza por su altopoder de la pruebade numerosas situaciones de prueba, especialmente en la verificacin de las muestras ms pequeas conn Datos RegModel.1 summary(RegModel.1)

Call:lm(formula = altura ~ peso, data = Datos)

Residuals: Min 1Q Median 3Q Max -15.3352 -0.3589 0.0257 0.5997 9.6648

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.418071 0.487674 0.857 0.393 peso 0.442603 0.009565 46.273 library(lattice, pos=14)

> xyplot(peso ~ altura, type=c("p", "l"), pch=16, auto.key=list(border=TRUE), + par.settings=simpleTheme(pch=16), scales=list(x=list(relation='same'), + y=list(relation='same')), data=Datos)

> summary(Datos) altura peso Min. : 1.00 Min. : 2.00 1st Qu.: 6.90 1st Qu.: 16.00 Median :17.00 Median : 37.00 Mean :18.58 Mean : 41.03 3rd Qu.:27.00 3rd Qu.: 60.00 Max. :77.00 Max. :170.00

> xyplot(peso ~ altura, type="p", pch=16, auto.key=list(border=TRUE), par.settings=simpleTheme(pch=16), scales=list(x=list(relation='same'), + y=list(relation='same')), data=Datos)

> with(Datos, shapiro.test(peso))

Shapiro-Wilk normality test

data: pesoW = 0.8948, p-value = 5.47e-08

> with(Datos, shapiro.test(altura))

Shapiro-Wilk normality test

data: alturaW = 0.8927, p-value = 4.289e-08Adems tambin se anexara un diagrama de dispersin el cual dar una mejor perspectiva acerca de la distribucin de los puntos los cuales representan el peso y la altura de cada raza.

5) conclusiones:

Al ver el diagrama de dispersin se puede ver que en general a un comportamiento lineal en el experimento salvo unos cuantos datos atpicos que se ven claramente en la grafica. A pesar de todo esto podemos aproximar bastante el comportamiento de la longitud con respecto al peso.Al realizar la regresin lineal con los datos se puede dar cuenta que posee una desviacin tpica bastante grande por lo que no da un nivel de confianza muy alto como se esperara.En lo que concierne a las pruebas de chpiro existe muy poca posibilidad de que los datos tomados posean una distribucin normal como se puede ver, por lo tanto rechazamos la hiptesis nula original el cual era de que los datos se distribuan normalmente.

Bibliografia

De Lewis, L.D., Morris, M.L., y Hand, M.S.: Small Animal Clinical Nutrition III. Topeka, Kansas, Mark Morris Associates, 1987. http://www.mismascotas.cl/perro/pesoperro.htm Walpole, Probabilidad y estadistica para ingenieros, 6. Ed Computer science and data analisys series, Robert gentleman https://www.youtube.com/watch?v=HP3Ga2953_s https://www.youtube.com/watch?v=jI672owC4co