Upload
anniekl
View
94
Download
1
Embed Size (px)
Citation preview
República Bolivariana de VenezuelaMinisterio del Poder Popular para la Educación.
I.U.P. Santiago Mariño.Sede-Barcelona.
Profesor:
Beltrán Pedro
Bachiller:
López Annie24.947.873
Coeficientes de correlación de Pearson y de Spearman
Coeficientes de correlación de Pearson
Es un índice estadístico que mide la relación lineal entre dos variables cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto de las desviaciones estándar de ambas variables.El coeficiente de correlación de Pearson opera con puntuaciones tipificadas (que miden posiciones relativas) y se define:
Coeficiente de correlación de pearson.
Los coeficientes de correlación son medidas que indican la situación relativa de los mismos sucesos respecto a las dos variables, es decir, son la expresión numérica que nos indica el grado de relación existente entre las 2 variables y en qué medida se relacionan. Son números que varían entre los límites +1 y -1. Su magnitud indica el grado de asociación entre las variables; el valor r = 0 indica que no existe relación entre las variables; los valores( 1 son indicadores de una correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y) o negativa (Al crecer o decrecer X, decrece o crece Y).
Para interpretar el coeficiente de correlación utilizamos la siguiente escala:
Valor Significado
-1 Correlación negativa grande y perfecta
-0,9 a -0,99 Correlación negativa mu alta
-0,7 a -0,89 Correlación negativa alta.
-0,4 a -0,69 Correlación negativa moderada.
-0,2 a -0,39 Correlación negativa baja.
-0,01 a -0,19 Correlación negativa muy baja.
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a0,99 correlación positiva muy alta
1 Correlación positiva grande y perfecta
Para datos no agrupados se calcula aplicando la siguiente ecuaciónLeer más:
Ejemplo ilustrativo:Con los datos sobre las temperaturas en dos días diferentes en una ciudad, determinar el tipo de correlación que existe entre ellas mediante el coeficiente de PEARSON.
X 18 17 15 16 14 12 9 15 16 14 16 18 SX= 180
Y 13 15 14 13 9 10 8 13 12 13 10 8 SY=380
Se calcula la media aritmética
Se llena la tabla.
Se aplica la fórmula
Ventajas: •Cuando en el fenómeno estudiado las dos variables son cuantitativas se usa el coeficiente de correlaciones de Pearson. •Es llamado así en homenaje a Karl Pearson. Las dos variables son designadas por X e Y.
Desventajas: • El valor 0 representa falta de correlación. •Cuando las variables X e Y son independientes, el numerador se anula y el coeficiente de correlación poblacional tiene el valor cero. •En cambio una correlación nula no implica la independencia de variables.
Usos de enfoques Pearson a problemas estadísticos: Métodos Estadísticos para Investigadores”. Desde entonces, el contraste de Hipótesis es considerado uno de los métodos de inferencia estadística de utilización obligada en casi todas las disciplinas. Si bien hoy en día los estudiantes de Estadística aprenden a testear hipótesis aplicando una secuencia de pasos más o menos estandarizada, es importante recordar que no estamos ante una teoría unificada, sino ante la amalgama de los estudios sistemáticos realizados separadamente por Fisher por un lado y Neyman y Pearson por el otro. Fisher desarrolló su teoría que denominó Pruebas de Significación y Neyman y Pearson las llamadas Pruebas de Hipótesis. Desde 1930, fecha en que aparecieron los trabajos de NP., la teoría de los test de hipótesis fue dominada por el paradigma de la decisión. Esto ha llevado al estado actual de cosas en el cual predomina la teoría de Neyman-Pearson como modelo ó esquema de razonamiento para la toma decisiones, pero la práctica estadística en la investigación, aplicando los mismos procedimientos, interpreta los datos como evidencia para validar teorías.
Coeficiente de correlación de Spearman En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.El estadístico ρ viene dado por la expresión
Donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el número de parejas.Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstanciaPara muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Studen
La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal
Ejemplo.
Los datos brutos usados son:C.I Horas de TV a la semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y 'orden(t)'Para el orden i, se corresponderán con el numero de fila del cuadro, para 99, orden(i) =3 ya que ocupa el 3.er lugar, ordenado de menor a mayorpara el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }para este caso, el orden sería para cada elemento, respectivamente: orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }sin embargo, el valor de orden esta dado por el valor promedio de sus posiciones, así para:7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.528 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 850 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:
CI (i) Horas de TV a la semana (t) Orden (i) Orden(t) d d2
86 0 1 1 0 097 20 2 6 4 1699 28 3 8 5 25
100 50 4.5 10 5.5 30.25100 28 4.5 8 3.5 12.25103 28 6 8 2 4106 7 7 2.5 4.5 20.25110 17 8 5 3 9113 7 9.5 2.5 7 49113 12 9.5 4 5.5 30.25
Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran. Los valores de la columna d2 pueden ser sumados para averiguar que esos valores pueden ser sustituidos en la fórmula. De lo que resulta
Ventajas: •Al ser Spearman una técnica no paramétrica es libre de distribución probabilística (2, 5, 9). •Los supuestos son menos estrictos. Es robusto a la presencia de outliers (es decir permite ciertos desvíos del patrón normal). •La manifestación de una relación causa-efecto es posible sólo a través de la comprensión de la relación natural que existe entre las variable y no debe manifestarse sólo por la existencia de una fuerte correlación (1, 5)
Desventajas: •Indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. •La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante
Uso de enfoques Spearman• El enfoque psicométrico utiliza técnicas de análisis factorial con la idea de descubrir las diferencias individuales de la inteligencia entre las personas. Para ello se recurre al uso de los tests de inteligencia. • Spearman distingue dos factores: el factor “G” y el factor “S”. El “G” es la inteligencia general (común a la mayoría de las personas). El “S” son las habilidades específicas de la inteligencia (verbal, numérica, espacial, etc.)