Upload
pablo-velasquez
View
198
Download
1
Embed Size (px)
Citation preview
INSTITUTO UNIVERSITARIO POLITECNICO
¨SANTIAGO MARIÑO¨
SEDE BARCELONA
ESCUELA DE INGENIERIA CIVIL
COEFICIENTES DE CORRELACION
DE PEARSON Y DE SPERMAN
Realizado Por:
Br. Velásquez H., Pablo J.
C.I.: 21.081.688
Dado dos variables, la correlación permite hacer estimaciones del valor de una de ellas conociendo el valor
de la otra variable.
Los coeficientes de correlación son medidas que indican la situación relativa de los mismos sucesos
respecto a las dos variables, es decir, son la expresión numérica que nos indica el grado de relación existente entre las 2
variables y en qué medida se relacionan. Son números que varían entre los límites +1 y -1. Su magnitud indica el grado
de asociación entre las variables; el valor r = 0 indica que no existe relación entre las variables; los valores (1
son indicadores de una correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y) o negativa (Al crecer o
decrecer X, decrece o crece Y).
En el caso de que se esté estudiando dos variables aleatorias X y Y sobre una población; el coeficiente de
correlación de Pearson se simboliza con la letra, siendo la expresión que nos permite calcularlo:
Donde:
σxy es la covarianza de (X,Y)
σx es la desviación típica de la variable X
σy es la desviación típica de la variable Y
De manera análoga podemos calcular este coeficiente sobre un estadístico menstrual, denotado rxy a:
1. El coeficiente de correlación de Pearson puede tomar valores entre -1 y 1.
2. La correlación de una variable con ella misma siempre es igual a 1.
3. El valor 0 indica ausencia de covariación lineal, pero NO si la covariación es de tipo no lineal. (Ver ejemplo en el
apartado de relaciones no lineales).
→ Si r < 0 Hay correlación negativa : las dos variables se correlacionan en sentido inverso. A valores altos de una de
ellas le suelen corresponder valor bajos de la otra y viceversa. Cuánto más próximo a -1 esté el coeficiente de
correlación más patente será esta covariación extrema. Si r= -1 hablaremos de correlación negativa perfecta lo que
supone una determinación absoluta entre las dos variables ( en sentido inverso): Existe una relación funcional perfecta
entre ambas(una relación lineal de pendiente negativa).
→ Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido directo. A valores altos de una le
corresponden valores altos de la otra e igualmente con los valores bajos. Cuánto más próximo a +1 esté el coeficiente de
correlación más patente será esta covariación. Si r = 1 hablaremos de correlación positiva perfecta lo que supone una
determinación absoluta entre las dos variables (en sentido directo):Existe una relación lineal perfecta ( con pendiente
positiva).
→Si r = 0 se dice que las variables están incorrelacionadas: no puede establecerse ningún sentido de covariación.
Propiedad importante: Si dos variables son independientes estarán incorrelacionadas aunque el resultado recíproco no
es necesariamente cierto.
Valor Significado
-1 Correlación negativa grande y perfecta
-0,9 a -0,99 Correlación negativa muy alta
-0,7 a -0,89 Correlación negativa alta
-0,4 a -0,69 Correlación negativa moderada
-0,2 a -0,39 Correlación negativa baja
-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a 0,99 Correlación positiva muy alta
1 Correlación positiva grande y perfecta
Otra forma para interpretar el coeficiente de correlación, es mediante la siguiente escala:
− El valor del coeficiente de correlación es
independiente de cualquier unidad usada
para medir variables.
− Mientras mas grande sea la muestra mas
exacta será la estimación.
− Requiere supuestos acerca de la
naturaleza o formas de las poblaciones
afectadas.
− Requiere que las dos variables hayan ido
medidas hasta un nivel cuantitativo
continuo y que la distribución de ambas
sea semejante a la de la curva normal.
Identifica el dependiente variable que se probará entre dos
observaciones derivadas independientemente. Uno de los requisitos es que las
dos variables que se comparan deben observarse o medirse de manera
independiente para eliminar cualquier resultado sesgado.
→ Para cantidades grandes de información, el cálculo puede ser tedioso.
→ Reportar un valor de correlación cercano a 0 como un indicador de que no hay
relación lineal entre las dos variables. Reporta un valor de correlación cercano al
1 como indicador de que existe una relación lineal positiva entre las dos variables.
Un valor mayor a cero que se acerque a 1 da como resultad una mayor
correlación positiva entre la información.
→ Reportar un valor de correlación cercano a -1 como indicador de que hay una
relación lineal negativa entre las dos variables.
→ Interpretar el coeficiente de correlación de acuerdo con el contexto de los
datos particulares. El valor de correlación es esencialmente un valor arbitrario que
debe aplicarse de acuerdo con las variables que se comparan.
→ Determina la importancia de los resultados. Esto se logra con el uso del
coeficiente de correlación, grados de libertad y una tabla de valores críticos del
coeficiente de correlación. Los grados de libertad se calculan con el número de
las dos observaciones menos 2.
Con los datos sobre las temperaturas en dos días diferentes en una ciudad, determinar el tipo de
correlación que existe entre ellas mediante el coeficiente de PEARSON.
SOLUCIÓN:
1. Se calcula la media aritmética: 2. Se llena la siguiente tabla:
X 18 17 15 16 14 12 9 15 16 14 16 18 SX =180
Y 13 15 14 13 9 10 8 13 12 13 10 8 SY= 138
3. Se aplica la fórmula:
4. Por último, obtenemos una correlación moderada.
En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la
asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y
reemplazados por su respectivo orden. El estadístico ρ viene dado por la expresión:
Donde, D es la diferencia entre los correspondientes estadísticos de orden de x - y; N es el número de
parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son
pocos, se puede ignorar tal circunstancia. Para muestras mayores de 20 observaciones, podemos utilizar la siguiente
aproximación a la distribución t de Student:
La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson.
Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación
pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos
ordenaciones de una distribución normal bivariante.
En la interpretación de la prueba estadística correlación de Spearman, es necesario tener en cuenta el
objetivo de la investigación que se define en primera instancia y la relevancia de estas relaciones en el fenómeno clínico
que se estudia, no depende en nuestras conclusiones solamente de la cifra matemática obtenida, sino basarnos en
experiencias científicas del tema de investigación, para evitar que interfiera la casualidad. La explicación de un
coeficiente de correlación como medida de la intensidad de la relación lineal entre dos variables es puramente
matemática y libre de cualquier implicación de causa-efecto. El hecho de que las dos variables tiendan a crecer o
decrecer juntas no indica que la una tenga un efecto directo o indirecto sobre la otra. Ambas pueden estar influidas por
otras variables de modo que se origine una fuerte relación matemática. La interpretación de rho depende principalmente
de los detalles de la investigación y la experiencia propia en el tema de estudio. La experiencia previa sirve
generalmente como base de comparación para determinar si un coeficiente de correlación es digno de ser mencionado.
Diversos autores expresan escalas de interpretación, que se ofrecen a continuación:
ESCALA 1.
El coeficiente de correlación oscila entre –1 y +1, el valor 0 que indica que no existe asociación lineal entre
las dos variables en estudio.
ESCALA 2.CORRELACION VALOR
Correlación negativa
perfecta-1
Correlación negativa
fuerte moderada débil-0,5
Ninguna correlación 0
Correlación positiva
moderada fuerte0,5
Correlación positiva
perfecta1
CORRELACION R
Perfecta 1
Excelente 0.9 < R < 1
Buena 0.8 < R < 0.9
Regular 0.5 < R < 0.8
Mala R <0.5
ESCALA 3. ESCALA 4.
CORRELACION R
Escasa o nula 0 – 0.25
Débil 0.26 – 0.50
Entre moderada y
fuerte0.51 – 0.75
Entre fuerte y perfecta 0.76 – 1
A modo de conclusión, recomendamos que al interpretar la prueba de correlación de rangos de Spearman debemos
tener en cuenta que:
La interpretación del coeficiente rho de Spearman concuerda en valores próximos a 1; indican una correlación fuerte y positiva.
Valores próximos a –1 indican una correlación fuerte y negativa. Valores próximos a cero indican que no hay correlación lineal.
Puede que exista otro tipo de correlación, pero no lineal. Los signos positivos o negativos solo indican la dirección de la relación; un
signo negativo indica que una variable aumenta a medida que la otra disminuye o viceversa, y uno positivo que una variable
aumenta conforme la otra también lo haga disminuye, si la otra también lo hace.
El personal de salud que investiga debe estar atento a correlaciones que se encuentran en los valores aproximados a +0,95 o
superiores, pues en el campo biológico y en especial con datos humanos, correlaciones tan altas, son excesivamente buenas para
ser ciertas. Si se obtienen valores mayores o menores que 1, los cálculos deben ser revisados pues se incurrió en un error de
proceso.
Una vez obtenido el coeficiente de correlación, pueden utilizarse pruebas estadísticas y la construcción de intervalos de
confianza para probar su significación.
La significancia estadística de un coeficiente debe tenerse en cuenta conjuntamente con la relevancia clínica del fenómeno que
se estudia, ya que coeficientes de 0.5 a 0.7 tienden a ser significativos en muestras pequeñas.
La estimación del coeficiente de determinación (r 2) nos muestra el porcentaje de la variabilidad de los datos que se explica por
la asociación entre las dos variables
− No está afectada por los cambios en las
unidades de medidas.
− Al ser una técnica no paramétrica, es libre
de distribución probabilística.
− Es recomendable usarlo cuando los datos
presentan valores extremos, ya que
dichos valores afectan mucho el
coeficiente de correlación de Pearson, o
ante distribuciones no normales.
− R no debe ser utilizado para decir algo
sobre la relación entre causa y efecto.
Para aplicar el coeficiente de correlación de Spearman se requiere que
las variables estén medidas al menos en escala ordinal, es decir, de forma que las
puntuaciones que las representan, puedan ser colocadas en dos series ordenadas.
→ A veces, este coeficiente es denominado por la letra griega ρs (rho), aunque
cuando nos situamos en el contexto de la estadística descriptiva se emplea la notación
rs.
→ La fórmula de cálculo para rs puede derivarse de la utilizada en el caso de rxy;
bastaría aplicar el coeficiente de correlación de Pearson a dos series de puntuaciones
ordinales, compuestas cada una de ellas por la n primeros números naturales.
→ A partir de un conjunto de n puntuaciones, la fórmula que permite el cálculo de la
correlación entre dos variables X e Y, medidas al menos en escala ordinal, es la
siguiente: donde D es la distancia existente entre los puestos que ocupan las
puntuaciones correspondientes a un sujeto y cuando estas puntuaciones han sido
ordenadas para X y para Y.
→El coeficiente de correlación de Spearman se encuentra siempre comprendido entre
los valores -1 y 1. Es decir, -1 < rs < 1.
→ Cuando todos los sujetos se sitúan en el mismo puesto para la variable X y para la
variable Y, el valor de rs es 1. Si ocupan valores opuestos, es decir, al primer sujeto en
X le corresponde el último lugar en Y, al segundo en X le corresponde el penúltimo en
Y, etc., entonces el valor de rs es -1.
Los datos usados en este ejemplo, se muestran a continuación:
CI
Horas de
TV a la
semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas
'orden(i)' y 'orden(t)‘. Para el orden i, se corresponderán con el número de fila del cuadro,
para 99, orden(i) =3 ya que ocupa el 3er lugar, ordenado de menor a mayor. Para el orden
t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer
otro cuadro, la secuencia ordenada quedaría:
T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }
para este caso, el orden sería para cada elemento, respectivamente:
orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }
sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:
- 7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5
- 28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8
- 50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
Después, se crean dos columnas más, una columna "d" que muestra las
diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la
columna "d" al cuadrado.
Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas
de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.
Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que
les corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar . El valor de n es 10. Así que
esos valores pueden ser sustituidos en la fórmula.
De lo que resulta: ρ = -0.187878787879.
CI (i)Horas de TV a la
semana (t)Orden(i) Orden(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25
https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Pearson
https://www.uv.es/ceaces/base/descriptiva/coefcorre.htm
http://www.uv.es/webgid/Descriptiva/31_coeficiente_de_pearson.html
http://www.monografias.com/trabajos85/coeficiente-correlacion-karlpearson/coeficiente-correlacion-karl-pearson.shtml
https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017