16
Instituto Politécnico Santiago Mariño M.P.P. Para La Educación Escuela 42 Ing. civil Materia: Estadística Integrante: Leomaris Blanco CI: 26.122.517 Sección: F Coeficientes de correlación de Pearson y de Sperman Carcas,abril,2016.

Coeficientes de correlacion de pearson y de sperman

Embed Size (px)

Citation preview

Instituto Politécnico Santiago Mariño

M.P.P. Para La EducaciónEscuela 42 Ing. civilMateria: Estadística

Integrante:

Leomaris Blanco CI: 26.122.517 Sección: F

Coeficientes de correlación de Pearson y de

Sperman

Carcas,abril,2016.

Coeficiente de correlación de Pearson Es una medida de la relación lineal entre

dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.

Definición: En el caso de que se esté estudiando dos

variables aleatorias X y Y sobre una población; el coeficiente de correlación de Pearson se simboliza con la letra , siendo la expresión que nos permite calcularlo:

El fundamento del coeficiente de Pearson es el siguiente: Cuanto más intensa sea la concordancia (en sentido directo o inverso) de las posiciones relativas de los datos en las dos variables, el producto del numerador toma mayor valor (en sentido absoluto). Si la concordancia es exacta, el numerador es igual a N (o a -N), y el índice toma un valor igual a 1 (o -1).Ejemplos : (Máxima covariación positiva)

Observa que los datos tipificados (expresados como puntuaciones z) en las dos columnas de la derecha tienen los mismos valores en ambas variables, dado que las posiciones relativas son las mismas en las variables X e Y.

Si obtenemos los productos de los valores tipificados para cada caso, el resultado es:

El cociente de dividir la suma de productos (5) por N (hay que tener en cuenta que N es el número de casos, NO el número de datos) es igual a 1:

Ejemplo 2 (Covariación positiva de alta intensidad)

y por tanto :

Ejemplo 3 (Ausencia de covariación)

Ejemplo 4 (Covariación negativa de alta intensidad)

Ejemplo 5 (Máxima covariación negativa)

El valor de la correlación es igual a 1 o -1 si la covariación es de intensidad máxima, y se va acercando hacia el 0 cuanto más pequeña sea la intensidad de la covariación. Además, el índice tiene signo positivo cuando la covariación es directa y negativo cuando es inversa.

Características

• El coeficiente de correlación de Pearson puede tomar valores entre -1 y 1.

• La correlación de una variable con ella misma siempre es igual a 1.

•El valor 0 indica ausencia de covariación lineal, pero NO si la covariación es de tipo no lineal. (Ver ejemplo en el apartado de relaciones no lineales).

Ventajas•El coeficiente consiste en la posibilidad de calcular su distribución muestral y así poder determinar su erro típico de estimación.

Desventajas•El valor máximo que puede alcanzar el coeficiente de contingencia depende del número de categorías de las variables estudiadas .•Dos coeficientes de

contingencias no son comparables, a menos que ellos sean calculados de tablas de contingencias del mismo tamaño

Correlación De Spearman

El coeficiente de correlación de Spearman permite identificar si dos variables se relacionan en una función monótona (es decir, cuando un número aumenta, el otro también o viceversa). Sigue las instrucciones de nuestro sencillo tutorial para hacer el cálculo a mano o para calcular el coeficiente de correlación en Excel o R.Método 1 de 3: A mano

1 Dibuja tu tabla: Esta organizará la información que necesitas para calcular el coeficiente de correlación de Spearman. Necesitarás seis columnas con encabezados como se muestra a continuación.•Las filas necesarias para poner los pares de datos que tengas.

2 Llena las primeras dos columnas con los pares de datos.

3 En tu tercer columna clasifica tus datos de la primera columna del 1 hasta n (el número de datos que tienes). Comienza con el más bajo, el cual debe tener el 1, el siguiente número más bajo el 2 y así sucesivamente.

4 En tu cuarta columna haz lo mismo que en el paso 3, pero clasifica la segunda columna en lugar de la primera.

•Si dos (o más) valores de datos son iguales, halla la media del rango que hubieran tenido normalmente y clasifícalos con este promedio.

•En el ejemplo que se muestra existen 2 número 5 que deberían tener el rango 2 y 3. Pero como son datos iguales, calcula el promedio del rango que les correspondería. El promedio de 2 y 3 es 2,5, por lo que se asigna a ambos números el lugar 2,5 de la clasificación.

5 En la columna "d" calcula la diferencia del número de clasificación para cada par de datos. Esto quiere decir que si un dato es tiene el 1 y el otro el número 3, la diferencia sería de 2 (no importa el signo porque el siguiente paso es elevarlo al cuadrado).

6 Eleva al cuadrado cada número de la columna "d" y escribe estos valores en la columna "d2".

7 Suma todos los valores que hay en la columna "d2". Este resultado es Σd2.

8 Escoge alguna de las siguientes fórmulas:•Si no hay ninguna relación en los pasos anteriores, introduce este valor en la fórmula simplificada del coeficiente de correlación de Spearman.

• y reemplaza "n" por el número de pares de datos que tienes para calcular la respuesta.

• Si hay alguna relación en cualquiera de los pasos anteriores, usa más bien la fórmula estándar de coeficiente de correlación de Spearman:

9 Interpreta el resultado. Puede variar entre -1 y 1.

• Cercano a -1: correlación negativa

• Cercano a 0: sin correlación linear

• Cercano a 1: correlación positiva

• Recuerda dividir entre el total exacto de resultados, luego redúcelo a la mitad. A continuación, divídelo entre Σd2.

Ventajas • No esta afectada por los

cambios en las unidades de media .

•Al ser una técnica no parámetra, es libre de distribución probabilística.

Desventajas •Es recomendable usarlo

cuando los datos presenta valores extremos , ya que dichos valores afecta mucho al coeficiente .

• R no debe de ser utilizado para decidir algo sobre la relación entre causa y efecto.

Características •Para aplicar el coeficiente de spearman

se requiere, que las variables estén medidas al menos en escala ordinal , es decir, que las puntuaciones que la representan puedan ser colocadas en dos series ordenadas.

• Se encuentra comprendido entre los valores 1 -1

• La formula de calculo para R puede derivarse, en el caso de r(x y) bastaría para aplicar el coeficiente de Pearson a dos series de puntuaciones ordinales.