Contenido Checked

Correlación

Temas relacionados: Matemáticas

Sabías ...

SOS cree que la educación da una mejor oportunidad en la vida para los niños en el mundo en desarrollo también. El patrocinio de los niños ayuda a los niños en el mundo en desarrollo para aprender también.

Este artículo es sobre el coeficiente de correlación entre dos variables. El término correlación también puede significar la correlación cruzada de dos funciones o correlación de electrones en los sistemas moleculares.
Varios conjuntos de (x, y) puntos, con el coeficiente de correlación de x e y para cada conjunto. Tenga en cuenta que la correlación refleja la ruidosidad y la dirección de una relación lineal (fila superior), pero no la pendiente de que la relación (en el centro), ni muchos aspectos de las relaciones no lineales (abajo). NB: la figura en el centro tiene una pendiente de 0 pero en ese caso el coeficiente de correlación es indefinido debido a que la varianza de Y es cero.

En teoría de la probabilidad y estadísticas , correlación, (a menudo medido como un coeficiente de correlación), indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias . En el uso estadístico general, la correlación o co-relación se refiere a la salida de dos variables de la independencia. En este sentido amplio hay varios coeficientes, que miden el grado de correlación, adaptado a la naturaleza de los datos.

Un número de diferentes coeficientes se utilizan para diferentes situaciones. El más conocido es el Pearson coeficiente de correlación momento-producto, que se obtiene dividiendo el covarianza de las dos variables por el producto de sus desviaciones estándar . A pesar de su nombre, que se introdujo por primera vez por Francis Galton.

Coeficiente producto-momento de Pearson

Propiedades matemáticas

El coeficiente de correlación ρ X, Y entre dos variables aleatorias X e Y con valores esperados μ X y μ Y y desviaciones estándar σ X y σ Y se define como:

\ Rho_ {X, Y} = {\ mathrm {cov} (X, Y) \ over \ sigma_X \ sigma_Y} = {E ((X- \ mu_X) (Y- \ mu_Y)) \ over \ sigma_X \ sigma_Y} ,

donde E es el operador valor esperado y cov medios covarianza. Desde μ X = E (X), X σ 2 = E (X 2) - E 2 (X) y del mismo modo para Y, podemos escribir también

\ Rho_ {X, Y} = \ frac {E (XY) -S (X) E (Y)} {\ sqrt {E (X ^ 2) -E ^ 2 (X)} ~ \ sqrt {E (Y ^ 2) -E ^ 2 (Y)}}.

La correlación se define sólo si tanto de las desviaciones estándar son finitos y dos de ellos son no cero. Es un corolario de la desigualdad de Cauchy-Schwarz que la correlación no puede exceder de 1 en valor absoluto .

La correlación es 1 en el caso de una relación lineal creciente, -1 en el caso de una relación lineal decreciente, y en algún valor entre en todos los demás casos, lo que indica el grado de dependencia lineal entre las variables. Cuanto más cerca el coeficiente es o bien -1 o 1, más fuerte será la correlación entre las variables.

Si las variables están entonces independiente de la correlación es 0, pero lo contrario no es cierto porque el coeficiente de correlación sólo detecta dependencias lineales entre dos variables. He aquí un ejemplo: Supongamos que la variable aleatoria X se distribuye uniformemente en el intervalo de -1 a 1, e Y = X 2. Entonces Y es completamente determinado por X, de manera que X e Y son dependientes, pero su correlación es cero; son correlacionadas. Sin embargo, en el caso especial cuando X e Y son conjuntamente normal, uncorrelatedness es equivalente a la independencia.

Una correlación entre dos variables se diluye en la presencia de un error de medición alrededor de las estimaciones de uno o de ambas variables, en cuyo caso disattenuation proporciona un coeficiente más precisa.

Interpretación geométrica de correlación

El coeficiente de correlación también se puede ver como el coseno del ángulo entre los dos vectores de muestras extraídas de las dos variables aleatorias.

Precaución: Este método sólo funciona con los datos de centrado, es decir, los datos que han sido desplazadas por la media de la muestra de manera que tenga un promedio de cero. Algunos médicos prefieren un uncentered (no Pearson conforme) coeficiente de correlación. Vea el siguiente ejemplo para una comparación.

A modo de ejemplo, supongamos que cinco países se encuentran para tener productos nacionales brutos de 1, 2, 3, 5 y 8 mil millones de dólares, respectivamente. Supongamos que estos mismos cinco países (en el mismo orden) se encontró que tenía un 11%, 12%, 13%, 15% y 18% de pobreza. Entonces Sean X e Y pueden pedir vectores 5 elementos que contienen los datos anteriores: x = (1, 2, 3, 5, 8) ey = (0,11, 0,12, 0,13, 0,15, 0,18).

Por el procedimiento habitual para encontrar el ángulo entre dos vectores (ver dot producto), el coeficiente de correlación uncentered es:

\ Cos \ theta = \ frac {\ bold {x} \ cdot \ bold {y}} {\ left \ | \ bold {x} \ right \ | \ left \ | \ bold {y} \ right \ |} = \ frac {2,93} {\ sqrt {103} \ sqrt {0,0983}} = 0,920814711.

Tenga en cuenta que los datos anteriores fueron elegidos deliberadamente para ser perfectamente correlacionados: y = 0,10 + 0,01 x. Por tanto, el coeficiente de correlación de Pearson debe ser exactamente una. Centrado de los datos (por desplazamiento x E (x) = 3,8 e y por E (y) = 0,138) los rendimientos x = (-2.8, -1.8, -0.8, 1.2, 4.2) y y = (-0,028, -0,018, -0,008, 0,012, 0,042), de la cual

\ Cos \ theta = \ frac {\ bold {x} \ cdot \ bold {y}} {\ left \ | \ bold {x} \ right \ | \ left \ | \ bold {y} \ right \ |} = \ frac {0,308} {\ sqrt {30.8} \ sqrt {0,00308}} = 1 = \ rho_ {xy},

como se esperaba.

La motivación para la forma del coeficiente de correlación

Otra motivación para la correlación viene de inspeccionar el método simple de regresión lineal . Como anteriormente, X es el vector de variables independientes, x_i , E Y de las variables dependientes, y_i , Y una relación lineal simple entre X e Y se busca, a través de un método de mínimos cuadrados en la estimación de Y:

\ Y = X \ beta + \ varepsilon. \,

Entonces, la ecuación de la recta de mínimos cuadrados se puede derivar a ser de la forma:

(Y - \ bar {Y}) = \ frac {n \ suma x_iy_i- \ suma x_i \ suma y_i} {n \ suma x_i ^ 2 - (\ sum x_i) ^ 2} (X - \ bar {X})

que se puede variar la forma:

(Y - \ bar {Y}) = \ frac {r} {s_y s_x} (X \ bar {X})

donde r tiene la forma familiar se ha mencionado anteriormente: \ Frac {n \ suma x_iy_i- \ suma x_i \ suma y_i} {\ sqrt {n \ suma x_i ^ 2 - (\ sum x_i) ^ 2} ~ \ sqrt {n \ suma y_i ^ 2 - (\ sum y_i) ^ 2}}.

Interpretación del tamaño de una correlación

Correlación Negativo Positivo
Pequeño -0,3--0,1 0,1 a 0,3
Medio -0,5 Y -0,3 0,3 a 0,5
Grande -1,0--0,5 0,5 a 1,0

Varios autores han ofrecido directrices para la interpretación de un coeficiente de correlación. Cohen (1988), por ejemplo, ha sugerido las siguientes interpretaciones de correlaciones en la investigación psicológica, en la tabla de la derecha.

Como el propio Cohen ha observado, sin embargo, todos esos criterios son en cierta forma arbitraria y no deben ser observados de manera demasiado estricta. Esto es debido a que la interpretación de un coeficiente de correlación depende del contexto y propósitos. Una correlación de 0,9 puede ser muy bajos si se está verificando una ley física utilizando instrumentos de alta calidad, sino que puede ser considerado como muy alto en las ciencias sociales donde puede haber una mayor contribución de factores de complicación.

A lo largo de este orden de ideas, es importante recordar que los "grandes" y "pequeños" no debe tomarse como sinónimos de "bueno" y "malo" en cuanto a la determinación de que una correlación es de un tamaño determinado. Por ejemplo, una correlación de 1,0 o -1,0 indica que las dos variables analizadas son de escala de módulo equivalente. Científicamente, esto indica más frecuentemente consecuencia trivial de una estremecedora uno. Por ejemplo, considere la posibilidad de descubrir una correlación de 1,0 entre cuántos pies de altura a un grupo de personas son y el número de pulgadas de la parte inferior de los pies a la parte superior de sus cabezas.

Coeficientes de correlación no paramétricas

Coeficiente de correlación de Pearson es un estadística paramétrica y cuando las distribuciones no son normales, puede ser menos útil que métodos de correlación no paramétricos, tales como Chi-cuadrado, Apunte correlación biserial, Ρ de Spearman y Τ de Kendall. Son un poco menos potente que los métodos paramétricos si se dan los supuestos que subyacen a la última, pero tienen menos probabilidades de dar resultados distorsionados cuando los supuestos no se cumplen.

Otras medidas de la dependencia entre variables aleatorias

Para obtener una medida para las dependencias más generales en los datos (también no lineal) es mejor utilizar el relación de correlación que es capaz de detectar casi cualquier dependencia funcional, o la basado entropía- información mutua / correlación total que es capaz de detectar incluso dependencias más generales. Estos últimos se denominan a veces como medidas de correlación múltiple momento, en comparación con aquellos que consideran sólo segundo momento (por parejas o cuadrática) dependencia.

La correlación policórica es otra correlación aplicado a los datos ordinal que tiene como objetivo estimar la correlación entre las variables latentes teorizadas.

Las cópulas y correlación

La información dada por un coeficiente de correlación no es suficiente para definir la estructura de dependencia entre variables aleatorias; para captar plenamente lo debemos tener en cuenta una cópula entre ellos. El coeficiente de correlación define completamente la estructura de dependencia sólo en casos muy particulares, por ejemplo cuando el funciones de distribución acumulada son los distribuciones normales multivariantes. En el caso de distribuciones elípticas caracteriza la (hiper) elipses de igual densidad, sin embargo, no caracteriza completamente la estructura de dependencia (por ejemplo, grados la una multivariante de t-distribución de la libertad de determinar el nivel de dependencia de la cola).

Matrices de correlación

La matriz de correlación de n variables aleatorias X 1, ..., X n es la matriz n × n cuyos i, j entrada es corr (X i, j X). Si las medidas de correlación utilizados son coeficientes momento-producto, la matriz de correlación es la misma que la matriz de covarianza de las variables aleatorias estandarizados X i / SD (X i) para i = 1, ..., n. En consecuencia, es necesariamente una matriz positiva semidefinida.

La matriz de correlación es simétrica porque la correlación entre X_i y X_j es la misma que la correlación entre X_j y X_i .

Extracción de correlación

Siempre es posible eliminar la correlación entre variables aleatorias con media cero con una transformación lineal, incluso si la relación entre las variables no es lineal. Supongamos que un vector de n variables aleatorias se muestrea m veces. Sea X una matriz en la que X_ {i, j} es la j-ésima variable de la muestra i. Dejar Z_ {r, c} ser un r por c matriz con todos los elementos 1. Entonces D es los datos transformados por lo que cada variable aleatoria tiene media cero y T son los datos transformados por lo que todas las variables tienen media cero, varianza unidad y correlación cero con todas las demás variables. Las variables transformadas serán correlacionadas, a pesar de que no pueden ser independiente.

D = X - \ frac {1} {m} Z_ {m, m} X


T = D (D ^ T D) ^ {- \ frac {1} {2}}

donde un exponente de -1/2 representa la raíz cuadrada de la matriz inversa de una matriz. La matriz de covarianza de T será la matriz de identidad. Si una nueva muestra de datos x es un vector fila de n elementos, entonces el mismo transformar se puede aplicar a x para obtener los vectores transformados d y t:

d = x - \ frac {1} {m} Z_ {1, m} X


t = d (D ^ T D) ^ {- \ frac {1} {2}}.

Conceptos erróneos comunes sobre la correlación

Correlación y causalidad

La máxima convencional de que " La correlación no implica causalidad "significa que la correlación no puede utilizarse válidamente para inferir una relación causal entre las variables. Este dictamen no debe entenderse en el sentido de que las correlaciones no pueden indicar las relaciones causales. Sin embargo, las causas subyacentes de la correlación, en su caso, puede ser indirecta y desconocido. En consecuencia, el establecimiento de una correlación entre dos variables no es una condición suficiente para establecer una relación causal (en cualquier dirección).

Aquí está un ejemplo sencillo: el clima caliente puede causar tanto las compras de criminalidad y de helados. Por lo tanto el crimen está relacionado con las compras de helados. Pero el crimen no causa compras de helado y las compras de helados no causan crimen.

Una correlación entre la edad y talla de los niños es bastante causalmente transparente, pero una correlación entre el estado de ánimo y la salud en las personas es menos. ¿El mejor estado de ánimo de plomo a una mejor salud? ¿O es que buena ventaja para la salud de buen humor? ¿O es que algún otro factor subyacen tanto? ¿O es pura coincidencia? En otras palabras, una correlación puede ser tomada como evidencia de una posible relación causal, pero no puede indicar cuál es la relación causal, en su caso, podría ser.

Correlación y linealidad

Cuatro conjuntos de datos con la misma correlación de 0,81

Aunque la correlación de Pearson indica la intensidad de una relación lineal entre dos variables, su valor por sí sola no puede ser suficiente para evaluar esta relación, especialmente en el caso en el supuesto de normalidad es incorrecta.

La imagen de la derecha muestra diagramas de dispersión de Cuarteto de Anscombe, un conjunto de cuatro pares diferentes de variables creadas por Francis Anscombe. El cuatro y variables tienen la misma media (7,5), la desviación estándar (4.12), la correlación (0,81) y la línea de regresión ( y = 3 + 0.5x ). Sin embargo, como puede verse en las parcelas, la distribución de las variables es muy diferente. La primera (arriba a la izquierda) parece que se distribuye normalmente, y corresponde a lo que cabría esperar cuando se consideran dos variables correlacionadas y siguiendo el supuesto de normalidad. El segundo (arriba a la derecha) no se distribuye normalmente; mientras que una relación obvia entre las dos variables se puede observar, no es lineal, y el coeficiente de correlación de Pearson no es relevante. En el tercer caso (abajo a la izquierda), la relación lineal es perfecta, a excepción de uno outlier que ejerce influencia suficiente para reducir el coeficiente de correlación de 1 a 0,81. Finalmente, el cuarto ejemplo (parte inferior derecha) muestra otro ejemplo, cuando un valor atípico es suficiente para producir un coeficiente de correlación alta, a pesar de que la relación entre las dos variables no es lineal.

Estos ejemplos indican que el coeficiente de correlación, como una estadística de resumen, no puede sustituir el examen individual de los datos.

Cálculo de correlación con precisión en una sola pasada

El siguiente algoritmo (en pseudocódigo) calculará Correlación de Pearson con buena estabilidad numérica.

 sum_sq_x = 0 sum_sq_y = 0 = 0 sum_coproduct mean_x = x [1] mean_y = y [1] para i en 2 a N: barrido = (i - 1,0) / i delta_x = x [i] - mean_x delta_y = y [i ] - mean_y sum_sq_x + = delta_x * * delta_x barrido sum_sq_y + = delta_y * delta_y * sum_coproduct barrido + = delta_x * * delta_y barrido mean_x + = delta_x / i mean_y + = delta_y / i pop_sd_x = sqrt (sum_sq_x / N) pop_sd_y = sqrt (sum_sq_y / N) cov_x_y = sum_coproduct / N correlación = cov_x_y / (pop_sd_x * pop_sd_y) 
Recuperado de " http://en.wikipedia.org/w/index.php?title=Correlation_and_dependence&oldid=199055311 "