El coeficiente de correlación, r, nos indica la fuerza y la dirección de la relación lineal entre X1 y X2.
Los datos de la muestra se utilizan para calcular r, el coeficiente de correlación de la muestra. Si tuviéramos los datos de toda la población, podríamos hallar el coeficiente de correlación de la población. Pero como solo tenemos datos de la muestra, no podemos calcular el coeficiente de correlación de la población. El coeficiente de correlación de la muestra, r, es nuestra estimación del coeficiente de correlación de la población desconocido.
- ρ = coeficiente de correlación de la población (desconocido)
- r = coeficiente de correlación de la muestra (conocido; calculado a partir de los datos de la muestra)
La prueba de hipótesis nos permite decidir si el valor del coeficiente de correlación de la población ρ es “cercano a cero” o “significativamente diferente de cero”. Lo decidimos en función del coeficiente de correlación de la muestra r y del tamaño de la muestra n.
Si la prueba concluye que el coeficiente de correlación es significativamente diferente de cero, decimos que el coeficiente de correlación es "significativo".
- Conclusión: Hay pruebas suficientes para concluir que existe una relación lineal significativa entre X1 y X2 porque el coeficiente de correlación es significativamente diferente de cero.
- Lo que significa la conclusión: Existe una relación lineal significativa entre X1 y X2. Si la prueba concluye que el coeficiente de correlación no es significativamente diferente de cero (está cerca de cero), decimos que el coeficiente de correlación es “no significativo”.
Realización de la prueba de hipótesis
- Hipótesis nula: H0: ρ = 0
- Hipótesis alternativa: Ha: ρ ≠ 0
- Hipótesis nula H0: El coeficiente de correlación de la población NO ES significativamente diferente de cero. NO HAY una relación lineal significativa (correlación) entre X1 y X2 en la población.
- Hipótesis alternativa Ha: El coeficiente de correlación de la población es significativamente diferente de cero. Existe una relación lineal significativa (correlación) entre X1 y X2 en la población.
Llegar a una conclusiónHay dos métodos para tomar la decisión sobre la hipótesis. El estadístico de prueba para comprobar esta hipótesis es:
Donde la segunda fórmula es una forma equivalente al estadístico de prueba, n es el tamaño de la muestra y los grados de libertad son n-2. Se trata de la estadística t y funciona de la misma manera que otras pruebas t. Calcule el valor t y compárelo con el valor crítico de la tabla t con los grados de libertad adecuados y el nivel de confianza que desee mantener. Si el valor calculado está en la cola, entonces no se puede aceptar la hipótesis nula de que no existe ninguna relación lineal entre estas dos variables aleatorias independientes. Si el valor t calculado NO está en la cola, entonces no se puede rechazar la hipótesis nula de que no existe ninguna relación lineal entre las dos variables.
Una forma rápida de comprobar las correlaciones es la relación entre el tamaño de la muestra y la correlación. Si:
entonces esto implica que la correlación entre las dos variables demuestra que existe una relación lineal y es estadísticamente significativa a un nivel de significación aproximado de 0,05. Como indica la fórmula, existe una relación inversa entre el tamaño de la muestra y la correlación necesaria para la significación de una relación lineal. Con solo 10 observaciones, la correlación requerida para la significación es de 0,6325, para 30 observaciones la correlación requerida para la significación disminuye a 0,3651 y a 100 observaciones el nivel requerido es solo de 0,2000.
Las correlaciones sirven para visualizar los datos, pero no se utilizan adecuadamente para "explicar" una relación entre dos variables. Tal vez no haya una estadística más mal utilizada que el coeficiente de correlación. Citar correlaciones entre las condiciones de salud y todo lo demás, desde el lugar de residencia hasta el color de los ojos, tiene el efecto de implicar una relación de causa y efecto. Esto no se logra con un coeficiente de correlación. El coeficiente de correlación es, por supuesto, inocente de esta mala interpretación. El analista tiene el deber de utilizar una estadística diseñada para comprobar las relaciones de causa y efecto y comunicar solo esos resultados si pretende hacer tal afirmación. El problema es que pasar esta prueba más rigurosa es difícil, por lo que los "investigadores" perezosos o inescrupulosos recurren a las correlaciones cuando no pueden presentar sus argumentos de forma legítima.