Omitir e ir al contenidoIr a la página de accesibilidadMenú de atajos de teclado
Logo de OpenStax
Introducción a la estadística

12.4 Comprobación de la importancia del coeficiente de correlación

Introducción a la estadística12.4 Comprobación de la importancia del coeficiente de correlación

El coeficiente de correlación, r, nos indica la fuerza y la dirección de la relación lineal entre la x y la y. Sin embargo, la fiabilidad del modelo lineal también depende del número de puntos de datos observados en la muestra. Tenemos que observar tanto el valor del coeficiente de correlación r como el tamaño de la muestra n, conjuntamente.

Realizamos una prueba de hipótesis de la "significación del coeficiente de correlación" para decidir si la relación lineal en los datos de la muestra es lo suficientemente fuerte como para utilizarla para modelar la relación en la población.

Los datos de la muestra se utilizan para calcular r, el coeficiente de correlación de la muestra. Si tuviéramos los datos de toda la población, podríamos hallar el coeficiente de correlación de la población. Pero como solo tenemos datos de la muestra, no podemos calcular el coeficiente de correlación de la población. El coeficiente de correlación de la muestra, r, es nuestra estimación del coeficiente de correlación de la población desconocido.

  • El símbolo del coeficiente de correlación de la población es ρ, la letra griega "rho".
  • ρ = coeficiente de correlación de la población (desconocido)
  • r = coeficiente de correlación de la muestra (conocido; calculado a partir de los datos de la muestra)

La prueba de hipótesis nos permite decidir si el valor del coeficiente de correlación de la población ρ es “cercano a cero” o “significativamente diferente de cero”. Lo decidimos en función del coeficiente de correlación de la muestra r y del tamaño de la muestra n.

Si la prueba concluye que el coeficiente de correlación es significativamente diferente de cero, decimos que el coeficiente de correlación es "significativo".

  • Conclusión: Hay pruebas suficientes para concluir que existe una relación lineal significativa entre la x y la y porque el coeficiente de correlación es significativamente diferente de cero.
  • Lo que significa la conclusión: Existe una relación lineal significativa entre la x y la y. Podemos utilizar la línea de regresión para modelar la relación lineal entre la x y la y en la población.

Si la prueba concluye que el coeficiente de correlación no es significativamente diferente de cero (está cerca de cero), decimos que el coeficiente de correlación es “no significativo”.

  • Conclusión: "No hay pruebas suficientes para concluir que existe una relación lineal significativa entre la x y la y porque el coeficiente de correlación no es significativamente diferente de cero".
  • Lo que significa la conclusión: No existe una relación lineal significativa entre la x y la y. Por lo tanto, NO podemos utilizar la línea de regresión para modelar una relación lineal entre la x y la y en la población.

Nota

  • Si r es significativo y el diagrama de dispersión muestra una tendencia lineal, la línea puede utilizarse para predecir el valor de la y para los valores de la x que están dentro del dominio de los valores observados de la x.
  • Si r es despreciable O si el diagrama de dispersión no muestra ninguna tendencia lineal, la línea no debería utilizarse para la predicción.
  • Si r es significativo y si el diagrama de dispersión muestra una tendencia lineal, puede que la línea NO sea apropiada o fiable para la predicción FUERA del dominio de los valores de la x observados en los datos.

COMPROBACIÓN DE LA HIPÓTESIS

  • Hipótesis nula: H0: ρ = 0
  • Hipótesis alternativa: Ha: ρ ≠ 0

SIGNIFICADO DE LAS HIPÓTESIS EN PALABRAS:

  • Hipótesis nula H0: El coeficiente de correlación de la población NO ES significativamente diferente de cero. NO HAY ninguna relación lineal significativa (correlación) entre la x y la y en la población.
  • Hipótesis alternativa Ha: El coeficiente de correlación de la población ES significativamente DIFERENTE de cero. EXISTE UNA RELACIÓN LINEAL SIGNIFICATIVA (correlación) entre la x y la y en la población.

SACAR UNA CONCLUSIÓN:Hay dos métodos para tomar la decisión. Los dos métodos son equivalentes y dan el mismo resultado.

  • Método 1: Utilizar el valor p
  • Método 2: Utilizar una tabla de valores críticos

En este capítulo de este libro de texto, utilizaremos siempre un nivel de significación del 5 %, α = 0,05

Nota

Con el método del valor p, puede elegir cualquier nivel de significación apropiado que desee; no está limitado a utilizar α = 0,05. Sin embargo, la tabla de valores críticos proporcionada en este libro de texto supone que estamos utilizando un nivel de significación del 5 %, α = 0,05. (Si quisiéramos utilizar un nivel de significación diferente al 5 % con el método del valor crítico, necesitaríamos diferentes tablas de valores críticos que no se proporcionan en este libro de texto).

MÉTODO 1: Utilizar un valor p para tomar una decisión

Uso de las calculadoras TI-83, 83+, 84, 84+

Para calcular el valor p con la función LinRegTTEST:
En la pantalla de entrada de LinRegTTEST, en la línea que pide β o ρ, resalte "≠ 0"
La pantalla de salida muestra el valor p en la línea que dice "p =".
(La mayoría de los softwares de estadística pueden calcular el valor p).

Si el valor p es inferior al nivel de significación(α = 0,05):
  • Decisión: rechazar la hipótesis nula.
  • Conclusión: "Hay pruebas suficientes para concluir que existe una relación lineal significativa entre la x y la y porque el coeficiente de correlación es significativamente diferente de cero".
Si el valor p NO es inferior al nivel de significación (α = 0,05)
  • Decisión: NO RECHAZAR la hipótesis nula.
  • Conclusión: "No hay pruebas suficientes para concluir que existe una relación lineal significativa entre la x y la y porque el coeficiente de correlación NO es significativamente diferente de cero".
Notas de cálculo:
  • Utilizará la tecnología para calcular el valor p. A continuación se describen los cálculos para estimar los estadísticos de prueba y el valor p:
  • El valor p se calcula mediante una distribución t con n – 2 grados de libertad.
  • La fórmula para el estadístico de prueba es t= r n2 1 r 2 t= r n2 1 r 2 . El valor del estadístico de prueba, t, se muestra en la salida de la computadora o de la calculadora junto con el valor p. El estadístico de prueba t tiene el mismo signo que el coeficiente de correlación r.
  • El valor p es el área combinada en ambas colas.

Otra manera de calcular el valor p (p) dado por LinRegTTest es el comando 2*tcdf(abs(t),10^99, n-2) en 2nd DISTR.

EJEMPLO DE TERCER EXAMEN vs. EXAMEN FINAL: método del valor p
  • Considere el ejemplo del tercer examen/examen final.
  • La línea de mejor ajuste es: ŷ = -173,51 + 4,83x con r = 0,6631 y hay n = 11 puntos de datos.
  • ¿Se puede utilizar la línea de regresión para la predicción? Dada la puntuación del tercer examen (valor x), ¿podemos utilizar la línea para predecir la puntuación del examen final (valor y predicho)?

H0: ρ = 0

Ha: ρ ≠ 0

α = 0,05

  • El valor p es de 0,026 (a partir de la prueba LinRegTT en su calculadora o del software).
  • El valor p, 0,026, es inferior al nivel de significación de α = 0,05.
  • Decisión: Rechazar la hipótesis nula H0
  • Conclusión: Hay pruebas suficientes para concluir que existe una relación lineal significativa entre la nota del tercer examen (x) y la nota del examen final (y) porque el coeficiente de correlación es significativamente diferente de cero.

Como r es significativa y el diagrama de dispersión muestra una tendencia lineal, la línea de regresión se puede usar para predecir calificaciones del examen final.

MÉTODO 2: Utilizar una tabla de valores críticos para tomar una decisión.

Los valores críticos al 95 % de la tabla de coeficientes de correlación de la muestra pueden utilizarse para dar una buena idea de si el valor calculado de rr es significativo o no lo es. Compare r con el valor crítico apropiado de la tabla. Si r no está entre los valores críticos positivos y negativos, el coeficiente de correlación es significativo. Si r es significativo, entonces puede utilizar la línea para la predicción.

Ejemplo 12.7

Suponga que ha calculado r = 0,801 utilizando n = 10 puntos de datos. df = n - 2 = 10 - 2 = 8. Los valores críticos asociados a df = 8 son -0,632 y + 0,632. Si r < valor crítico negativo o r > valor crítico positivo, entonces r es significativo. Como r = 0,801 y 0,801 > 0,632, r es significativo y la línea puede utilizarse para la predicción. Si ve este ejemplo en una línea numérica, le ayudará.

Línea numérica horizontal con valores de -1, -0,632, 0, 0,632, 0,801 y 1. Una línea discontinua sobre los valores -0,632, 0 y 0,632 indica valores despreciables.
Figura 12.14 r es despreciable entre -0,632 y +0,632. r = 0,801 > +0,632. Por lo tanto, r es significativo.

Inténtelo 12.7

Para una línea de mejor ajuste dada, ha calculado que r = 0,6501 utilizando n = 12 puntos de datos y el valor crítico es 0,576. ¿Se puede utilizar la línea para la predicción? ¿Por qué sí o por qué no?

Ejemplo 12.8

Suponga que ha calculado r = -0,624 con 14 puntos de datos. df = 14 - 2 = 12. Los valores críticos son -0,532 y 0,532. Dado que -0,624 < -0,532, r es significativo y la línea puede utilizarse para la predicción.

Línea numérica horizontal con valores de -0,624, -0,532 y 0,532.
Figura 12.15 r = -0,624 < -0,532. Por lo tanto, r es significativo.

Inténtelo 12.8

Para una línea de mejor ajuste dada, se calcula que r = 0,5204 utilizando n = 9 puntos de datos, y el valor crítico es 0,666. ¿Se puede utilizar la línea para la predicción? ¿Por qué sí o por qué no?

Ejemplo 12.9

Suponga que ha calculado r = 0,776 y n = 6. df = 6 - 2 = 4. Los valores críticos son −0,811 y 0,811. Dado que -0,811 < 0,776 < 0,811, r es despreciable, por lo que la línea no debería utilizarse para la predicción.

Línea numérica horizontal con valores −0,924, −0,532 y 0,532.
Figura 12.16 -0,811 < r = 0,776 < 0,811. Por lo tanto, r es despreciable.

Inténtelo 12.9

Para una línea de mejor ajuste dada, se calcula que r = -0,7204 utilizando n = 8 puntos de datos, y el valor crítico es = 0,707. ¿Se puede utilizar la línea para la predicción? ¿Por qué sí o por qué no?

EJEMPLO DE TERCER EXAMEN vs. EXAMEN FINAL: método del valor crítico

Considere el ejemplo del tercer examen/examen final. La línea de mejor ajuste es: ŷ = -173,51+4,83x con r = 0,6631 y hay n = 11 puntos de datos. ¿Se puede utilizar la línea de regresión para la predicción? Dada la puntuación del tercer examen (valor x), ¿podemos utilizar la línea para predecir la puntuación del examen final (valor y predicho)?

  • H0: ρ = 0
  • Ha: ρ ≠ 0
  • α = 0,05
  • Utilice la tabla del "valor crítico al 95 %" para r con df = n - 2 = 11 - 2 = 9.
  • Los valores críticos son -0,602 y +0,602
  • Dado que 0,6631 > 0,602, r es significativo.
  • Decisión: rechazar la hipótesis nula.
  • Conclusión: Hay pruebas suficientes para concluir que existe una relación lineal significativa entre la calificación del tercer examen (x) y la calificación del examen final (y) porque el coeficiente de correlación es significativamente distinto de cero.

Como r es significativo y el diagrama de dispersión muestra una tendencia lineal, la línea de regresión se puede usar para predecir calificaciones del examen final.

Ejemplo 12.10

Supongamos que ha calculado los siguientes coeficientes de correlación. Con la tabla del final del capítulo, determine si r es significativo y la línea de mejor ajuste asociada a cada r puede utilizarse para predecir un valor de y. Si le sirve, dibuje una línea numérica.

  1. r = -0,567 y el tamaño de la muestra, n, es 19. Los df = n - 2 = 17. El valor crítico es -0,456. -0,567 < -0,456 por lo que r es significativo.
  2. r = 0,708 y el tamaño de la muestra, n, es nueve. Los df = n - 2 = 7. El valor crítico es 0,666. 0,708 > 0,666 por lo que r es significativo.
  3. r = 0,134 y el tamaño de la muestra, n, es 14. Los df = 14 - 2 = 12. El valor crítico es 0,532. 0,134 está entre -0,532 y 0,532 por lo que r es despreciable.
  4. r = 0 y el tamaño de la muestra, n, es cinco. No importa cuáles sean los dfs, r = 0 está entre los dos valores críticos, por lo que r es despreciable.

Inténtelo 12.10

Para una línea de mejor ajuste dada, se calcula que r = 0 utilizando n = 100 puntos de datos. ¿Se puede utilizar la línea para la predicción? ¿Por qué sí o por qué no?

Supuestos para comprobar la significación del coeficiente de correlación

La comprobación de la significación del coeficiente de correlación requiere que se cumplan ciertos supuestos sobre los datos. La premisa de esta prueba es que los datos son una muestra de puntos observados tomados de una población mayor. No hemos examinado a toda la población porque no es posible ni factible hacerlo. Estamos examinando la muestra para sacar una conclusión sobre si la relación lineal que vemos entre x y y en los datos de la muestra proporciona una evidencia lo suficientemente contundente como para que podamos concluir que existe una relación lineal entre x y y en la población.

La ecuación de la línea de regresión que calculamos a partir de los datos de la muestra da la línea de mejor ajuste para nuestra muestra particular. Queremos utilizar esta línea de mejor ajuste para la muestra como una estimación de la línea de mejor ajuste para la población. Examinar el diagrama de dispersión y comprobar la importancia del coeficiente de correlación nos permite

Los supuestos en los que se basa la prueba de significación son:
  • Existe una relación lineal en la población que modela el valor promedio de la y para valores variables de la x. En otras palabras, el valor esperado de la y para cada valor en particular se encuentra en una línea recta en la población. (No conocemos la ecuación para la línea en la población. Nuestra línea de regresión de la muestra es nuestra mejor estimación de esta línea en la población).
  • Los valores de la y para cualquier valor en particular de la x se distribuyen normalmente alrededor de la línea. Esto implica que hay más valores de la y dispersos cerca de la línea que los que están más lejos. El supuesto (1) implica que estas distribuciones normales están centradas en la línea: las medias de estas distribuciones normales de los valores de la y se encuentran en la línea.
  • Las desviaciones típicas de los valores de la y de la población en torno a la línea son iguales para cada valor de la x. En otras palabras, cada una de estas distribuciones normales de los valores de la y tiene la misma forma y dispersión sobre la línea.
  • Los errores residuales son mutuamente independientes (sin patrón).
  • Los datos proceden de una muestra aleatoria bien diseñada o de un experimento aleatorio.
El gráfico de la izquierda muestra tres conjuntos de puntos. Cada conjunto cae en una línea vertical. Los puntos de cada conjunto se distribuyen normalmente a lo largo de la línea: están densamente comprimidos en el centro y más repartidos en la parte superior e inferior. Una línea de regresión descendente pasa por la media de cada conjunto. El gráfico de la derecha muestra la misma línea de regresión trazada. Se muestra una curva normal vertical para cada línea.
Figura 12.17 Los valores de la y para cada valor de la x se distribuyen normalmente alrededor de la línea con la misma desviación típica. Para cada valor de la x, la media de los valores de la y se encuentra en la línea de regresión. Hay más valores de la y cerca de la línea que los que están dispersos más lejos.
Cita/Atribución

Este libro no puede ser utilizado en la formación de grandes modelos de lenguaje ni incorporado de otra manera en grandes modelos de lenguaje u ofertas de IA generativa sin el permiso de OpenStax.

¿Desea citar, compartir o modificar este libro? Este libro utiliza la Creative Commons Attribution License y debe atribuir a OpenStax.

Información de atribución
  • Si redistribuye todo o parte de este libro en formato impreso, debe incluir en cada página física la siguiente atribución:
    Acceso gratis en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica/pages/1-introduccion
  • Si redistribuye todo o parte de este libro en formato digital, debe incluir en cada vista de la página digital la siguiente atribución:
    Acceso gratuito en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica/pages/1-introduccion
Información sobre citas

© 28 ene. 2022 OpenStax. El contenido de los libros de texto que produce OpenStax tiene una licencia de Creative Commons Attribution License . El nombre de OpenStax, el logotipo de OpenStax, las portadas de libros de OpenStax, el nombre de OpenStax CNX y el logotipo de OpenStax CNX no están sujetos a la licencia de Creative Commons y no se pueden reproducir sin el previo y expreso consentimiento por escrito de Rice University.