Una medida del grado en que la variación de una variable está relacionada con la variación de otra u otras variables. El coeficiente de correlación más utilizado indica el grado en que la variación de una variable se describe mediante una relación de línea recta con otra variable.
Supongamos que se dispone de información muestral sobre el ingreso familiar y los años de escolaridad del cabeza de familia. Un coeficiente de correlación = 0 indicaría que no hay ninguna asociación lineal entre estas dos variables. Una correlación de 1 indicaría una asociación lineal perfecta (en la que toda la variación del ingreso familiar podría estar asociada a la escolarización y viceversa).
a. El 81 % de la variación del dinero gastado en reparaciones se explica por la edad del automóvil
Definición:
La prueba t se obtiene al dividir el coeficiente de regresión entre el error estándar y comparar el resultado con los valores críticos de la t de Student con los df del error. Proporciona una prueba de la afirmación de que cuando se han incluido todas las demás variables en el modelo de regresión correspondiente.
Ejemplo:
Supongamos que se sospecha que 4 variables influyen en alguna respuesta. Supongamos que los resultados de la adaptación incluyen:
Variable | Coeficiente de regresión | Error estándar del coeficiente regular |
0,5 | 1 | -3 |
0,4 | 2 | +2 |
0,02 | 3 | +1 |
0,6 | 4 | -0,5 |
la t calculada para las variables 1, 2 y 3 sería de 5 o más en valor absoluto, mientras que la de la variable 4 sería inferior a 1. Para la mayoría de los niveles de significación, la hipótesis sería rechazada. No obstante, fíjese que esto es para el caso en que , y se han incluido en la regresión. Para la mayoría de los niveles de significación, la hipótesis se continuaría (se mantendría) para el caso en que , y están en la regresión. A menudo, este patrón de resultados ocasionará el cálculo de otra regresión que incluya solo , , , y el examen de los cocientes t producidos para ese caso.
c. los que obtienen una puntuación baja en una prueba tienden a obtener una puntuación baja en la otra.
Algunas variables parecen estar relacionadas, de modo que conocer el estado de una de ellas nos permite predecir el estado de la otra. Esta relación puede medirse y se llama correlación. Sin embargo, una alta correlación entre dos variables no demuestra en absoluto que exista una relación de causa-efecto entre sí. Es muy posible que un tercer factor haga que ambas variables varíen juntas.
La precisión de la estimación de la variable Y depende del rango de la variable independiente (X) explorada. Si exploramos un rango muy pequeño de la variable X, no podremos hacer mucho uso de la regresión. Además, no se recomienda la extrapolación.
Lo más sencillo es que, dado que −5 se incluye en el intervalo de confianza de la pendiente, concluimos que las pruebas son coherentes con la afirmación con un nivel de confianza del 95 %.
Utilizando una prueba t:
:
:
Dado que < mantenemos la hipótesis nula de que .
Verdadero.
t(crítica, df = 23, de dos colas, α = 0,02) = ± 2,5
tcrítica, df = 23, dos colas, α = 0,01 = ± 2,8
- No. La mayoría de los estadísticos empresariales no querrían extrapolar tanto. Si alguien lo hiciera, la estimación sería de 110, pero probablemente entren en juego otros factores con 20 años.
- El valor de la población para , el cambio que se produce en Y con un cambio unitario en , cuando las demás variables se mantienen constantes.
- El valor poblacional del error estándar de la distribución de las estimaciones de .
- 0,8, 0,1, 16 = 20 − 4.