13.1 El coeficiente de correlación r
Para tener un coeficiente de correlación entre los rasgos A y B, es necesario tener:
- un grupo de sujetos, algunos de los cuales poseen características del rasgo A, el restante posee las del rasgo B
- medidas del rasgo A en un grupo de sujetos y del rasgo B en otro grupo
- dos grupos de sujetos, uno que podría clasificarse como A o no A, y el otro como B o no B
- dos grupos de sujetos, uno que podría clasificarse como A o no A, y el otro como B o no B
Si la correlación entre la edad de un automóvil y el dinero gastado en reparaciones es de +0,90
- El 81 % de la variación del dinero gastado en reparaciones se explica por la edad del automóvil
- El 81 % del dinero gastado en reparaciones no se explica por la edad del automóvil
- El 90 % del dinero que se gasta en reparaciones se explica por la edad del automóvil
- Ninguna de las anteriores
Supongamos que el promedio general de calificaciones del instituto universitario y la parte verbal de una prueba de coeficiente intelectual tienen una correlación de 0,40. ¿Qué porcentaje de la varianza tienen ambas en común?
- 20
- 16
- 40
- 80
¿Verdadero o falso? Si es falso, explique por qué: El coeficiente de determinación puede tener valores entre -1 y +1.
Verdadero o falso: Siempre que se calcula r a partir de una muestra, el valor que obtenemos es solo una estimación del verdadero coeficiente de correlación que obtendríamos si lo calculáramos para toda la población.
Bajo un "diagrama de dispersión" se anota que el coeficiente de correlación es de 0,10. ¿Qué significa esto?
- más y menos el 10 % de la media incluye alrededor del 68 % de los casos
- una décima parte de la varianza de una variable se comparte con la otra variable
- una décima parte de una variable es causada por la otra variable
- en una escala de -1 a +1, el grado de relación lineal entre las dos variables es de +0,10
Se sabe que el coeficiente de correlación de la X y de la Y es cero. Entonces podemos concluir que:
- la X y la Y tienen distribuciones estándar
- las varianzas de la X y de la Y son iguales
- no existe ninguna relación entre la X y la Y
- no existe ninguna relación lineal entre la X y la Y
- ninguno de estos
¿Cuál cree que es el valor del coeficiente de correlación para el par de variables: "número de horas de trabajo" y "número de unidades de trabajo realizadas"?
- Aproximadamente 0,9
- Aproximadamente 0,4
- Aproximadamente 0,0
- Aproximadamente -0,4
- Aproximadamente -0,9
En un grupo determinado, la correlación entre la estatura en pies y el peso en libras es de +0,68. ¿Cuál de las siguientes opciones alteraría el valor de r?
- la altura se expresa en centímetros.
- el peso se expresa en kilogramos.
- ambos afectarán a r.
- ninguno de los cambios anteriores afectará a r.
13.2 Comprobación de la importancia del coeficiente de correlación
La correlación entre las puntuaciones en una prueba de neurosis y las puntuaciones en una prueba de ansiedad es alta y positiva; por lo tanto,
- la ansiedad causa neurosis.
- los que obtienen una puntuación baja en una prueba tienden a obtener una puntuación alta en la otra.
- los que obtienen una puntuación baja en una prueba tienden a obtener una puntuación baja en la otra.
- no se puede hacer ninguna predicción significativa de una prueba a la otra.
13.3 Ecuaciones lineales
¿Verdadero o falso? Si es falso, corríjalo: Supongamos un intervalo de confianza del 95 % para la pendiente β de la línea recta de regresión de Y sobre X viene dado por -3,5 < β < -0,5. Entonces una prueba de dos lados de la hipótesis provocaría el rechazo de al nivel de significación del 1 %.
Verdadero o falso: Es más seguro interpretar los coeficientes de correlación como medidas de asociación y no de causalidad debido a la posibilidad de correlación espuria.
Nos interesa hallar la relación lineal entre el número de miniaplicaciones compradas de una vez y el coste por miniaplicación. Se han obtenido los siguientes datos:
X: Número de miniaplicaciones compradas – 1, 3, 6, 10, 15
Y: Coste por miniaplicación (en dólares) – 55, 52, 46, 32, 25
Supongamos que la línea de regresión es . Calculamos el precio promedio por miniaplicación si se compran 30 y observamos alguno de los siguientes elementos:
- ; obviamente, estamos equivocados; la predicción es en realidad, +15 dólares.
- , lo que parece razonable, a juzgar por los datos.
- , lo cual es un sinsentido evidente. La línea de regresión debe ser incorrecta.
- , lo cual es un sinsentido evidente. Esto nos recuerda que predecir la Y fuera del rango de valores de la X en nuestros datos es una práctica muy mala.
Verdadero o falso: Si r se acerca a + o -1, diremos que hay una fuerte correlación, en el entendido tácito de que nos referimos a una relación lineal y nada más.
13.4 La ecuación de regresión
Supongamos que tiene a su disposición la información que figura a continuación para cada uno de los 30 conductores. Proponga un modelo (con una breve indicación de los símbolos utilizados para representar las variables independientes) para explicar cómo varían las millas por galón de un conductor a otro, en función de los factores medidos.
- millas conducidas por día
- peso del automóvil
- número de cilindros del automóvil
- rapidez promedio
- millas por galón
- número de pasajeros
Considere un análisis de regresión de mínimos cuadrados entre una variable dependiente (Y) y una variable independiente (X). El coeficiente de correlación muestral de −1 (menos uno) nos indica que:
- no hay relación entre Y y X en la muestra
- no hay relación entre Y y X en la población
- existe una relación negativa perfecta entre Y y X en la población
- existe una relación negativa perfecta entre Y y X en la muestra.
En el análisis correlacional, cuando los puntos se dispersan ampliamente alrededor de la línea de regresión, esto significa que la correlación es:
- negativa.
- baja.
- heterogénea.
- entre dos medidas que no son fiables.
13.5 Interpretación de los coeficientes de regresión: elasticidad y transformación logarítmica
En una regresión lineal, ¿por qué tenemos que preocuparnos por el rango de la variable independiente (X)?
Supongamos que se recoge la siguiente información, donde la X es el diámetro del tronco del árbol y la Y es la altura del árbol.
X | Y |
4 | 8 |
2 | 4 |
8 | 18 |
6 | 22 |
10 | 30 |
6 | 8 |
Ecuación de regresión:
¿Cuál es su estimación de la altura promedio de todos los árboles con un diámetro de tronco de 7 pulgadas?
Los fabricantes de un producto químico utilizado en los collares antipulgas afirman que, en las típicas condiciones de ensayo, cada unidad adicional del producto químico provocará una reducción de 5 pulgas (es decir, cuando y , :
Supongamos que se ha realizado una prueba y los resultados de la computadora incluyen:
Intersección = 60
Pendiente = −4
Error estándar del coeficiente de regresión = 1,0
Grados de libertad para el error = 2000
Intervalo de confianza del 95% para la pendiente −2,04; −5,96
¿Son estas pruebas coherentes con la afirmación de que el número de pulgas se reduce a razón de 5 por unidad de producto químico?
13.6 Predicción con una ecuación de regresión
¿Verdadero o falso? Si es falso, corríjalo: Supongamos que se realiza una regresión lineal simple de Y sobre X y se comprueba la hipótesis de que la pendiente β es cero frente a una alternativa de dos lados. Usted tiene observaciones y su estadístico de prueba (t) calculado es 2,6. Entonces su valor P viene dado por 0,01 < P < 0,02, lo que da una significación límite (es decir, se rechazaría a , pero no se rechaza a ).
Un economista se interesa por la posible influencia del "trigo milagroso" en el rendimiento promedio del trigo en un distrito. Para ello, realiza una regresión lineal del rendimiento promedio anual con respecto al año posterior a la introducción del "trigo milagroso" durante un periodo de diez años.
La línea de tendencia ajustada es
(: Rendimiento promedio en j año después de la introducción)
(: j año después de la introducción).
- ¿Cuál es el rendimiento promedio estimado para el cuarto año tras la introducción?
- ¿Quiere utilizar esta línea de tendencia para estimar el rendimiento, por ejemplo, 20 años después de la introducción? ¿Por qué? ¿Cuál sería su estimación?
Una interpretación de es que la siguiente parte de la variación de la Y está asociada a qué variación en la X:
- la mayor parte
- la mitad
- muy poco
- una cuarta parte
- ninguno de estos
¿Cuál de los siguientes valores de r indica la predicción más precisa de una variable a partir de otra?
13.7 Cómo utilizar Microsoft Excel® para el análisis de regresión
Se ha utilizado un programa computarizado de regresión múltiple para ajustar .
Parte del resultado de la computadora incluye:
i | ||
0 | 8 | 1,6 |
1 | 2,2 | 0,24 |
2 | -0,72 | 0,32 |
3 | 0,005 | 0,002 |
- Cálculo del intervalo de confianza para se compone de _______± (un valor t de Student) (_______)
- El nivel de confianza de este intervalo se refleja en el valor utilizado para _______.
- Los grados de libertad disponibles para estimar la varianza están directamente relacionados con el valor utilizado para _______
Un investigador ha utilizado un programa de regresión múltiple sobre 20 puntos de datos para obtener una ecuación de regresión con 3 variables. Parte del resultado de la computadora es:
Variable | Coeficiente | Error estándar de |
1 | 0,45 | 0,21 |
2 | 0,80 | 0,10 |
3 | 3,10 | 0,86 |
- 0,80 es una estimación de ___________.
- 0,10 es una estimación de ___________.
- Asumiendo que las respuestas satisfacen el supuesto de normalidad, podemos estar seguros al 95% de que el valor de está en el intervalo, _______ ± [t0,025 ⋅ _______], donde t0,025 es el valor crítico de la distribución t de Student con ____ grados de libertad.