Alexander Holmes; Barbara Illowsky; Susan Dean

Práctica

13.1 El coeficiente de correlación r

1.

Para tener un coeficiente de correlación entre los rasgos A y B, es necesario tener:

un grupo de sujetos, algunos de los cuales poseen características del rasgo A, el restante posee las del rasgo B
medidas del rasgo A en un grupo de sujetos y del rasgo B en otro grupo
dos grupos de sujetos, uno que podría clasificarse como A o no A, y el otro como B o no B
dos grupos de sujetos, uno que podría clasificarse como A o no A, y el otro como B o no B

2.

Defina el coeficiente de correlación y dé un ejemplo único de su uso.

3.

Si la correlación entre la edad de un automóvil y el dinero gastado en reparaciones es de +0,90

El 81 % de la variación del dinero gastado en reparaciones se explica por la edad del automóvil
El 81 % del dinero gastado en reparaciones no se explica por la edad del automóvil
El 90 % del dinero que se gasta en reparaciones se explica por la edad del automóvil
Ninguna de las anteriores

4.

Supongamos que el promedio general de calificaciones del instituto universitario y la parte verbal de una prueba de coeficiente intelectual tienen una correlación de 0,40. ¿Qué porcentaje de la varianza tienen ambas en común?

20
16
40
80

5.

¿Verdadero o falso? Si es falso, explique por qué: El coeficiente de determinación puede tener valores entre -1 y +1.

6.

Verdadero o falso: Siempre que se calcula r a partir de una muestra, el valor que obtenemos es solo una estimación del verdadero coeficiente de correlación que obtendríamos si lo calculáramos para toda la población.

7.

Bajo un "diagrama de dispersión" se anota que el coeficiente de correlación es de 0,10. ¿Qué significa esto?

más y menos el 10 % de la media incluye alrededor del 68 % de los casos
una décima parte de la varianza de una variable se comparte con la otra variable
una décima parte de una variable es causada por la otra variable
en una escala de -1 a +1, el grado de relación lineal entre las dos variables es de +0,10

8.

Se sabe que el coeficiente de correlación de la X y de la Y es cero. Entonces podemos concluir que:

la X y la Y tienen distribuciones estándar
las varianzas de la X y de la Y son iguales
no existe ninguna relación entre la X y la Y
no existe ninguna relación lineal entre la X y la Y
ninguno de estos

9.

¿Cuál cree que es el valor del coeficiente de correlación para el par de variables: "número de horas de trabajo" y "número de unidades de trabajo realizadas"?

Aproximadamente 0,9
Aproximadamente 0,4
Aproximadamente 0,0
Aproximadamente -0,4
Aproximadamente -0,9

10.

En un grupo determinado, la correlación entre la estatura en pies y el peso en libras es de +0,68. ¿Cuál de las siguientes opciones alteraría el valor de r?

la altura se expresa en centímetros.
el peso se expresa en kilogramos.
ambos afectarán a r.
ninguno de los cambios anteriores afectará a r.

13.2 Comprobación de la importancia del coeficiente de correlación

11.

Defina la prueba t de un coeficiente de regresión y dé un ejemplo único de su uso.

12.

La correlación entre las puntuaciones en una prueba de neurosis y las puntuaciones en una prueba de ansiedad es alta y positiva; por lo tanto,

la ansiedad causa neurosis.
los que obtienen una puntuación baja en una prueba tienden a obtener una puntuación alta en la otra.
los que obtienen una puntuación baja en una prueba tienden a obtener una puntuación baja en la otra.
no se puede hacer ninguna predicción significativa de una prueba a la otra.

13.3 Ecuaciones lineales

13.

¿Verdadero o falso? Si es falso, corríjalo: Supongamos un intervalo de confianza del 95 % para la pendiente β de la línea recta de regresión de Y sobre X viene dado por -3,5 < β < -0,5. Entonces una prueba de dos lados de la hipótesis $H_{0} : β = -1$ provocaría el rechazo de $H_{0}$ al nivel de significación del 1 %.

14.

Verdadero o falso: Es más seguro interpretar los coeficientes de correlación como medidas de asociación y no de causalidad debido a la posibilidad de correlación espuria.

15.

Nos interesa hallar la relación lineal entre el número de miniaplicaciones compradas de una vez y el coste por miniaplicación. Se han obtenido los siguientes datos:

X: Número de miniaplicaciones compradas – 1, 3, 6, 10, 15

Y: Coste por miniaplicación (en dólares) – 55, 52, 46, 32, 25

Supongamos que la línea de regresión es $\hat{y} = -2,5 x + 60$ . Calculamos el precio promedio por miniaplicación si se compran 30 y observamos alguno de los siguientes elementos:

$\hat{y} = 15 dólares$ ; obviamente, estamos equivocados; la predicción $\hat{y}$ es en realidad, +15 dólares.
$\hat{y} = 15 dólares$ , lo que parece razonable, a juzgar por los datos.
$\hat{y} = -15 dólares$ , lo cual es un sinsentido evidente. La línea de regresión debe ser incorrecta.
$\hat{y} = -15 dólares$ , lo cual es un sinsentido evidente. Esto nos recuerda que predecir la Y fuera del rango de valores de la X en nuestros datos es una práctica muy mala.

16.

Comente brevemente la distinción entre correlación y causalidad.

17.

Verdadero o falso: Si r se acerca a + o -1, diremos que hay una fuerte correlación, en el entendido tácito de que nos referimos a una relación lineal y nada más.

13.4 La ecuación de regresión

18.

Supongamos que tiene a su disposición la información que figura a continuación para cada uno de los 30 conductores. Proponga un modelo (con una breve indicación de los símbolos utilizados para representar las variables independientes) para explicar cómo varían las millas por galón de un conductor a otro, en función de los factores medidos.

Información:

millas conducidas por día
peso del automóvil
número de cilindros del automóvil
rapidez promedio
millas por galón
número de pasajeros

19.

Considere un análisis de regresión de mínimos cuadrados entre una variable dependiente (Y) y una variable independiente (X). El coeficiente de correlación muestral de −1 (menos uno) nos indica que:

no hay relación entre Y y X en la muestra
no hay relación entre Y y X en la población
existe una relación negativa perfecta entre Y y X en la población
existe una relación negativa perfecta entre Y y X en la muestra.

20.

En el análisis correlacional, cuando los puntos se dispersan ampliamente alrededor de la línea de regresión, esto significa que la correlación es:

negativa.
baja.
heterogénea.
entre dos medidas que no son fiables.

13.5 Interpretación de los coeficientes de regresión: elasticidad y transformación logarítmica

21.

En una regresión lineal, ¿por qué tenemos que preocuparnos por el rango de la variable independiente (X)?

22.

Supongamos que se recoge la siguiente información, donde la X es el diámetro del tronco del árbol y la Y es la altura del árbol.

X	Y
4	8
2	4
8	18
6	22
10	30
6	8

Tabla 13.3

Ecuación de regresión: ${\hat{y}}_{i} = -3,6 + 3,1 \cdot X_{i}$

¿Cuál es su estimación de la altura promedio de todos los árboles con un diámetro de tronco de 7 pulgadas?

23.

Los fabricantes de un producto químico utilizado en los collares antipulgas afirman que, en las típicas condiciones de ensayo, cada unidad adicional del producto químico provocará una reducción de 5 pulgas (es decir, cuando $X_{j} = cantidad de producto químico$ y $Y_{J} = B_{0} + B_{1} \cdot X_{J} + E_{J}$ , $H_{0}$ : $B_{1} = −5$

Supongamos que se ha realizado una prueba y los resultados de la computadora incluyen:

Intersección = 60

Pendiente = −4

Error estándar del coeficiente de regresión = 1,0

Grados de libertad para el error = 2000

Intervalo de confianza del 95% para la pendiente −2,04; −5,96

¿Son estas pruebas coherentes con la afirmación de que el número de pulgas se reduce a razón de 5 por unidad de producto químico?

13.6 Predicción con una ecuación de regresión

24.

¿Verdadero o falso? Si es falso, corríjalo: Supongamos que se realiza una regresión lineal simple de Y sobre X y se comprueba la hipótesis de que la pendiente β es cero frente a una alternativa de dos lados. Usted tiene $n = 25$ observaciones y su estadístico de prueba (t) calculado es 2,6. Entonces su valor P viene dado por 0,01 < P < 0,02, lo que da una significación límite (es decir, se rechazaría $H_{0}$ a $α = 0,02$ , pero no se rechaza $H_{0}$ a $α = 0,01$ ).

25.

Un economista se interesa por la posible influencia del "trigo milagroso" en el rendimiento promedio del trigo en un distrito. Para ello, realiza una regresión lineal del rendimiento promedio anual con respecto al año posterior a la introducción del "trigo milagroso" durante un periodo de diez años.

La línea de tendencia ajustada es

${\hat{y}}_{j} = 80 + 1,5 \cdot X_{j}$

( $Y_{j}$ : Rendimiento promedio en j año después de la introducción)

( $X_{j}$ : j año después de la introducción).

¿Cuál es el rendimiento promedio estimado para el cuarto año tras la introducción?
¿Quiere utilizar esta línea de tendencia para estimar el rendimiento, por ejemplo, 20 años después de la introducción? ¿Por qué? ¿Cuál sería su estimación?

26.

Una interpretación de $r = 0,5$ es que la siguiente parte de la variación de la Y está asociada a qué variación en la X:

la mayor parte
la mitad
muy poco
una cuarta parte
ninguno de estos

27.

¿Cuál de los siguientes valores de r indica la predicción más precisa de una variable a partir de otra?

$r = 1,18$
$r = -0,77$
$r = 0,68$

13.7 Cómo utilizar Microsoft Excel® para el análisis de regresión

28.

Se ha utilizado un programa computarizado de regresión múltiple para ajustar ${\hat{y}}_{j} = b_{0} + b_{1} \cdot X_{1 j} + b_{2} \cdot X_{2 j} + b_{3} \cdot X_{3 j}$ .

Parte del resultado de la computadora incluye:

i	$b_{i}$	$S_{b_{i}}$
0	8	1,6
1	2,2	0,24
2	-0,72	0,32
3	0,005	0,002

Tabla 13.4

Cálculo del intervalo de confianza para $b_{2}$ se compone de _______± (un valor t de Student) (_______)
El nivel de confianza de este intervalo se refleja en el valor utilizado para _______.
Los grados de libertad disponibles para estimar la varianza están directamente relacionados con el valor utilizado para _______

29.

Un investigador ha utilizado un programa de regresión múltiple sobre 20 puntos de datos para obtener una ecuación de regresión con 3 variables. Parte del resultado de la computadora es:

Variable	Coeficiente	Error estándar de $b_{i}$
1	0,45	0,21
2	0,80	0,10
3	3,10	0,86

Tabla 13.5

0,80 es una estimación de ___________.
0,10 es una estimación de ___________.
Asumiendo que las respuestas satisfacen el supuesto de normalidad, podemos estar seguros al 95% de que el valor de $β_{2}$ está en el intervalo, _______ ± [t_0,025 ⋅ _______], donde t_0,025 es el valor crítico de la distribución t de Student con ____ grados de libertad.