Alexander Holmes; Barbara Illowsky; Susan Dean

12.1 Prueba de dos varianzas

Este capítulo introduce una nueva función de densidad de probabilidad: la distribución F. Se utiliza para muchas aplicaciones, incluso el ANOVA y para probar la igualdad entre varias medias. Comenzamos con la distribución F y la prueba de la hipótesis de las diferencias en las varianzas. A menudo es conveniente comparar dos varianzas en vez de dos promedios. Por ejemplo, a los administradores del instituto universitario les gustaría que dos profesores que califiquen exámenes tengan la misma variación en su calificación. Para que una tapa se adapte a un recipiente, la variación en la tapa y del recipiente debería ser aproximadamente la misma. Un supermercado podría estar interesado en la variabilidad de los tiempos para procesar una compra en dos de sus cajas. En finanzas, la varianza es una medida de riesgo; por ende, sería interesante comprobar la hipótesis de que dos carteras de inversión diferentes tienen la misma varianza: la volatilidad.

Para realizar una prueba F de dos varianzas, es importante que ocurra lo siguiente:

Las poblaciones de las que se extraen las dos muestras tienen una distribución aproximadamente normal.
Las dos poblaciones son independientes entre sí.

A diferencia de la mayoría de las pruebas de hipótesis en este libro, la prueba F para la igualdad de dos varianzas es muy sensible a las desviaciones de la normalidad. Si las dos distribuciones no son normales, o se aproximan, la prueba puede dar un resultado sesgado para el estadístico de prueba.

Supongamos que tomamos una muestra aleatoria de dos poblaciones normales independientes. Supongamos que $σ_{1}^{2}$ y $σ_{2}^{2}$ son las varianzas poblacionales desconocidas y $s_{1}^{2}$ y $s_{2}^{2}$ sean las varianzas de la muestra. Supongamos que los tamaños de las muestras son n₁ y n₂. Como nos interesa comparar las dos varianzas de la muestra, utilizamos el cociente F:

$F = \frac{[\frac{{s_{1}}^{2}}{{σ_{1}}^{2}}]}{[\frac{{s_{2}}^{2}}{{σ_{2}}^{2}}]}$

F tiene la distribución F ~ F(n₁ – 1, n₂ – 1)

donde n₁ – 1 son los grados de libertad del numerador y n₂ – 1 son los grados de libertad del denominador.

Si la hipótesis nula es $σ_{1}^{2} = σ_{2}^{2}$ , entonces el cociente F, el estadístico de prueba, se convierte en $F_{c} = \frac{[\frac{{s_{1}}^{2}}{{σ_{1}}^{2}}]}{[\frac{{s_{2}}^{2}}{{σ_{2}}^{2}}]} = \frac{{s_{1}}^{2}}{{s_{2}}^{2}}$

Las distintas formas de las hipótesis probadas son:

Prueba de dos colas	Prueba de una cola	Prueba de una cola
H₀: σ₁² = σ₂²	H₀: σ₁² ≤ σ₂²	H₀: σ₁² ≥ σ₂²
H₁: σ₁² ≠ σ₂²	H₁: σ₁² > σ₂²	H₁: σ₁² < σ₂²

Tabla 12.1

Una forma más general de las hipótesis nula y alternativa para una prueba de dos colas sería:

H_{0} : \frac{{σ_{1}}^{2}}{{σ_{2}}^{2}} = δ_{0}

H_{a} : \frac{{σ_{1}}^{2}}{{σ_{2}}^{2}} \neq δ_{0}

Donde si δ₀ = 1 es una simple prueba de la hipótesis de que las dos varianzas son iguales. Esta forma de la hipótesis tiene la ventaja de permitir pruebas que van más allá de las simples diferencias y puede dar cabida a pruebas de diferencias específicas, como hicimos con las diferencias de medias y las diferencias de proporciones. Esta forma de la hipótesis también muestra la relación entre la distribución F y la χ²: la F es un cociente de dos distribuciones de chi-cuadrado, que vimos en el capítulo anterior. Esto sirve para determinar los grados de libertad de la distribución F resultante.

Si las dos poblaciones tienen varianzas iguales, entonces $s_{1}^{2}$ y $s_{2}^{2}$ están cerca en valor y el estadístico de prueba, $F_{c} = \frac{{s_{1}}^{2}}{{s_{2}}^{2}}$ está cerca de uno. Pero si las dos variantes de la población son muy diferentes, $s_{1}^{2}$ y $s_{2}^{2}$ también suelen ser muy diferentes. Al elegir $s_{1}^{2}$ ya que la mayor varianza de la muestra hace que el cociente $\frac{{s_{1}}^{2}}{{s_{2}}^{2}}$ sea mayor que uno. Si $s_{1}^{2}$ y $s_{2}^{2}$ están muy separados, entonces $F_{c} = \frac{{s_{1}}^{2}}{{s_{2}}^{2}}$ es un número grande.

Por lo tanto, si F es cercano a uno, la evidencia favorece la hipótesis nula (las dos varianzas de la población son iguales). Pero si F es mucho mayor que uno, entonces la evidencia es contraria a la hipótesis nula. En esencia, nos preguntamos si el valor calculado del estadístico de prueba F es significativamente diferente de uno.

Para determinar los puntos críticos tenemos que calcular F_α, _df1,_df2. Consulte la tabla F en el Apéndice A. Esta tabla F tiene valores para varios niveles de significación de 0,1 a 0,001, designados como "p" en la primera columna. Elija el nivel de significación deseado y siga hacia abajo y a través para encontrar el valor crítico en la intersección de los dos grados de libertad diferentes. La distribución F tiene dos grados de libertad diferentes, uno asociado al numerador, _df1, y otro asociado al denominador, _df2. Para complicar las cosas, la distribución F no es simétrica y cambia el grado de asimetría a medida que cambian los grados de libertad. Los grados de libertad en el numerador son n₁-1, donde n₁ es el tamaño de la muestra del grupo 1, y los grados de libertad en el denominador son n₂-1, donde n₂ es el tamaño de la muestra del grupo 2. F_α, _df1, _df2 dará el valor crítico en el extremo superior de la distribución F.

Para calcular el valor crítico para el extremo inferior de la distribución, invierta los grados de libertad y divida el valor F de la tabla entre el número uno.

Valor crítico superior de la cola: F_α,_df1,_df2
Valor crítico inferior de la cola: 1/F_α,_df2,_df1

Cuando el valor calculado de F está entre los valores críticos, no en la cola, no podemos rechazar la hipótesis nula de que las dos varianzas proceden de una población con la misma varianza. Si el valor F calculado está en cualquiera de las dos colas, no podemos aceptar la hipótesis nula, tal y como hemos hecho en todas las pruebas de hipótesis anteriores.

Una forma alternativa de calcular los valores críticos de la distribución F facilita el uso de la tabla F. Observamos en la tabla F que todos los valores de F son mayores que uno, por lo que el valor crítico de F para la cola de la izquierda siempre será menor que uno, porque para calcular el valor crítico en la cola de la izquierda dividimos un valor de F entre el número uno, como se muestra arriba. También observamos que si la varianza de la muestra en el numerador del estadístico de prueba es mayor que la varianza de la muestra en el denominador, el valor F resultante será mayor que uno. El método abreviado para esta prueba consiste en asegurarse de que la mayor de las dos varianzas de la muestra se coloque en el numerador para calcular el estadístico de prueba. Esto significará que solo habrá que calcular el valor crítico de la cola derecha en la tabla F.

Ejemplo 12.1

Translation missing: es.problem

Dos instructores de institutos universitarios están interesados en saber si existe alguna variación en la forma de calificar los exámenes de Matemáticas. Cada uno de ellos califica el mismo conjunto de 10 exámenes. Las notas del primer instructor tienen una varianza de 52,3. Las notas del segundo instructor tienen una varianza de 89,9. Pruebe la afirmación de que la varianza del primer instructor es menor (en la mayoría de los institutos universitarios es deseable que las varianzas de las notas de los exámenes sean casi iguales entre los instructores). El nivel de significación es del 10 %.

Solución

Supongamos que 1 y 2 son los subíndices que indican el primer y el segundo instructor, respectivamente.

n₁ = n₂ = 10.

H₀: $σ_{1}^{2} \geq σ_{2}^{2}$ y H_a: $σ_{1}^{2} < σ_{2}^{2}$

Calcule el estadístico de prueba: Según la hipótesis nula $(σ_{1}^{2} ≥ σ_{2}^{2})$ , el estadístico F es:

$F_{c} = \frac{{s_{2}}^{2}}{{s_{1}}^{2}} = \frac{89,9}{52,3} = 1,719$

Valor crítico de la prueba: F_{9, 9} = 5,35 donde n₁ – 1 = 9 y n₂ – 1 = 9.

Este gráfico muestra una curva de distribución F no simétrica. La curva está ligeramente distorsionada hacia la derecha, pero es aproximadamente normal. El valor 0,5818 está marcado en el eje vertical a la derecha del pico de la curva. Una línea vertical ascendente se extiende desde 0,5818 hasta la curva, y el área a la izquierda de esta línea está sombreada para representar el valor p. — Figura 12.2

Tome una decisión: Dado que el valor F calculado no está en la cola, no podemos rechazar H₀.

Conclusión: Con un nivel de significación del 10 %, a partir de los datos, no hay pruebas suficientes para concluir que la varianza de las notas del primer instructor sea menor.

Inténtelo 12.1

La Sociedad Coral de Nueva York divide a los cantantes hombres en cuatro categorías, desde las voces más altas hasta las más bajas: tenor 1, tenor 2, bajo 1, bajo 2. En la tabla están las estaturas de los hombres de los grupos tenor 1 y bajo 2. Uno sospecha que los hombres más altos tendrán voces más graves, y que la varianza de la altura puede subir también con las voces más graves. ¿Tenemos pruebas fehacientes de que la varianza de las alturas de los cantantes en cada uno de estos dos grupos (tenor 1 y bajo 2) es diferente?

Tenor 1	Bajo 2	Tenor 1	Bajo 2	Tenor 1	Bajo 2
69	72	67	72	68	67
72	75	70	74	67	70
71	67	65	70	64	70
66	75	72	66		69
76	74	70	68		72
74	72	68	75		71
71	72	64	68		74
66	74	73	70		75
68	72	66	72

Tabla 12.2