La distribución utilizada para la prueba de hipótesis es nueva. Se trata de la distribución F, inventada por George Snedecor, pero bautizada en honor del estadístico inglés Sir Ronald Fisher. El estadístico F es un cociente (una fracción). Hay dos conjuntos de grados de libertad; uno para el numerador y otro para el denominador.
Por ejemplo, si F sigue una distribución F y el número de grados de libertad para el numerador es cuatro y el número de grados de libertad para el denominador es diez, entonces F ~ F4, 10.
Para calcular el cociente F se hacen dos estimaciones de la varianza.
- Varianza entre muestras: Una estimación de σ2 que es la varianza de las medias muestrales multiplicada por n (cuando los tamaños de las muestras son iguales). Si las muestras son de diferentes tamaños, la varianza entre las muestras se pondera para tener en cuenta los diferentes tamaños de las muestras. La varianza también se denomina variación debido al tratamiento o variación explicada.
- Varianza dentro de las muestras: Una estimación de σ2 que es el promedio de las varianzas de la muestra (también conocida como varianza combinada). Cuando los tamaños de las muestras son diferentes, se pondera la varianza dentro de las muestras. La varianza también se denomina variación debido al error o variación no explicada.
- SSentre = la suma de los cuadrados que representa la variación entre las diferentes muestras
- SSdentro = la suma de los cuadrados que representa la variación dentro de las muestras debido al azar.
Hallar una “suma de cuadrados” significa sumar cantidades al cuadrado que, en algunos casos, pueden estar ponderadas. Utilizamos la suma de cuadrados para calcular la varianza y la desviación típica de la muestra en la 2 ESTADÍSTICA DESCRIPTIVA.
MS significa “media cuadrática“ (mean square, MS). MSentre es la varianza entre grupos y MSdentro es la varianza dentro de los grupos.
Cálculo de la suma de cuadrados y de la media cuadrática
- k = el número de grupos diferentes
- nj = el tamaño del grupo j
- sj = la suma de los valores del grupo j
- n = número total de todos los valores combinados (tamaño total de la muestra: ∑nj)
- x = un valor: ∑x = ∑sj
- Suma de los cuadrados de todos los valores de cada grupo combinados: ∑x2
- Variabilidad entre grupos: SStotal = ∑x2 –
- Suma total de cuadrados: ∑x2 –
- Variación explicada: suma de los cuadrados que representan la variación entre las diferentes muestras:
SSentre = - Variación no explicada: suma de cuadrados que representa la variación dentro de las muestras debida al azar:
- dfde diferentes grupos (df para el numerador): df = k – 1
- Ecuación para los errores dentro de las muestras (dfpara el denominador): dfdentro = n – k
- Media cuadrática (estimación de la varianza) explicado por los diferentes grupos: MSentre =
- Media cuadrática (estimación de la varianza) que se debe al azar (no explicado): MSdentro =
MSentre y MSdentro se pueden escribir como sigue:
La prueba de ANOVA de una vía depende del hecho de que el MSentre puede estar influenciado por las diferencias poblacionales entre las medias de los distintos grupos. Dado que el MSdentro compara los valores de cada grupo con su propia media de grupo, el hecho de que las medias de los grupos puedan ser diferentes no afecta al MSdentro.
La hipótesis nula dice que todos los grupos son muestras de poblaciones que tienen la misma distribución normal. La hipótesis alternativa dice que, al menos, dos de los grupos de la muestra proceden de poblaciones con distribuciones normales diferentes. Si la hipótesis nula es verdadera, tanto MSentre como MSdentro deberían estimar el mismo valor.
Nota
La hipótesis nula dice que todas las medias poblacionales del grupo son iguales. La hipótesis de igualdad de medias implica que las poblaciones tienen la misma distribución normal, ya que se supone que las poblaciones son normales y que tienen varianzas iguales.
El cociente F o estadístico F
Si MSentre y MSdentro estiman el mismo valor (siguiendo la creencia de que H0 es verdadera), entonces el cociente F debería ser aproximadamente igual a uno. En su mayoría, solo los errores de muestreo contribuirían a variaciones alejadas de uno. Resulta que MSentre consiste en la varianza de la población más una varianza producida por las diferencias entre las muestras. MSdentro es una estimación de la varianza de la población. Dado que las varianzas son siempre positivas, si la hipótesis nula es falsa, MSentre será generalmente mayor que MSdentro. Entonces el cociente F será mayor que uno. Sin embargo, si el efecto de la población es pequeño, no es improbable que MSdentro sea mayor en una muestra determinada.
Los cálculos anteriores se hicieron con grupos de diferentes tamaños. Si los grupos son del mismo tamaño, los cálculos se simplifican un poco y el cociente F se puede escribir como:
Fórmula del cociente F cuando los grupos son del mismo tamaño
- n = el tamaño de la muestra
- dfnumerador = k – 1
- dfdenominador = n – k
- s2 combinada = la media de las varianzas de la muestra (varianza combinada)
- = la varianza de las medias muestrales
Los datos se suelen poner en una tabla para facilitar su visualización. Los resultados del ANOVA de una vía suelen mostrarse de esta manera en softwares.
Fuente de variación | Suma de los cuadrados (SS) | Grados de libertad (df) | Media cuadrática (MS) | F |
---|---|---|---|---|
Factor (entre) |
SS(factor) | k – 1 | MS(factor) = SS(factor)/(k – 1) | F = MS(Factor)/MS(Error) |
Error |
SS(error) | n – k | MS(error) = SS(error)/(n – k) | |
Total | SS(total) | n – 1 |
Ejemplo 12.2
Se van a probar tres planes de dieta diferentes para la pérdida media de peso. Las entradas de la tabla son las pérdidas de peso de los diferentes planes. Los resultados del ANOVA de una vía se muestran en la Tabla 12.4.
Plan 1: n1 = 4 | Plan 2: n2 = 3 | Plan 3: n3 = 3 |
---|---|---|
5 | 3,5 | 8 |
4,5 | 7 | 4 |
4 | 3,5 | |
3 | 4,5 |
s1 = 16,5, s2 =15, s3 = 15,5
A continuación se presentan los cálculos necesarios para completar la tabla de ANOVA de una vía. La tabla se utiliza para realizar una prueba de hipótesis.
donde n1 = 4, n2 = 3, n3 = 3 y n = n1 + n2 + n3 = 10
Fuente de variación | Suma de los cuadrados (SS) | Grados de libertad (df) | Media cuadrática (MS) | F |
---|---|---|---|---|
Factor (entre) |
SS(factor) = SS(entre) = 2,2458 |
k – 1 = 3 grupos – 1 = 2 |
MS(factor) = SS(factor)/(k – 1) = 2,2458/2 = 1,1229 |
F = MS(Factor)/MS(Error) = 1,1229/2,9792 = 0,3769 |
Error |
SS(error) = SS = 20,8542 |
n – k = 10 datos totales – 3 grupos = 7 |
MS(error) = SS(error)/(n – k) = 20,8542/7 = 2,9792 |
|
Total | SS(total) = 2,2458 + 20,8542 = 23,1 |
n – 1 = 10 datos totales – 1 = 9 |
Inténtelo 12.2
Como parte de un experimento para ver cómo los diferentes tipos de lechos de suelo afectarían la producción de tomates de corte, los estudiantes del Marist College cultivaron plantas de tomate en diferentes condiciones de lecho de suelo. Los grupos de tres plantas tenían, cada uno, uno de los siguientes tratamientos
- suelo desnudo
- cubierta de suelo comercial
- plástico negro
- paja
- compost
Todas las plantas crecieron en las mismas condiciones y eran de la misma variedad. Los estudiantes registraron el peso (en gramos) de los tomates producidos por cada una de las n = 15 plantas:
Desnudo: n1 = 3 | Cubierta del suelo: n2 = 3 | Plástico: n3 = 3 | Paja: n4 = 3 | Compost: n5 = 3 |
---|---|---|---|---|
2.625 | 5.348 | 6.583 | 7.285 | 6.277 |
2.997 | 5.682 | 8.560 | 6.897 | 7.818 |
4.915 | 5.482 | 3.830 | 9.230 | 8.677 |
Cree la tabla ANOVA de una vía.
La prueba de hipótesis del ANOVA de una vía es siempre de cola derecha porque los valores F más grandes están en la cola derecha de la curva de distribución F y tienden a hacernos rechazar H0.
Ejemplo 12.3
Translation missing: es.problem
Volvamos al ejercicio de los tomates bola en la sección INTÉNTELO 12.2. Las medias de los rendimientos de los tomates en las cinco condiciones de cubierta están representadas por μ1, μ2, μ3, μ4, μ5. Realizaremos una prueba de hipótesis para determinar si todas las medias son iguales o al menos una es diferente. Use un nivel de significación del 5 % y pruebe la hipótesis nula de que no hay diferencia en los rendimientos medios entre los cinco grupos contra la hipótesis alternativa de que, al menos, una media es diferente del resto.
Solución
Las hipótesis nula y alternativa son:
H0: μ1 = μ2 = μ3 = μ4 = μ5
Ha: μi ≠ μj alguna i ≠ j
Los resultados del ANOVA de una vía se muestran en la Tabla 12.7
Fuente de variación | Suma de los cuadrados (SS) | Grados de libertad (df) | Media cuadrática (MS) | F |
---|---|---|---|---|
Factor (entre) | 36.648.561 | 5 – 1 = 4 | ||
Error (dentro) | 20.446.726 | 15 – 5 = 10 | ||
Total | 57.095.287 | 15 – 1 = 14 |
Distribución para la prueba: F4, 10
df(num) = 5 – 1 = 4
df(denom) = 15 – 5 = 10
Estadístico de prueba: F = 4,4810
Declaración de probabilidad: valor p = P(F > 4,481) = 0,0248.
Compare α y el valor p: α = 0,05, valor p = 0,0248
Tome una decisión: Dado que α > valor p, no podemos aceptar H0.
Conclusión: Al nivel de significación del 5 % tenemos pruebas razonablemente sólidas de que las diferencias en los rendimientos medios de las plantas de tomate de corte cultivadas en diferentes condiciones de cubierta de suelo es poco probable que se deban únicamente al azar. Podemos concluir que, al menos, algunas de las cubiertas produjeron diferentes rendimientos medios.
Inténtelo 12.3
El SARM, o Staphylococcus aureus resistente a la meticilina, puede causar una grave infección bacteriana en pacientes del hospital. La Tabla 12.8 muestra varios recuentos de colonias de diferentes pacientes que pueden o no tener SARM. Los datos de la tabla se representan en la Figura 12.5.
Conc. = 0,6 | Conc. = 0,8 | Conc. = 1,0 | Conc. = 1,2 | Conc. = 1,4 |
---|---|---|---|---|
9 | 16 | 22 | 30 | 27 |
66 | 93 | 147 | 199 | 168 |
98 | 82 | 120 | 148 | 132 |
Gráfico de los datos para las diferentes concentraciones:
Compruebe si el número medio de colonias es igual o es diferente. Construya la tabla de ANOVA, calcule el valor p y exponga su conclusión. Utilice un nivel de significación del 5 %.
Ejemplo 12.4
Cuatro hermandades de mujeres tomaron una muestra aleatoria de hermanas en relación con su media de calificaciones para el último trimestre. Los resultados se muestran en la Tabla 12.9.
Hermandad 1 | Hermandad 2 | Hermandad 3 | Hermandad 4 |
---|---|---|---|
2,17 | 2,63 | 2,63 | 3,79 |
1,85 | 1,77 | 3,78 | 3,45 |
2,83 | 3,25 | 4,00 | 3,08 |
1,69 | 1,86 | 2,55 | 2,26 |
3,33 | 2,21 | 2,45 | 3,18 |
Translation missing: es.problem
Utilizando un nivel de significación del 1 %, ¿existe una diferencia en las notas medias entre las hermandades?
Solución
Supongamos que μ1, μ2, μ3, μ4 son las medias poblacionales de las hermandades de mujeres. Recuerde que la hipótesis nula afirma que los grupos de hermandades de mujeres proceden de la misma distribución normal. La hipótesis alternativa dice que, al menos, dos de los grupos de hermandades de mujeres proceden de poblaciones con distribuciones normales diferentes. Observe que los cuatro tamaños de muestra son cinco cada uno.
Nota
Este es un ejemplo de diseño equilibrado, ya que cada factor (es decir, la hermandad) tiene el mismo número de observaciones.
H0:
Ha: No todas las medias son iguales.
Distribución para la prueba: F3,16
donde k = 4 grupos y n = 20 muestras en total
df(num)= k – 1 = 4 – 1 = 3
df(denom) = n – k = 20 – 4 = 16
Calcule el estadístico de prueba: F = 2,23
Gráfico:
Declaración de probabilidad: valor p = P(F > 2,23) = 0,1241
Compare α y el valor p: α = 0,01
valor p = 0,1241
α < valor p
Tome una decisión: Como α < valor p, no se puede rechazar H0.
Conclusión: No hay pruebas suficientes para concluir que existe una diferencia entre las notas medias de las hermandades de mujeres.
Inténtelo 12.4
Cuatro equipos deportivos tomaron una muestra aleatoria de jugadores en relación con su GPA del año pasado. Los resultados se muestran en la Tabla 12.10.
Baloncesto | Béisbol | Hockey | Lacrosse |
---|---|---|---|
3,6 | 2,1 | 4,0 | 2,0 |
2,9 | 2,6 | 2,0 | 3,6 |
2,5 | 3,9 | 2,6 | 3,9 |
3,3 | 3,1 | 3,2 | 2,7 |
3,8 | 3,4 | 3,2 | 2,5 |
Use un nivel de significación del 5 % y determine si existe una diferencia en el GPA entre los equipos.
Ejemplo 12.5
Una clase de cuarto grado está estudiando el ambiente. Una de las tareas consiste en cultivar plantas de judías en diferentes suelos. Tommy eligió cultivar sus plantas de judías en la tierra que encontró fuera de su aula mezclada con pelusa de secadora. Tara decidió cultivar sus plantas de judías en tierra para macetas comprada en el vivero local. Nick decidió cultivar sus plantas de judías en la tierra del jardín de su madre. No se utilizó ningún producto químico en las plantas, solo agua. Se cultivaron en el interior del aula junto a un gran ventanal. Cada niño cultivó cinco plantas. Al final del periodo de crecimiento se midió cada planta y se obtuvieron los datos (en pulgadas) que están en la Tabla 12.11.
Plantas de Tommy | Plantas de Tara | Plantas de Nick |
---|---|---|
24 | 25 | 23 |
21 | 31 | 27 |
23 | 23 | 22 |
30 | 20 | 30 |
23 | 28 | 20 |
Translation missing: es.problem
¿Parece que los tres medios en los que se cultivaron las plantas de judías producen la misma altura media? Pruebe con un nivel de significación del 3 %.
Solución
Esta vez, realizaremos los cálculos que conducen al estadístico F'. Observe que cada grupo tiene el mismo número de plantas, por lo que utilizaremos la fórmula F' = .
Primero, calcule la media muestral y la varianza de cada grupo.
Plantas de Tommy | Plantas de Tara | Plantas de Nick | |
---|---|---|---|
Media muestral | 24,2 | 25,4 | 24,4 |
Varianza de la muestra | 11,7 | 18,3 | 16,3 |
Luego, calcule la varianza de las medias de los tres grupos (calcule la varianza de 24,2, 25,4 y 24,4). Varianza de las medias de los grupos = 0,413 =
Entonces MSentre = = (5)(0,413) donde n = 5 es el tamaño de la muestra (número de plantas que cultivó cada niño).
Calcule la media de las tres varianzas de la muestra (calcule la media de 11,7, 18,3 y 16,3). Media de las varianzas de la muestra = 15,433 = s2 combinada
Entonces MSdentro = s2combinado = 15,433.
El estadístico F (o cociente F) es
Los dfs para el numerador = el número de grupos – 1 = 3 – 1 = 2.
El dfs para el denominador = el número total de muestras – el número de grupos = 15 – 3 = 12
La distribución de la prueba es F2, 12 y el estadístico F es F = 0,134
El valor p es P(F > 0,134) = 0,8759.
Decisión: Como α = 0,03 y el valor p = 0,8759, no se puede rechazar H0. (¿Por qué?)
Conclusión: Con un nivel de significación del 3 %, a partir de los datos de la muestra, las pruebas no son suficientes para concluir que las alturas medias de las plantas de judías son diferentes.
Notación
La notación para la distribución F es F ~ Fdf(num),df(denom)
donde df(num) = dfentre y df(denom) = dfdentro
La media de la distribución F es