Barbara Illowsky; Susan Dean

10.1 Medias de dos poblaciones con desviaciones típicas desconocidas

Las dos muestras independientes son simples muestras aleatorias de dos poblaciones distintas.
Para las dos poblaciones distintas
- si los tamaños de las muestras son pequeños, las distribuciones son importantes (deben ser normales)
- si los tamaños de las muestras son grandes, las distribuciones no son importantes (no tienen por qué ser normales)

NOTA

La prueba que compara dos medias poblacionales independientes con desviaciones típicas poblacionales desconocidas y posiblemente desiguales se denomina prueba t de Aspin-Welch. Aspin Welch desarrolló la fórmula de los grados de libertad.

La comparación de dos medias poblacionales es muy común. La diferencia entre las dos muestras depende tanto de las medias como de las desviaciones típicas. Pueden producirse medias muy diferentes por azar si hay una gran variación entre cada una de las muestras. Para tener en cuenta la variación, tomamos la diferencia de las medias de la muestra, ${\bar{X}}_{1}$ – ${\bar{X}}_{2}$ , y dividimos entre el error estándar para normalizar la diferencia. El resultado es un estadístico de prueba de puntuación t.

Ya que desconocemos las desviaciones típicas de la población, las calculamos con las dos desviaciones típicas de nuestras muestras independientes. En la prueba de hipótesis, calculamos la desviación típica o el error estándar, de la diferencia de las medias muestrales, ${\bar{X}}_{1}$ – ${\bar{X}}_{2}$ .

El error estándar es:

\sqrt{\frac{(s_{1})^{2}}{n_{1}} + \frac{(s_{2})^{2}}{n_{2}}}

El estadístico de prueba(puntuación t) se calcula como sigue:

\frac{({\bar{x}}_{1} - {\bar{x}}_{2}) - (μ_{1} - μ_{2})}{\sqrt{\frac{{(s_{1})}^{2}}{n_{1}} + \frac{{(s_{2})}^{2}}{n_{2}}}}

donde:

s₁ y s₂, las desviaciones típicas de la muestra, son estimaciones de σ₁ y σ₂, respectivamente.
σ₁ y σ₂ son las desviaciones típicas desconocidas de la población.
${\bar{x}}_{1}$ y ${\bar{x}}_{2}$ son las medias muestrales. μ₁ y μ₂ son las medias poblacionales.

El número de grados de libertad (df) requiere un cálculo algo complicado. Sin embargo, la computadora o la calculadora lo calculan fácilmente. Los df no son siempre un número entero. El estadístico de prueba calculado anteriormente se determina aproximadamente mediante la distribución t de Student con df de la siguiente manera:

Grados de libertad

d e = \frac{{(\frac{{(s_{1})}^{2}}{n_{1}} + \frac{{(s_{2})}^{2}}{n_{2}})}^{2}}{(\frac{1}{n_{1} - 1}) {(\frac{{(s_{1})}^{2}}{n_{1}})}^{2} + (\frac{1}{n_{2} - 1}) {(\frac{{(s_{2})}^{2}}{n_{2}})}^{2}}

Cuando los tamaños de las muestras n₁ y n₂ son cinco o más, la aproximación t de Student es bastante apropiada. Observe que las varianzas muestrales (s₁)² y (s₂)² no están agrupadas. (Si se plantea la cuestión, no agrupe las varianzas).

NOTA

No es necesario calcularlo a mano. La calculadora o la computadoras lo harán fácilmente.

Ejemplo 10.1

Grupos independientes

Se cree que el promedio de tiempo que los niños y niñas de entre siete y once años practican deportes cada día es la misma. Se hace un estudio y se recopilan datos, lo que da como resultado los datos en la Tabla 10.1. Cada población tiene una distribución normal.

	Tamaño de la muestra	Promedio de horas de práctica deportiva al día	Desviación típica de la muestra
Niñas	9	2	$0,866$
Niños	16	3,2	1,00

Tabla 10.1

Translation missing: es.problem

¿Hay diferencia en la media de tiempo que los niños y las niñas de 7 a 11 años practican deportes cada día? Prueba al nivel de significación del 5%.

Solución

No se conocen las desviaciones típicas de la población. Sea g el subíndice de las niñas y b el de los niños. Entonces, μ_g es la media poblacional de las chicas y μ_b es la de los niños. Se trata de una prueba de dos grupos independientes y dos medias poblacionales.

Variable aleatoria: ${\bar{X}}_{g} - {\bar{X}}_{b}$ = diferencia en la media muestral de tiempo que las niñas y los niños practican deportes cada día.
H₀: μ_g = μ_b H₀: μ_g – μ_b = 0
H_a: μ_g ≠ μ_b H_a: μ_g – μ_b ≠ 0
Las palabras “igual que” le dicen que H₀ tiene un “=”. Ya que no hay otras palabras que indiquen H_a, asumamos que dice: "es diferente". Esta es una prueba de dos colas.

Distribución para la prueba: Utilice t_df donde df se calcula con la fórmula df para grupos independientes, dos medias poblacionales. Con el empleo de la calculadora, los df son aproximadamente 18,8462. No agrupe las varianzas.

Calcule el valor p con la distribución t de Student: valor p = 0,0054

Gráfico:

Esta es una curva de distribución normal que representa la diferencia en el promedio de tiempo que las niñas y los niños practican deportes durante todo el día. La media es igual a cero, y los valores -1,2, 0 y 1,2 están marcados en el eje horizontal. Dos líneas verticales se extienden desde -1,2 y 1,2 hasta la curva. La región a la izquierda de x = –1,2 y la región a la derecha de x = 1,2 están sombreadas para representar el valor p. El área de cada región es de 0,0028. — Figura 10.2

$s_{g} = 0,866$
$s_{b} = 1$
Así que, ${\bar{x}}_{g} - {\bar{x}}_{b}$ = 2 – 3.2 = –1.2
La mitad del valor p es inferior a -1,2 y la otra mitad es superior a 1,2.

Tome una decisión: Dado que α > valor p, rechaza H₀. Esto significa que se rechaza μ_g = μ_b. Las medias son diferentes.

Uso de las calculadoras TI-83, 83+, 84, 84+

Pulse STAT. Desplace la flecha hacia TESTS y pulse 4:2-SampTTest. Flecha hacia STATS y pulse ENTER. Flecha hacia abajo e ingrese 2 para la primera media muestral, $0,866$ para Sx1, 9 para n1, 3,2 para la segunda media muestral, 1 para Sx2, y 16 para n2. Flecha hacia abajo a μ1: y flecha a no es igual a μ2. Pulse ENTER. Flecha hacia abajo a Pooled: y No. Pulse ENTER. Desplace la flecha hacia abajo hasta Calculate y pulse ENTER. El valor p es p = 0,0054, los dfs son aproximadamente 18,8462 y el estadístico de prueba es -3,14. Vuelva a realizar el procedimiento, pero en vez de Calculate (Calcular) ejecute Draw (Dibujar).

Conclusión: Con un nivel de significación del 5 %, los datos de la muestra indican que hay pruebas suficientes para concluir que la media de horas que las niñas y los niños de siete a once años practican deportes al día es diferente (la media de horas que los niños de siete a once años practican deportes al día es mayor que el de las niñas practican O la media de horas que las niñas de siete a once años practican deportes al día es mayor que el de los niños).

Inténtelo 10.1

En la Tabla 10.2 se indican dos muestras. Ambas tienen distribuciones normales. Se cree que las medias de las dos poblaciones son las mismas. ¿Hay alguna diferencia en las medias? Prueba al nivel de significación del 5 %.

	Tamaño de la muestra	Media muestral	Desviación típica de la muestra
Población A	25	5	1
Población B	16	4,7	1,2

Tabla 10.2

NOTA

Cuando la suma de los tamaños de las muestras es mayor que 30 (n₁ + n₂ > 30), se puede utilizar la distribución normal para calcular aproximadamente la t de Student.

Ejemplo 10.2

Un grupo comunitario realiza un estudio en dos institutos universitarios vecinos para determinar cuál de ellos gradúa a los estudiantes con más clases de Matemáticas. La universidad A toma una muestra de 11 graduados. Su promedio es de cuatro clases de Matemáticas con desviación típica de 1,5. La universidad B toma una muestra de nueve graduados. Su promedio es de 3,5 clases de Matemáticas con desviación típica de una clase de Matemáticas. El grupo comunitario cree que un estudiante que se gradúa en el instituto universitario A ha tomado más clases de Matemáticas, en promedio. Ambas poblaciones tienen una distribución normal. Pruebe con un nivel de significación del 1 %. Responda las siguientes preguntas:

Translation missing: es.problem

a. ¿Se trata de una prueba de dos medias o de dos proporciones?

Solución

a. dos medias

Translation missing: es.problem

b. ¿Las desviaciones típicas de las poblaciones son conocidas o desconocidas?

Solución

b. desconocidas

Translation missing: es.problem

c. ¿Qué distribución utiliza para realizar la prueba?

Solución

c. t

de Student.

Translation missing: es.problem

d. ¿Cuál es la variable aleatoria?

Solución

d. ${\bar{X}}_{A} - {\bar{X}}_{B}$

Translation missing: es.problem

e. ¿Cuáles son las hipótesis nula y alternativa? Escriba las hipótesis nula y alternativa con palabras y con símbolos.

Solución

e

$H_{o} : μ_{A} \leq μ_{B}$
$H_{a} : μ_{A} > μ_{B}$

Translation missing: es.problem

f. ¿Esta prueba es de cola derecha, izquierda o doble?

Solución

f.

derecha

Translation missing: es.problem

g. ¿Cuál es el valor p?

Solución

g. 0,1928

Translation missing: es.problem

h. ¿Rechaza o no rechaza la hipótesis nula?

Solución

h. No rechazar.

Translation missing: es.problem

i. Conclusión:

Solución

i. Al nivel de significación del 1 %, a partir de los datos de la muestra, no hay pruebas suficientes para concluir que un estudiante que se gradúa en el instituto universitario A haya tomado más clases de Matemáticas, en promedio, que un estudiante que se gradúa en el instituto universitario B.

Inténtelo 10.2

Se realiza un estudio para determinar si la compañía A retiene a sus trabajadores más tiempo que la compañía B. La compañía A toma una muestra de 15 trabajadores, y su tiempo promedio en la compañía es de cinco años con desviación típica de 1,2. La compañía B cuenta con una muestra de 20 trabajadores, cuyo promedio de antigüedad en la compañía es de 4,5 años con desviación típica de 0,8. Las poblaciones se distribuyen normalmente.

¿Se conocen las desviaciones típicas de la población?
Realice una prueba de hipótesis apropiada. A un nivel de significación del 5 %, ¿cuál es su conclusión?

Ejemplo 10.3

Un profesor de una gran universidad comunitaria quería determinar si existe una diferencia en las medias de las puntuaciones de los exámenes finales entre los estudiantes que tomaron su curso de estadística en línea y los que tomaron la clase presencial. Creía que la media de las puntuaciones del examen final de la clase en línea sería inferior a la de la clase presencial. ¿Estaba en lo correcto el profesor? Las 30 puntuaciones de los exámenes finales de cada grupo, seleccionadas al azar, figuran en la Tabla 10.3 y la Tabla 10.4.

67,6	41,2	85,3	55,9	82,4	91,2	73,5	94,1	64,7	64,7
70,6	38,2	61,8	88,2	70,6	58,8	91,2	73,5	82,4	35,5
94,1	88,2	64,7	55,9	88,2	97,1	85,3	61,8	79,4	79,4

Tabla 10.3 Clase en línea

77,9	95,3	81,2	74,1	98,8	88,2	85,9	92,9	87,1	88,2
69,4	57,6	69,4	67,1	97,6	85,9	88,2	91,8	78,8	71,8
98,8	61,2	92,9	90,6	97,6	100	95,3	83,5	92,9	89,4

Tabla 10.4 Clase presencial

Translation missing: es.problem

¿Es la media de las puntuaciones del examen final de la clase en línea inferior a la media de clase presencial? Pruebe con un nivel de significación del 5 %. Responda a las siguientes preguntas:

¿Se trata de una prueba de dos medias o de dos proporciones?
¿Las desviaciones típicas de la población son conocidas o desconocidas?
¿Qué distribución utiliza para realizar la prueba?
¿Cuál es la variable aleatoria?
¿Cuáles son las hipótesis nula y alternativa? Escriba las hipótesis nula y alternativa con palabras y con símbolos.
¿Esta prueba es a la derecha, a la izquierda o de dos colas?
¿Cuál es el valor p?
¿Rechaza o no rechaza la hipótesis nula?
En el nivel de significación ___, a partir de los datos de la muestra, ______ (es/no es) evidencia suficiente para concluir que ______.

(Vea la conclusión en el Ejemplo 10.2, y escriba la suya de forma similar).

Uso de las calculadoras TI-83, 83+, 84, 84+

Primero ponga los datos de cada grupo en dos listas (como L1 y L2). Pulse STAT. Flecha hacia TESTS y pulse 4:2SampTTest. Asegúrese de que Data (Datos) esté resaltado y pulse ENTER. Flecha hacia abajo; introduzca L1 para la primera lista y L2 para la segunda. Desplace la flecha hacia abajo hasta μ₁: y la flecha hacia < μ₂ (menos que). Pulse ENTER. Flecha hacia abajo a Pooled: No. Pulse ENTER. Flecha hacia abajo hasta Calculate (Calcular); pulse ENTER.

Nota:

¡No mezcle la información del Grupo 1 y del Grupo 2!

Solución

dos medias
desconocido
t de Student.
${\bar{X}}_{1} - {\bar{X}}_{2}$
1. H₀: μ₁ = μ₂ Hipótesis nula: las medias de las puntuaciones de los exámenes finales son iguales para las clases de estadística en línea y presenciales.
2. H_a: μ₁ < μ₂ Hipótesis alternativa: la media de las puntuaciones del examen final de la clase en línea es menor que la de la clase presencial.
cola izquierda
valor p = 0,0011

Figura 10.4
Rechace la hipótesis nula.
El profesor estaba en lo correcto. Las pruebas revelan que la media de las puntuaciones de los exámenes finales de la clase en línea es inferior a la de la clase presencial.
Al nivel de significación del 5 %, a partir de los datos de la muestra, hay (hay/no hay) pruebas suficientes para concluir que la media de las puntuaciones de los exámenes finales de la clase en línea es menor que la de la clase presencial.

Criterios de Cohen para efectos de tamaño pequeño, mediano y grandeLa d de Cohen es la medida del tamaño del efecto con base en las diferencias entre dos medias. La d de Cohen, llamada así por el estadístico estadounidense Jacob Cohen, mide la fuerza relativa de las diferencias entre las medias de dos poblaciones a partir de los datos de la muestra. El valor calculado del tamaño del efecto se compara entonces con los criterios de Cohen de efecto de tamaño pequeño, mediano y grande.

Tamaño del efecto	d
Pequeño	0,2
Mediano	0,5
Grande	0,8

Tabla 10.5 Tamaños de los efectos de los criterios de Cohen

La d de Cohen es la medida de la diferencia entre dos medias dividida entre la desviación típica combinada: $d = \frac{{\bar{x}}_{1} - {\bar{x}}_{2}}{s_{p o o l e d}}$ donde $s_{p o o l e d} = \sqrt{\frac{(n_{1} - 1) s_{1}^{2} + (n_{2} - 1) s_{2}^{2}}{n_{1} + n_{2} - 2}}$

Ejemplo 10.4

Translation missing: es.problem

Calcule la d de Cohen para el Ejemplo 10.2. ¿El tamaño del efecto es pequeño, mediano o grande? Explique qué significa el tamaño del efecto para este problema.

Solución

μ₁ = 4 s₁ = 1.5 n₁ = 11
μ₂ = 3.5 s₂ = 1 n₂ = 9
d = 0.384
El efecto es pequeño porque 0,384 está entre el valor de Cohen de 0,2 para un tamaño de efecto pequeño y 0,5 para un tamaño de efecto mediano. El tamaño de las diferencias de las medias de las dos universidades es pequeño, lo que indica que no hay ninguna diferencia significativa entre estas.

Ejemplo 10.5

Translation missing: es.problem

Calcule la d de Cohen para el Ejemplo 10.3. ¿El tamaño del efecto es pequeño, mediano o grande? Explique qué significa el tamaño del efecto para este problema.

Solución

d = 0,834; grande, porque 0,834 es mayor que el 0,8 de Cohen para un tamaño de efecto grande. El tamaño de las diferencias entre las medias de las puntuaciones de los exámenes finales de los estudiantes en línea y los estudiantes en la clase presencial es grande, lo que indica una diferencia significativa.

Inténtelo 10.5

El alfa ponderado es una medida del rendimiento ajustado al riesgo de las acciones durante un periodo de un año. Un alfa ponderado positivo alto significa una acción cuyo precio ha subido, mientras que un alfa ponderado positivo pequeño indica un precio de la acción sin cambios durante el periodo. El alfa ponderado se utiliza para identificar compañías con fuertes tendencias al alza o a la baja. El alfa ponderado de los 30 principales títulos valores de los bancos del noreste y del oeste identificados por el Nasdaq el 24 de mayo de 2013 figura en la Tabla 10.6 y la Tabla 10.7, respectivamente.

94,2	75,2	69,6	52,0	48,0	41,9	36,4	33,4	31,5	27,6
77,3	71,9	67,5	50,6	46,2	38,4	35,2	33,0	28,7	26,5
76,3	71,7	56,3	48,7	43,2	37,6	33,7	31,8	28,5	26,0

Tabla 10.6 Noreste

126,0	70,6	65,2	51,4	45,5	37,0	33,0	29,6	23,7	22,6
116,1	70,6	58,2	51,2	43,2	36,0	31,4	28,7	23,5	21,6
78,2	68,2	55,6	50,3	39,0	34,1	31,0	25,3	23,4	21,5

Tabla 10.7 Oeste

¿Existe alguna diferencia en el alfa ponderado de los 30 principales títulos valores de los bancos del noreste y del oeste? Pruebe a un nivel de significación del 5 %. Responda las siguientes preguntas:

¿Se trata de una prueba de dos medias o de dos proporciones?
¿Las desviaciones típicas de la población son conocidas o desconocidas?
¿Qué distribución utiliza para realizar la prueba?
¿Cuál es la variable aleatoria?
¿Cuáles son las hipótesis nula y alternativa? Escriba las hipótesis nula y alternativa con palabras y con símbolos.
¿Esta prueba es a la derecha, a la izquierda o de dos colas?
¿Cuál es el valor p?
¿Rechaza o no rechaza la hipótesis nula?
En el nivel de significación ___, a partir de los datos de la muestra, ______ (es/no es) evidencia suficiente para concluir que ______.
Calcule la d de Cohen e interprétela.