En la práctica, pocas veces conocemos la desviación típica de la población. En el pasado, cuando el tamaño de la muestra era grande, esto no suponía un problema para los estadísticos. Utilizaron la desviación típica de la muestra s como una estimación de σ y procedieron como antes para calcular un intervalo de confianza con resultados suficientemente cercanos. Sin embargo, los estadísticos se encontraron con problemas cuando el tamaño de la muestra era pequeño. El pequeño tamaño de la muestra provocó imprecisiones en el intervalo de confianza.
William S. Goset (1876-1937), de la fábrica de cerveza Guinness de Dublín (Irlanda), se encontró con este problema. Sus experimentos con lúpulo y cebada produjeron muy pocas muestras. La simple sustitución de σ por s no produjo resultados precisos cuando intentó calcular un intervalo de confianza. Se dio cuenta de que no podía utilizar una distribución normal para el cálculo; descubrió que la distribución real depende del tamaño de la muestra. Este problema lo llevó a “descubrir” lo que se llama la distribución t de Student. El nombre proviene del hecho de que Gosset escribió bajo el seudónimo de "Student".
Hasta mediados de los años 70, algunos estadísticos utilizaban la aproximación de la distribución normal para tamaños de muestra grandes y utilizaban la distribución t de Student solo para tamaños de muestra de como máximo 30. Con las calculadoras gráficas y las computadoras, la práctica actual es utilizar la distribución t de Student siempre que se utilice s como estimación de σ.
Si se extrae una muestra aleatoria simple de tamaño n de una población que tiene una distribución aproximadamente normal con media μ y desviación típica poblacional desconocida σ y se calcula la puntuación t t = , entonces las puntuaciones t siguen una distribución t de Student con n – 1 grados de libertad. La puntuación tt iene la misma interpretación que la puntuación z. Mide cuán lejos está es de su media μ. Para cada tamaño de muestra n existe una distribución t de Student diferente.
Los grados de libertad, n – 1, proceden del cálculo de la desviación típica de la muestra s. En el H - TABLAS, utilizamos n desviaciones para calcular s. Como la suma de las desviaciones es cero, podemos hallar la última desviación una vez que conocemos las otras n – 1 desviaciones. Las otras n – 1 desviaciones pueden cambiar o variar libremente. Llamamos al número n - 1 los grados de libertad (df).
- El gráfico de la distribución t de Student es similar a la curva normal estándar.
- La media de la distribución t de Student es cero y la distribución es simétrica con respecto a cero.
- La distribución t de Student tiene más probabilidad en sus colas que la distribución normal estándar porque la dispersión de la distribución t es mayor que la dispersión de la normal estándar. Así, el gráfico de la distribución t de Student será más gruesa en las colas y más corta en el centro que el gráfico de la distribución normal estándar.
- La forma exacta de la distribución t de Student depende de los grados de libertad. A medida que aumentan los grados de libertad, el gráfico de la distribución t de Student se parece más al gráfico de la distribución normal estándar.
- Se supone que la población subyacente de observaciones individuales se distribuye normalmente, con una media poblacional desconocida μ y una desviación típica poblacional desconocida σ. El tamaño de la población subyacente no suele ser relevante, a menos que sea muy pequeña. Si tiene forma de campana (normal), la hipótesis se cumple y no es necesario discutirla. Se supone que el muestreo es aleatorio, pero ese es un supuesto completamente distinto de la normalidad.
Las calculadoras y las computadoras pueden calcular fácilmente cualquier probabilidad t de Student. Las TI-83,83+ y 84+ tienen una función tcdf para calcular la probabilidad para valores dados de t. La gramática del comando tcdf es tcdf (límite inferior, límite superior, grados de libertad). Sin embargo, para los intervalos de confianza, necesitamos utilizar la probabilidad inversa para calcular el valor de t cuando conocemos la probabilidad.
Para la TI-84+ puede utilizar el comando invT del menú DISTRibution. El comando invT funciona de forma similar al invnorm. El comando invT requiere dos entradas: invT (área a la izquierda, grados de libertad). La salida es la puntuación t que corresponde al área que especificamos.
Las TI-83 y 83+ no tienen el comando invT (la TI-89 tiene un comando T inverso).
También se puede utilizar una tabla de probabilidad para la distribución t de Student La tabla muestra las puntuaciones t que corresponden al nivel de confianza (columna) y los grados de libertad (fila). (la TI-86 no tiene un programa o comando invT, por lo que si está utilizando esa calculadora, deberá utilizar una tabla de probabilidad para la distribución t de Student) Al utilizar una tabla t, tenga en cuenta que algunas tablas están formateadas para mostrar el nivel de confianza en los títulos de las columnas, mientras que los títulos de las columnas de algunas tablas pueden mostrar solo el área correspondiente en una o ambas colas.
Una tabla t de Student (vea el H - TABLAS) da las puntuaciones t dados los grados de libertad y la probabilidad de cola derecha. La mesa es muy limitada. Las calculadoras y las computadoras pueden calcular fácilmente cualquier probabilidad t de Student.
- T ~ tdf donde df = n – 1.
- Por ejemplo, si tenemos una muestra de tamaño n = 20 elementos, entonces calculamos los grados de libertad como df = n - 1 = 20 - 1 = 19 y escribimos la distribución como T ~ t19.
Si no se conoce la desviación típica de la población, el límite de error para una media poblacional es:
- ,
- es la puntuación t con un área a la derecha igual a ,
- utilizar df = n - 1 grados de libertad, y
- s = desviación típica de la muestra.
El formato del intervalo de confianza es:
.
Uso de las calculadoras TI-83, 83+, 84, 84+
Para calcular directamente el intervalo de confianza:
Pulse STAT.
Flecha hacia TESTS.
Flecha hacia abajo a 8:TInterval y pulse ENTER (o simplemente pulse 8).
Ejemplo 8.8
Translation missing: es.problem
Supongamos que se hace un estudio sobre la acupuntura para determinar su eficacia para aliviar el dolor. Se miden los índices sensoriales de 15 sujetos con los resultados dados. Utilice los datos de la muestra para construir un intervalo de confianza del 95 % para la tasa sensorial media de la población (que se supone normal) de la que ha tomado los datos.
La solución se muestra paso a paso y se usan las calculadoras TI-83, 83+ u 84+.
Solución
- La primera solución es paso a paso.
- La segunda solución utiliza las calculadoras TI-83+ y TI-84.
Para hallar el intervalo de confianza se necesita la media muestral, , y el EBM.
= 8,2267 s = 1,6722 n = 15
df = 15 - 1 = 14 CL por lo que α = 1 - CL = 1 - 0,95 = 0,05
= 0,025
El área a la derecha de t0,025 es 0,025, y el área a la izquierda de t0,025 es 1 - 0,025 = 0,975
utilizando invT(.975,14) en la calculadora TI-84+.
- EBM = 8,2267 - 0,9240 = 7,3
+ EBM = 8,2267 + 0,9240 = 9,15
El intervalo de confianza del 95 % es (7,30, 9,15).
Estimamos, con un 95 % de confianza, que la verdadera tasa sensorial media de la población está entre 7,30 y 9,15.
Solución
Uso de las calculadoras TI-83, 83+, 84, 84+
Pulse STAT
y flecha hacia TESTS
.
Desplace la flecha hacia abajo 8:TIntervalo
y pulse ENTER
(o simplemente puede pulsar 8
).
Desplace la flecha hacia Datos
y pulse ENTER
.
Desplace la flecha hacia abajo hasta Lista
e introduzca el nombre de la lista en la que puso los datos.
Debería haber un 1 después de Frecuencia
.
Desplace la flecha hacia abajo C-level
e introduzca 0,95
Presione la flecha abajo hacia Calculate
y pulse ENTER
.
El intervalo de confianza del 95 % es (7,3006, 9,1527)
Nota
Al calcular el límite de error, también se puede utilizar una tabla de probabilidad para la distribución t de Student para calcular el valor de t. La tabla ofrece puntuaciones t que corresponden al nivel de confianza (columna) y a los grados de libertad (fila); la puntuación t se encuentra donde la fila y la columna se cruzan en la tabla.
Inténtelo 8.8
Usted hace un estudio sobre la hipnoterapia para determinar su eficacia a la hora de aumentar el número de horas de sueño de los sujetos cada noche. Se miden las horas de sueño de 12 sujetos con los siguientes resultados. Construya un intervalo de confianza del 95 % para la media de horas dormidas para la población (que se supone normal) de la que ha tomado los datos.
8,2; 9,1; 7,7; 8,6; 6,9; 11,2; 10,1; 9,9; 8,9; 9,2; 7,5; 10,5
Ejemplo 8.9
Translation missing: es.problem
El proyecto Human Toxome Project (HTP) trabaja para comprender el alcance de la contaminación industrial en el cuerpo humano. Las sustancias químicas industriales pueden entrar en el cuerpo a través de la contaminación o como ingredientes de productos de consumo. En octubre de 2008, los científicos de HTP analizaron muestras de sangre del cordón umbilical de 20 recién nacidos en Estados Unidos. La sangre del cordón umbilical del grupo "en útero/recién nacido" se analizó en busca de 430 compuestos industriales, contaminantes y otras sustancias químicas, entre ellas las relacionadas con la toxicidad del cerebro y el sistema nervioso, la toxicidad del sistema inmunitario y la toxicidad reproductiva y los problemas de fertilidad. Los efectos de algunas sustancias químicas sobre el cerebro y el sistema nervioso son motivo de preocupación para la salud. La Tabla 8.3 muestra cuántas de las sustancias químicas seleccionadas se encontraron en la sangre del cordón umbilical de cada bebé.
79 | 145 | 147 | 160 | 116 | 100 | 159 | 151 | 156 | 126 |
137 | 83 | 156 | 94 | 121 | 144 | 123 | 114 | 139 | 99 |
Utilice estos datos de la muestra para construir un intervalo de confianza del 90 % para el número de la media de sustancias químicas industriales específicas que se encuentran en la sangre de un bebé.
Solución
A partir de la muestra, se puede calcular = 127,45 y s = 25,965. Hay 20 bebés en la muestra, por lo que n = 20, y df = 20 – 1 = 19.
Se le pide que calcule un intervalo de confianza del 90 %: CL = 0,90, por lo que α = 1 - CL = 1 - 0,90 = 0,10
Por definición, el área a la derecha de t0,05 es 0,05 y, por tanto, el área a la izquierda de t0,05 es 1 - 0,05 = 0,95.
Utilice una tabla, una calculadora o una computadora para calcular que t0,05 = 1,729.
- EBM = 127,45 - 10,038 = 117,412
+ EBM = 127,45 + 10,038 = 137,488
Estimamos, con un 90 % de confianza, que el número de la media de todas las sustancias químicas industriales específicas encontradas en la sangre del cordón umbilical en los Estados Unidos está entre 117,412 y 137,488.
Solución
Uso de las calculadoras TI-83, 83+, 84, 84+
Introduzca los datos en forma de lista.
Pulse STAT
y flecha hacia TESTS
.
Desplace la flecha hacia abajo 8:TIntervalo
y pulse ENTER
(o simplemente puede pulsar 8
). Vaya a Data y pulse ENTER
.
Desplace la flecha hacia abajo hasta Lista
e introduzca el nombre de la lista en la que puso los datos.
Desplace la flecha hacia abajo hasta Frecuencia
e introduzca 1.
Desplace la flecha hacia abajo hasta C-level
e ingrese 0,90
Flecha abajo hacia Calculate
y pulse ENTER
.
El intervalo de confianza del 90 % es (117,41, 137,49).
Inténtelo 8.9
Se pidió a una muestra aleatoria de estudiantes de estadística que estimaran el número total de horas que pasan viendo televisión en una semana promedio. Las respuestas se registran en la Tabla 8.4. Utilice estos datos de la muestra para construir un intervalo de confianza del 98 % para el número medio de horas que los estudiantes de estadística pasarán viendo televisión en una semana.
0 | 3 | 1 | 20 | 9 |
5 | 10 | 1 | 10 | 4 |
14 | 2 | 4 | 4 | 5 |