En la práctica, pocas veces conocemos la desviación típica de la población. En el pasado, cuando el tamaño de la muestra era grande, esto no suponía un problema para los estadísticos. Utilizaron la desviación típica de la muestra s como una estimación de σ y procedieron como antes para calcular un intervalo de confianza con resultados suficientemente cercanos. Esto es lo que hicimos en el Ejemplo 8.4 arriba. La estimación puntual de la desviación típica, s, se sustituyó en la fórmula del intervalo de confianza para la desviación típica de la población. En este caso hay 80 observaciones muy por encima de las 30 sugeridas para eliminar cualquier sesgo de una muestra pequeña. Sin embargo, los estadísticos se encontraron con problemas cuando el tamaño de la muestra era pequeño. El pequeño tamaño de la muestra provocó imprecisiones en el intervalo de confianza.
William S. Goset (1876-1937), de la fábrica de cerveza Guinness de Dublín (Irlanda), se encontró con este problema. Sus experimentos con lúpulo y cebada produjeron muy pocas muestras. La simple sustitución de σ por s no produjo resultados precisos cuando intentó calcular un intervalo de confianza. Se dio cuenta de que no podía utilizar una distribución normal para el cálculo; descubrió que la distribución real depende del tamaño de la muestra. Este problema lo llevó a “descubrir” lo que se llama la distribución t de Student. El nombre proviene del hecho de que Gosset escribió bajo el seudónimo de "Un estudiante".
Hasta mediados de los años 70, algunos estadísticos utilizaban la aproximación de la distribución normal para tamaños de muestra grandes y utilizaban la distribución t de Student solo para tamaños de muestra de un máximo de 30 observaciones.
Si se extrae una muestra aleatoria simple de tamaño n de una población con media μ y desviación típica poblacional desconocida σ y se calcula la puntuación t t = , entonces las puntuaciones t siguen una distribución t de Student con n – 1 grados de libertad. La puntuación t tiene la misma interpretación que la puntuación z. Mide la distancia en unidades de desviación típica es de su media μ. Para cada tamaño de muestra n existe una distribución t de Student diferente.
Los grados de libertad, n – 1, proceden del cálculo de la desviación típica de la muestra s. Recuerde que cuando calculamos por primera vez una desviación típica de la muestra, dividimos la suma de las desviaciones al cuadrado por n – 1, pero utilizamos n desviaciones para calcular s. Como la suma de las desviaciones es cero, podemos hallar la última desviación una vez que conocemos las otras n – 1 desviaciones. Las otras n – 1 desviaciones pueden cambiar o variar libremente. Llamamos al número n – 1 los grados de libertad (degrees of freedom, df) en reconocimiento de que uno se pierde en los cálculos. El efecto de la pérdida de un grado de libertad es que el valor t aumenta y el intervalo de confianza aumenta su anchura.
- La gráfica de la distribución t de Student es similar a la curva normal estándar y a infinitos grados de libertad es la distribución normal. Puede confirmarlo leyendo la línea inferior a infinitos grados de libertad para un nivel de confianza conocido, por ejemplo, en la columna 0,05, nivel de confianza del 95 %, encontramos el valor t de 1,96 a infinitos grados de libertad.
- La media de la distribución t de Student es cero y la distribución es simétrica respecto a cero, de nuevo como la distribución normal estándar.
- La distribución t de Student tiene más probabilidad en sus colas que la distribución normal estándar porque la dispersión de la distribución t es mayor que la dispersión de la normal estándar. Así, el gráfico de la distribución t de Student será más gruesa en las colas y más corta en el centro que el gráfico de la distribución normal estándar.
- La forma exacta de la distribución t de Student depende de los grados de libertad. A medida que aumentan los grados de libertad, el gráfico de la distribución t de Student se parece más al gráfico de la distribución normal estándar.
- Se supone que la población subyacente de observaciones individuales se distribuye normalmente, con una media poblacional desconocida μ y una desviación típica poblacional desconocida σ. Esta suposición proviene del teorema del límite central porque las observaciones individuales en este caso son las de la distribución muestral. El tamaño de la población subyacente no suele ser relevante, a menos que sea muy pequeña. Si es normal, se cumple el supuesto y no es necesario discutirlo.
Se utiliza una tabla de probabilidad para la distribución t de Student para calcular los valores t en varios niveles de confianza comúnmente utilizados. La tabla muestra las puntuaciones t que corresponden al nivel de confianza (columna) y los grados de libertad (fila). Al utilizar una tabla t, tenga en cuenta que algunas tablas están formateadas para mostrar el nivel de confianza en los títulos de las columnas, mientras que los títulos de las columnas de algunas tablas pueden mostrar solo el área correspondiente en una o ambas colas. Observe que en la parte inferior de la tabla aparecerá el valor t para infinitos grados de libertad. Matemáticamente, a medida que aumentan los grados de libertad, la distribución tse aproxima a la distribución normal estándar. Puede encontrar los valores Z conocidos buscando en la columna alfa correspondiente y leyendo el valor en la última fila.
Una tabla t de Student (vea el A - CUADROS ESTADÍSTICOS) da las puntuaciones t dados los grados de libertad y la probabilidad de cola derecha.
La distribución t de Student tiene una de las propiedades más deseables de la normal: es simétrica. Lo que hace la distribución t de Student es extender el eje horizontal, de modo que se necesita un mayor número de desviaciones típicas para capturar la misma cantidad de probabilidad. En realidad, hay un número infinito de distribuciones t de Student, una para cada ajuste del tamaño de la muestra. A medida que aumenta el tamaño de la muestra, la distribución t de Student se parece cada vez más a la distribución normal. Cuando el tamaño de la muestra llega a 30, la distribución normal suele sustituirse por la t de Student porque son muy parecidas. Esta relación entre la distribución t de Student y la distribución normal se muestra en la Figura 8.8.
Este es otro ejemplo de una distribución que limita a otra, en este caso la distribución normal es la distribución que limita a la t de Student cuando los grados de libertad en la t de Student se acercan a infinito. Esta conclusión proviene directamente de la derivación de la distribución t de Student realizada por el Sr. Gosset. Reconoció que el problema consistía en tener pocas observaciones y no estimar la desviación típica de la población. Sustituía la desviación típica de la muestra y obtenía resultados volátiles. Por lo tanto, creó la distribución t de Student como una relación entre la distribución normal y la distribución chi-cuadrado. La distribución chi-cuadrado es a su vez un cociente de dos varianzas, en este caso la varianza de la muestra y la varianza de la población desconocida. La distribución t de Student, por tanto, está ligada a la distribución normal, pero tiene grados de libertad que provienen de los de la distribución chi-cuadrado. La solución algebraica demuestra este resultado.
-
donde z es la variable normal estándar y χ2 es la distribución chi-cuadrado con v grados de libertad.
Sustituya los valores y simplifique:
Hay que replantear la fórmula de un intervalo de confianza para la media para los casos en que el tamaño de la muestra es inferior a 30 y no conocemos la desviación típica de la población, σ:
Aquí la estimación puntual de la desviación típica de la población, s ha sido sustituida por la desviación típica de la población, σ, y tν,α ha sido sustituida por Zα. La letra griega ν (pronunciada niu) se coloca en la fórmula general en reconocimiento de que hay muchas distribuciones de Student tv, una para cada tamaño de muestra. ν es el símbolo de los grados de libertad de la distribución y depende del tamaño de la muestra. A menudo se utiliza “df” para abreviar los grados de libertad. Para este tipo de problema, los grados de libertad son ν = n-1, donde n es el tamaño de la muestra. Para buscar una probabilidad en la tabla t de Student tenemos que conocer los grados de libertad del problema.
Ejemplo 8.5
Translation missing: es.problem
El beneficio por acción (earnings per share, EPS) promedio de 10 acciones industriales seleccionadas al azar entre las que se cotizan en el Dow-Jones Industrial Average (DJIA) resultó ser = 1,85 con una desviación típica de s=0,395. Calcule un intervalo de confianza del 99 % para el EPS promedio de todas las empresas industriales que cotizan en el DJIA.
Solución
Para ayudar a visualizar el proceso de cálculo de un intervalo de confianza, dibujamos la distribución apropiada para el problema. En este caso es la t de Student porque no conocemos la desviación típica de la población y la muestra es pequeña, menos de 30.
Para hallar el valor t adecuado se necesitan dos datos, el nivel de confianza deseado y los grados de libertad. La pregunta pedía un nivel de confianza del 99 %. En el gráfico esto se muestra donde (1-α), el nivel de confianza, está en el área no sombreada. Las colas, por tanto, tienen 0,005 de probabilidad cada una, α/2. Los grados de libertad para este tipo de problema son n-1= 9. En la tabla t de Student, en la fila marcada como 9 y en la columna marcada como 0,005, se halla el número de desviaciones típicas para capturar el 99 % de la probabilidad, 3,2498. A continuación, se colocan en el gráfico recordando que la t de Student es simétrica y que, por lo tanto, el valor t está tanto del lado más como del lado menos de la media.
Al insertar estos valores en la fórmula se obtiene el resultado. Estos valores pueden colocarse en el gráfico para ver la relación entre la distribución de las medias muestrales, y la distribución t de Student.
La conclusión formal es la siguiente:
Con un nivel de confianza del 99 %, el EPS promedio de todas las industrias que figuran en el DJIA es de 1,44 dólares a 2,26 dólares.
Inténtelo 8.5
Usted hace un estudio sobre la hipnoterapia para determinar su eficacia a la hora de aumentar el número de horas de sueño de los sujetos cada noche. Se miden las horas de sueño de 12 sujetos con los siguientes resultados. Construya un intervalo de confianza del 95 % para la media de horas dormidas para la población (que se supone normal) de la que ha tomado los datos.
8,2; 9,1; 7,7; 8,6; 6,9; 11,2; 10,1; 9,9; 8,9; 9,2; 7,5; 10,5