El teorema del límite central nos dice que la estimación puntual de la media muestral, , proviene de una distribución normal de 's. Esta distribución teórica se denomina distribución muestral de 's. Ahora investigamos la distribución de muestreo para otro parámetro importante que deseamos estimar; p de la función de densidad de probabilidad binomial.
Si la variable aleatoria es discreta, como en el caso de los datos categóricos, el parámetro que deseamos estimar es la proporción de la población. Esta es, por supuesto, la probabilidad de obtener un éxito en cualquier sorteo aleatorio. A diferencia del caso que acabamos de discutir para una variable aleatoria continua en la que no conocíamos la distribución poblacional de las X, aquí sí conocemos la función de densidad de probabilidad subyacente para estos datos; es la binomial. La variable aleatoria es X = el número de aciertos y el parámetro que deseamos conocer es p, la probabilidad de sacar un acierto que es, por supuesto, la proporción de aciertos en la población. La pregunta que se plantea es: ¿a partir de qué distribución se obtuvo la proporción de la muestra, extraída? El tamaño de la muestra es n y X es el número de aciertos encontrados en esa muestra. Se trata de una pregunta paralela a la que acaba de responder el teorema del límite central: ¿de qué distribución era la media de la muestra, , extraída? Vimos que una vez que supimos que la distribución era la normal, pudimos crear intervalos de confianza para el parámetro poblacional: µ. También utilizaremos esta misma información para comprobar las hipótesis sobre la media de la población más adelante. Ahora queremos ser capaces de desarrollar intervalos de confianza para el parámetro poblacional "p" a partir de la función de densidad de probabilidad binomial.
Para hallar la distribución de la que proceden las proporciones muestrales, necesitamos desarrollar la distribución muestral de las proporciones muestrales, al igual que hicimos con las medias muestrales. Imaginemos de nuevo que tomamos una muestra aleatoria de, por ejemplo, 50 personas y les preguntamos si apoyan la nueva emisión de bonos escolares. A partir de esto encontramos una proporción muestral, p', y la graficamos en el eje de las p'. Hacemos esto una y otra vez, etc., hasta que tengamos la distribución teórica de las p'. Algunas proporciones de la muestra presentarán una alta favorabilidad hacia la emisión de bonos y otras presentarán una baja favorabilidad porque el muestreo aleatorio reflejará la variación de opiniones dentro de la población. Lo que hemos hecho puede verse en la Figura 7.9. El panel superior es la distribución poblacional de probabilidades para cada valor posible de la variable aleatoria X. Aunque no sabemos cómo es la distribución específica porque no conocemos p, el parámetro poblacional, sí sabemos que debe ser algo así. En realidad, no conocemos ni la media ni la desviación típica de esta distribución de la población, la misma dificultad a la que nos enfrentamos al analizar las X anteriormente.
La Figura 7.9 sitúa la media en la distribución de probabilidades de la población como pero, por supuesto, no conocemos realmente la media de la población porque no conocemos la probabilidad de éxito de la población, . Debajo de la distribución de los valores de la población se encuentra la distribución muestral de 's. De nuevo, el teorema del límite central nos dice que esta distribución se distribuye normalmente al igual que el caso de la distribución muestral para 's. Esta distribución muestral también tiene una media, la media de ', y una desviación típica, .
Es importante destacar que, en el caso del análisis de la distribución de las medias muestrales, el teorema del límite central nos indicó el valor esperado de la media de las medias muestrales en la distribución muestral, y la desviación típica de la distribución muestral. De nuevo, el teorema del límite central proporciona esta información para la distribución de muestreo de las proporciones. Las respuestas son
- El valor esperado de la media de la distribución muestral de las proporciones de la muestra, , es la proporción de población, p.
- La desviación típica de la distribución muestral de las proporciones de la muestra, , es la desviación típica de la población dividida entre la raíz cuadrada del tamaño de la muestra, n.
Estas dos conclusiones son las mismas que hemos encontrado para la distribución de muestreo de las medias de las muestras. Sin embargo, en este caso, como la media y la desviación típica de la distribución binomial dependen de , la fórmula de la desviación típica de la distribución muestral requiere una manipulación algebraica para ser útil. Lo abordaremos en el próximo capítulo. A continuación, se ofrece la demostración de estas importantes conclusiones del teorema del límite central.
(El valor esperado de X, E(x), es simplemente la media de la distribución binomial que sabemos que es np).
La desviación típica de la distribución muestral de las proporciones es, por tanto, la siguiente
Parámetro | Distribución de la población | Muestra | Distribución muestral de las p |
---|---|---|---|
Media | µ = np | p' y E(p') = p | |
Desviación típica |
La Tabla 7.2 resume estos resultados y muestra la relación entre la población, la muestra y la distribución muestral. Nótese el paralelismo entre esta Tabla y la Tabla 7.1 para el caso en que la variable aleatoria es continua y estábamos desarrollando la distribución muestral para las medias.
Repasando la fórmula de la desviación típica de la distribución muestral para las proporciones vemos que a medida que n aumenta la desviación típica disminuye. Esta es la misma observación que hicimos para la desviación típica de la distribución de muestreo para las medias. De nuevo, a medida que aumenta el tamaño de la muestra, se observa que la estimación puntual de µ o p procede de una distribución cada vez más estrecha. Llegamos a la conclusión de que, con un nivel de probabilidad determinado, el rango del que procede la estimación puntual es menor a medida que aumenta el tamaño de la muestra, n. La figura 7.8 muestra este resultado para el caso de las medias muestrales. Simplemente sustituya por y podemos ver el impacto del tamaño de la muestra en la estimación de la proporción de la muestra.