Un intervalo de confianza para una media poblacional con una desviación típica poblacional conocida se basa en la conclusión del teorema del límite central de que la distribución muestral de las medias muestrales sigue una distribución aproximadamente normal.
Cálculo del intervalo de confianza
Considere la fórmula de estandarización para la distribución de muestreo desarrollada en la discusión del Teorema del Límite Central:
Observe que µ se sustituye por porque sabemos que el valor esperado de es µ del teorema del límite central y se sustituye por , también del teorema del límite central.
En esta fórmula sabemos , y n, el tamaño de la muestra. (En realidad, no conocemos la desviación típica de la población, pero tenemos una estimación puntual de la misma, s, a partir de la muestra que hemos tomado. Más adelante se hablará de esto). Lo que no sabemos es μ o Z1. Podemos resolver cualquiera de ellas en términos de la otra. Resolviendo para μ en términos de Z1 se obtiene:
Recordando que el teorema del límite central nos dice que la distribución de 's, la distribución muestral para las medias, es normal, y que la distribución normal es simétrica, podemos reordenar los términos así:
Esta es la fórmula de un intervalo de confianza para la media de una población.
Observe que Zα ha sido sustituido por Z1 en esta ecuación. Aquí es donde el estadístico debe hacer una elección. El analista debe decidir el nivel de confianza que desea imponer al intervalo de confianza. α es la probabilidad de que el intervalo no contenga la verdadera media de la población. El nivel de confianza se define como (1-α). Zα es el número de desviaciones típicas que se aleja de la media con una cierta probabilidad. Si elegimos Zα = 1,96, estamos pidiendo el intervalo de confianza del 95 % porque estamos fijando en 0,95 la probabilidad de que la verdadera media se encuentre dentro del rango. Si fijamos Zα en 1,64, estamos pidiendo el intervalo de confianza del 90% porque hemos fijado la probabilidad en 0,90. Estos números pueden verificarse consultando la tabla estandarizada. Divida 0,95 o 0,90 por la mitad y encuentra esa probabilidad dentro del cuerpo de la tabla. A continuación, lea en los márgenes superior e izquierdo el número de desviaciones típicas que se necesitan para obtener este nivel de probabilidad.
En realidad, podemos establecer cualquier nivel de confianza que deseemos simplemente cambiando el valor Zα en la fórmula. Es la elección del analista. La convención común en economía y en la mayoría de las ciencias sociales establece los intervalos de confianza en niveles del 90, 95 o 99 por ciento. Los niveles inferiores al 90% se consideran de poco valor. El nivel de confianza de una determinada estimación de intervalo se denomina (1-α).
Una buena forma de ver el desarrollo de un intervalo de confianza es representar gráficamente la solución de un problema solicitando un intervalo de confianza. Esto se presenta en la Figura 8.2 para el ejemplo de la introducción relativo al número de descargas de iTunes. Ese caso era para un intervalo de confianza del 95%, pero se podrían haber elegido otros niveles de confianza con la misma facilidad, según la necesidad del analista. Sin embargo, el nivel de confianza DEBE estar preestablecido y no estar sujeto a revisión como resultado de los cálculos.
Para este ejemplo, digamos que sabemos que el número de la media poblacional real de descargas de iTunes es de 2,1. La verdadera media de la población se encuentra dentro del rango del intervalo de confianza del 95%. No hay absolutamente nada que garantice que esto ocurra. Además, si la verdadera media queda fuera del intervalo, nunca la conoceremos. Debemos recordar siempre que nunca conoceremos la verdadera media. La estadística simplemente nos permite, con un determinado nivel de probabilidad (confianza), decir que la verdadera media está dentro del rango calculado. Esto es lo que se llamó en la introducción, el "nivel de ignorancia admitido".
Modificación del nivel de confianza o del tamaño de la muestra
Aquí está de nuevo la fórmula para un intervalo de confianza para una media poblacional desconocida asumiendo que conocemos la desviación típica de la población:
Está claro que el intervalo de confianza se rige por dos cosas, el nivel de confianza elegido, , y la desviación típica de la distribución muestral. La desviación típica de la distribución muestral se ve afectada además por dos cosas, la desviación típica de la población y el tamaño de la muestra que hemos elegido para nuestros datos. Aquí queremos examinar los efectos de cada una de las elecciones que hemos hecho sobre el intervalo de confianza calculado, el nivel de confianza y el tamaño de la muestra.
Por un momento debemos preguntarnos qué deseamos en un intervalo de confianza. Nuestro objetivo era estimar la media de la población a partir de una muestra. Hemos abandonado la esperanza de encontrar alguna vez la verdadera media de la población, y la desviación típica de la población, para cualquier caso, excepto cuando tenemos una población extremadamente pequeña y el coste de recopilar los datos de interés es muy pequeño. En todos los demás casos, debemos recurrir a las muestras. Con el teorema del límite central tenemos las herramientas para proporcionar un intervalo de confianza significativo con un nivel de confianza determinado, lo que significa una probabilidad conocida de estar equivocado. Por intervalo de confianza significativo entendemos uno que sea útil. Imagine que le piden un intervalo de confianza para las edades de sus compañeros. Ha tomado una muestra y encuentra una media de 19,8 años. Desea estar muy seguro, por lo que informa de un intervalo entre 9,8 años y 29,8 años. Este intervalo contendría sin duda la verdadera media de la población y tendría un nivel de confianza muy alto. Sin embargo, difícilmente puede calificarse de significativo. El mejor intervalo de confianza es el que es estrecho y a la vez de alta confianza. Existe una tensión natural entre estos dos objetivos. Cuanto más alto sea el nivel de confianza, más amplio será el intervalo de confianza, como en el caso de las edades de los estudiantes. Podemos ver esta tensión en la ecuación del intervalo de confianza.
El intervalo de confianza aumentará el ancho a medida que aumenta, aumenta a medida que aumenta el nivel de confianza. Existe un compromiso entre el nivel de confianza y el ancho del intervalo. Ahora volvamos a ver la fórmula y veremos que el tamaño de la muestra también juega un papel importante en el ancho del intervalo de confianza. El tamaño de la muestra, , aparece en el denominador de la desviación típica de la distribución muestral. A medida que aumenta el tamaño de la muestra, disminuye la desviación típica de la distribución muestral y, por tanto, el ancho del intervalo de confianza, manteniendo constante el nivel de confianza. Esta relación se demostró en la Figura 7.8. Una vez más, vemos la importancia de contar con muestras grandes para nuestro análisis, aunque entonces nos enfrentamos a una segunda limitación, el coste de la recopilación de datos.
Cálculo del intervalo de confianza: un enfoque alternativo
Otra forma de enfocar los intervalos de confianza es mediante el uso de algo llamado límite de error. El límite de error recibe su nombre del reconocimiento de que proporciona el límite del intervalo derivado del error estándar de la distribución muestral. En las ecuaciones anteriores se ve que el intervalo es simplemente la media estimada, la media muestral, más o menos algo. Ese algo es el límite de error y está impulsado por la probabilidad que deseamos mantener en nuestra estimación, , por la desviación típica de la distribución muestral. El límite de error de una media recibe el nombre de media con límite de error (Error Bound Mean, EBM).
Para construir un intervalo de confianza para una única media poblacional desconocida μ, cuando se conoce la desviación típica de la población, necesitamos como una estimación de μ y necesitamos el margen de error. Aquí, el margen de error (EBM) se denomina límite de error para una media poblacional (abreviado EBM). La media muestral es la estimación puntual de la media poblacional desconocida μ.
La estimación del intervalo de confianza tendrá la forma:
(estimación puntual – límite de error, estimación puntual + límite de error) o, en símbolos, ()
La fórmula matemática de este intervalo de confianza es:
El margen de error (EBM) depende del nivel de confianza (Confidence Level, CL). El nivel de confianza suele considerarse la probabilidad de que la estimación del intervalo de confianza calculado contenga el verdadero parámetro poblacional. Sin embargo, es más preciso afirmar que el nivel de confianza es el porcentaje de intervalos de confianza que contienen el verdadero parámetro de la población cuando se toman muestras repetidas. La mayoría de las veces, la persona que construye el intervalo de confianza elige un nivel de confianza del 90 % o superior porque quiere estar razonablemente segura de sus conclusiones.
Existe otra probabilidad llamada alfa (α). α está relacionada con el nivel de confianza, CL. α es la probabilidad de que el intervalo no contenga el parámetro poblacional desconocido.
Matemáticamente, 1 - α = CL.
Un intervalo de confianza para una media poblacional con una desviación típica conocida se basa en que la distribución muestral de las medias de la muestra sigue una distribución aproximadamente normal. Supongamos que nuestra muestra tiene una media de = 10, y hemos construido el intervalo de confianza del 90 % (5, 15) donde EBM = 5.
Para obtener un intervalo de confianza del 90 %, debemos incluir el 90 % central de la probabilidad de la distribución normal. Si incluimos el 90 % central, dejamos fuera un total de α = 10 % en ambas colas, o 5 % en cada cola, de la distribución normal.
Para captar el 90% central, debemos movernos 1,645 desviaciones típicas a cada lado de la media muestral calculada. El valor 1,645 es la puntuación z de una distribución de probabilidad normal estándar que sitúa un área de 0,90 en el centro, un área de 0,05 en la cola extrema izquierda y un área de 0,05 en la cola extrema derecha.
Es importante que la desviación típica utilizada debe ser la adecuada para el parámetro que estamos estimando, por lo que en este apartado debemos utilizar la desviación típica que se aplica a la distribución muestral para medias que estudiamos con el teorema del límite central y es, .
Cálculo del intervalo de confianza con el EMB
Para construir una estimación de intervalo de confianza para una media poblacional desconocida necesitamos datos de una muestra aleatoria. Los pasos para construir e interpretar el intervalo de confianza son:
- Calcular la media muestral de los datos de la muestra. Recuerde que en esta sección conocemos la desviación típica de la población σ.
- Calcule la puntuación z de la tabla estandarizada que corresponde al nivel de confianza deseado.
- Calcular el límite de error EBM.
- Construir el intervalo de confianza.
- Escriba una oración que interprete la estimación en el contexto de la situación del problema.
Primero examinaremos cada paso con más detalle y luego ilustraremos el proceso con algunos ejemplos.
Calcular la puntuación z para el nivel de confianza declarado
Cuando conocemos la desviación típica de la población σ, utilizamos una distribución normal estándar para calcular el EBM y construir el intervalo de confianza. Necesitamos hallar el valor de z que pone un área igual al nivel de confianza (en forma decimal) en el centro de la distribución normal estándar Z ~ N(0, 1).
El nivel de confianza, CL, es el área en el medio de la distribución normal estándar. CL = 1 – α, por lo que α es el área que se divide por igual entre las dos colas. Cada una de las colas contiene un área igual a .
La puntuación z que tiene un área a la derecha de se denota por .
Por ejemplo, cuando CL = 0,95, α = 0,05 y = 0,025; escribimos = .
La zona a la derecha de es 0,025 y el área a la izquierda de es 1 – 0,025 = 0,975.
, utilizando una tabla de probabilidad normal. Más adelante veremos que podemos utilizar una tabla de probabilidad diferente, la distribución t de Student, para encontrar el número de desviaciones típicas de los niveles de confianza más utilizados.
Cálculo del límite de error (EBM)
La fórmula del límite de error para una media poblacional desconocida μ cuando se conoce la desviación típica poblacional σ es
- EBM =
Construcción del intervalo de confianza
- La estimación del intervalo de confianza tiene el formato o la fórmula:
El gráfico da una idea de toda la situación.
CL + + = CL + α = 1.
Ejemplo 8.1
Supongamos que estamos interesados en las puntuaciones medias de un examen. Se toma una muestra aleatoria de 36 puntuaciones y se obtiene una media muestral (puntuación media muestral) de 68 ( = 68). En este ejemplo tenemos el conocimiento inusual de que la desviación típica de la población es de 3 puntos. No cuente con conocer los parámetros de la población fuera de los ejemplos de los libros de texto. Calcule una estimación del intervalo de confianza para la calificación media del examen de la población (la calificación media de todos los exámenes).
Translation missing: es.problem
Calcule un intervalo de confianza del 90 % para la media real (poblacional) de las calificaciones de los exámenes de Estadística.
Solución
- La solución se muestra paso a paso.
Para hallar el intervalo de confianza se necesita la media muestral, , y el EBM.
- = 68
- EBM =
- σ = 3; n = 36; el nivel de confianza es del 90 % (CL = 0,90)
CL = 0,90 por lo que α = 1 – CL = 1 – 0,90 = 0,10
= 0,05
El área a la derecha de Z0,05 es 0,05 y el área a la izquierda de Z0,05 es 1 - 0,05 = 0,95.
Esto se puede calcular utilizando una computadora o una tabla de probabilidad para la distribución normal estándar. Como los niveles de confianza habituales en las ciencias sociales son el 90 %, el 95 % y el 99 %, no tardará en familiarizarse con los números 1,645, 1,96 y 2,56
EBM = (1,645) = 0,8225
– EBM = 68 – 0,8225 = 67,1775
+ EBM = 68 + 0,8225 = 68,8225
El intervalo de confianza del 90 % es (67,1775; 68,8225)
Interpretación
Estimamos con un 90 % de confianza que la verdadera calificación media del examen de la población para todos los estudiantes de Estadística está entre 67,18 y 68,82.Ejemplo 8.2
Translation missing: es.problem
Supongamos que cambiamos el problema original en el Ejemplo 8.1 utilizando un nivel de confianza del 95 %. Calcule un intervalo de confianza del 95 % para la calificación media real (poblacional) del examen estadístico.
Solución
σ = 3; n = 36; el nivel de confianza es del 95 % (CL = 0,95).
CL = 0,95 por lo que α = 1 – CL = 1 – 0,95 = 0,05
Observe que el EBM es mayor para un nivel de confianza del 95 % en el problema original.
Comparación de los resultados
El intervalo de confianza del 90 % es (67,18; 68,82). El intervalo de confianza del 95 % es (67,02; 68,98). El intervalo de confianza del 95 % es más amplio. Si observa los gráficos, como el área 0,95 es mayor que el área 0,90, tiene sentido que el intervalo de confianza del 95 % sea más amplio. Para estar más seguro de que el intervalo de confianza contiene realmente el verdadero valor de la media de la población para todas las calificaciones de los exámenes de estadística, el intervalo de confianza tiene que ser necesariamente más amplio. Esto demuestra un principio muy importante de los intervalos de confianza. Existe un equilibrio entre el nivel de confianza y la amplitud del intervalo. Nuestro deseo es tener un intervalo de confianza estrecho, los intervalos amplios proporcionan poca información que sea útil. Pero también nos gustaría tener un alto nivel de confianza en nuestro intervalo. Esto demuestra que no podemos tener ambas cosas.Resumen: efecto de la modificación del nivel de confianza
- El aumento del nivel de confianza hace que el intervalo de confianza sea más ancho.
- La disminución del nivel de confianza hace que el intervalo de confianza sea más estrecho.
Y de nuevo aquí está la fórmula para un intervalo de confianza para una media desconocida asumiendo que tenemos la desviación típica de la población:
La desviación típica de la distribución muestral fue proporcionada por el teorema del límite central como . Aunque rara vez podemos elegir el tamaño de la muestra, este desempeña un papel importante en el intervalo de confianza. Dado que el tamaño de la muestra está en el denominador de la ecuación, a medida que aumenta hace que la desviación típica de la distribución muestral disminuya y, por tanto, el ancho del intervalo de confianza. Ya nos hemos encontrado con esto al revisar los efectos del tamaño de la muestra en el Teorema del Límite Central. Allí vimos que como a medida que aumenta, la distribución de muestreo se estrecha hasta que en el límite colapsa sobre la verdadera media de la población.
Ejemplo 8.3
Supongamos que cambiamos el problema original en el Ejemplo 8.1 para ver qué ocurre con el intervalo de confianza si se cambia el tamaño de la muestra.
Translation missing: es.problem
Deje todo igual excepto el tamaño de la muestra. Utilice el nivel de confianza original del 90 %. ¿Qué ocurre con el intervalo de confianza si aumentamos el tamaño de la muestra y utilizamos n = 100 en lugar de n = 36? ¿Qué ocurre si disminuimos el tamaño de la muestra a n = 25 en vez de n = 36?
Solución
Si aumentamos el tamaño de la muestra n a 100, disminuimos el ancho del intervalo de confianza en relación con el tamaño original de la muestra de 36 observaciones.
Solución
Si disminuimos el tamaño de la muestra n a 25, aumentamos el ancho del intervalo de confianza en comparación con el tamaño original de la muestra de 36 observaciones.
Resumen: efecto de la modificación del tamaño de la muestra
- El aumento del tamaño de la muestra hace que el intervalo de confianza sea más estrecho.
- La disminución del tamaño de la muestra hace que el intervalo de confianza sea más ancho.
Ya hemos visto este efecto cuando revisamos los efectos de cambiar el tamaño de la muestra, n, en el teorema del límite central. Consulte la Figura 7.7 para ver este efecto. Antes vimos que a medida que aumenta el tamaño de la muestra disminuye la desviación típica de la distribución muestral. Por eso elegimos una media muestral grande en comparación con la de una muestra pequeña, manteniendo el resto constante.
Hasta ahora hemos asumido que conocíamos la desviación típica de la población. Esto prácticamente nunca será así. Sin embargo, tendremos la desviación típica de la muestra, s. Se trata de una estimación puntual de la desviación típica de la población y puede sustituirse en la fórmula de los intervalos de confianza para una media en determinadas circunstancias. Acabamos de ver el efecto que tiene el tamaño de la muestra en el ancho del intervalo de confianza y el impacto en la distribución muestral para nuestra discusión del teorema del límite central. Podemos invocar esto para sustituir la estimación puntual por la desviación típica si el tamaño de la muestra es lo suficientemente grande. Los estudios de simulación indican que 30 observaciones o más serán suficientes para eliminar cualquier sesgo significativo en el intervalo de confianza estimado.
Ejemplo 8.4
Las vacaciones de primavera pueden ser muy caras. Se ha encuestado a una muestra de 80 estudiantes y el monto promedio gastado por los estudiantes en viajes y bebidas es de 593,84 dólares. La desviación típica de la muestra es de aproximadamente 369,34 dólares.
Translation missing: es.problem
Construya un intervalo de confianza del 92% para la media poblacional de la cantidad de dinero gastada por los asistentes a las vacaciones de primavera.
Solución
Comenzamos con el intervalo de confianza para una media. Utilizamos la fórmula de la media porque la variable aleatoria son los dólares gastados y esta es una variable aleatoria continua. La estimación puntual de la desviación típica de la población, s, se ha sustituido por la verdadera desviación típica de la población porque con 80 observaciones no hay preocupación por el sesgo en la estimación del intervalo de confianza.
Sustituyendo los valores en la fórmula, tenemos:
se encuentra en la tabla normal estándar buscando 0,46 en el cuerpo de la tabla y encontrando el número de desviaciones típicas en el lado y la parte superior de la tabla; 1,75. La solución para el intervalo es así:
Revisión de la fórmula
La forma general de un intervalo de confianza para una media poblacional única, desviación típica conocida, distribución normal, viene dada por Esta fórmula se utiliza cuando se conoce la desviación típica de la población.
CL = nivel de confianza, o la proporción de intervalos de confianza creados que se espera que contengan el verdadero parámetro poblacional
α = 1 – CL = la proporción de intervalos de confianza que no contendrán el parámetro poblacional
= la puntuación z con la propiedad de que el área a la derecha de la puntuación z es esta puntuación z utilizada en el cálculo de “EBM donde α = 1 – CL.