Durante un año electoral vemos artículos en el periódico que indican intervalos de confianza en términos de proporciones o porcentajes. Por ejemplo, un sondeo para un candidato determinado que se presenta a las elecciones presidenciales puede mostrar que el candidato tiene el 40 % de los votos con una diferencia de tres puntos porcentuales (si la muestra es lo suficientemente grande). A menudo, las encuestas electorales se calculan con un 95 % de confianza, por lo que los encuestadores tendrían un 95 % de confianza en que la verdadera proporción de votantes que favorecen al candidato estaría entre el 0,37 y el 0,43.
Los inversores en bolsa se interesan por la proporción real de acciones que suben y bajan cada semana. Las compañías que venden computadoras personales están interesadas en la proporción de hogares de Estados Unidos que tienen computadoras personales. Se pueden calcular intervalos de confianza para la proporción real de acciones que suben o bajan cada semana y para la proporción real de hogares en Estados Unidos que poseen computadoras personales.
El procedimiento para calcular el intervalo de confianza de una proporción poblacional es similar al de la media poblacional, pero las fórmulas son un poco diferentes, aunque conceptualmente idénticas. Aunque las fórmulas son diferentes, se basan en el mismo fundamento matemático que nos proporciona el teorema central del límite. Por ello, veremos el mismo formato básico utilizando los mismos tres datos: el valor muestral del parámetro en cuestión, la desviación típica de la distribución muestral correspondiente y el número de desviaciones típicas que necesitamos para tener la confianza en nuestra estimación que deseamos.
¿Cómo sabe que está ante un problema de proporción? En primer lugar, la distribución subyacente tiene una variable aleatoria binaria y, por tanto, es una distribución binomial. (No se menciona la media o el promedio). Si X es una variable aleatoria binomial, entonces X ~ B(n, p) donde n es el número de ensayos y p es la probabilidad de acierto Para formar una proporción de la muestra, tome X, la variable aleatoria para el número de aciertos y divídala por n, el número de ensayos (o el tamaño de la muestra). La variable aleatoria P′ (léase "P prima") es la proporción de la muestra,
(a veces, la variable aleatoria se denota como , que se lee “estimador de P”).
p′ = la proporción estimada de éxitos o la proporción muestral de éxitos(p′ es una estimación puntual de p, la verdadera proporción poblacional, y, por tanto, q es la probabilidad de un fracaso en cualquier ensayo).
x = número de aciertos en la muestra
n = el tamaño de la muestra
La fórmula del intervalo de confianza para una proporción de la población sigue el mismo formato que el de la estimación de una media de la población. Recordando la distribución de muestreo para la proporción del Capítulo 7, se encontró que la desviación típica es:
Por lo tanto, el intervalo de confianza para una proporción poblacional se convierte en
se fija en función del grado de confianza que deseemos y es la desviación típica de la distribución muestral.
Las proporciones muestrales p′ y q′ son estimaciones de las proporciones poblacionales desconocidas p y q. Se utilizan las proporciones estimadas p′ y q′ porque p y q no se conocen.
Recuerde que a medida que p se aleja de 0,5 la distribución binomial se vuelve menos simétrica. Como estamos estimando la binomial con la distribución normal simétrica, cuanto más se aleje de la simetría la binomial, menos confianza tendremos en la estimación.
Esta conclusión puede demostrarse mediante el siguiente análisis. Las proporciones se basan en la distribución de probabilidad binomial. Los posibles resultados son binarios, "éxito" o "fracaso". Esto da lugar a una proporción, es decir, el porcentaje de los resultados que son "éxitos". Se demostró que la distribución binomial podía entenderse completamente si solo conocíamos la probabilidad de éxito en un ensayo cualquiera, llamada p. Se encontró que la media y la desviación típica de la binomial eran:
También se demostró que la binomial podía ser estimada por la distribución normal si TANTO np COMO nq eran mayores que 5. A partir de la discusión anterior, se encontró que la fórmula de estandarización para la distribución binomial es:
que no es más que un replanteamiento de la fórmula general de normalización con las sustituciones adecuadas para μ y σ del binomio. Podemos utilizar la distribución normal estándar, la razón por la que Z está en la ecuación, porque la distribución normal es la distribución limitante de la binomial. Este es otro ejemplo del teorema del límite central. Ya hemos visto que la distribución muestral de las medias se distribuye normalmente. Recordemos la extensa discusión del Capítulo 7 sobre la distribución muestral de las proporciones y las conclusiones del teorema del límite central.
Ahora podemos manipular esta fórmula de la misma manera que hicimos para calcular los intervalos de confianza para una media, pero para calcular el intervalo de confianza para el parámetro poblacional binomial, p.
Donde p′ = x/n, la estimación puntual de p tomada de la muestra. Observe que p′ sustituyó a p en la fórmula. Esto se debe a que no conocemos p, de hecho, esto es justo lo que estamos tratando de estimar.
Lamentablemente, no existe un factor de corrección para los casos en los que el tamaño de la muestra es pequeño, por lo que np′ y nq' deben ser siempre superiores a 5 para desarrollar una estimación de intervalo para p.
Ejemplo 8.6
Translation missing: es.problem
Supongamos que se contrata a una compañía de estudios de mercado para que estime el porcentaje de adultos que viven en una gran ciudad y que tienen teléfonos móviles. Se encuestan quinientos residentes adultos seleccionados al azar en esta ciudad para determinar si tienen teléfonos móviles. De las 500 personas incluidas en la muestra, 421 respondieron que sí: tienen teléfonos móviles. Utilizando un nivel de confianza del 95 %, calcule una estimación del intervalo de confianza para la verdadera proporción de residentes adultos de esta ciudad que tienen teléfonos móviles.
Solución
- La solución paso a paso.
Supongamos que X = el número de personas de la muestra que tienen teléfonos móviles. X es binomial: la variable aleatoria es binaria, la gente o tiene un teléfono móvil o no lo tiene.
Para calcular el intervalo de confianza, debemos hallar p′, q′.
n = 500
x = número de aciertos en la muestra = 421
p′ = 0,842 es la proporción de la muestra; es la estimación puntual de la proporción de la población.
q′ = 1 – p′ = 1 – 0,842 = 0,158
Como el nivel de confianza solicitado es CL = 0,95, entonces α = 1 - CL = 1 - 0,95 = 0,05 = 0,025.
Entonces
Esto se puede calcular utilizando la tabla de probabilidad normal estándar del A - CUADROS ESTADÍSTICOS. Esto también se puede encontrar en la tabla t de los estudiantes en la columna de 0,025 y en infinitos grados de libertad porque en infinitos grados de libertad la distribución tde los estudiantes se convierte en la distribución normal estándar, Z.
El intervalo de confianza para la proporción poblacional binomial verdadera es
Interpretación
Estimamos con el 95 % de confianza que entre el 81 % y el 87,4 % de todos los residentes adultos de esta ciudad tienen teléfonos móviles.Explicación del nivel de confianza del 95 %
El noventa y cinco por ciento de los intervalos de confianza construidos de este modo contendrían el valor real de la proporción de población de todos los residentes adultos de esta ciudad que tienen teléfonos móviles.Inténtelo 8.6
Supongamos que se encuestan 250 personas seleccionadas al azar para determinar si tienen una tableta. De los 250 encuestados, 98 declararon que tienen una tableta. Utilizando un nivel de confianza del 95 %, calcule una estimación del intervalo de confianza para la verdadera proporción de personas que tienen tabletas.
Ejemplo 8.7
Translation missing: es.problem
La Escuela de Adiestramiento Canino de Dundee tiene una proporción mayor que el promedio de clientes que compiten en eventos profesionales. Se construye un intervalo de confianza para la proporción poblacional de perros que compiten en eventos profesionales de 150 escuelas de adiestramiento diferentes. El límite inferior se determina en 0,08 y el superior en 0,16. Determine el nivel de confianza utilizado para construir el intervalo de la proporción poblacional de perros que compiten en eventos profesionales.
Solución
Comenzamos con la fórmula de un intervalo de confianza para una proporción porque la variable aleatoria es binaria; el cliente compite en eventos caninos profesionales o no lo hace.
A continuación, calculamos la proporción de la muestra:
El ± que compone el intervalo de confianza es, pues, 0,04; 0,12 + 0,04 = 0,16 y 0,12 - 0,04 = 0,08, los límites del intervalo de confianza. Por último, resolvemos para Z.
, por lo que Z = 1,51
Y luego buscamos la probabilidad para 1,51 desviaciones típicas en la tabla normal estándar.
, o .
Ejemplo 8.8
Translation missing: es.problem
Un responsable financiero de una compañía quiere estimar el porcentaje de cuentas por cobrar que llevan más de 30 días de retraso. Analiza 500 cuentas y descubre que 300 tienen más de 30 días de retraso. Calcule un intervalo de confianza del 90 % para el verdadero porcentaje de cuentas por cobrar con más de 30 días de retraso, e interprete el intervalo de confianza.
Solución
- La solución paso a paso:
x = 300 y n = 500
Dado que el nivel de confianza = 0,90, entonces α = 1 - nivel de confianza = (1 - 0,90) = 0,10 = 0,05
= Z0,05 = 1,645
Este valor Z se puede hallar utilizando una tabla de probabilidad normal. También se puede utilizar la tabla t de Student entrando en la tabla en la columna de 0,05 y leyendo en la línea de infinitos grados de libertad. La distribución t es la distribución normal con infinitos grados de libertad. Se trata de un truco práctico que hay que recordar para calcular los valores Z de los niveles de confianza más utilizados. Utilizamos esta fórmula para un intervalo de confianza para una proporción:
Sustituyendo los valores de arriba encontramos que el intervalo de confianza para la verdadera proporción poblacional binomial es 0,564 ≤ p ≤ 0,636
Interpretación
- Estimamos con un 90 % de confianza que el porcentaje real de todas las cuentas por cobrar con 30 días de retraso está entre el 56,4 % y el 63,6 %.
- Redacción alternativa: Estimamos, con un 90 % de confianza, que entre el 56,4 % y el 63,6 % de TODAS las cuentas tienen un retraso de 30 días.
Explicación del nivel de confianza del 90 %
El noventa por ciento de los intervalos de confianza construidos de esta manera contienen el valor real del porcentaje de la población de cuentas por cobrar que tienen un retraso de 30 días.Inténtelo 8.8
Un estudiante hace un sondeo en su escuela para ver si los estudiantes del distrito escolar están a favor o en contra de la nueva legislación relativa a los uniformes escolares. Hace una encuesta entre 600 estudiantes y halla que 480 están en contra de la nueva legislación.
a. Calcule un intervalo de confianza del 90 % para el verdadero porcentaje de estudiantes que están en contra de la nueva legislación e interprete el intervalo de confianza.
b. En una muestra de 300 estudiantes, el 68 % dijo que tenían un iPod y un teléfono inteligente. Calcule un intervalo de confianza del 97 % para el verdadero porcentaje de estudiantes que tienen un iPod y un teléfono inteligente.