Alexander Holmes; Barbara Illowsky; Susan Dean

8.4 Cálculo del tamaño de la muestra n: variables aleatorias continuas y binarias

Variables aleatorias continuasNormalmente no tenemos control sobre el tamaño de la muestra de un conjunto de datos. Sin embargo, si podemos fijar el tamaño de la muestra, como en los casos en los que realizamos una encuesta, es muy útil saber cuál debe ser su tamaño para proporcionar la máxima información. El muestreo puede ser muy costoso, tanto en tiempo como en producto. Las simples encuestas telefónicas cuestan aproximadamente 30 dólares cada una, por ejemplo, y algunos muestreos requieren la destrucción del producto.

Si volvemos a nuestra fórmula de normalización de la distribución muestral para las medias, podemos ver que es posible resolverla para n. Si hacemos esto tenemos $(\bar{X} - μ)$ en el denominador.

n = \frac{Z_{α}^{2} σ^{2}}{(\bar{X} - μ)^{2}} = \frac{Z_{α}^{2} σ^{2}}{e^{2}}

Como aún no hemos tomado una muestra, no conocemos ninguna de las variables de la fórmula, excepto que podemos establecer Z_α al nivel de confianza que deseamos, tal como hicimos al determinar los intervalos de confianza. Si establecemos un error aceptable predeterminado, o tolerancia, para la diferencia entre $\bar{X}$ y μ, denominado e en la fórmula, estamos mucho más lejos en la resolución del tamaño de la muestra n. Todavía no conocemos la desviación típica de la población, σ. En la práctica, se suele hacer una encuesta previa que permite afinar el cuestionario y que da una desviación típica de la muestra que se puede utilizar. En otros casos, se puede utilizar la información previa de otras encuestas para σ en la fórmula. Aunque es rudimentario, este método para determinar el tamaño de la muestra puede ayudar a reducir los costos de forma significativa. Serán los datos reales recogidos los que determinen las inferencias sobre la población, por lo que conviene ser cauteloso con el tamaño de la muestra exigiendo altos niveles de confianza y pequeños errores de muestreo.

Variables aleatorias binariasLo que se hizo en los casos en los que se buscaba la media de una distribución también se puede hacer cuando se hace un muestreo para determinar el parámetro poblacional p de las proporciones. La manipulación de la fórmula de normalización de las proporciones da como resultado:

n = \frac{Z_{α}^{2} pq}{e^{2}}

donde e = (p′-p), y es el error de muestreo aceptable, o tolerancia, para esta aplicación. Esto se medirá en puntos porcentuales.

En este caso el propio objeto de nuestra búsqueda está en la fórmula, p, y por supuesto q porque q =1-p. Este resultado se produce porque la distribución binomial es una distribución de un parámetro. Si conocemos p entonces conocemos la media y la desviación típica. Por lo tanto, p aparece en la desviación típica de la distribución muestral que es de donde sacamos esta fórmula. Si en un exceso de precaución sustituimos p por 0,5, extraeremos el mayor tamaño de muestra necesario que proporcione el nivel de confianza especificado por Zα y la tolerancia que hemos seleccionado. Esto es cierto porque de todas las combinaciones de dos fracciones que suman uno, el mayor múltiplo es cuando cada una es 0,5. Sin ninguna otra información sobre el parámetro poblacional p, esta es la práctica habitual. Esto puede dar lugar a un sobremuestreo, pero ciertamente no a un submuestreo, por lo que se trata de un enfoque prudente.

Existe un interesante equilibrio entre el nivel de confianza y el tamaño de la muestra que aparece aquí cuando se considera el costo del muestreo. La Tabla 8.1 muestra el tamaño de la muestra apropiado para diferentes niveles de confianza y diferentes niveles de error aceptable, o tolerancia.

Tamaño de la muestra requerido (90 %)	Tamaño de la muestra requerido (95 %)	Nivel de tolerancia
1691	2401	2%
752	1067	3%
271	384	5%
68	96	10%

Tabla 8.1

Esta tabla está diseñada para mostrar el tamaño máximo de la muestra requerido en diferentes niveles de confianza dado un supuesto p= 0,5 y q=0,5 como se comentó anteriormente.

El error aceptable, denominado tolerancia en la tabla, se mide en valores más o menos de la proporción real. Por ejemplo, un error aceptable del 5 % significa que, si la proporción de la muestra es del 26 %, la conclusión sería que la proporción real de la población está entre el 21 % y el 31 % con un nivel de confianza del 90 % si se hubiera tomado una muestra de 271 personas. Asimismo, si el error aceptable se fijara en el 2 %, la proporción de la población se situaría entre el 24 % y el 28 % con un nivel de confianza del 90 %, pero exigiría aumentar el tamaño de la muestra de 271 a 1691. Si quisiéramos un mayor nivel de confianza, necesitaríamos una muestra de mayor tamaño. Pasar de un nivel de confianza del 90 % a un nivel del 95 % con una tolerancia de más o menos el 5 % requiere cambiar el tamaño de la muestra de 271 a 384. Un tamaño de muestra muy común que suele aparecer en las encuestas políticas es de 384. Con los resultados de las encuestas se suele decir que los resultados son buenos con un nivel de "exactitud" de más o menos el 5 %.

Ejemplo 8.9

Translation missing: es.problem

Supongamos que una compañía de telefonía móvil quiere determinar el porcentaje actual de clientes de más de 50 años que utilizan mensajería de texto en sus teléfonos móviles. ¿Cuántos clientes de más de 50 años debería encuestar la compañía para tener el 90 % de confianza en que la proporción estimada (de la muestra) se encuentra dentro de los tres puntos porcentuales de la verdadera proporción de la población de clientes de más de 50 años que utilizan la mensajería de texto en sus teléfonos móviles?

Solución

A partir del problema, sabemos que el error aceptable, e, es de 0,03 (3 %=0,03) y $z_{\frac{α}{2}}$ z_0,05 = 1.645 porque el nivel de confianza es del 90 %. El error aceptable, e, es la diferencia entre la proporción poblacional real p, y la proporción muestral que esperamos obtener de la muestra.

Sin embargo, para hallar n, necesitamos conocer la proporción (muestra) estimada p′. Recuerde que q′ = 1 – p′. Pero, aun no conocemos p′. Como multiplicamos p′ y q′ juntos, hacemos que ambos sean iguales a 0,5 porque p′q′ = (0,5)(0,5) = 0,25 da como resultado el mayor producto posible. (Pruebe otros productos: (0,6)(0,4) = 0,24; (0,3)(0,7) = 0,21; (0,2)(0,8) = 0,16 y así sucesivamente). El mayor producto posible nos da el mayor n. Esto nos da una muestra lo suficientemente grande como para que podamos tener el 90 % de confianza de que estamos dentro de los tres puntos porcentuales de la verdadera proporción de la población. Para calcular el tamaño de la muestra n, utilice la fórmula y haga las sustituciones.

$n = \frac{z^{2} p^{'} q^{'}}{e^{2}}$ da como resultado $n = \frac{{1,645}^{2} (0,5) (0,5)}{{0,03}^{2}} = 751,7$

Redondee la respuesta al valor inmediatamente superior. El tamaño de la muestra debe ser de 752 clientes de teléfonos móviles de más de 50 años para tener el 90 % de confianza en que la proporción estimada (de la muestra) se encuentra dentro de los tres puntos porcentuales de la verdadera proporción de la población de todos los clientes de más de 50 años que utilizan mensajes de texto en sus teléfonos móviles.

Inténtelo 8.9

Supongamos que una compañía de mercadeo en internet quiere determinar el porcentaje actual de clientes que hacen clic en los anuncios de sus teléfonos inteligentes. ¿A cuántos clientes debería encuestar la compañía para tener el 90 % de confianza en que la proporción estimada está dentro de los cinco puntos porcentuales de la verdadera proporción de clientes que hacen clic en los anuncios de sus teléfonos inteligentes?