Cuando se realiza una prueba de hipótesis hay cuatro resultados posibles en según la verdad (o falsedad) de la hipótesis nula H0 y de la decisión de rechazarla o no. Los resultados se resumen en el siguiente cuadro:
Decisión estadística | H0 es en realidad... | |
---|---|---|
Verdadero | Falso | |
No se puede rechazar H0 | Resultado correcto | Error tipo II |
No se puede aceptar H0 | Error de tipo I | Resultado correcto |
Los cuatro resultados posibles en la tabla son:
- La decisión es que no rechaza H0 cuando H0 es verdadera (decisión correcta).
- La decisión es no aceptar H0 cuando H0 es verdadera (decisión incorrecta, conocida como error de tipo I). Este caso se describe como “rechazar un buen nulo”. Como veremos más adelante, es este tipo de error el que evitaremos al fijar la probabilidad de cometerlo. El objetivo es NO realizar ninguna acción que sea un error.
- La decisión es no rechazar H0 cuando, de hecho, H0 es falsa (decisión incorrecta, conocida como error de tipo II). Esto se llama “aceptar un falso nulo”. En esta situación ha permitido que el statu quo siga en vigor cuando debió anularse. Como veremos, la hipótesis nula tiene ventaja en la competencia con la alternativa.
- La decisión es no aceptar H0 cuando H0 es falsa (decisión correcta).
Cada uno de los errores se produce con una probabilidad determinada. Las letras griegas α y β representan las probabilidades.
α = probabilidad de un error de tipo I = P (error de tipo I) = probabilidad de rechazar la hipótesis nula cuando la hipótesis nula es verdadera: rechazar un buen nulo.
β = probabilidad de un error tipo II = P(error tipo II) = probabilidad de no rechazar la hipótesis nula cuando la hipótesis nula es falsa. (1 - β) se denomina la potencia de la prueba.
α y β deben ser lo más pequeños posible porque son probabilidades de error.
La estadística nos permite establecer la probabilidad de que cometamos un error de tipo I. La probabilidad de cometer un error de tipo I es α. Recordemos que los intervalos de confianza en la última unidad se establecían al elegir un valor llamado Zα (o tα) y el valor alfa determinaba el nivel de confianza de la estimación porque era la probabilidad de que el intervalo no captara la verdadera media (o parámetro de proporción p). Esta y aquella alfa son iguales.
La forma más fácil de ver la relación entre el error alfa y el nivel de confianza es con la siguiente figura.
En el centro de la Figura 9.2 hay una distribución normal de muestreo, marcada H0. Se trata de una distribución de muestreo de y por el teorema del límite central se distribuye normalmente. La distribución del centro se marca H0 y representa la distribución para la hipótesis nula H0: µ = 100. Este es el valor que se está probando. Los enunciados formales de las hipótesis nula y alternativa se enumeran debajo de la figura.
Las distribuciones a ambos lados de la distribución H0 representan las que serían verdaderas si H0 es falsa, bajo la hipótesis alternativa, indicada como Ha. No sabemos cuál es la verdad, y nunca lo sabremos. De hecho, hay un número infinito de distribuciones de las que se podrían haber extraído los datos si Ha es verdadera, pero solo dos de ellas están en la Figura 9.2 representando a todas las demás.
Para comprobar una hipótesis, tomamos una muestra de la población y determinamos si proviene de la distribución hipotética con un nivel de significación aceptable. Este nivel de significación es el error alfa y está marcado en la Figura 9.2 como las áreas sombreadas en cada cola de la distribución H0. (Cada área es en realidad α/2 porque la distribución es simétrica y la hipótesis alternativa posibilita que el valor sea mayor o menor que el valor hipotético, la llamada prueba de dos colas).
Si la media muestral está marcada como está en la cola de la distribución de H0, entonces concluimos que la probabilidad de que provenga de la distribución H0 es menor que alfa. En consecuencia, afirmamos que “la hipótesis nula no puede aceptarse con un nivel de significación (α)”. La verdad puede ser que este sí provenía de la distribución H0, pero del extremo de la cola. Si es así, hemos rechazado falsamente una hipótesis nula verdadera y hemos cometido un error de tipo I. Lo que la estadística ha hecho es proporcionar una estimación sobre lo que sabemos y lo que controlamos, y esa es la probabilidad de que nos equivoquemos, α.
También observamos en la Figura 9.2 que la media muestral sería realmente de una distribución Ha, pero dentro del límite establecido por el nivel alfa. Este caso está marcado como . Existe la probabilidad de que en realidad provenga de Ha pero aparece en el rango de H0 entre las dos colas. Esta probabilidad es el error beta, la probabilidad de aceptar un falso nulo.
Nuestro problema es que solo podemos fijar el error alfa porque hay un número infinito de distribuciones alternativas de las que podría haber salido la media que no son iguales a H0. En consecuencia, el estadístico recae la carga de la prueba en la hipótesis alternativa. Es decir, no rechazaremos una hipótesis nula, a no ser que haya una probabilidad superior al 90 % o al 95 %, e incluso al 99 %, de que la nula sea falsa: la carga de la prueba recae en la hipótesis alternativa. Por eso lo designamos anteriormente como la tiranía del statu quo.
A modo de ejemplo, el sistema judicial estadounidense parte del supuesto de la “presunción de inocencia” del acusado. Este es el statu quo y es la hipótesis nula. El juez dirá al jurado que no puede declarar al acusado culpable, a no ser que las pruebas indiquen la culpabilidad más allá de una “duda razonable”, que se define en los casos penales como un 95 % de certeza de culpabilidad. Si el jurado no puede aceptar la nulidad, la inocencia, entonces se tomarán medidas, tiempo de cárcel. La carga de la prueba siempre recae en la hipótesis alternativa (en los casos civiles, el jurado solo necesita tener más del 50 % de certeza de que se ha cometido un delito para declarar la culpabilidad, lo que se denomina “preponderancia de las pruebas”).
El ejemplo anterior era para una prueba de una media, pero la misma lógica se aplica a las pruebas de hipótesis para todos los parámetros estadísticos que uno quiera probar.
Los siguientes son ejemplos de errores tipo I y tipo II.
Ejemplo 9.4
Supongamos que la hipótesis nula, H0, es: El equipo de escalada de Frank es seguro.
Error tipo I: Frank piensa que su equipo de escalada puede no ser seguro cuando, en realidad, sí lo es.
Error tipo II: Frank cree que su equipo de escalada puede ser seguro cuando, en realidad, no lo es.
α = probabilidad de que Frank piense que su equipo de escalada puede no ser seguro cuando, en realidad, sí lo es. β = probabilidad de que Frank piense que su equipo de escalada puede ser seguro cuando, en realidad, no lo es.
Observe que, en este caso, el error con mayores consecuencias es el tipo II (si Frank cree que su equipo de escalada es seguro, lo utilizará).
Esta es una situación que se describe como “aceptar un falso nulo”.
Ejemplo 9.5
Supongamos que la hipótesis nula, H0, es: La víctima de un accidente de tráfico está viva cuando llega a la sala de urgencias de un hospital. Esto es el statu quo y no requiere ninguna acción si es verdadero. Si no se puede aceptar la hipótesis nula, es necesario actuar y el hospital iniciará los procedimientos adecuados.
Error tipo I: El equipo de emergencia cree que la víctima está muerta cuando, en realidad, está viva. Error tipo II: El equipo de emergencia no sabe si la víctima está viva cuando, en realidad, está muerta.
α = probabilidad de que el equipo de emergencias piense que la víctima está muerta cuando, en realidad, está viva = P(error tipo I). β = probabilidad de que el equipo de emergencias no sepa si la víctima está viva cuando, en realidad, está muerta = P(error tipo II).
El error con mayores consecuencias es el error tipo I (si el equipo de emergencia cree que la víctima está muerta, no la atenderán).
Inténtelo 9.5
Supongamos que la hipótesis nula, H0, es un paciente no está enfermo. ¿Qué tipo de error tiene mayores consecuencias, el tipo I o el tipo II?
Ejemplo 9.6
Los laboratorios genéticos It’s a Boy afirman poder aumentar la probabilidad de elegir el sexo del bebé, en ese caso, masculino. Los estadísticos quieren poner a prueba esta afirmación. Supongamos que la hipótesis nula, H0, es: Los laboratorios genéticos It’s a Boy no tienen efecto en el resultado del sexo. El statu quo es que la afirmación es falsa. La carga de la prueba recae siempre en la persona que hace el reclamo, en este caso el laboratorio genético.
Error tipo I: Esto resulta cuando se rechaza una hipótesis nula verdadera. En el contexto de este escenario, afirmaríamos que creemos que los laboratorios genéticos It’s a Boy influyen en el resultado del sexo, cuando en realidad no tienen ningún efecto. La probabilidad de que se produzca este error se denota con la letra griega alfa, α.
Error tipo II: Esto se produce cuando no se rechaza una hipótesis nula falsa. En el contexto, afirmaríamos que los laboratorios genéticos It’s a Boy no influyen en el resultado del sexo de un bebé cuando, de hecho, sí lo hacen. La probabilidad de que se produzca este error se denota con la letra griega beta, β.
El error de mayor consecuencia sería el tipo I, ya que las parejas utilizarían el producto de los laboratorios genéticos It’s a Boy con la esperanza de aumentar las posibilidades de concebir un bebé de sexo masculino.
Inténtelo 9.6
La “marea roja” es una floración de algas productoras de veneno, algunas especies diferentes de un tipo de plancton llamado dinoflagelado. Cuando las condiciones meteorológicas y del agua provocan estas floraciones, los mariscos, como las almejas que viven en la zona, desarrollan niveles peligrosos de una toxina que induce parálisis. En Massachusetts, la División de Pesquerías Marinas (Division of Marine Fisheries, DMF) controla los niveles de la toxina en los mariscos mediante muestreos regulares de mariscos a lo largo de la costa. Si el nivel medio de toxina en las almejas supera los 800 μg (microgramos) de toxina por kg de carne de almeja en cualquier zona, se prohíbe la recolección de almejas de allí hasta que la floración haya terminado y los niveles de toxina en las almejas disminuyan. Describa un error tipo I y uno tipo II en este contexto e indique qué error tiene mayores consecuencias.
Ejemplo 9.7
Un determinado fármaco experimental afirma tener una tasa de curación de, al menos, el 75 % para los hombres con cáncer de próstata. Describa los errores tipo I y tipo II en su contexto. ¿Cuál error es más grave?
Tipo I: Un paciente con cáncer cree que la tasa de curación del fármaco es inferior al 75 %, cuando en realidad es de, al menos, el 75 %.
Tipo II: Un paciente con cáncer cree que el fármaco experimental tiene un índice de curación de, al menos, el 75 % cuando su índice de curación es inferior al 75 %.
En este escenario, el error tipo II contiene la consecuencia más grave. Si un paciente cree que el fármaco funciona, al menos, el 75 % de las veces, lo más probable es que esto influya en la elección del paciente (y del médico) sobre la conveniencia de utilizar el fármaco como opción de tratamiento.