Omitir e ir al contenidoIr a la página de accesibilidadMenú de atajos de teclado
Logo de OpenStax
Introducción a la estadística empresarial

10.1 Comparación de las medias de dos poblaciones independientes

Introducción a la estadística empresarial10.1 Comparación de las medias de dos poblaciones independientes

Menú
Índice
  1. Prefacio
  2. 1 Muestreo y datos
    1. Introducción
    2. 1.1 Definiciones de estadística, probabilidad y términos clave
    3. 1.2 Datos, muestreo y variación de datos y muestreo
    4. 1.3 Niveles de medición
    5. 1.4 Diseño experimental y ética
    6. Términos clave
    7. Repaso del capítulo
    8. Tarea para la casa
    9. Referencias
    10. Soluciones
  3. 2 Estadística descriptiva
    1. Introducción
    2. 2.1 Datos mostrados
    3. 2.2 Medidas de la ubicación de los datos
    4. 2.3 Medidas del centro de los datos
    5. 2.4 Notación sigma y cálculo de la media aritmética
    6. 2.5 Media geométrica
    7. 2.6 Distorsión y media, mediana y moda
    8. 2.7 Medidas de la dispersión de los datos
    9. Términos clave
    10. Repaso del capítulo
    11. Repaso de fórmulas
    12. Práctica
    13. Tarea para la casa
    14. Resúmalo todo: tarea para la casa
    15. Referencias
    16. Soluciones
  4. 3 Temas de probabilidad
    1. Introducción
    2. 3.1 Terminología
    3. 3.2 Eventos mutuamente excluyentes e independientes
    4. 3.3 Dos reglas básicas de la probabilidad
    5. 3.4 Tablas de contingencia y árboles de probabilidad
    6. 3.5 Diagramas de Venn
    7. Términos clave
    8. Repaso del capítulo
    9. Repaso de fórmulas
    10. Práctica
    11. Uniéndolo todo: Práctica
    12. Tarea para la casa
    13. Resúmalo todo: tarea para la casa
    14. Referencias
    15. Soluciones
  5. 4 Variables aleatorias discretas
    1. Introducción
    2. 4.1 Distribución hipergeométrica
    3. 4.2 Distribución binomial
    4. 4.3 Distribución geométrica
    5. 4.4 Distribución de Poisson
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  6. 5 Variables aleatorias continuas
    1. Introducción
    2. 5.1 Propiedades de las funciones de densidad de probabilidad continuas
    3. 5.2 La distribución uniforme
    4. 5.3 La distribución exponencial
    5. Términos clave
    6. Repaso del capítulo
    7. Repaso de fórmulas
    8. Práctica
    9. Tarea para la casa
    10. Referencias
    11. Soluciones
  7. 6 La distribución normal
    1. Introducción
    2. 6.1 La distribución normal estándar
    3. 6.2 Uso de la distribución normal
    4. 6.3 Estimación de la binomial con la distribución normal
    5. Términos clave
    6. Repaso del capítulo
    7. Repaso de fórmulas
    8. Práctica
    9. Tarea para la casa
    10. Referencias
    11. Soluciones
  8. 7 El teorema del límite central
    1. Introducción
    2. 7.1 Teorema del límite central de las medias muestrales
    3. 7.2 Uso del teorema del límite central
    4. 7.3 Teorema del límite central de las proporciones
    5. 7.4 Factor de corrección de población finita
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  9. 8 Intervalos de confianza
    1. Introducción
    2. 8.1 Un intervalo de confianza para una desviación típica de la población, con un tamaño de muestra conocido o grande
    3. 8.2 Un intervalo de confianza para una desviación típica de población desconocida, caso de una muestra pequeña
    4. 8.3 Un intervalo de confianza para una proporción de población
    5. 8.4 Cálculo del tamaño de la muestra n: variables aleatorias continuas y binarias
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  10. 9 Pruebas de hipótesis con una muestra
    1. Introducción
    2. 9.1 Hipótesis nula y alternativa
    3. 9.2 Resultados y errores de tipo I y II
    4. 9.3 Distribución necesaria para la comprobación de la hipótesis
    5. 9.4 Ejemplos de pruebas de hipótesis completas
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  11. 10 Pruebas de hipótesis con dos muestras
    1. Introducción
    2. 10.1 Comparación de las medias de dos poblaciones independientes
    3. 10.2 Criterios de Cohen para efectos de tamaño pequeño, mediano y grande
    4. 10.3 Prueba de diferencias de medias: suponer varianzas de población iguales
    5. 10.4 Comparación de dos proporciones de población independientes
    6. 10.5 Dos medias poblacionales con desviaciones típicas conocidas
    7. 10.6 Muestras coincidentes o emparejadas
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Tarea para la casa
    13. Resúmalo todo: tarea para la casa
    14. Referencias
    15. Soluciones
  12. 11 La distribución chi-cuadrado
    1. Introducción
    2. 11.1 Datos sobre la distribución chi-cuadrado
    3. 11.2 Prueba de una sola varianza
    4. 11.3 Prueba de bondad de ajuste
    5. 11.4 Prueba de independencia
    6. 11.5 Prueba de homogeneidad
    7. 11.6 Comparación de las pruebas chi-cuadrado
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Tarea para la casa
    13. Resúmalo todo: tarea para la casa
    14. Referencias
    15. Soluciones
  13. 12 La distribución F y el anova de una vía
    1. Introducción
    2. 12.1 Prueba de dos varianzas
    3. 12.2 ANOVA de una vía
    4. 12.3 La distribución F y el cociente F
    5. 12.4 Datos sobre la distribución F
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  14. 13 Regresión lineal y correlación
    1. Introducción
    2. 13.1 El coeficiente de correlación r
    3. 13.2 Comprobación de la importancia del coeficiente de correlación
    4. 13.3 Ecuaciones lineales
    5. 13.4 La ecuación de regresión
    6. 13.5 Interpretación de los coeficientes de regresión: elasticidad y transformación logarítmica
    7. 13.6 Predicción con una ecuación de regresión
    8. 13.7 Cómo utilizar Microsoft Excel® para el análisis de regresión
    9. Términos clave
    10. Repaso del capítulo
    11. Práctica
    12. Soluciones
  15. A Cuadros estadísticos
  16. B Oraciones, símbolos y fórmulas matemáticas
  17. Índice

La comparación de dos medias poblacionales independientes es muy común y proporciona una forma de probar la hipótesis de que los dos grupos difieren entre sí. ¿Es el turno de noche menos productivo que el de día, las tasas de rendimiento de las inversiones en activos fijos son diferentes a las de las inversiones en acciones ordinarias, etc.? Una diferencia observada entre dos medias muestrales depende tanto de las medias como de las desviaciones típicas de la muestra. Pueden producirse medias muy diferentes por azar si hay una gran variación entre cada una de las muestras. El estadístico de prueba tendrá que tener en cuenta este hecho. La prueba que compara dos medias poblacionales independientes con desviaciones típicas poblacionales desconocidas y posiblemente desiguales se denomina prueba t de Aspin-Welch. Aspin-Welch ideó la fórmula de los grados de libertad que veremos más adelante.

Cuando desarrollamos la prueba de hipótesis para la media y las proporciones, comenzamos con el teorema del límite central. Reconocemos que la media muestral procede de una distribución de medias muestrales, y las proporciones muestrales proceden de la distribución muestral de las proporciones muestrales. Esto convirtió nuestros parámetros, las medias y las proporciones muestrales, en variables aleatorias. Era importante para nosotros conocer la distribución de la que procedían estas variables aleatorias. El teorema del límite central nos dio la respuesta: la distribución normal. Nuestras estadísticas Z y t provienen de este teorema. Esto nos proporcionó la solución a nuestra pregunta de cómo medir la probabilidad de que la media muestral provenga de una distribución con un valor hipotético particular de la media o proporción. En ambos casos esa era la pregunta: ¿Cuál es la probabilidad de que la media (o proporción) de nuestros datos muestrales proceda de una distribución poblacional con el valor hipotético que nos interesa?

Ahora nos interesa saber si dos muestras tienen o no la misma media. Nuestra pregunta no ha cambiado: ¿Proceden estas dos muestras de la misma distribución poblacional? Para abordar este problema creamos una nueva variable aleatoria. Reconocemos que tenemos dos medias muestrales: una de cada conjunto de datos. Así, tenemos dos variables aleatorias, procedentes de dos distribuciones desconocidas. Para resolver el problema creamos una nueva variable aleatoria: la diferencia entre las medias muestrales. Dicha variable también tiene una distribución. Nuevamente, el teorema del límite central nos indica que esta nueva distribución se distribuye normalmente, sin importar las distribuciones subyacentes de los datos originales. Un gráfico despejaría este concepto.

...
Figura 10.2

En la imagen aparecen dos distribuciones de datos, X1 y X2, con medias y desviaciones típicas desconocidas. El segundo panel muestra la distribución muestral de la variable aleatoria recién creada (X1X2X1X2). Esta es la distribución teórica de muchas medias muestrales de la población 1 menos las medias muestrales de la población 2. El teorema del límite central señala que esta distribución muestral teórica de las diferencias de las medias muestrales se distribuye normalmente, sin importar la distribución de los datos reales de la población que se muestran en el panel superior. Dado que la distribución del muestreo se distribuye normalmente, podemos desarrollar una fórmula de estandarización y calcular las probabilidades a partir de la distribución normal estándar del panel inferior, la distribución Z. Ya hemos visto este mismo análisis en la Figura 7.2 del Capítulo 7.

El teorema del límite central, como antes, nos proporciona la desviación típica de la distribución muestral y, además, que el valor previsto de la media de la distribución de las diferencias de las medias muestrales es igual a las diferencias de las medias poblacionales. Matemáticamente, esto se formula de la siguiente manera:

E ( µx1 µx2 ) = µ1 µ2 E(µx1µx2)=µ1µ2

Ya que desconocemos las desviaciones típicas de la población, las calculamos con las dos desviaciones típicas de nuestras muestras independientes. En la prueba de hipótesis, calculamos la desviación típica o el error estándar, de la diferencia de las medias muestrales, X ¯ 1 X ¯ 1 X ¯ 2 X ¯ 2 .

El error estándar es: ( s 1 ) 2 n 1 + ( s 2 ) 2 n 2 ( s 1 ) 2 n 1 + ( s 2 ) 2 n 2

Recordemos que la sustitución de la varianza de la muestra por la varianza de la población cuando no teníamos la varianza de la población fue la técnica que utilizamos al construir el intervalo de confianza y el estadístico de prueba para comprobar la hipótesis con respecto a una sola media en Intervalos de confianza y Pruebas de hipótesis con una muestra. El estadístico de prueba (puntuación t) se calcula como sigue:

tc= ( x ¯ 1 x ¯ 2 )δ0 ( s 1 ) 2 n 1 + ( s 2 ) 2 n 2 tc= ( x ¯ 1 x ¯ 2 )δ0 ( s 1 ) 2 n 1 + ( s 2 ) 2 n 2
donde:
  • s1 y s2, las desviaciones típicas de la muestra, son estimaciones de σ1 y σ2, respectivamente, y
  • σ1 y σ2 son las desviaciones típicas desconocidas de la población.
  • x ¯ 1 x ¯ 1 y x ¯ 2 x ¯ 2 son las medias muestrales. μ1 y μ2 son las medias poblacionales desconocidas.

El número de grados de libertad (df) requiere un cálculo algo complicado. Los df no son siempre un número entero. El anterior estadístico de prueba se calcula aproximadamente mediante la distribución t de Student con df de la siguiente manera:

El error estándar es: df= ( ( s 1 ) 2 n 1 + ( s 2 ) 2 n 2 ) 2 ( 1 n 1 1 ) ( ( s 1 ) 2 n 1 ) 2 +( 1 n 2 -1 ) ( ( s 2 ) 2 n 2 ) 2 df= ( ( s 1 ) 2 n 1 + ( s 2 ) 2 n 2 ) 2 ( 1 n 1 1 ) ( ( s 1 ) 2 n 1 ) 2 +( 1 n 2 -1 ) ( ( s 2 ) 2 n 2 ) 2

Cuando los tamaños de las muestras n1 y n2 son de 30 o más, la aproximación de la t de Student es muy buena. Si cada muestra tiene más de 30 observaciones, los grados de libertad pueden calcularse como n1 + n2 - 2.

El formato de la distribución muestral, las diferencias de medias muestrales, especifica que el formato de las hipótesis nula y alternativa es:

H0 : µ1 µ2 = δ0 H0:µ1µ2=δ0
Ha : µ1 µ2 δ0 Ha:µ1µ2δ0

donde δ0 es la diferencia hipotética entre las dos medias. Si la pregunta es simplemente: "¿Hay alguna diferencia entre las medias?", entonces δ0 = 0 y las hipótesis nula y alternativa pasan a ser:

H0 : µ1 = µ2 H0:µ1=µ2
Ha : µ1 µ2 Ha:µ1µ2

Un ejemplo de cuándo δ0 puede no ser cero es cuando la comparación de los dos grupos requiere una diferencia específica para que la decisión sea significativa. Imagine que está haciendo una inversión de capital. Piensa en cambiar su modelo de máquina actual por otro. La productividad de sus máquinas se mide por la velocidad a la que producen el producto. Puede ser que un contendiente para sustituir al modelo antiguo sea más rápido en términos de rendimiento del producto, pero también es más caro. La segunda máquina también puede tener más costes de mantenimiento, de instalación, etc. La hipótesis nula se establecería de forma que la nueva máquina tendría que ser mejor que la antigua en la medida suficiente para cubrir estos costes adicionales en términos de velocidad y coste de producción. Esta forma de las hipótesis nula y alternativa muestra lo valiosa que puede ser esta comprobación de la hipótesis en particular. Para la mayor parte de nuestro trabajo, comprobaremos hipótesis simples al indagar si hay alguna diferencia entre las dos medias de distribución.

Ejemplo 10.1

Grupos independientes

La empresa Kona Iki Corporation produce leche de coco. Toman los cocos, perforan un agujero, extraen la leche y la vierten en una cuba para su procesamiento. Disponen de un turno de día (el turno B) y otro de noche (el turno G) para realizar esta parte del proceso. Les gustaría saber si ambos turnos son igual de eficaces en el procesamiento de los cocos. Se realiza un estudio de muestreo de 9 turnos G y 16 turnos B. Los resultados del número de horas necesarias para procesar 100 libras de cocos se presentan en la Tabla 10.1. Se hace un estudio y se recopilan datos, lo que da como resultado los datos en la Tabla 10.1.

Tamaño de la muestra Promedio de horas para procesar 100 libras de cocos Desviación típica de la muestra
Turno G 9 2 0,8660,866
Turno B 16 3,2 1,00
Tabla 10.1

Translation missing: es.problem

¿Existe alguna diferencia en el tiempo medio de cada turno para procesar 100 libras de cocos? Prueba al nivel de significación del 5 %.

NOTA

Cuando la suma de los tamaños de las muestras es mayor que 30 (n1 + n2 > 30), se puede utilizar la distribución normal para calcular aproximadamente la t de Student.

Ejemplo 10.2

Se realiza un estudio para determinar si la compañía A conserva a sus trabajadores durante más tiempo que la compañía B. Se cree que la compañía A tiene mayor retención que la compañía B. El estudio determina que el tiempo promedio en una muestra de 11 trabajadores de la compañía A es de cuatro años, con una desviación típica de 1,5 años. Una muestra de 9 trabajadores de la compañía B revela que el promedio del tiempo de permanencia fue de 3,5 años, con una desviación típica de 1 año. Pruebe esta proposición al nivel de significación del 1 %.

Translation missing: es.problem

a. ¿Se trata de una prueba de dos medias o de dos proporciones?

Translation missing: es.problem

b. ¿Las desviaciones típicas de las poblaciones son conocidas o desconocidas?

Translation missing: es.problem

c. ¿Qué distribución utiliza para realizar la prueba?

Translation missing: es.problem

d. ¿Cuál es la variable aleatoria?

Translation missing: es.problem

e. ¿Cuáles son las hipótesis nula y alternativa?

Translation missing: es.problem

f. ¿Esta prueba es de cola derecha, izquierda o doble?

Translation missing: es.problem

g. ¿Cuál es el valor del estadístico de prueba?

Translation missing: es.problem

h. ¿Puede aceptar o rechazar la hipótesis nula?

Translation missing: es.problem

i. Conclusión:

Ejemplo 10.3

Translation missing: es.problem

Una pregunta interesante de la investigación es el efecto, si es que lo hay, que tienen los diferentes tipos de formatos de enseñanza en las calificaciones de los estudiantes. Para investigar esta cuestión se tomó una muestra de las notas en una clase híbrida y otra muestra de una clase magistral regular. Ambas clases eran para la misma asignatura. La calificación media porcentual para los 35 estudiantes híbridos es de 74, con una desviación típica de 16. La media de las notas de los 40 estudiantes de la clase magistral regular fue del 76 %, con desviación típica de 9. Pruebe al 5 % para ver si hay alguna diferencia significativa en las media de notas entre la clase magistral regular y la clase híbrida.

Solicitar una copia impresa

As an Amazon Associate we earn from qualifying purchases.

Cita/Atribución

¿Desea citar, compartir o modificar este libro? Este libro utiliza la Creative Commons Attribution License y debe atribuir a OpenStax.

Información de atribución
  • Si redistribuye todo o parte de este libro en formato impreso, debe incluir en cada página física la siguiente atribución:
    Acceso gratis en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-empresarial/pages/1-introduccion
  • Si redistribuye todo o parte de este libro en formato digital, debe incluir en cada vista de la página digital la siguiente atribución:
    Acceso gratuito en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-empresarial/pages/1-introduccion
Información sobre citas

© 28 ene. 2022 OpenStax. El contenido de los libros de texto que produce OpenStax tiene una licencia de Creative Commons Attribution License . El nombre de OpenStax, el logotipo de OpenStax, las portadas de libros de OpenStax, el nombre de OpenStax CNX y el logotipo de OpenStax CNX no están sujetos a la licencia de Creative Commons y no se pueden reproducir sin el previo y expreso consentimiento por escrito de Rice University.