Omitir e ir al contenidoIr a la página de accesibilidadMenú de atajos de teclado
Logo de OpenStax
Introducción a la estadística

1.2 Datos, muestreo y variación de datos y muestreo

Introducción a la estadística1.2 Datos, muestreo y variación de datos y muestreo

Índice
  1. Prefacio
  2. 1 Muestreo y datos
    1. Introducción
    2. 1.1 Definiciones de estadística, probabilidad y términos clave
    3. 1.2 Datos, muestreo y variación de datos y muestreo
    4. 1.3 Frecuencia, tablas de frecuencia y niveles de medición
    5. 1.4 Diseño experimental y ética
    6. 1.5 Experimento de recopilación de datos
    7. 1.6 Experimento de muestreo
    8. Términos clave
    9. Repaso del capítulo
    10. Práctica
    11. Tarea para la casa
    12. Resúmalo todo: tarea para la casa
    13. Referencias
    14. Soluciones
  3. 2 Estadística descriptiva
    1. Introducción
    2. 2.1 Gráficos de tallo y hoja (gráfico de tallo), gráficos de líneas y gráficos de barras
    3. 2.2 Histogramas, polígonos de frecuencia y gráficos de series temporales
    4. 2.3 Medidas de la ubicación de los datos
    5. 2.4 Diagramas de caja
    6. 2.5 Medidas del centro de los datos
    7. 2.6 Distorsión y media, mediana y moda
    8. 2.7 Medidas de la dispersión de los datos
    9. 2.8 Estadística descriptiva
    10. Términos clave
    11. Repaso del capítulo
    12. Repaso de fórmulas
    13. Práctica
    14. Tarea para la casa
    15. Resúmalo todo: tarea para la casa
    16. Referencias
    17. Soluciones
  4. 3 Temas de probabilidad
    1. Introducción
    2. 3.1 Terminología
    3. 3.2 Eventos mutuamente excluyentes e independientes
    4. 3.3 Dos reglas básicas de la probabilidad
    5. 3.4 Tablas de contingencia
    6. 3.5 Diagramas de árbol y de Venn
    7. 3.6 Temas de probabilidad
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Uniéndolo todo: Práctica
    13. Tarea para la casa
    14. Resúmalo todo: tarea para la casa
    15. Referencias
    16. Soluciones
  5. 4 Variables aleatorias discretas
    1. Introducción
    2. 4.1 Función de Distribución de Probabilidad (PDF) para una variable aleatoria discreta
    3. 4.2 Media o valor esperado y desviación típica
    4. 4.3 Distribución binomial
    5. 4.4 Distribución geométrica
    6. 4.5 Distribución hipergeométrica
    7. 4.6 Distribución de Poisson
    8. 4.7 Distribución discreta (experimento con cartas)
    9. 4.8 Distribución discreta (experimento de los dados de la suerte)
    10. Términos clave
    11. Repaso del capítulo
    12. Repaso de fórmulas
    13. Práctica
    14. Tarea para la casa
    15. Referencias
    16. Soluciones
  6. 5 Variables aleatorias continuas
    1. Introducción
    2. 5.1 Funciones de probabilidad continuas
    3. 5.2 La distribución uniforme
    4. 5.3 La distribución exponencial
    5. 5.4 Distribución continua
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  7. 6 La distribución normal
    1. Introducción
    2. 6.1 La distribución normal estándar
    3. 6.2 Uso de la distribución normal
    4. 6.3 Distribución normal (tiempos de vuelta)
    5. 6.4 Distribución normal (longitud del meñique)
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  8. 7 El teorema del límite central
    1. Introducción
    2. 7.1 Teorema del límite central de medias muestrales (promedios)
    3. 7.2 El teorema del límite central para las sumas
    4. 7.3 Uso del teorema del límite central
    5. 7.4 Teorema del límite central (monedas en el bolsillo)
    6. 7.5 Teorema del límite central (recetas de galletas)
    7. Términos clave
    8. Repaso del capítulo
    9. Repaso de fórmulas
    10. Práctica
    11. Tarea para la casa
    12. Referencias
    13. Soluciones
  9. 8 Intervalos de confianza
    1. Introducción
    2. 8.1 La media de una población utilizando la distribución normal
    3. 8.2 La media de una población utilizando la distribución t de Student
    4. 8.3 Una proporción de la población
    5. 8.4 Intervalo de confianza (costos de hogares)
    6. 8.5 Intervalo de confianza (lugar de nacimiento)
    7. 8.6 Intervalo de confianza (altura de las mujeres)
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Tarea para la casa
    13. Referencias
    14. Soluciones
  10. 9 Pruebas de hipótesis con una muestra
    1. Introducción
    2. 9.1 Hipótesis nula y alternativa
    3. 9.2 Resultados y errores de tipo I y II
    4. 9.3 Distribución necesaria para la comprobación de la hipótesis
    5. 9.4 Eventos poco comunes, la muestra, decisión y conclusión
    6. 9.5 Información adicional y ejemplos de pruebas de hipótesis completas
    7. 9.6 Pruebas de hipótesis de una sola media y una sola proporción
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Tarea para la casa
    13. Referencias
    14. Soluciones
  11. 10 Pruebas de hipótesis con dos muestras
    1. Introducción
    2. 10.1 Medias de dos poblaciones con desviaciones típicas desconocidas
    3. 10.2 Dos medias poblacionales con desviaciones típicas conocidas
    4. 10.3 Comparación de dos proporciones de población independientes
    5. 10.4 Muestras coincidentes o emparejadas
    6. 10.5 Prueba de hipótesis para dos medias y dos proporciones
    7. Términos clave
    8. Repaso del capítulo
    9. Repaso de fórmulas
    10. Práctica
    11. Tarea para la casa
    12. Resúmalo todo: tarea para la casa
    13. Referencias
    14. Soluciones
  12. 11 La distribución chi-cuadrado
    1. Introducción
    2. 11.1 Datos sobre la distribución chi-cuadrado
    3. 11.2 Prueba de bondad de ajuste
    4. 11.3 Prueba de independencia
    5. 11.4 Prueba de homogeneidad
    6. 11.5 Comparación de las pruebas chi-cuadrado
    7. 11.6 Prueba de una sola varianza
    8. 11.7 Laboratorio 1: Bondad de ajuste de chi-cuadrado
    9. 11.8 Laboratorio 2: prueba de independencia de chi-cuadrado
    10. Términos clave
    11. Repaso del capítulo
    12. Repaso de fórmulas
    13. Práctica
    14. Tarea para la casa
    15. Resúmalo todo: tarea para la casa
    16. Referencias
    17. Soluciones
  13. 12 Regresión lineal y correlación
    1. Introducción
    2. 12.1 Ecuaciones lineales
    3. 12.2 Diagramas de dispersión
    4. 12.3 La ecuación de regresión
    5. 12.4 Comprobación de la importancia del coeficiente de correlación
    6. 12.5 Predicción
    7. 12.6 Valores atípicos
    8. 12.7 Regresión (distancia desde la escuela)
    9. 12.8 Regresión (costo de los libros de texto)
    10. 12.9 Regresión (eficiencia del combustible)
    11. Términos clave
    12. Repaso del capítulo
    13. Repaso de fórmulas
    14. Práctica
    15. Tarea para la casa
    16. Resúmalo todo: tarea para la casa
    17. Referencias
    18. Soluciones
  14. 13 Distribución F y análisis de varianza anova de una vía
    1. Introducción
    2. 13.1 ANOVA de una vía
    3. 13.2 La distribución F y el cociente F
    4. 13.3 Datos sobre la distribución F
    5. 13.4 Prueba de dos varianzas
    6. 13.5 Laboratorio: ANOVA de una vía
    7. Términos clave
    8. Repaso del capítulo
    9. Repaso de fórmulas
    10. Práctica
    11. Tarea para la casa
    12. Referencias
    13. Soluciones
  15. A Ejercicios de repaso (caps. 3-13)
  16. B Pruebas prácticas (de la 1 a la 4) y exámenes finales
  17. C Conjuntos de datos
  18. D Proyectos de grupos y asociaciones
  19. E Hojas de soluciones
  20. F Oraciones, símbolos y fórmulas matemáticas
  21. G Notas para las calculadoras TI-83, 83+, 84 y 84+
  22. H Tablas
  23. Índice

Los datos pueden proceder de una población o de una muestra. Letras minúsculas como x x o y y se utilizan generalmente para representar valores de datos. La mayoría de los datos se pueden clasificar en las siguientes categorías:

  • Cualitativa
  • Cuantitativa

Los datos cualitativos son el resultado de categorizar o describir los atributos de una población. Los datos cualitativos también suelen denominarse datos categóricos. El color del pelo, el tipo de sangre, el grupo étnico, el automóvil que conduce una persona y la calle en la que vive son ejemplos de datos cualitativos. Los datos cualitativos suelen describirse con palabras o letras. Por ejemplo, el color del cabello puede ser negro, castaño oscuro, castaño claro, rubio, gris o rojo. El tipo de sangre puede ser AB+, O– o B+. Los investigadores suelen preferir los datos cuantitativos a los cualitativos porque se prestan más al análisis matemático. Por ejemplo, no tiene sentido hallar un color de cabello o un tipo de sangre promedio.

Los datos cuantitativos son siempre números. Los datos cuantitativos son el resultado de contar o medir los atributos de una población. La cantidad de dinero, la frecuencia del pulso, el peso, el número de personas que viven en su ciudad y el número de estudiantes que cursan Estadística son ejemplos de datos cuantitativos. Los datos cuantitativos pueden ser discretos o continuos.

Todos los datos que son el resultado de contar se denominan datos discretos cuantitativos. Estos datos solo adoptan ciertos valores numéricos. Si cuenta el número de llamadas telefónicas que recibe cada día de la semana, puede obtener valores como cero, uno, dos o tres.

Los datos que no solo se componen de números para contar, sino que pueden incluir fracciones, decimales o números irracionales, se denominan datos cuantitativos continuos. Los datos continuos suelen ser el resultado de mediciones como longitudes, pesos o tiempos. Una lista de la duración en minutos de todas las llamadas telefónicas que realiza en una semana, con números como 2,4; 7,5; u 11,0, sería un dato cuantitativo continuo.

Ejemplo 1.5

Muestra de datos cuantitativos discretos

Los datos son el número de libros que los estudiantes llevan en sus mochilas. Usted toma una muestra de cinco estudiantes. Dos estudiantes llevan tres libros, un estudiante lleva cuatro, un estudiante lleva dos y un estudiante lleva uno. Los números de libros (tres, cuatro, dos y uno) son los datos cuantitativos discretos.

Inténtelo 1.5

Los datos son el número de máquinas de un gimnasio. Usted tiene muestras de cinco gimnasios. Un gimnasio tiene 12 máquinas, otro tiene 15, otro tiene diez, otro tiene 22 y el otro tiene 20. ¿De qué tipo de datos se trata?

Ejemplo 1.6

Muestra de datos cuantitativos continuos

Los datos son los pesos de mochilas que contienen libros. La muestra es de los mismos cinco estudiantes. Los pesos (en libras) de sus mochilas son 6,2; 7; 6,8; 9,1 y 4,3. Tome en cuenta que las mochilas que llevan tres libros pueden tener pesos diferentes. Los pesos son datos cuantitativos continuos.

Inténtelo 1.6

Los datos son las superficies de césped en pies cuadrados. Su muestra es de cinco casas. Las superficies de los céspedes son 144, 160, 190, 180 y 210 pies cuadrados respectivamente. ¿De qué tipo de datos se trata?

Ejemplo 1.7

Va al supermercado y compra tres latas de sopa (19 onzas de sopa de tomate, 14,1 onzas de lentejas y 19 onzas de boda italiana), dos paquetes de frutos secos (nueces y cacahuetes), cuatro tipos de vegetales diferentes (brócoli, coliflor, espinacas y zanahorias) y dos postres (16 onzas de helado de pistacho y 32 onzas de galletas de chocolate).

Translation missing: es.problem

Nombre los conjuntos de datos que son cuantitativos discretos, cuantitativos continuos y cualitativos.

Intente identificar otros conjuntos de datos en este ejemplo.

Ejemplo 1.8

Los datos son los colores de las mochilas. Una vez más, la muestra son los mismos cinco estudiantes. Un estudiante tiene una mochila roja, las de dos estudiantes son negras, la de un estudiante es verde y la de otro es gris. Los colores rojo, negro, verde y gris son datos cualitativos.

Inténtelo 1.8

Los datos son los colores de las casas. Su muestra es de cinco casas. Los colores de las casas son blanco, amarillo, blanco, rojo y blanco. ¿De qué tipo de datos se trata?

Nota

Puede recopilar los datos en forma de números y presentarlos categóricamente. Por ejemplo, las calificaciones de los exámenes de cada estudiante se registran a lo largo del trimestre. Al final del trimestre, las calificaciones de los cuestionarios se presentan como A, B, C, D o F.

Ejemplo 1.9

Translation missing: es.problem

Trabaje en colaboración para determinar el tipo de datos correcto (cuantitativo o cualitativo). Indique si los datos cuantitativos son continuos o discretos. Pista: Los datos que son discretos suelen empezar con las palabras "el número de".

  1. el número de pares de zapatos que tiene
  2. el tipo de automóvil que conduce
  3. la distancia que hay desde su casa hasta la tienda de comestibles más cercana
  4. el número de clases que se imparten por año escolar.
  5. el tipo de calculadora que utiliza
  6. pesos de luchadores de sumo
  7. número de respuestas correctas en un cuestionario
  8. Calificaciones de IQ (esto puede provocar alguna discusión).

Inténtelo 1.9

Determine el tipo de dato correcto (cuantitativo o cualitativo) para el número de automóviles en un estacionamiento. Indique si los datos cuantitativos son continuos o discretos.

Ejemplo 1.10

Translation missing: es.problem

Una profesora de Estadística recopila información sobre la clasificación de sus estudiantes en primer y segundo años, júnior y sénior. Los datos que recopila se resumen en el gráfico circular Figura 1.3. ¿Qué tipo de datos muestra este gráfico?

Este es un gráfico circular que muestra la clasificación por clases de los estudiantes de estadística. La tabla tiene 4 secciones identificadas como primer año, segundo año, júnior y sénior. La sección más grande es la de primer año, la segunda es la de segundo año, la tercera más grande es la de júnior y la más pequeña es la de sénior.
Figura 1.3

Inténtelo 1.10

El registrador de la universidad estatal mantiene un registro del número de horas de crédito que los estudiantes completan cada semestre. Los datos que recopila se resumen en el histograma. Los límites de las clases son de 10 a menos de 13, de 13 a menos de 16, de 16 a menos de 19, de 19 a menos de 22 y de 22 a menos de 25.

Este histograma consta de 5 barras con el eje x marcado en intervalos de 3 de 10 a 25, y el eje y en incrementos de 100 de 0 a 800. La altura de las barras muestra el número de estudiantes en cada intervalo. El intervalo 10 a 13 está a 250, el intervalo 13 a 16 está a 580, el intervalo 16 a 19 está a 720, el intervalo 19 a 22 está a 620 y el intervalo 22 a 25 está a 250.
Figura 1.4


¿Qué tipo de datos muestra este gráfico?

Discusión de datos cualitativos

A continuación se muestran tablas que comparan el número de estudiantes a tiempo parcial y a tiempo completo en De Anza College y Foothill College inscritos para el trimestre de primavera de 2010. Las tablas muestran recuentos (frecuencias) y porcentajes o proporciones (frecuencias relativas). Las columnas de porcentajes facilitan la comparación de las mismas categorías en los institutos universitarios. Suele ser útil mostrar porcentajes junto con números, pero es especialmente importante cuando se comparan conjuntos de datos que no tienen los mismos totales, como las inscripciones totales de ambos institutos universitarios en este ejemplo. Observe que el porcentaje de estudiantes a tiempo parcial del Foothill College es mucho mayor que el del De Anza College.

De Anza College Foothill College
Número Porcentaje Número Porcentaje
Tiempo completo 9.200 40,9% Tiempo completo 4.059 28,6%
Tiempo parcial 13.296 59,1% Tiempo parcial 10.124 71,4%
Total 22.496 100 % Total 14.183 100 %
Tabla 1.2 Otoño 2007 (día del censo)

Las tablas son una buena forma de organizar y mostrar datos. Pero los gráficos pueden ser aun más útiles para entender los datos. No hay reglas estrictas en cuanto a los gráficos que hay que utilizar. Dos gráficos que se utilizan para mostrar datos cualitativos son los gráficos circulares y los de barras.

En un gráfico circular las categorías de datos se representan mediante cuñas en un círculo y su tamaño es proporcional al porcentaje de personas de cada categoría.

En un gráfico de barras la longitud de la barra para cada categoría es proporcional al número o porcentaje de personas en cada categoría. Las barras pueden ser verticales u horizontales.

Un diagrama de Pareto está formado por barras que se ordenan por el tamaño de la categoría (de mayor a menor).

Observe la Figura 1.5 y la Figura 1.6 y determine qué gráfico (circular o de barras) cree que muestra mejor las comparaciones.

Es una buena idea observar una variedad de gráficos para ver cuál es el más útil para mostrar los datos. Según los datos y el contexto, podemos elegir el “mejor” gráfico. Nuestra elección también depende del uso que hagamos de los datos.

Gráficos circulares paralelos que muestran la distribución de los estudiantes a tiempo parcial y a tiempo completo. El gráfico de la izquierda se titula De Anza College. Se divide en dos secciones que muestran que los estudiantes a tiempo parcial representan el 59,1 % de la población y los estudiantes a tiempo completo el 40,9 %. El gráfico de la derecha se titula Foothill College. Se divide en dos secciones que muestran que los estudiantes a tiempo parcial representan el 71,4 % de la población y los estudiantes a tiempo completo el 28,6 %.
Figura 1.5
Figura 1.6

Porcentajes que suman más (o menos) que el 100 %

A veces, los porcentajes suman más del 100 % (o menos del 100 %). En el gráfico, los porcentajes suman más del 100 % porque los estudiantes pueden estar en más de una categoría. Un gráfico de barras es apropiado para comparar el tamaño relativo de las categorías. No se puede utilizar un gráfico circular. Tampoco podía utilizarse si los porcentajes sumaban menos del 100 %.

Característica/Categoría Porcentaje
Estudiantes a tiempo completo 40,9%
Estudiantes que pretenden transferirse a una institución educativa de 4 años 48,6%
Estudiantes menores de 25 años 61,0%
TOTAL 150,5%
Tabla 1.3 De Anza College, primavera de 2010
Un gráfico de barras. El eje vertical marca valores del 0 % al 100 % en intervalos del 20 %. Las categorías del eje horizontal son menores de 25 años (la altura de la barra muestra el 61,0 %), con intención de transferirse (la altura de la barra muestra el 48,6 %), a tiempo completo (la altura de la barra muestra el 40,9 %) y todos los estudiantes (la altura de la barra muestra el 100 %).
Figura 1.7

Omisión de categorías/falta de datos

La tabla muestra el origen étnico de los estudiantes pero falta la categoría “otros/desconocidos”. En esta categoría se ubican las personas que no se consideraron incluidas en ninguna de las categorías étnicas o que se negaron a responder. Observe que las frecuencias no suman el número total de estudiantes. En esta situación, cree un gráfico de barras y no un gráfico circular.

Frecuencia Porcentaje
Asiáticos 8.794 36,1%
Negros 1.412 5,8%
Filipinos 1.298 5,3%
Hispanos 4.180 17,1%
Nativos de Estados Unidos 146 0,6 %
Isleños del Pacífico 236 1,0%
Blancos 5.978 24,5%
TOTAL 22.044 de 24.382 90,4 % del 100 %
Tabla 1.4 Origen étnico de los estudiantes del De Anza College, otoño de 2007 (día del censo)
Un gráfico de barras que muestra el origen étnico de los estudiantes. El eje vertical marca valores de 0,0 % a 40,0 % en intervalos del 5,0 %. Las categorías del eje horizontal son asiáticos (la altura de la barra muestra el 36,1 %), negros (la altura de la barra muestra el 5,8 %), filipinos (la altura de la barra muestra el 5,3 %), hispanos (la altura de la barra muestra el 17,1 %), nativos de Estados Unidos (la altura de la barra muestra el 0,6 %), isleños del Pacífico (la altura de la barra muestra el 1,0 %) y blancos (la altura de la barra muestra el 24,5 %).
Figura 1.8

El siguiente gráfico es igual que el anterior, pero se ha incluido el porcentaje de “otros/desconocidos” (9,6 %). La categoría “otros/desconocidos” es grande en comparación con algunas de las otras categorías (nativos de Estados Unidos, 0,6 %, isleños del Pacífico, 1,0 %). Es importante saber esto cuando pensamos en lo que nos dicen los datos.

Este gráfico de barras particular en la Figura 1.9 puede ser difícil de entender visualmente. El gráfico de la Figura 1.10 es un diagrama de Pareto. El diagrama de Pareto tiene las barras ordenadas de mayor a menor y es más fácil de leer e interpretar.

Un gráfico de barras que muestra el origen étnico de los estudiantes. El eje vertical marca valores de 0,0 % a 40,0 % en intervalos del 5,0 %. Las categorías del eje horizontal son asiáticos (la altura de la barra muestra un 36,1 %), negros (la altura de la barra muestra un 5,8 %), filipinos (la altura de la barra muestra un 5,3 %), hispanos (la altura de la barra muestra un 17,1 %), nativos americanos (la altura de la barra muestra un 0,6 %), isleños del Pacífico (la altura de la barra muestra un 1,0 %), blancos (la altura de la barra muestra un 24,5 %) y otros/desconocidos (la altura de la barra muestra un 9,6 %).
Figura 1.9 Gráfico de barras con la categoría otros/desconocidos
Un diagrama de Pareto es un gráfico de barras con las barras ordenadas de mayor a menor altura. Este muestra el origen étnico de los estudiantes. El eje vertical marca valores de 0,0 % a 40,0 % en intervalos del 5,0 %. Las categorías del eje horizontal son asiáticos (la altura de la barra muestra el 36,1 %), blancos (la altura de la barra muestra el 24,5 %), hispanos (la altura de la barra muestra el 17,1 %), otros/desconocidos (la altura de la barra muestra el 9,6 %), negros (la altura de la barra muestra el 5,8 %), filipinos (la altura de la barra muestra el 5,3 %), isleños del Pacífico (la altura de la barra muestra el 1,0 %) y nativos de Estados Unidos (la altura de la barra muestra el 0,6 %).
Figura 1.10 Diagrama de Pareto con barras ordenadas por tamaño

Gráficos circulares: no faltan datos

Los siguientes gráficos circulares incluyen la categoría “otros/desconocidos” (ya que los porcentajes deben sumar el 100 %). El gráfico en la Figura 1.11(b) está organizado por el tamaño de cada porción, lo que lo convierte en un gráfico visualmente más informativo que el gráfico sin clasificar en la Figura 1.11 (a).

Dos gráficos circulares se titulan Origen étnico de los estudiantes. Gráfico (a) Las secciones del cuadro están ordenadas alfabéticamente. En el sentido de las agujas del reloj, las secciones muestran que los estudiantes asiáticos representan el 36,1 % de los estudiantes, los negros el 5,8 %, los filipinos el 5,3 %, los hispanos el 17,1 %, los nativos de Estados Unidos el 0,6 %, los isleños del Pacífico el 1,0 %, los blancos el 24,5 % y otros el 9,6 %. Gráfico (b) Se trata de los mismos datos que se muestran en el gráfico (a), pero las secciones del gráfico están ahora ordenadas de mayor a menor superficie. En el sentido de las agujas del reloj, las secciones muestran que los estudiantes asiáticos representan el 36,1 % de los estudiantes, los blancos el 24,5 %, los hispanos el 17,1 %, otros el 9,6 %, los negros el 5,8 %, los filipinos el 5,3 %, los isleños del Pacífico el 1,0 % y los nativos de Estados Unidos el 0,6 %.
Figura 1.11

Muestreo

Recopilar información sobre toda una población suele ser demasiado costoso o prácticamente imposible. En cambio, utilizamos una muestra de la población. Una muestra debe tener las mismas características que la población que representa. La mayoría de los estadísticos utilizan varios métodos de muestreo aleatorio para intentar alcanzar esta meta. En esta sección se describen algunos de los métodos más comunes. Existen varios métodos de muestreo aleatorio. En cada forma de muestreo aleatorio, cada miembro de una población tiene inicialmente la misma probabilidad de que lo seleccionen para la muestra. Cada método tiene sus pros y sus contras. El método más fácil de describir se llama muestra aleatoria simple. Cualquier grupo de n personas tiene la misma probabilidad de que lo seleccionen que cualquier otro grupo de n personas si se utiliza la técnica de muestreo aleatorio simple. En otras palabras, cada muestra del mismo tamaño tiene la misma probabilidad de que la seleccionen. Por ejemplo, supongamos que Lisa quiere formar un grupo de estudio de cuatro personas (ella y otras tres) de su clase de precálculo, que tiene 31 miembros sin incluir a Lisa. Para elegir una muestra aleatoria simple de tamaño tres entre los demás miembros de su clase, Lisa podría poner los 31 nombres en un sombrero, agitar el sombrero, cerrar los ojos y elegir tres nombres. Una forma más tecnológica es que Lisa enumere primero los apellidos de los miembros de su clase junto con un número de dos dígitos, como en la Tabla 1.5:

ID Nombre ID Nombre ID Nombre
00 Anselmo 11 King 21 Roquero
01 Bautista 12 Legeny 22 Roth
02 Bayani 13 Lundquist 23 Rowell
03 Cheng 14 Macierz 24 Salangsang
04 Cuarismo 15 Motogawa 25 Slade
05 Cuningham 16 Okimoto 26 Stratcher
06 Fontecha 17 Patel 27 Tallai
07 Hong 18 Price 28 Tran
08 Hoobler 19 Quizon 29 Wai
09 Jiao 20 Reyes 30 Madera
10 Khan
Tabla 1.5 Lista de clases

Lisa puede utilizar una tabla de números aleatorios (que se encuentra en muchos libros de estadística y manuales de matemáticas), una calculadora o una computadora para generar números aleatorios. Para este ejemplo, supongamos que Lisa elige generar números aleatorios con una calculadora. Los números generados son los siguientes:

0,94360; 0,99832; 0,14669; 0,51470; 0,40581; 0,73381; 0,04399

Lisa lee grupos de dos dígitos hasta que haya elegido tres miembros de la clase (es decir, lee 0,94360 como los grupos 94, 43, 36, 60). Cada número aleatorio solo puede aportar un miembro de la clase. De ser necesario, Lisa podría haber generado más números aleatorios.

Los números aleatorios 0,94360 y 0,99832 no contienen números de dos dígitos adecuados. Sin embargo, el tercer número aleatorio, 0,14669, contiene 14 (el cuarto número aleatorio también contiene 14), el quinto número aleatorio contiene 05 y el séptimo número aleatorio contiene 04. El número de dos dígitos 14 corresponde a Macierz, el 05 a Cuningham y el 04 a Cuarismo. Aparte de ella, el grupo de Lisa estará formado por Marcierz, Cuningham y Cuarismo.

Uso de las calculadoras TI-83, 83+, 84, 84+

Para generar números aleatorios:

  • Pulse MATH.
  • Flecha hacia PRB.
  • Pulse 5:randInt(. Introduzca 0, 30).
  • Pulse ENTER para el primer número aleatorio.
  • Pulse ENTER dos veces más para los otros 2 números aleatorios. Si hay una repetición pulse de nuevo ENTER.

Nota: randInt(0, 30, 3) generará 3 números aleatorios.

Una pantalla de calculadora muestra el siguiente conjunto en líneas separadas: randInt (0, 30); 29; randInt (0, 30); 28; randInt (0, 30); 4.
Figura 1.12

Además del muestreo aleatorio simple, existen otras formas de muestreo que implican un proceso de azar para obtener la muestra. Otros métodos de muestreo aleatorio bien conocidos son la muestra estratificada, la muestra por conglomerados y la muestra sistemática.

Para seleccionar una muestra estratificada, hay que dividir la población en grupos llamados estratos y, a continuación, tomar un número proporcional de cada estrato. Por ejemplo, podría estratificar (agrupar) la población de su instituto universitario por departamentos y luego seleccionar una muestra aleatoria simple proporcional de cada estrato (cada departamento) para obtener una muestra aleatoria estratificada. Para seleccionar una muestra aleatoria simple de cada departamento, numere cada miembro del primer departamento, numere cada miembro del segundo departamento y haga lo mismo con los departamentos restantes. Luego, utilice un muestreo aleatorio simple para seleccionar números proporcionales del primer departamento y haga lo mismo con cada uno de los departamentos restantes. Esos números seleccionados del primer departamento y del segundo departamento, y así sucesivamente, representan los miembros que componen la muestra estratificada.

Para seleccionar una muestra por conglomerados hay que dividir la población en conglomerados (grupos) y luego seleccionar al azar algunos de los conglomerados. Todos los miembros de estos grupos están en la muestra por conglomerados. Por ejemplo, si toma una muestra aleatoria de cuatro departamentos de la población de su instituto universitario, los cuatro departamentos constituyen la muestra por conglomerados. Divida el profesorado de su instituto universitario por departamento. Los departamentos son los conglomerados. Numere cada departamento y, a continuación, elija cuatro números diferentes mediante un muestreo aleatorio simple. Todos los miembros de los cuatro departamentos con esos números son la muestra de conglomerado.

Para seleccionar una muestra sistemática, seleccione al azar un punto de partida y tome cada n.ª (enésima) pieza de datos de una lista de la población. Por ejemplo, supongamos que tiene que hacer una encuesta telefónica. Su directorio telefónico contiene 20.000 listas de residencias. Debe seleccionar 400 nombres para la muestra. Numere la población de 1 a 20.000 y luego utilice una muestra aleatoria simple para seleccionar un número que represente el primer nombre de la muestra. Luego, elija cada quincuagésimo nombre hasta que tenga un total de 400 nombres (puede que tenga que volver al principio de su lista de teléfonos). El muestreo sistemático se elige con frecuencia porque es un método sencillo.

Un tipo de muestreo que no es aleatorio es el muestreo de conveniencia. El muestreo de conveniencia implica el uso de resultados que están fácilmente disponibles. Por ejemplo, una tienda de softwares realiza un estudio de mercadeo mediante entrevistas con los clientes potenciales que se encuentran en la tienda mirando softwares disponibles. Los resultados del muestreo de conveniencia pueden ser muy buenos en algunos casos y muy sesgados (favorecer ciertos resultados) en otros.

El muestreo de datos debe hacerse con mucho cuidado. Recolectar datos sin cuidado puede causar resultados devastadores. Las encuestas enviadas por correo a los hogares y luego devueltas pueden estar muy sesgadas (pueden favorecer a un determinado grupo). Es mejor que la persona que realiza la encuesta seleccione la muestra de encuestados.

El muestreo aleatorio verdadero se realiza con reemplazo. Es decir, una vez que se selecciona un miembro, ese miembro vuelve a la población y, por tanto, lo pueden escoger más de una vez. Sin embargo, por razones prácticas, en la mayoría de las poblaciones el muestreo aleatorio simple se realiza sin reemplazo. Las encuestas suelen hacerse sin reemplazo. Es decir, un miembro de la población solo lo pueden seleccionar una vez. La mayoría de las muestras se toman de poblaciones grandes y la muestra tiende a ser pequeña en comparación con la población. En este caso, el muestreo sin reemplazo es, aproximadamente, igual al muestreo con reemplazo, ya que la probabilidad de seleccionar a la misma persona más de una vez con reemplazo es muy baja.

En una población universitaria de 10.000 personas, supongamos que se quiere seleccionar una muestra de 1.000 al azar para una encuesta. Para cualquier muestra particular de 1.000, si se hace un muestreo con reemplazo,

  • la probabilidad de seleccionar la primera persona es de 1.000 entre 10.000 (0,1000);
  • la probabilidad de seleccionar una segunda persona diferente para esta muestra es de 999 entre 10.000 (0,0999);
  • la probabilidad de volver a seleccionar a la misma persona es de 1 entre 10.000 (muy baja).

Si se trata de un muestreo sin reemplazo,

  • la probabilidad de seleccionar la primera persona para cualquier muestra específica es de 1.000 entre 10.000 (0,1000);
  • la probabilidad de seleccionar una segunda persona diferente es de 999 entre 9.999 (0,0999);
  • no se sustituye la primera persona antes de seleccionar la siguiente.

Compare las fracciones 999/10.000 y 999/9.999. Para lograr más exactitud, lleve las respuestas decimales a cuatro cifras. Con cuatro decimales, estos números son equivalentes (0,0999).

El muestreo sin reemplazo en vez del muestreo con reemplazo se convierte en una cuestión matemática solo cuando la población es pequeña. Por ejemplo, si la población es de 25 personas, la muestra es de diez y se realiza un muestreo con reemplazo para cualquier muestra particular, entonces la probabilidad de seleccionar la primera persona es de diez entre 25, y la probabilidad de seleccionar una segunda persona diferente es de nueve entre 25 (se reemplaza la primera persona).

Si se hace una muestra sin reemplazo, la probabilidad de seleccionar la primera persona es de diez entre 25, y la probabilidad de seleccionar la segunda persona (que es diferente) es de nueve entre 24 (no se reemplaza la primera persona).

Compare las fracciones 9/25 y 9/24. Con cuatro decimales, 9/25 = 0,3600 y 9/24 = 0,3750. Con cuatro decimales, estos números no son equivalentes.

Al analizar los datos, es importante tener en cuenta los errores de muestreo y los errores ajenos al muestreo. El propio proceso de muestreo provoca errores de muestreo. Por ejemplo, la muestra puede no ser lo suficientemente grande. Los factores no relacionados con el proceso de muestreo provocan errores ajenos al muestreo. Un dispositivo de recuento defectuoso puede causar un error ajeno al muestreo.

En realidad, una muestra nunca será exactamente representativa de la población, por lo que siempre habrá algún error de muestreo. Por regla general, cuanto mayor sea la muestra, menor será el error de muestreo.

En estadística, se crea un sesgo de muestreo cuando se recopila una muestra de una población y algunos de sus miembros no tienen la misma probabilidad de que los seleccionen que otros (recuerde que cada miembro de la población debe tener la misma probabilidad de que lo seleccionen). Cuando se produce un sesgo de muestreo, se pueden extraer conclusiones incorrectas sobre la población que se está estudiando.

Evaluación crítica

Tenemos que evaluar los estudios estadísticos que leemos de forma crítica y analizarlos antes de aceptar sus resultados. Los problemas más comunes que hay que tener en cuenta son:

  • Problemas con las muestras: una muestra debe ser representativa de la población. Una muestra que no es representativa de la población está sesgada. Las muestras sesgadas que no son representativas de la población dan resultados inexactos y no válidos.
  • Muestras autoseleccionadas: las respuestas de las personas que deciden responder, como las encuestas telefónicas, suelen ser poco fiables.
  • Problemas de tamaño de la muestra: las muestras demasiado pequeñas pueden ser poco fiables. Si es posible, las muestras más grandes son mejores. En algunas situaciones, es inevitable contar con muestras pequeñas y, aun así, se pueden usar para sacar conclusiones. Ejemplos: pruebas de choques de automóviles o pruebas médicas para detectar condiciones poco comunes.
  • Influencia indebida: recopilar datos o hacer preguntas de forma que influyan en la respuesta.
  • Falta de respuesta o negativa del sujeto a participar:  las respuestas recogidas pueden dejar de ser representativas de la población.  A menudo, personas con fuertes opiniones positivas o negativas pueden responder las encuestas, lo que puede afectar los resultados.
  • Causalidad: una relación entre dos variables no significa que una cause la otra. Pueden estar relacionadas (correlacionadas) debido a su relación a través de una variable diferente.
  • Estudios autofinanciados o de interés propio: estudio realizado por una persona u organización para respaldar su afirmación. ¿El estudio es imparcial? Lea atentamente el estudio para evaluar el trabajo. No asuma automáticamente que el estudio es bueno, pero tampoco asuma automáticamente que es deficiente. Valórelo por sus méritos y el trabajo realizado.
  • Uso engañoso de datos: gráficos mal presentados, datos incompletos o falta de contexto.
  • Confusión:  cuando los efectos de múltiples factores sobre una respuesta no se pueden separar.  Los factores de confusión dificultan o impiden sacar conclusiones válidas sobre el efecto de cada uno de ellos.

Ejercicio colaborativo

En clase, determine si las siguientes muestras son representativas o no. Si no lo son, analice las razones.

  1. Para hallar el promedio de GPA de todos los estudiantes de una universidad, utilice todos los estudiantes de honor de la universidad como muestra.
  2. Para saber cuál es el cereal más popular entre los niños menores de diez años, sitúese en la puerta de un gran supermercado durante tres horas y hable con cada veinte niños menores de diez años que entren en él.
  3. Para hallar la renta promedio anual de todos los adultos de Estados Unidos, tome una muestra de congresistas estadounidenses. Cree una muestra por conglomerados considerando cada estado como un estrato (grupo). Mediante un muestreo aleatorio simple, se seleccionan los estados que formarán parte del conglomerado. Entonces, haga una encuesta a todos los congresistas del grupo.
  4. Para determinar la proporción de personas que utilizan el transporte público para ir al trabajo, haga una encuesta a 20 personas en la ciudad de Nueva York. Realice la encuesta sentándose en Central Park en un banco y entrevistando a todas las personas que se sienten a su lado.
  5. Para determinar el costo promedio de una estancia de dos días en un hospital de Massachusetts, se realiza una encuesta en 100 hospitales de todo el estado mediante un muestreo aleatorio simple.

Ejemplo 1.11

Translation missing: es.problem

Se realiza un estudio para determinar la matrícula promedio que los estudiantes de educación superior del estado de San José pagan por semestre. En las siguientes muestras se pregunta a cada estudiante cuánto pagó de matrícula en el semestre de otoño. ¿Cuál es el tipo de muestreo en cada caso?

  1. Se toma una muestra de 100 estudiantes de educación superior del estado de San José y se organizan los nombres de los estudiantes por clasificación (primero y segundo años, júnior y sénior) y se seleccionan 25 estudiantes de cada uno.
  2. Se utiliza un generador de números aleatorios para seleccionar un estudiante de la lista alfabética de todos los estudiantes de pregrado en el semestre de otoño. A partir de ese estudiante, se elige cada 50 estudiantes hasta incluir 75 en la muestra.
  3. Se utiliza un método completamente aleatorio para seleccionar 75 estudiantes. Cada estudiante de educación superior del semestre de otoño tiene la misma probabilidad de que lo seleccionen en cualquier fase del proceso de muestreo.
  4. Los de primero, segundo, júnior y sénior años están numerados como uno, dos, tres y cuatro, respectivamente. Se utiliza un generador de números aleatorios para seleccionar dos de esos años. Todos los estudiantes de esos dos años están en la muestra.
  5. Se le pide a un asistente administrativo que se sitúe un miércoles frente a la biblioteca y les pregunte a los 100 primeros estudiantes de educación superior que calculen cuánto han pagado de matrícula en el semestre de otoño. Esos 100 estudiantes son la muestra.

Inténtelo 1.11

Utilice el generador de números aleatorios para generar diferentes tipos de muestras a partir de los datos.

Esta tabla muestra seis conjuntos de puntuaciones de pruebas (cada prueba cuenta con 10 puntos) para una clase de Estadística elemental.

N.º 1 N.º 2 N.º 3 N.º 4 N.º 5 N.º 6
5 7 10 9 8 3
10 5 9 8 7 6
9 10 8 6 7 9
9 10 10 9 8 9
7 8 9 5 7 4
9 9 9 10 8 7
7 7 10 9 8 8
8 8 9 10 8 8
9 7 8 7 7 8
8 8 10 9 8 7
Tabla 1.6

Instrucciones: Utilice el generador de números aleatorios para elegir las muestras.

  1. Cree una muestra estratificada por columna. Escoja tres puntuaciones de la prueba al azar de cada columna
    • Numere cada fila del uno al diez.
    • En su calculadora, pulse Math y la flecha encima de PRB.
    • En la columna 1, pulse 5:randInt( e introduzca 1,10). Pulse ENTER. Anote el número. Pulse ENTER 2 veces más (incluso las repeticiones). Registre estos números. Anote en la columna 1 las tres puntuaciones del cuestionario que corresponden a estos tres números.
    • Repita la operación para las columnas dos a seis.
    • Estas 18 puntuaciones de las pruebas son una muestra estratificada.
  2. Cree una muestra de conglomerados eligiendo dos de las columnas. Utilice los números de la columna: del uno al seis.
    • Pulse MATH y vaya a PRB.
    • Pulse 5:randInt( e introduzca 1,6). Pulse ENTER. Anote el número. Pulse ENTER y registre ese número.
    • Los dos números son para dos de las columnas.
    • Las puntuaciones de las pruebas (20 de ellas) en estas 2 columnas son la muestra por conglomerados.
  3. Cree una muestra aleatoria simple de 15 puntuaciones de pruebas
    • Utilice la numeración del uno al 60.
    • Pulse MATH. Flecha hacia PRB. Pulse 5:randInt (e introduzca 1, 60).
    • Pulsa ENTER 15 veces y anote los números.
    • Anote las puntuaciones de las pruebas que corresponden a estos números.
    • Estas 15 puntuaciones de las pruebas son la muestra sistemática.
  4. Cree una muestra sistemática de 12 puntuaciones de pruebas
    • Utilice la numeración del uno al 60.
    • Pulse MATH. Flecha hacia PRB. Pulse 5:randInt (e introduzca 1, 60).
    • Pulse ENTER. Anote el número y la puntuación del primer examen. A partir de ese número, cuente diez puntuaciones de la prueba y anote esa puntuación de la prueba. Siga contando diez puntuaciones de pruebas y registrando su puntuación hasta que tenga una muestra de 12 puntuaciones de pruebas. Puede retomar todo (volver al principio).

Ejemplo 1.12

Translation missing: es.problem

Determine el tipo de muestreo utilizado (aleatorio simple, estratificado, sistemático, por conglomerados o de conveniencia).

  1. Un entrenador de fútbol selecciona seis jugadores de un grupo de niños entre ocho y diez años, siete jugadores de un grupo de niños entre 11 y 12 años y tres jugadores de un grupo de niños entre 13 y 14 años para formar un equipo de fútbol recreativo.
  2. Un encuestador entrevista a todo el personal de Recursos Humanos de cinco compañías diferentes de alta tecnología.
  3. Un investigador educativo de escuela secundaria entrevista a 50 maestras y a 50 maestros de escuela secundaria.
  4. Un investigador médico entrevista a uno de cada tres pacientes de cáncer de una lista de enfermos de cáncer de un hospital local.
  5. El consejero de una escuela secundaria utiliza una computadora para generar 50 números al azar y luego toma a los estudiantes cuyos nombres se corresponden con los números.
  6. Un estudiante entrevista a los compañeros de su clase de Álgebra para determinar cuántos jeans posee un estudiante, en promedio.

Inténtelo 1.12

Determine el tipo de muestreo utilizado (aleatorio simple, estratificado, sistemático, por conglomerados o de conveniencia).

El director de una escuela encuesta a 50 estudiantes de primer año, 50 de segundo, 50 en el año júnior y 50 del año sénior sobre los cambios en la política de actividades extraescolares.

Si examinamos dos muestras que representen a la misma población, aunque utilicemos métodos de muestreo aleatorio para las muestras, no serán exactamente iguales. Al igual que hay variación en los datos, hay variación en las muestras. A medida que se acostumbre a la toma de muestras, la variabilidad empezará a parecer natural.

Ejemplo 1.13

Supongamos que el ABC College tiene 10.000 estudiantes a tiempo parcial (la población). Estamos interesados en la cantidad promedio de dinero que un estudiante a tiempo parcial gasta en libros en el trimestre de otoño. Preguntarles a los 10.000 estudiantes es una tarea casi imposible.

Supongamos que tomamos dos muestras diferentes.

En primer lugar, utilizamos un muestreo de conveniencia y encuestamos a diez estudiantes de una clase de Química Orgánica del primer trimestre. Muchos de estos estudiantes están cursando el primer trimestre de Cálculo además de la clase de Química Orgánica. Gastan la siguiente cantidad de dinero en libros:

$128; $87; $173; $116; $130; $204; $147; $189; $93; $153

La segunda muestra se toma a partir de una lista de personas mayores que asisten a clases de Educación Física y se toma una de cada cinco personas mayores de la lista, lo que supone un total de diez personas mayores. Gastan:

$50; $40; $36; $15; $50; $100; $40; $53; $22; $22

Es poco probable que algún estudiante esté en ambas muestras.

Translation missing: es.problem

a. ¿Cree que alguna de estas muestras es representativa de (o es característica de) toda la población de 10.000 estudiantes a tiempo parcial?

Translation missing: es.problem

b. Dado que estas muestras no son representativas de toda la población, ¿es prudente utilizar los resultados para describir a toda la población?

Ahora, supongamos que tomamos una tercera muestra. Seleccionamos diez estudiantes diferentes a tiempo parcial de las disciplinas de Química, Matemáticas, Inglés, Psicología, Sociología, Historia, Enfermería, Educación Física, Arte y Desarrollo Infantil (suponemos que estas son las únicas disciplinas en las que están inscritos los estudiantes a tiempo parcial del ABC College y que hay un número igual de estudiantes a tiempo parcial en cada una de las disciplinas). Cada estudiante se selecciona mediante un muestreo aleatorio simple. Con una calculadora se generan números aleatorios y se selecciona un estudiante de una determinada disciplina si tiene el número correspondiente. Los estudiantes gastan las siguientes cantidades:

$180; $50; $150; $85; $260; $75; $180; $200; $200; $150

Translation missing: es.problem

c. ¿La muestra está sesgada?

Los estudiantes suelen preguntar si es “suficiente” tomar una muestra, en vez de encuestar a toda la población. Si la encuesta está bien hecha, la respuesta es sí.

Inténtelo 1.13

Una emisora de radio local tiene una base de 20.000 oyentes. La emisora quiere saber si su audiencia prefiere más música o más programas de debate. Preguntarles a los 20.000 oyentes es una tarea casi imposible.

La emisora utiliza un muestreo de conveniencia y encuesta a las primeras 200 personas que encuentra en uno de los conciertos musicales de la emisora. 24 personas dijeron que preferirían más programas de debate, y 176 personas dijeron que preferirían más música.

¿Cree que esta muestra es representativa (o característica) de toda la población de 20.000 oyentes?

Variación de los datos

La variación está presente en cualquier conjunto de datos. Por ejemplo, las latas de bebida de 16 onzas pueden contener más o menos de 16 onzas de líquido. En un estudio, se midieron ocho latas de 16 onzas y produjeron la siguiente cantidad (en onzas) de bebida:

15,8; 16,1; 15,2; 14,8; 15,8; 15,9; 16,0; 15,5

Las medidas de la cantidad de bebida en una lata de 16 onzas pueden variar porque diferentes personas hacen las mediciones o porque no se puso la cantidad exacta, 16 onzas de líquido, en las latas. Los fabricantes realizan regularmente pruebas para determinar si la cantidad de bebida en una lata de 16 onzas está dentro del rango deseado.

Tenga en cuenta que, al tomar los datos, estos pueden variar en cierta medida con respecto a los datos que otra persona está tomando para el mismo fin. Esto es completamente natural. Sin embargo, si dos o más de ustedes toman los mismos datos y obtienen resultados muy diferentes, es hora de que usted y los demás reevalúen sus métodos de toma de datos y su exactitud.

Variación en las muestras

Ya se ha mencionado anteriormente que dos o más muestras de la misma población, tomadas al azar y que se aproximen a las mismas características de la población serán probablemente diferentes entre sí. Supongamos que Doreen y Jung deciden estudiar la cantidad promedio de tiempo que los estudiantes de su instituto universitario duermen cada noche. Doreen y Jung toman cada uno muestras de 500 estudiantes. Doreen utiliza el muestreo sistemático y Jung el muestreo por conglomerados. La muestra de Doreen será diferente a la de Jung. Aunque Doreen y Jung utilizaran el mismo método de muestreo, con toda probabilidad sus muestras serían diferentes. Sin embargo, ninguno de los dos estaría equivocado.

Piense en lo que contribuye a que las muestras de Doreen y Jung sean diferentes.

Si Doreen y Jung tomaran muestras más grandes (es decir, el número de valores de los datos se incrementa), los resultados de su muestra (la cantidad promedio de tiempo que duerme un estudiante) podrían estar más cerca del promedio real de la población. Pero aun así, sus muestras serían, con toda probabilidad, diferentes entre sí. Nunca se insistirá lo suficiente en esta variabilidad en las muestras.

Tamaño de la muestra

El tamaño de la muestra (a menudo llamado número de observaciones) es importante. Los ejemplos que ha visto en este libro hasta ahora han sido pequeños. Muestras de solo unos cientos de observaciones, o incluso más pequeñas, son suficientes para muchos propósitos. En los sondeos, las muestras que van de 1.200 a 1.500 observaciones se consideran suficientemente grandes y buenas si la encuesta es aleatoria y está bien hecha. Aprenderá por qué cuando estudie intervalos de confianza.

Tenga en cuenta que muchas muestras grandes están sesgadas. Por ejemplo, las encuestas con llamadas están invariablemente sesgadas porque la gente decide responder o no.

Ejercicio colaborativo

Divídanse en grupos de dos, tres o cuatro. El instructor dará a cada grupo un dado de seis caras. Pruebe este experimento dos veces. Tire un dado justo (de seis caras) 20 veces. Anote el número de unos, dos, tres, cuatro, cinco y seis que obtiene en la Tabla 1.7 y la Tabla 1.8 ("frecuencia" es el número de veces que aparece una cara concreta del dado):

Cara del dado Frecuencia
1
2
3
4
5
6
Tabla 1.7 Primer experimento (20 tiradas)
Cara del dado Frecuencia
1
2
3
4
5
6
Tabla 1.8 Segundo experimento (20 tiradas)

¿Los dos experimentos obtuvieron los mismos resultados? Probablemente no. Si hiciera el experimento por tercera vez, ¿espera que los resultados sean idénticos a los del primer o segundo experimento? ¿Por qué sí o por qué no?

¿Qué experimento obtuvo los resultados correctos? Ambos. El trabajo del estadístico es ver a través de la variabilidad y sacar las conclusiones adecuadas.

Solicitar una copia impresa

As an Amazon Associate we earn from qualifying purchases.

Cita/Atribución

Este libro no puede ser utilizado en la formación de grandes modelos de lenguaje ni incorporado de otra manera en grandes modelos de lenguaje u ofertas de IA generativa sin el permiso de OpenStax.

¿Desea citar, compartir o modificar este libro? Este libro utiliza la Creative Commons Attribution License y debe atribuir a OpenStax.

Información de atribución
  • Si redistribuye todo o parte de este libro en formato impreso, debe incluir en cada página física la siguiente atribución:
    Acceso gratis en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica/pages/1-introduccion
  • Si redistribuye todo o parte de este libro en formato digital, debe incluir en cada vista de la página digital la siguiente atribución:
    Acceso gratuito en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica/pages/1-introduccion
Información sobre citas

© 28 ene. 2022 OpenStax. El contenido de los libros de texto que produce OpenStax tiene una licencia de Creative Commons Attribution License . El nombre de OpenStax, el logotipo de OpenStax, las portadas de libros de OpenStax, el nombre de OpenStax CNX y el logotipo de OpenStax CNX no están sujetos a la licencia de Creative Commons y no se pueden reproducir sin el previo y expreso consentimiento por escrito de Rice University.