Omitir e ir al contenidoIr a la página de accesibilidadMenú de atajos de teclado
Logo de OpenStax

Menú
Índice
  1. Prefacio
  2. 1 Muestreo y datos
    1. Introducción
    2. 1.1 Definiciones de estadística, probabilidad y términos clave
    3. 1.2 Datos, muestreo y variación de datos y muestreo
    4. 1.3 Niveles de medición
    5. 1.4 Diseño experimental y ética
    6. Términos clave
    7. Repaso del capítulo
    8. Tarea para la casa
    9. Referencias
    10. Soluciones
  3. 2 Estadística descriptiva
    1. Introducción
    2. 2.1 Datos mostrados
    3. 2.2 Medidas de la ubicación de los datos
    4. 2.3 Medidas del centro de los datos
    5. 2.4 Notación sigma y cálculo de la media aritmética
    6. 2.5 Media geométrica
    7. 2.6 Distorsión y media, mediana y moda
    8. 2.7 Medidas de la dispersión de los datos
    9. Términos clave
    10. Repaso del capítulo
    11. Repaso de fórmulas
    12. Práctica
    13. Tarea para la casa
    14. Resúmalo todo: tarea para la casa
    15. Referencias
    16. Soluciones
  4. 3 Temas de probabilidad
    1. Introducción
    2. 3.1 Terminología
    3. 3.2 Eventos mutuamente excluyentes e independientes
    4. 3.3 Dos reglas básicas de la probabilidad
    5. 3.4 Tablas de contingencia y árboles de probabilidad
    6. 3.5 Diagramas de Venn
    7. Términos clave
    8. Repaso del capítulo
    9. Repaso de fórmulas
    10. Práctica
    11. Uniéndolo todo: Práctica
    12. Tarea para la casa
    13. Resúmalo todo: tarea para la casa
    14. Referencias
    15. Soluciones
  5. 4 Variables aleatorias discretas
    1. Introducción
    2. 4.1 Distribución hipergeométrica
    3. 4.2 Distribución binomial
    4. 4.3 Distribución geométrica
    5. 4.4 Distribución de Poisson
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  6. 5 Variables aleatorias continuas
    1. Introducción
    2. 5.1 Propiedades de las funciones de densidad de probabilidad continuas
    3. 5.2 La distribución uniforme
    4. 5.3 La distribución exponencial
    5. Términos clave
    6. Repaso del capítulo
    7. Repaso de fórmulas
    8. Práctica
    9. Tarea para la casa
    10. Referencias
    11. Soluciones
  7. 6 La distribución normal
    1. Introducción
    2. 6.1 La distribución normal estándar
    3. 6.2 Uso de la distribución normal
    4. 6.3 Estimación de la binomial con la distribución normal
    5. Términos clave
    6. Repaso del capítulo
    7. Repaso de fórmulas
    8. Práctica
    9. Tarea para la casa
    10. Referencias
    11. Soluciones
  8. 7 El teorema del límite central
    1. Introducción
    2. 7.1 Teorema del límite central de las medias muestrales
    3. 7.2 Uso del teorema del límite central
    4. 7.3 Teorema del límite central de las proporciones
    5. 7.4 Factor de corrección de población finita
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  9. 8 Intervalos de confianza
    1. Introducción
    2. 8.1 Un intervalo de confianza para una desviación típica de la población, con un tamaño de muestra conocido o grande
    3. 8.2 Un intervalo de confianza para una desviación típica de población desconocida, caso de una muestra pequeña
    4. 8.3 Un intervalo de confianza para una proporción de población
    5. 8.4 Cálculo del tamaño de la muestra n: variables aleatorias continuas y binarias
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  10. 9 Pruebas de hipótesis con una muestra
    1. Introducción
    2. 9.1 Hipótesis nula y alternativa
    3. 9.2 Resultados y errores de tipo I y II
    4. 9.3 Distribución necesaria para la comprobación de la hipótesis
    5. 9.4 Ejemplos de pruebas de hipótesis completas
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  11. 10 Pruebas de hipótesis con dos muestras
    1. Introducción
    2. 10.1 Comparación de las medias de dos poblaciones independientes
    3. 10.2 Criterios de Cohen para efectos de tamaño pequeño, mediano y grande
    4. 10.3 Prueba de diferencias de medias: suponer varianzas de población iguales
    5. 10.4 Comparación de dos proporciones de población independientes
    6. 10.5 Dos medias poblacionales con desviaciones típicas conocidas
    7. 10.6 Muestras coincidentes o emparejadas
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Tarea para la casa
    13. Resúmalo todo: tarea para la casa
    14. Referencias
    15. Soluciones
  12. 11 La distribución chi-cuadrado
    1. Introducción
    2. 11.1 Datos sobre la distribución chi-cuadrado
    3. 11.2 Prueba de una sola varianza
    4. 11.3 Prueba de bondad de ajuste
    5. 11.4 Prueba de independencia
    6. 11.5 Prueba de homogeneidad
    7. 11.6 Comparación de las pruebas chi-cuadrado
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Tarea para la casa
    13. Resúmalo todo: tarea para la casa
    14. Referencias
    15. Soluciones
  13. 12 La distribución F y el anova de una vía
    1. Introducción
    2. 12.1 Prueba de dos varianzas
    3. 12.2 ANOVA de una vía
    4. 12.3 La distribución F y el cociente F
    5. 12.4 Datos sobre la distribución F
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  14. 13 Regresión lineal y correlación
    1. Introducción
    2. 13.1 El coeficiente de correlación r
    3. 13.2 Comprobación de la importancia del coeficiente de correlación
    4. 13.3 Ecuaciones lineales
    5. 13.4 La ecuación de regresión
    6. 13.5 Interpretación de los coeficientes de regresión: elasticidad y transformación logarítmica
    7. 13.6 Predicción con una ecuación de regresión
    8. 13.7 Cómo utilizar Microsoft Excel® para el análisis de regresión
    9. Términos clave
    10. Repaso del capítulo
    11. Práctica
    12. Soluciones
  15. A Cuadros estadísticos
  16. B Oraciones, símbolos y fórmulas matemáticas
  17. Índice

Gráficos de tallo y hoja (gráfico de tallo), gráficos de líneas y gráficos de barras

Un gráfico sencillo, el gráfico de tallo y hoja o gráfico de tallo, procede del campo del análisis exploratorio de datos. Es una buena opción cuando los conjuntos de datos son pequeños. Para crear el gráfico, divida cada observación de datos en un tallo y una hoja. La hoja consta de un último dígito significativo. Por ejemplo, 23 tiene el tallo dos y la hoja tres. El número 432 tiene el tallo 43 y la hoja dos. Asimismo, el número 5.432 tiene el tallo 543 y la hoja dos. El decimal 9,3 tiene el tallo nueve y la hoja tres. Escriba los tallos en una línea vertical de menor a mayor. Dibuje una línea vertical a la derecha de los tallos. Luego, escriba las hojas en orden creciente junto a su correspondiente tallo.

Ejemplo 2.1

En la clase de Precálculo de primavera de Susan Dean las calificaciones del primer examen fueron las siguientes (de menor a mayor):
33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 96; 100

Tallo Hoja
33
42 9 9
53 5 5
61 3 7 8 8 9 9
72 3 4 8
80 3 8 8 8
90 2 4 4 4 4 6
100
Tabla 2.1 Gráfico de tallo y hoja

El gráfico de tallo muestra que la mayoría de las calificaciones fueron de 60, 70, 80 y 90. Ocho de las 31 calificaciones, es decir, aproximadamente el 26 % ( 8 31 ) ( 8 31 ) estaban en los 90 o 100, un número bastante alto de calificaciones con A.

Inténtelo 2.1

Para el equipo de baloncesto de Park City los resultados de los últimos 30 partidos fueron los siguientes (de menor a mayor):
32; 32; 33; 34; 38; 40; 42; 42; 43; 44; 46; 47; 47; 48; 48; 48; 49; 50; 50; 51; 52; 52; 52; 53; 54; 56; 57; 57; 60; 61
Construya un diagrama de tallo para los datos.

El diagrama de tallo es una forma rápida de representar datos gráficamente y ofrece una imagen exacta de la información. Hay que buscar un patrón general y los valores atípicos. Un valor atípico es una observación de datos que no se ajusta al resto de los datos. A veces se le llama valor extremo. Cuando grafique un valor atípico parecerá que no se ajusta al patrón del gráfico. Algunos valores atípicos se deben a errores (por ejemplo, anotar 50 en vez de 500), mientras que otros pueden indicar que está ocurriendo algo inusual. Para explicar los valores atípicos se necesita información de fondo, por lo que los trataremos con más detalle más adelante.

Ejemplo 2.2

Los datos son las distancias (en kilómetros) de un hogar a supermercados locales. Cree un diagrama de tallo con los datos:
1,1; 1,5; 2,3; 2,5; 2,7; 3,2; 3,3; 3,3; 3,5; 3,8; 4,0; 4,2; 4,5; 4,5; 4,7; 4,8; 5,5; 5,6; 6,5; 6,7; 12,3

translation missing: es.problem

¿Los datos parecen tener alguna concentración de valores?

NOTA

Las hojas están a la derecha del decimal.

Inténtelo 2.2

Los siguientes datos muestran las distancias (en millas) desde los hogares de los estudiantes de Estadística fuera del campus hasta el instituto universitario. Cree un diagrama de tallo con los datos e identifique los valores atípicos:

0,5; 0,7; 1,1; 1,2; 1,2; 1,3; 1,3; 1,5; 1,5; 1,7; 1,7; 1,8; 1,9; 2,0; 2,2; 2,5; 2,6; 2,8; 2,8; 2,8; 3,5; 3,8; 4,4; 4,8; 4,9; 5,2; 5,5; 5,7; 5,8; 8,0

Ejemplo 2.3

translation missing: es.problem

El diagrama de tallo y hoja bilateral permite comparar los dos conjuntos de datos en dos columnas. En el diagrama de tallo y hoja bilateral dos conjuntos de hojas comparten el mismo tallo. Las hojas están a la izquierda y a la derecha de los tallos. La Tabla 2.4 y la Tabla 2.5 muestran las edades de los presidentes en su investidura y al momento de su muerte. Construya un diagrama de tallo y hoja bilateral utilizando estos datos.

PresidenteEdadPresidenteEdadPresidenteEdad
Washington57Lincoln52Hoover54
J. Adams61A. Johnson56F. Roosevelt51
Jefferson57Grant46Truman60
Madison57Hayes54Eisenhower62
Monroe58Garfield49Kennedy43
J. Q. Adams57Arthur51L. Johnson55
Jackson61Cleveland47Nixon56
Van Buren54B. Harrison55Ford61
W. H. Harrison68Cleveland55Carter52
Tyler51McKinley54Reagan69
Polk49T. Roosevelt42G. H. W. Bush64
Taylor64Taft51Clinton47
Fillmore50Wilson56G. W. Bush54
Pierce48Harding55Obama47
Buchanan65Coolidge51
Tabla 2.4 Edades de los presidentes en su investidura
PresidenteEdadPresidenteEdadPresidenteEdad
Washington67Lincoln56Hoover90
J. Adams90A. Johnson66F. Roosevelt63
Jefferson83Grant63Truman88
Madison85Hayes70Eisenhower78
Monroe73Garfield49Kennedy46
J. Q. Adams80Arthur56L. Johnson64
Jackson78Cleveland71Nixon81
Van Buren79B. Harrison67Ford93
W. H. Harrison68Cleveland71Reagan93
Tyler71McKinley58
Polk53T. Roosevelt60
Taylor65Taft72
Fillmore74Wilson67
Pierce64Harding57
Buchanan77Coolidge60
Tabla 2.5 Edad del presidente al momento de su muerte

Otro tipo de gráfico que resulta útil para valores de datos específicos es el gráfico de líneas. En el gráfico de líneas en particular que se muestra en el Ejemplo 2.4, el eje x (eje horizontal) está formado por los valores de los datos y el eje y (eje vertical) por puntos de frecuencia. Los puntos de frecuencia se conectan mediante segmentos de la línea.

Ejemplo 2.4

En una encuesta, se preguntó a 40 madres cuántas veces a la semana hay que recordarle a un adolescente que haga sus tareas. Los resultados se muestran en la Tabla 2.6 y en la Figura 2.2.

Número de veces que se le recuerda al adolescente Frecuencia
02
15
28
314
47
54
Tabla 2.6
Un gráfico de líneas que muestra en el eje x el número de veces que hay que recordarle a un adolescente que haga las tareas y en el eje y la frecuencia.
Figura 2.2

Inténtelo 2.4

En una encuesta, se preguntó a 40 personas cuántas veces al año llevaban su automóvil al taller para repararlo. Los resultados se muestran en la Tabla 2.7. Construya un gráfico de líneas.

Número de veces en el tallerFrecuencia
07
110
214
39
Tabla 2.7

Los gráficos de barras están formados por barras separadas entre sí. Las barras pueden ser rectángulos o recuadros rectangulares (usados en representaciones tridimensionales), y pueden ser verticales u horizontales. El gráfico de barras que se muestra en el Ejemplo 2.5 tiene los grupos de edad representados en el eje x y las proporciones en el eje y.

Ejemplo 2.5

translation missing: es.problem

A finales de 2011, Facebook tenía más de 146 millones de usuarios en Estados Unidos. La Tabla 2.8 muestra tres grupos de edad, el número de usuarios en cada grupo de edad y la proporción (%) de usuarios en cada grupo de edad. Construya un gráfico de barras con estos datos.

Grupos de edad Número de usuarios de Facebook Proporción (%) de usuarios de Facebook
13-25 65.082.280 45 %
26-44 53.300.200 36 %
45-64 27.885.100 19 %
Tabla 2.8

Inténtelo 2.5

La población de Park City se compone de niños, adultos en edad de trabajar y jubilados. La Tabla 2.9 muestra los tres grupos de edad, el número de personas de cada grupo en la ciudad y la proporción (%) de personas en cada grupo de edad. Construya un gráfico de barras que muestre las proporciones.

Grupos de edadNúmero de personasProporción de la población
Niños 67.059 19 %
Adultos en edad de trabajar 152.198 43 %
Jubilados 131.662 38 %
Tabla 2.9

Ejemplo 2.6

translation missing: es.problem

Las columnas de la Tabla 2.10 contienen la raza o el origen étnico de los estudiantes de escuelas públicas de EE. UU. para la clase de 2011, los porcentajes para la población examinada de Colocación Avanzada para esa clase y los porcentajes para la población estudiantil en general. Cree un gráfico de barras con la raza o el origen étnico de los estudiantes (datos cualitativos) en el eje x y los porcentajes de la población de examinados de Colocación Avanzada en el eje y.

Raza/etnia Población examinada de AP Población estudiantil total
1 = asiático, asiático americano o isleño del Pacífico 10,3 % 5,7 %
2 = negro o afroamericano 9,0 % 14,7 %
3 = hispano o latino 17,0 % 17,6 %
4 = amerindio o nativo de Alaska 0,6 % 1,1 %
5 = blanco 57,1 % 59,2 %
6 = no informado/otro 6,0 % 1,7%
Tabla 2.10

Inténtelo 2.6

Park City se divide en seis distritos electorales. La tabla muestra el porcentaje de la población total de votantes registrados que vive en cada distrito, así como el porcentaje total de la población entera que vive en cada distrito. Construya un gráfico de barras que muestre la población de votantes registrados por distrito.

DistritoPoblación de votantes registradosPoblación total de la ciudad
115,5 %19,4 %
212,2 %15,6 %
39,8 %9,0 %
417,4 %18,5 %
522,8 %20,7 %
622,3 %16,8 %
Tabla 2.11

Ejemplo 2.7

translation missing: es.problem

A continuación, se presenta una tabla de dos vías que muestra los tipos de mascotas que poseen los hombres y las mujeres:

Perros Gatos Peces Total
Hombres 4 2 2 8
Mujeres 4 6 2 12
Total 8 8 4 20
Tabla 2.12

Dados estos datos, calcule las distribuciones condicionales para la subpoblación de hombres que poseen cada tipo de mascota.

Histogramas, polígonos de frecuencia y gráficos de series temporales

Para la mayor parte del trabajo que se realiza en este libro se utilizará un histograma para mostrar los datos. Una de las ventajas de un histograma es que puede mostrar fácilmente grandes conjuntos de datos. Una regla general es utilizar un histograma cuando el conjunto de datos consta de 100 valores o más.

Un histograma está formado por recuadros contiguos (adyacentes). Tiene un eje horizontal y otro vertical. El eje horizontal está identificado con lo que representan los datos (por ejemplo, la distancia de su casa a la escuela). El eje vertical está identificado como frecuencia o frecuencia relativa (o porcentaje de frecuencia o probabilidad). El gráfico tendrá la misma forma con cualquiera de las dos etiquetas. El histograma (al igual que el diagrama de tallo) puede darle la forma de los datos, el centro y la dispersión de los datos.

La frecuencia relativa es igual a la frecuencia de un valor observado de los datos dividida entre el número total de valores de los datos en la muestra. (Recuerde que la frecuencia se define como el número de veces que se produce una respuesta). Si:

  • f = frecuencia
  • n = número total de valores de datos (o la suma de las frecuencias individuales) y
  • RF = frecuencia relativa,

entonces:

RF = e n RF = e n

Por ejemplo, si tres estudiantes de la clase de Inglés del Sr. Ahab compuesta por 40 estudiantes obtuvieron del 90 % al 100 %, entonces, f = 3, n = 40 y RF = enen = 340340 = 0,075. El 7,5 % de los estudiantes obtuvieron del 90 % al 100 %. Del 90 % al 100 % son medidas cuantitativas.

Para construir un histograma, primero hay que decidir cuántas barras o intervalos (también llamados clases) representan los datos. Muchos histogramas constan de cinco a 15 barras o clases para mayor claridad. Hay que elegir el número de barras. Elija un punto de partida para que el primer intervalo sea menor que el valor más pequeño de los datos. Un punto de partida conveniente es un valor inferior llevado a un decimal más que el valor con más decimales. Por ejemplo, si el valor con más decimales es 6,1 y este es el valor más pequeño, un punto de partida conveniente es 6,05 (6,1 – 0,05 = 6,05). Decimos que 6,05 tiene más precisión. Si el valor con más decimales es 2,23 y el valor más bajo es 1,5, un punto de partida conveniente es 1,495 (1,5 – 0,005 = 1,495). Si el valor con más decimales es 3,234 y el valor más bajo es 1,0, un punto de partida conveniente es 0,9995 (1,0 – 0,0005 = 0,9995). Si todos los datos son enteros y el valor más pequeño es dos, un punto de partida conveniente es 1,5 (2 – 0,5 = 1,5). Además, cuando el punto de partida y otros límites se llevan a un decimal adicional, ningún valor de los datos caerá en un límite. Los dos siguientes ejemplos detallan cómo construir un histograma utilizando datos continuos y cómo crear un histograma utilizando datos discretos.

Ejemplo 2.8

Los siguientes datos son las estaturas (en pulgadas con una aproximación de media pulgada) de 100 jugadores hombres de fútbol semiprofesional. Las alturas son datos continuos, ya que la altura se mide.
60; 60,5; 61; 61; 61,5
63,5; 63,5; 63,5
64; 64; 64; 64; 64; 64; 64; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5
66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67,5; 67,5; 67,5; 67,5; 67,5; 67,5; 67,5
68; 68; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69,5; 69,5; 69,5; 69,5; 69,5
70; 70; 70; 70; 70; 70; 70,5; 70,5; 70,5; 71; 71; 71
72; 72; 72; 72,5; 72,5; 73; 73,5
74

El valor de datos más pequeño es 60. Como los datos con más decimales tienen un decimal (por ejemplo, 61,5), queremos que nuestro punto de partida tenga dos decimales. Dado que los números 0,5, 0,05, 0,005, etc. son números convenientes, utilice 0,05 y réstelo a 60, el valor más pequeño, para el punto de partida conveniente.

60 – 0,05 = 59,95 que es más preciso que, por ejemplo, 61,5 por un decimal. El punto de partida es, pues, 59,95.

El valor mayor es 74, por lo que 74 + 0,05 = 74,05 es el valor final.

Luego, calcule el ancho de cada barra o intervalo de clase. Para calcular este ancho, reste el punto inicial del valor final y divídalo entre el número de barras (debe elegir el número de barras que desee). Suponga que elige ocho barras.

74,0559,958=1,76 74,05 59,95 8 1,76

NOTA

Redondearemos a dos y haremos que cada barra o intervalo de clase tenga dos unidades de ancho. Redondear a dos es una forma de evitar que un valor caiga en un límite. El redondeo al número siguiente es a menudo necesario, incluso si va en contra de las reglas estándar de redondeo. Para este ejemplo, utilizar 1,76 como ancho también funcionaría. Una pauta que siguen algunos para el ancho de una barra o intervalo de clase es tomar la raíz cuadrada del número de valores de los datos y luego redondear al número entero más cercano, si es necesario. Por ejemplo, si hay 150 valores de datos, tome la raíz cuadrada de 150 y redondee a 12 barras o intervalos.

Los límites son:

  • 59,95
  • 59,95 + 2 = 61,95
  • 61,95 + 2 = 63,95
  • 63,95 + 2 = 65,95
  • 65,95 + 2 = 67,95
  • 67,95 + 2 = 69,95
  • 69,95 + 2 = 71,95
  • 71,95 + 2 = 73,95
  • 73,95 + 2 = 75,95

Las alturas de 60 a 61,5 pulgadas están en el intervalo de 59,95 a 61,95. Las alturas que son 63,5 están en el intervalo de 61,95 a 63,95. Las alturas que van de 64 a 64,5 están en el intervalo de 63,95 a 65,95. Las alturas de 66 a 67,5 están en el intervalo de 65,95 a 67,95. Las alturas de 68 a 69,5 están en el intervalo de 67,95 a 69,95. Las alturas de 70 a 71 están en el intervalo de 69,95 a 71,95. Las alturas de 72 a 73,5 están en el intervalo de 71,95 a 73,95. La altura 74 está en el intervalo de 73,95 a 75,95.

El siguiente histograma muestra las alturas en el eje x y la frecuencia relativa en el eje y.

El histograma consta de 8 barras con el eje y en incrementos de 0,05 desde 0 hasta 0,4 y el eje x en intervalos de 2 desde 59,95 hasta 75,95.
Figura 2.5

Inténtelo 2.8

Los siguientes datos son las tallas de los zapatos de 50 estudiantes hombres. Las tallas son datos continuos ya que se mide la talla de zapato. Construya un histograma y calcule el ancho de cada barra o intervalo de clase. Suponga que elige seis barras.
9; 9; 9,5; 9,5; 10; 10; 10; 10; 10; 10; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5
11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11,5; 11,5; 11,5; 11,5; 11,5; 11,5; 11,5
12; 12; 12; 12; 12; 12; 12; 12,5; 12,5; 12,5; 12,5; 14

Ejemplo 2.9

Cree un histograma para los siguientes datos: el número de libros comprados por 50 estudiantes universitarios a tiempo parcial en el ABC College. El número de libros es un dato discreto, ya que los libros se cuentan.
1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1
2; 2; 2; 2; 2; 2; 2; 2; 2; 2
3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3
4; 4; 4; 4; 4; 4
5; 5; 5; 5; 5
6; 6

Once estudiantes compran un libro. Diez estudiantes compran dos libros. Dieciséis estudiantes compran tres libros. Seis estudiantes compran cuatro libros. Cinco estudiantes compran cinco libros. Dos estudiantes compran seis libros.

Como los datos son enteros, reste 0,5 a 1, el valor más pequeño de los datos, y sume 0,5 a 6, el valor más grande de los datos. Entonces el punto de partida es 0,5 y el valor final es 6,5.

translation missing: es.problem

Luego, calcule el ancho de cada barra o intervalo de clase. Si los datos son discretos y no hay demasiados valores diferentes, lo más conveniente es un ancho que sitúe los valores de los datos en el centro del intervalo de barras o clases. Dado que los datos consisten en los números 1, 2, 3, 4, 5, 6, y el punto de partida es 0,5, un ancho de uno sitúa el 1 en el centro del intervalo de 0,5 a 1,5, el 2 en el centro del intervalo de 1,5 a 2,5, el 3 en el centro del intervalo de 2,5 a 3,5, el 4 en el centro del intervalo de _______ a _______, el 5 en el centro del intervalo de _______ a _______ y el _______ en el centro del intervalo de _______ a _______.

Calcule el número de barras de la siguiente manera:

6,50,5número de barras=1 6,5 0,5 número de barras 1

donde 1 es el ancho de una barra. Por lo tanto, barras = 6.

El siguiente histograma muestra el número de libros en el eje xy la frecuencia en el eje y.

El histograma consta de 6 barras con el eje y en incrementos de 2 de 0 a 16 y el eje x en intervalos de 1 de 0,5 a 6,5.
Figura 2.6

Ejemplo 2.10

translation missing: es.problem

Con este conjunto de datos construya un histograma.

Número de horas que mis compañeros de clase pasan jugando videojuegos los fines de semana
9,95 10 2,25 16,75 0
19,5 22,5 7,5 15 12,75
5,5 11 10 20,75 17,5
23 21,9 24 23,75 18
20 15 22,9 18,8 20,5
Tabla 2.13

Polígonos de frecuencia

Los polígonos de frecuencias son análogos a los gráficos de líneas y, al igual que los gráficos de líneas facilitan la interpretación visual de los datos continuos, también lo hacen los polígonos de frecuencias.

Para construir un polígono de frecuencias, primero hay que examinar los datos y decidir el número de intervalos, o intervalos de clase, que se van a utilizar en los ejes x y y. Después de elegir los rangos apropiados, comience a trazar los puntos de datos. Después de trazar todos los puntos, dibuje segmentos de línea para conectarlos.

Ejemplo 2.11

Se construyó un polígono de frecuencias a partir de la tabla de frecuencias que aparece a continuación.

Distribución de frecuencias de las calificaciones del examen final de Cálculo
Límite inferiorLímite superior FrecuenciaFrecuencia acumulada
49,5 59,555
59,569,51015
69,579,5 3045
79,589,54085
89,599,515100
Tabla 2.14
Se construyó un polígono de frecuencias a partir de la tabla de frecuencias que aparece a continuación.
Figura 2.8

La primera etiqueta del eje x es 44,5. Esto representa un intervalo que va de 39,5 a 49,5. Dado que la calificación más baja de la prueba es 54,5, este intervalo se utiliza solo para permitir que el gráfico toque el eje x. El punto identificado como 54,5 representa el siguiente intervalo, o el primer intervalo “real” de la tabla, y contiene cinco calificaciones. Este razonamiento se sigue para cada uno de los intervalos restantes, con el punto 104,5 que representa el intervalo de 99,5 a 109,5. De nuevo, este intervalo no contiene datos y solo se utiliza para que el gráfico toque el eje x. Observando el gráfico, decimos que esta distribución está distorsionada porque un lado del gráfico no es un espejo del otro.

Inténtelo 2.11

Construya un polígono de frecuencias de las edades de los presidentes de EE. UU. en el momento de la investidura que se muestra en la Tabla 2.15.

Edad en el momento de la investiduraFrecuencia
41,5-46,54
46,5-51,511
51,5-56,514
56,5-61,59
61,5-66,54
66,5-71,52
Tabla 2.15

Los polígonos de frecuencia son útiles para comparar distribuciones. Esto se consigue superponiendo los polígonos de frecuencia dibujados para diferentes conjuntos de datos.

Ejemplo 2.12

Construiremos un polígono de frecuencias superpuestas comparando las calificaciones del Ejemplo 2.11 con la nota numérica final de los estudiantes.

Distribución de frecuencias de las calificaciones del examen final de Cálculo
Límite inferiorLímite superior FrecuenciaFrecuencia acumulada
49,559,55 5
59,569,510 15
69,579,530 45
79,589,540 85
89,599,515 100
Tabla 2.16
Distribución de frecuencias de las notas finales de Cálculo
Límite inferior Límite superior FrecuenciaFrecuencia acumulada
49,559,510 10
59,569,510 20
69,579,530 50
79,589,545 95
89,599,55 100
Tabla 2.17
Este es un polígono de frecuencia superpuesto que coincide con los datos suministrados. El eje x muestra las notas y el eje y muestra la frecuencia.
Figura 2.9

Construcción de un gráfico de series temporales

Supongamos que queremos estudiar el rango de temperaturas de una región durante todo un mes. Todos los días a mediodía anotamos la temperatura y la anotamos en un registro. Con estos datos se podrían realizar diversos estudios estadísticos. Podemos hallar la media o la mediana de la temperatura del mes. Podemos construir un histograma que muestre el número de días en que las temperaturas alcanzan un determinado rango de valores. Sin embargo, todos estos métodos ignoran una parte de los datos que hemos recopilado.

Una característica de los datos que podemos considerar es la del tiempo. Dado que cada fecha se empareja con la lectura de la temperatura del día, no tenemos que pensar que los datos son aleatorios. En cambio, podemos utilizar los tiempos indicados para imponer un orden cronológico a los datos. Un gráfico que reconoce esta ordenación y muestra la evolución de la temperatura a medida que avanza el mes se denomina gráfico de series temporales.

Para construir un gráfico de series temporales debemos observar las dos partes de nuestro conjunto de datos emparejados. Comenzamos con un sistema de coordenadas cartesianas estándar. El eje horizontal se utiliza para trazar la fecha o los incrementos de tiempo, y el eje vertical se utiliza para trazar los valores de la variable que estamos midiendo. De este modo, hacemos que cada punto del gráfico corresponda a una fecha y a una cantidad medida. Los puntos del gráfico suelen estar conectados por líneas rectas en el orden en que se producen.

Ejemplo 2.13

translation missing: es.problem

Los siguientes datos muestran el Índice de Precios del Consumidor (IPC) Anual, cada mes, durante diez años. Construya un gráfico de series temporales solo para los datos del Índice de Precios del Consumidor Anual.

AñoEneFebMarAbrMayJunJul
2003 181,7183,1184,2183,8 183,5183,7183,9
2004 185,2186,2187,4188,0 189,1189,7189,4
2005 190,7191,8193,3194,6 194,4194,5195,4
2006 198,3198,7199,8201,5 202,5202,9203,5
2007 202,416203,499205,352 206,686207,949208,352 208,299
2008 211,080211,693213,528 214,823216,632218,815 219,964
2009 211,143212,193212,709 213,240213,856215,693 215,351
2010 216,687216,741217,631 218,009218,178217,965 218,011
2011 220,223221,309223,467 224,906225,964225,722 225,922
2012 226,665227,663229,392 230,085229,815229,478 229,104
Tabla 2.18
Año AgoSepOctNovDicAnual
2003 184,6 185,2185,0184,5184,3 184,0
2004 189,5 189,9190,9191,0190,3 188,9
2005 196,4 198,8199,2197,6196,8 195,3
2006 203,9 202,9201,8201,5201,8 201,6
2007 207,917208,490 208,936210,177210,036 207,342
2008 219,086218,783 216,573212,425210,228 215,303
2009 215,834215,969 216,177216,330215,949 214,537
2010 218,312218,439 218,711218,803219,179 218,056
2011 226,545226,889 226,421226,230225,672 224,939
2012 230,379231,407 231,317230,221229,601 229,594
Tabla 2.19

Inténtelo 2.13

La siguiente tabla es una parte de un conjunto de datos de www.worldbank.org. Utilice la tabla para construir un gráfico de la serie temporal de las emisiones de CO2 de Estados Unidos.

Emisiones de CO2
Año Ucrania Reino Unido Estados Unidos
2003 352.259 540.640 5.681.664
2004 343.121 540.409 5.790.761
2005 339.029 541.990 5.826.394
2006 327.797 542.045 5.737.615
2007 328.357 528.631 5.828.697
2008 323.657 522.247 5.656.839
2009 272.176 474.579 5.299.563
Tabla 2.20

Usos de un gráfico de series temporales

Los gráficos de series temporales son herramientas importantes en diversas aplicaciones de la estadística. Cuando se registran los valores de una misma variable durante un largo periodo, a veces, es difícil discernir cualquier tendencia o patrón. Sin embargo, una vez que los mismos puntos de datos se muestran gráficamente, algunas características saltan a la vista. Los gráficos de series temporales facilitan la detección de tendencias.

Cómo NO mentir con las estadísticas

Es importante recordar que la razón por la que desarrollamos una variedad de métodos para presentar los datos es para comprender el tema de lo que las observaciones representan. Queremos tener una "sensación" de los datos. ¿Las observaciones son todas muy parecidas o están repartidas en un amplio rango de valores, están agrupadas en un extremo del espectro o están distribuidas uniformemente, etc.? Intentamos obtener una representación visual de los datos numéricos. En breve desarrollaremos medidas matemáticas formales de los datos, pero nuestra presentación gráfica visual puede decir mucho. Desgraciadamente, también puede decir muchas cosas que distraen, confunden y simplemente son erróneas en cuanto a la impresión que lo visual deja. Hace muchos años, Darrell Huff escribió el libro How to Lie with Statistics [Cómo mentir con estadísticas]. Ha tenido más de 25 ediciones y ha vendido más de un millón y medio de ejemplares. Su perspectiva era dura y utilizaba muchos ejemplos reales destinados a engañar. Quería hacer que la gente fuera consciente de ese engaño, pero quizás lo más importante era educar para que otros no cometieran los mismos errores inadvertidamente.

De nuevo, el objetivo es ilustrar con imágenes que cuenten la historia de los datos. Los gráficos circulares tienen una serie de problemas comunes cuando se utilizan para transmitir el mensaje de los datos. Demasiados trozos del pastel abruman al lector. Más de quizás cinco o seis categorías deberían dar una idea de la importancia relativa de cada trozo. Al fin y al cabo, este es el objetivo de un gráfico circular: qué subconjunto importa más en relación con los demás. Si hay más componentes que esto, tal vez sea mejor un enfoque alternativo o tal vez algunos puedan consolidarse en una categoría "otros". Los gráficos circulares no pueden mostrar los cambios a lo largo del tiempo, aunque vemos que esto se intenta con demasiada frecuencia. En los documentos financieros federales, estatales y municipales se suelen presentar gráficos circulares para mostrar los componentes de los ingresos de los que dispone el órgano de gobierno para su consignación: impuesto sobre la renta, impuesto sobre las ventas, impuestos sobre los vehículos de motor, etc. En sí misma es una información interesante y se puede hacer muy bien con un gráfico circular. El error se produce cuando se ponen dos años uno al lado del otro. Como los ingresos totales cambian de un año a otro, pero el tamaño del pastel es fijo, no se proporciona ninguna información real y no se puede comparar de forma significativa el tamaño relativo de cada trozo del pastel.

Los histogramas pueden ser muy útiles para entender los datos. Si se presentan correctamente, pueden ser una forma visual rápida de presentar las probabilidades de las diferentes categorías mediante la simple visualización de la comparación de las áreas relativas en cada categoría. Aquí el error, intencionado o no, es variar la amplitud de las categorías. Por supuesto, esto hace imposible la comparación con las demás categorías. Adorna la importancia de la categoría con un ancho ampliado porque tiene un área mayor, de forma inapropiada, y así "dice" visualmente que esa categoría tiene una mayor probabilidad de ocurrencia.

Los gráficos de series temporales tal vez sean de los que más se abusa. Un gráfico de alguna variable a lo largo del tiempo nunca debe presentarse en ejes que cambien en parte de la página, ya sea en la dimensión vertical u horizontal. Tal vez se cambie el marco temporal de años a meses. Probablemente esto se haga para ahorrar espacio o porque los datos mensuales no estaban disponibles para los primeros años. En cualquier caso, esto confunde la presentación y destruye cualquier valor del gráfico. Si esto no se hace para confundir a propósito al lector, entonces ciertamente es un trabajo perezoso o descuidado.

Cambiar las unidades de medida del eje puede suavizar o acentuar una caída. Si quiere mostrar grandes cambios, mida la variable en unidades pequeñas, centavos en lugar de miles de dólares. Y, por supuesto, para continuar con el fraude, asegúrese de que el eje no comienza en cero, cero. Si comienza en cero, cero entonces se hace evidente que el eje ha sido manipulado.

Tal vez tenga un cliente al que le preocupa la volatilidad de la cartera que usted gestiona. Una forma fácil de presentar los datos es utilizar periodos largos en el gráfico de la serie temporal. Utilice meses o, mejor, trimestres en lugar de datos diarios o semanales. Si eso no consigue reducir la volatilidad, entonces separe el eje temporal en relación con el eje de la tasa de rendimiento o de la valoración de la cartera. Si quiere mostrar un crecimiento dramático "rápido", entonces reduzca el eje temporal. Cualquier crecimiento positivo mostrará tasas de crecimiento visualmente "altas". Tenga en cuenta que si el crecimiento es negativo, este truco mostrará que la cartera se está hundiendo a un ritmo dramático.

Una vez más, el objetivo de la Estadística Descriptiva es transmitir imágenes significativas que cuenten la historia de los datos. La manipulación intencionada es un fraude y una falta de ética en el peor de los casos, pero incluso en el mejor, cometer este tipo de errores llevará a la confusión del análisis.

Solicitar una copia impresa

As an Amazon Associate we earn from qualifying purchases.

Cita/Atribución

¿Desea citar, compartir o modificar este libro? Este libro utiliza la Creative Commons Attribution License y debe atribuir a OpenStax.

Información de atribución
  • Si redistribuye todo o parte de este libro en formato impreso, debe incluir en cada página física la siguiente atribución:
    Acceso gratis en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-empresarial/pages/1-introduccion
  • Si redistribuye todo o parte de este libro en formato digital, debe incluir en cada vista de la página digital la siguiente atribución:
    Acceso gratuito en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-empresarial/pages/1-introduccion
Información sobre citas

© 28 ene. 2022 OpenStax. El contenido de los libros de texto que produce OpenStax tiene una licencia de Creative Commons Attribution License . El nombre de OpenStax, el logotipo de OpenStax, las portadas de libros de OpenStax, el nombre de OpenStax CNX y el logotipo de OpenStax CNX no están sujetos a la licencia de Creative Commons y no se pueden reproducir sin el previo y expreso consentimiento por escrito de Rice University.