Alexander Holmes; Barbara Illowsky; Susan Dean

2.1 Datos mostrados

Gráficos de tallo y hoja (gráfico de tallo), gráficos de líneas y gráficos de barras

Un gráfico sencillo, el gráfico de tallo y hoja o gráfico de tallo, procede del campo del análisis exploratorio de datos. Es una buena opción cuando los conjuntos de datos son pequeños. Para crear el gráfico, divida cada observación de datos en un tallo y una hoja. La hoja consta de un último dígito significativo. Por ejemplo, 23 tiene el tallo dos y la hoja tres. El número 432 tiene el tallo 43 y la hoja dos. Asimismo, el número 5.432 tiene el tallo 543 y la hoja dos. El decimal 9,3 tiene el tallo nueve y la hoja tres. Escriba los tallos en una línea vertical de menor a mayor. Dibuje una línea vertical a la derecha de los tallos. Luego, escriba las hojas en orden creciente junto a su correspondiente tallo.

Ejemplo 2.1

En la clase de Precálculo de primavera de Susan Dean las calificaciones del primer examen fueron las siguientes (de menor a mayor):
33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 96; 100

Tallo	Hoja
3	3
4	2 9 9
5	3 5 5
6	1 3 7 8 8 9 9
7	2 3 4 8
8	0 3 8 8 8
9	0 2 4 4 4 4 6
10	0

Tabla 2.1 Gráfico de tallo y hoja

El gráfico de tallo muestra que la mayoría de las calificaciones fueron de 60, 70, 80 y 90. Ocho de las 31 calificaciones, es decir, aproximadamente el 26 % $(\frac{8}{31})$ estaban en los 90 o 100, un número bastante alto de calificaciones con A.

Inténtelo 2.1

Para el equipo de baloncesto de Park City los resultados de los últimos 30 partidos fueron los siguientes (de menor a mayor):
32; 32; 33; 34; 38; 40; 42; 42; 43; 44; 46; 47; 47; 48; 48; 48; 49; 50; 50; 51; 52; 52; 52; 53; 54; 56; 57; 57; 60; 61
Construya un diagrama de tallo para los datos.

El diagrama de tallo es una forma rápida de representar datos gráficamente y ofrece una imagen exacta de la información. Hay que buscar un patrón general y los valores atípicos. Un valor atípico es una observación de datos que no se ajusta al resto de los datos. A veces se le llama valor extremo. Cuando grafique un valor atípico parecerá que no se ajusta al patrón del gráfico. Algunos valores atípicos se deben a errores (por ejemplo, anotar 50 en vez de 500), mientras que otros pueden indicar que está ocurriendo algo inusual. Para explicar los valores atípicos se necesita información de fondo, por lo que los trataremos con más detalle más adelante.

Ejemplo 2.2

Los datos son las distancias (en kilómetros) de un hogar a supermercados locales. Cree un diagrama de tallo con los datos:
1,1; 1,5; 2,3; 2,5; 2,7; 3,2; 3,3; 3,3; 3,5; 3,8; 4,0; 4,2; 4,5; 4,5; 4,7; 4,8; 5,5; 5,6; 6,5; 6,7; 12,3

Translation missing: es.problem

¿Los datos parecen tener alguna concentración de valores?

NOTA

Las hojas están a la derecha del decimal.

Solución

El valor 12,3 puede ser un valor atípico. Los valores parecen concentrarse en los tres y cuatro kilómetros.

Tallo	Hoja
1	1 5
2	3 5 7
3	2 3 3 5 8
4	0 2 5 5 7 8
5	5 6
6	5 7
7
8
9
10
11
12	3

Tabla 2.2

Inténtelo 2.2

Los siguientes datos muestran las distancias (en millas) desde los hogares de los estudiantes de Estadística fuera del campus hasta el instituto universitario. Cree un diagrama de tallo con los datos e identifique los valores atípicos:

0,5; 0,7; 1,1; 1,2; 1,2; 1,3; 1,3; 1,5; 1,5; 1,7; 1,7; 1,8; 1,9; 2,0; 2,2; 2,5; 2,6; 2,8; 2,8; 2,8; 3,5; 3,8; 4,4; 4,8; 4,9; 5,2; 5,5; 5,7; 5,8; 8,0

Ejemplo 2.3

Translation missing: es.problem

El diagrama de tallo y hoja bilateral permite comparar los dos conjuntos de datos en dos columnas. En el diagrama de tallo y hoja bilateral dos conjuntos de hojas comparten el mismo tallo. Las hojas están a la izquierda y a la derecha de los tallos. La Tabla 2.4 y la Tabla 2.5 muestran las edades de los presidentes en su investidura y al momento de su muerte. Construya un diagrama de tallo y hoja bilateral utilizando estos datos.

Solución

Edades en la investidura		Edades al momento de la muerte
9 9 8 7 7 7 6 3 2	4	6 9
8 7 7 7 7 6 6 6 5 5 5 5 4 4 4 4 4 2 2 1 1 1 1 1 0	5	3 6 6 7 7 8
9 8 5 4 4 2 1 1 1 0	6	0 0 3 3 4 4 5 6 7 7 7 8
	7	0 0 1 1 1 4 7 8 8 9
	8	0 1 3 5 8
	9	0 0 3 3

Tabla 2.3

Presidente	Edad	Presidente	Edad	Presidente	Edad
Washington	57	Lincoln	52	Hoover	54
J. Adams	61	A. Johnson	56	F. Roosevelt	51
Jefferson	57	Grant	46	Truman	60
Madison	57	Hayes	54	Eisenhower	62
Monroe	58	Garfield	49	Kennedy	43
J. Q. Adams	57	Arthur	51	L. Johnson	55
Jackson	61	Cleveland	47	Nixon	56
Van Buren	54	B. Harrison	55	Ford	61
W. H. Harrison	68	Cleveland	55	Carter	52
Tyler	51	McKinley	54	Reagan	69
Polk	49	T. Roosevelt	42	G. H. W. Bush	64
Taylor	64	Taft	51	Clinton	47
Fillmore	50	Wilson	56	G. W. Bush	54
Pierce	48	Harding	55	Obama	47
Buchanan	65	Coolidge	51

Tabla 2.4 Edades de los presidentes en su investidura

Presidente	Edad	Presidente	Edad	Presidente	Edad
Washington	67	Lincoln	56	Hoover	90
J. Adams	90	A. Johnson	66	F. Roosevelt	63
Jefferson	83	Grant	63	Truman	88
Madison	85	Hayes	70	Eisenhower	78
Monroe	73	Garfield	49	Kennedy	46
J. Q. Adams	80	Arthur	56	L. Johnson	64
Jackson	78	Cleveland	71	Nixon	81
Van Buren	79	B. Harrison	67	Ford	93
W. H. Harrison	68	Cleveland	71	Reagan	93
Tyler	71	McKinley	58
Polk	53	T. Roosevelt	60
Taylor	65	Taft	72
Fillmore	74	Wilson	67
Pierce	64	Harding	57
Buchanan	77	Coolidge	60

Tabla 2.5 Edad del presidente al momento de su muerte

Otro tipo de gráfico que resulta útil para valores de datos específicos es el gráfico de líneas. En el gráfico de líneas en particular que se muestra en el Ejemplo 2.4, el eje x (eje horizontal) está formado por los valores de los datos y el eje y (eje vertical) por puntos de frecuencia. Los puntos de frecuencia se conectan mediante segmentos de la línea.

Ejemplo 2.4

En una encuesta, se preguntó a 40 madres cuántas veces a la semana hay que recordarle a un adolescente que haga sus tareas. Los resultados se muestran en la Tabla 2.6 y en la Figura 2.2.

Número de veces que se le recuerda al adolescente	Frecuencia
0	2
1	5
2	8
3	14
4	7
5	4

Tabla 2.6

Un gráfico de líneas que muestra en el eje x el número de veces que hay que recordarle a un adolescente que haga las tareas y en el eje y la frecuencia. — Figura 2.2

Inténtelo 2.4

En una encuesta, se preguntó a 40 personas cuántas veces al año llevaban su automóvil al taller para repararlo. Los resultados se muestran en la Tabla 2.7. Construya un gráfico de líneas.

Número de veces en el taller	Frecuencia
0	7
1	10
2	14
3	9

Tabla 2.7

Los gráficos de barras están formados por barras separadas entre sí. Las barras pueden ser rectángulos o recuadros rectangulares (usados en representaciones tridimensionales), y pueden ser verticales u horizontales. El gráfico de barras que se muestra en el Ejemplo 2.5 tiene los grupos de edad representados en el eje x y las proporciones en el eje y.

Ejemplo 2.5

Translation missing: es.problem

A finales de 2011, Facebook tenía más de 146 millones de usuarios en Estados Unidos. La Tabla 2.8 muestra tres grupos de edad, el número de usuarios en cada grupo de edad y la proporción (%) de usuarios en cada grupo de edad. Construya un gráfico de barras con estos datos.

Grupos de edad	Número de usuarios de Facebook	Proporción (%) de usuarios de Facebook
13-25	65.082.280	45 %
26-44	53.300.200	36 %
45-64	27.885.100	19 %

Tabla 2.8

Solución

Este es un gráfico de barras que coincide con los datos suministrados. El eje x muestra los grupos de edad y el eje y los porcentajes de usuarios de Facebook. — Figura 2.3

Inténtelo 2.5

La población de Park City se compone de niños, adultos en edad de trabajar y jubilados. La Tabla 2.9 muestra los tres grupos de edad, el número de personas de cada grupo en la ciudad y la proporción (%) de personas en cada grupo de edad. Construya un gráfico de barras que muestre las proporciones.

Grupos de edad	Número de personas	Proporción de la población
Niños	67.059	19 %
Adultos en edad de trabajar	152.198	43 %
Jubilados	131.662	38 %

Tabla 2.9

Ejemplo 2.6

Translation missing: es.problem

Las columnas de la Tabla 2.10 contienen la raza o el origen étnico de los estudiantes de escuelas públicas de EE. UU. para la clase de 2011, los porcentajes para la población examinada de Colocación Avanzada para esa clase y los porcentajes para la población estudiantil en general. Cree un gráfico de barras con la raza o el origen étnico de los estudiantes (datos cualitativos) en el eje x y los porcentajes de la población de examinados de Colocación Avanzada en el eje y.

Raza/etnia	Población examinada de AP	Población estudiantil total
1 = asiático, asiático americano o isleño del Pacífico	10,3 %	5,7 %
2 = negro o afroamericano	9,0 %	14,7 %
3 = hispano o latino	17,0 %	17,6 %
4 = amerindio o nativo de Alaska	0,6 %	1,1 %
5 = blanco	57,1 %	59,2 %
6 = no informado/otro	6,0 %	1,7%

Tabla 2.10

Solución

Este es un gráfico de barras que coincide con los datos suministrados. El eje x muestra la raza y la etnia y el eje y los porcentajes de examinados de AP. — Figura 2.4

Inténtelo 2.6

Park City se divide en seis distritos electorales. La tabla muestra el porcentaje de la población total de votantes registrados que vive en cada distrito, así como el porcentaje total de la población entera que vive en cada distrito. Construya un gráfico de barras que muestre la población de votantes registrados por distrito.

Distrito	Población de votantes registrados	Población total de la ciudad
1	15,5 %	19,4 %
2	12,2 %	15,6 %
3	9,8 %	9,0 %
4	17,4 %	18,5 %
5	22,8 %	20,7 %
6	22,3 %	16,8 %

Tabla 2.11

Ejemplo 2.7

Translation missing: es.problem

A continuación, se presenta una tabla de dos vías que muestra los tipos de mascotas que poseen los hombres y las mujeres:

Perros

Gatos

Peces

Total

Hombres

4

2

8

Mujeres

4

6

2

12

Total

8

4

20

Tabla 2.12

Dados estos datos, calcule las distribuciones condicionales para la subpoblación de hombres que poseen cada tipo de mascota.

Solución

Hombres que tienen perros = 4/8 = 0,5

Hombres que tienen gatos = 2/8 = 0,25

Hombres que tienen peces = 2/8 = 0,25

Nota: La suma de todas las distribuciones condicionales debe ser igual a uno. En este caso: 0,5 + 0,25 + 0,25 = 1; por lo tanto, la solución "se comprueba".

Histogramas, polígonos de frecuencia y gráficos de series temporales

Para la mayor parte del trabajo que se realiza en este libro se utilizará un histograma para mostrar los datos. Una de las ventajas de un histograma es que puede mostrar fácilmente grandes conjuntos de datos. Una regla general es utilizar un histograma cuando el conjunto de datos consta de 100 valores o más.

Un histograma está formado por recuadros contiguos (adyacentes). Tiene un eje horizontal y otro vertical. El eje horizontal está identificado con lo que representan los datos (por ejemplo, la distancia de su casa a la escuela). El eje vertical está identificado como frecuencia o frecuencia relativa (o porcentaje de frecuencia o probabilidad). El gráfico tendrá la misma forma con cualquiera de las dos etiquetas. El histograma (al igual que el diagrama de tallo) puede darle la forma de los datos, el centro y la dispersión de los datos.

La frecuencia relativa es igual a la frecuencia de un valor observado de los datos dividida entre el número total de valores de los datos en la muestra. (Recuerde que la frecuencia se define como el número de veces que se produce una respuesta). Si:

f = frecuencia
n = número total de valores de datos (o la suma de las frecuencias individuales) y
RF = frecuencia relativa,

entonces:

RF = \frac{e}{n}

Por ejemplo, si tres estudiantes de la clase de Inglés del Sr. Ahab compuesta por 40 estudiantes obtuvieron del 90 % al 100 %, entonces, f = 3, n = 40 y RF = $\frac{e}{n}$ = $\frac{3}{40}$ = 0,075. El 7,5 % de los estudiantes obtuvieron del 90 % al 100 %. Del 90 % al 100 % son medidas cuantitativas.

Para construir un histograma, primero hay que decidir cuántas barras o intervalos (también llamados clases) representan los datos. Muchos histogramas constan de cinco a 15 barras o clases para mayor claridad. Hay que elegir el número de barras. Elija un punto de partida para que el primer intervalo sea menor que el valor más pequeño de los datos. Un punto de partida conveniente es un valor inferior llevado a un decimal más que el valor con más decimales. Por ejemplo, si el valor con más decimales es 6,1 y este es el valor más pequeño, un punto de partida conveniente es 6,05 (6,1 – 0,05 = 6,05). Decimos que 6,05 tiene más precisión. Si el valor con más decimales es 2,23 y el valor más bajo es 1,5, un punto de partida conveniente es 1,495 (1,5 – 0,005 = 1,495). Si el valor con más decimales es 3,234 y el valor más bajo es 1,0, un punto de partida conveniente es 0,9995 (1,0 – 0,0005 = 0,9995). Si todos los datos son enteros y el valor más pequeño es dos, un punto de partida conveniente es 1,5 (2 – 0,5 = 1,5). Además, cuando el punto de partida y otros límites se llevan a un decimal adicional, ningún valor de los datos caerá en un límite. Los dos siguientes ejemplos detallan cómo construir un histograma utilizando datos continuos y cómo crear un histograma utilizando datos discretos.

Ejemplo 2.8

Los siguientes datos son las estaturas (en pulgadas con una aproximación de media pulgada) de 100 jugadores hombres de fútbol semiprofesional. Las alturas son datos continuos, ya que la altura se mide.
60; 60,5; 61; 61; 61,5
63,5; 63,5; 63,5
64; 64; 64; 64; 64; 64; 64; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5
66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67,5; 67,5; 67,5; 67,5; 67,5; 67,5; 67,5
68; 68; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69,5; 69,5; 69,5; 69,5; 69,5
70; 70; 70; 70; 70; 70; 70,5; 70,5; 70,5; 71; 71; 71
72; 72; 72; 72,5; 72,5; 73; 73,5
74

El valor de datos más pequeño es 60. Como los datos con más decimales tienen un decimal (por ejemplo, 61,5), queremos que nuestro punto de partida tenga dos decimales. Dado que los números 0,5, 0,05, 0,005, etc. son números convenientes, utilice 0,05 y réstelo a 60, el valor más pequeño, para el punto de partida conveniente.

60 – 0,05 = 59,95 que es más preciso que, por ejemplo, 61,5 por un decimal. El punto de partida es, pues, 59,95.

El valor mayor es 74, por lo que 74 + 0,05 = 74,05 es el valor final.

Luego, calcule el ancho de cada barra o intervalo de clase. Para calcular este ancho, reste el punto inicial del valor final y divídalo entre el número de barras (debe elegir el número de barras que desee). Suponga que elige ocho barras.

\frac{74,05 - 59,95}{8} = 1,76

NOTA

Redondearemos a dos y haremos que cada barra o intervalo de clase tenga dos unidades de ancho. Redondear a dos es una forma de evitar que un valor caiga en un límite. El redondeo al número siguiente es a menudo necesario, incluso si va en contra de las reglas estándar de redondeo. Para este ejemplo, utilizar 1,76 como ancho también funcionaría. Una pauta que siguen algunos para el ancho de una barra o intervalo de clase es tomar la raíz cuadrada del número de valores de los datos y luego redondear al número entero más cercano, si es necesario. Por ejemplo, si hay 150 valores de datos, tome la raíz cuadrada de 150 y redondee a 12 barras o intervalos.

Los límites son:

59,95
59,95 + 2 = 61,95
61,95 + 2 = 63,95
63,95 + 2 = 65,95
65,95 + 2 = 67,95
67,95 + 2 = 69,95
69,95 + 2 = 71,95
71,95 + 2 = 73,95
73,95 + 2 = 75,95

Las alturas de 60 a 61,5 pulgadas están en el intervalo de 59,95 a 61,95. Las alturas que son 63,5 están en el intervalo de 61,95 a 63,95. Las alturas que van de 64 a 64,5 están en el intervalo de 63,95 a 65,95. Las alturas de 66 a 67,5 están en el intervalo de 65,95 a 67,95. Las alturas de 68 a 69,5 están en el intervalo de 67,95 a 69,95. Las alturas de 70 a 71 están en el intervalo de 69,95 a 71,95. Las alturas de 72 a 73,5 están en el intervalo de 71,95 a 73,95. La altura 74 está en el intervalo de 73,95 a 75,95.

El siguiente histograma muestra las alturas en el eje x y la frecuencia relativa en el eje y.

El histograma consta de 8 barras con el eje y en incrementos de 0,05 desde 0 hasta 0,4 y el eje x en intervalos de 2 desde 59,95 hasta 75,95. — Figura 2.5

Inténtelo 2.8

Los siguientes datos son las tallas de los zapatos de 50 estudiantes hombres. Las tallas son datos continuos ya que se mide la talla de zapato. Construya un histograma y calcule el ancho de cada barra o intervalo de clase. Suponga que elige seis barras.
9; 9; 9,5; 9,5; 10; 10; 10; 10; 10; 10; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5
11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11,5; 11,5; 11,5; 11,5; 11,5; 11,5; 11,5
12; 12; 12; 12; 12; 12; 12; 12,5; 12,5; 12,5; 12,5; 14

Ejemplo 2.9

Cree un histograma para los siguientes datos: el número de libros comprados por 50 estudiantes universitarios a tiempo parcial en el ABC College. El número de libros es un dato discreto, ya que los libros se cuentan.
1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1
2; 2; 2; 2; 2; 2; 2; 2; 2; 2
3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3
4; 4; 4; 4; 4; 4
5; 5; 5; 5; 5
6; 6

Once estudiantes compran un libro. Diez estudiantes compran dos libros. Dieciséis estudiantes compran tres libros. Seis estudiantes compran cuatro libros. Cinco estudiantes compran cinco libros. Dos estudiantes compran seis libros.

Como los datos son enteros, reste 0,5 a 1, el valor más pequeño de los datos, y sume 0,5 a 6, el valor más grande de los datos. Entonces el punto de partida es 0,5 y el valor final es 6,5.

Translation missing: es.problem

Luego, calcule el ancho de cada barra o intervalo de clase. Si los datos son discretos y no hay demasiados valores diferentes, lo más conveniente es un ancho que sitúe los valores de los datos en el centro del intervalo de barras o clases. Dado que los datos consisten en los números 1, 2, 3, 4, 5, 6, y el punto de partida es 0,5, un ancho de uno sitúa el 1 en el centro del intervalo de 0,5 a 1,5, el 2 en el centro del intervalo de 1,5 a 2,5, el 3 en el centro del intervalo de 2,5 a 3,5, el 4 en el centro del intervalo de _______ a _______, el 5 en el centro del intervalo de _______ a _______ y el _______ en el centro del intervalo de _______ a _______.

Solución

de 3,5 a 4,5
de 4,5 a 5,5
6
de 5,5 a 6,5

Calcule el número de barras de la siguiente manera:

\frac{6,5 - 0,5}{número de barras} = 1

2.1

donde 1 es el ancho de una barra. Por lo tanto, barras = 6.

El siguiente histograma muestra el número de libros en el eje xy la frecuencia en el eje y.

El histograma consta de 6 barras con el eje y en incrementos de 2 de 0 a 16 y el eje x en intervalos de 1 de 0,5 a 6,5. — Figura 2.6

Ejemplo 2.10

Translation missing: es.problem

Con este conjunto de datos construya un histograma.

Número de horas que mis compañeros de clase pasan jugando videojuegos los fines de semana
9,95	10	2,25	16,75	0
19,5	22,5	7,5	15	12,75
5,5	11	10	20,75	17,5
23	21,9	24	23,75	18
20	15	22,9	18,8	20,5

Tabla 2.13

Solución

Este es un histograma que coincide con los datos suministrados. El eje x consta de 5 barras en intervalos de 5 de 0 a 25. El eje y está marcado en incrementos de 1 de 0 a 10. El eje x muestra el número de horas dedicadas a los videojuegos durante los fines de semana, y el eje y muestra el número de estudiantes. — Figura 2.7

Algunos valores de este conjunto de datos caen en los límites de los intervalos de clase. Un valor se cuenta en un intervalo de clase si cae en el límite izquierdo, pero no si cae en el límite derecho. Diferentes investigadores pueden establecer histogramas para los mismos datos de diferentes maneras. Hay más de una forma correcta de configurar un histograma.

Polígonos de frecuencia

Los polígonos de frecuencias son análogos a los gráficos de líneas y, al igual que los gráficos de líneas facilitan la interpretación visual de los datos continuos, también lo hacen los polígonos de frecuencias.

Para construir un polígono de frecuencias, primero hay que examinar los datos y decidir el número de intervalos, o intervalos de clase, que se van a utilizar en los ejes x y y. Después de elegir los rangos apropiados, comience a trazar los puntos de datos. Después de trazar todos los puntos, dibuje segmentos de línea para conectarlos.

Ejemplo 2.11

Se construyó un polígono de frecuencias a partir de la tabla de frecuencias que aparece a continuación.

Distribución de frecuencias de las calificaciones del examen final de Cálculo
Límite inferior	Límite superior	Frecuencia	Frecuencia acumulada
49,5	59,5	5	5
59,5	69,5	10	15
69,5	79,5	30	45
79,5	89,5	40	85
89,5	99,5	15	100

Tabla 2.14

Se construyó un polígono de frecuencias a partir de la tabla de frecuencias que aparece a continuación. — Figura 2.8

La primera etiqueta del eje x es 44,5. Esto representa un intervalo que va de 39,5 a 49,5. Dado que la calificación más baja de la prueba es 54,5, este intervalo se utiliza solo para permitir que el gráfico toque el eje x. El punto identificado como 54,5 representa el siguiente intervalo, o el primer intervalo “real” de la tabla, y contiene cinco calificaciones. Este razonamiento se sigue para cada uno de los intervalos restantes, con el punto 104,5 que representa el intervalo de 99,5 a 109,5. De nuevo, este intervalo no contiene datos y solo se utiliza para que el gráfico toque el eje x. Observando el gráfico, decimos que esta distribución está distorsionada porque un lado del gráfico no es un espejo del otro.

Inténtelo 2.11

Construya un polígono de frecuencias de las edades de los presidentes de EE. UU. en el momento de la investidura que se muestra en la Tabla 2.15.

Edad en el momento de la investidura	Frecuencia
41,5-46,5	4
46,5-51,5	11
51,5-56,5	14
56,5-61,5	9
61,5-66,5	4
66,5-71,5	2

Tabla 2.15

Los polígonos de frecuencia son útiles para comparar distribuciones. Esto se consigue superponiendo los polígonos de frecuencia dibujados para diferentes conjuntos de datos.

Ejemplo 2.12

Construiremos un polígono de frecuencias superpuestas comparando las calificaciones del Ejemplo 2.11 con la nota numérica final de los estudiantes.

Distribución de frecuencias de las calificaciones del examen final de Cálculo
Límite inferior	Límite superior	Frecuencia	Frecuencia acumulada
49,5	59,5	5	5
59,5	69,5	10	15
69,5	79,5	30	45
79,5	89,5	40	85
89,5	99,5	15	100

Tabla 2.16

Distribución de frecuencias de las notas finales de Cálculo
Límite inferior	Límite superior	Frecuencia	Frecuencia acumulada
49,5	59,5	10	10
59,5	69,5	10	20
69,5	79,5	30	50
79,5	89,5	45	95
89,5	99,5	5	100

Tabla 2.17

Este es un polígono de frecuencia superpuesto que coincide con los datos suministrados. El eje x muestra las notas y el eje y muestra la frecuencia. — Figura 2.9

Construcción de un gráfico de series temporales

Supongamos que queremos estudiar el rango de temperaturas de una región durante todo un mes. Todos los días a mediodía anotamos la temperatura y la anotamos en un registro. Con estos datos se podrían realizar diversos estudios estadísticos. Podemos hallar la media o la mediana de la temperatura del mes. Podemos construir un histograma que muestre el número de días en que las temperaturas alcanzan un determinado rango de valores. Sin embargo, todos estos métodos ignoran una parte de los datos que hemos recopilado.

Una característica de los datos que podemos considerar es la del tiempo. Dado que cada fecha se empareja con la lectura de la temperatura del día, no tenemos que pensar que los datos son aleatorios. En cambio, podemos utilizar los tiempos indicados para imponer un orden cronológico a los datos. Un gráfico que reconoce esta ordenación y muestra la evolución de la temperatura a medida que avanza el mes se denomina gráfico de series temporales.

Para construir un gráfico de series temporales debemos observar las dos partes de nuestro conjunto de datos emparejados. Comenzamos con un sistema de coordenadas cartesianas estándar. El eje horizontal se utiliza para trazar la fecha o los incrementos de tiempo, y el eje vertical se utiliza para trazar los valores de la variable que estamos midiendo. De este modo, hacemos que cada punto del gráfico corresponda a una fecha y a una cantidad medida. Los puntos del gráfico suelen estar conectados por líneas rectas en el orden en que se producen.

Ejemplo 2.13

Translation missing: es.problem

Los siguientes datos muestran el Índice de Precios del Consumidor (IPC) Anual, cada mes, durante diez años. Construya un gráfico de series temporales solo para los datos del Índice de Precios del Consumidor Anual.

Año	Ene	Feb	Mar	Abr	May	Jun	Jul
2003	181,7	183,1	184,2	183,8	183,5	183,7	183,9
2004	185,2	186,2	187,4	188,0	189,1	189,7	189,4
2005	190,7	191,8	193,3	194,6	194,4	194,5	195,4
2006	198,3	198,7	199,8	201,5	202,5	202,9	203,5
2007	202,416	203,499	205,352	206,686	207,949	208,352	208,299
2008	211,080	211,693	213,528	214,823	216,632	218,815	219,964
2009	211,143	212,193	212,709	213,240	213,856	215,693	215,351
2010	216,687	216,741	217,631	218,009	218,178	217,965	218,011
2011	220,223	221,309	223,467	224,906	225,964	225,722	225,922
2012	226,665	227,663	229,392	230,085	229,815	229,478	229,104

Tabla 2.18

Año	Ago	Sep	Oct	Nov	Dic	Anual
2003	184,6	185,2	185,0	184,5	184,3	184,0
2004	189,5	189,9	190,9	191,0	190,3	188,9
2005	196,4	198,8	199,2	197,6	196,8	195,3
2006	203,9	202,9	201,8	201,5	201,8	201,6
2007	207,917	208,490	208,936	210,177	210,036	207,342
2008	219,086	218,783	216,573	212,425	210,228	215,303
2009	215,834	215,969	216,177	216,330	215,949	214,537
2010	218,312	218,439	218,711	218,803	219,179	218,056
2011	226,545	226,889	226,421	226,230	225,672	224,939
2012	230,379	231,407	231,317	230,221	229,601	229,594

Tabla 2.19

Solución

Este es un gráfico de series temporales que coincide con los datos suministrados. El eje x muestra los años comprendidos entre 2003 y 2012, y el eje y muestra el IPC anual. — Figura 2.10

Inténtelo 2.13

La siguiente tabla es una parte de un conjunto de datos de www.worldbank.org. Utilice la tabla para construir un gráfico de la serie temporal de las emisiones de CO₂ de Estados Unidos.

Emisiones de CO₂
Año	Ucrania	Reino Unido	Estados Unidos
2003	352.259	540.640	5.681.664
2004	343.121	540.409	5.790.761
2005	339.029	541.990	5.826.394
2006	327.797	542.045	5.737.615
2007	328.357	528.631	5.828.697
2008	323.657	522.247	5.656.839
2009	272.176	474.579	5.299.563

Tabla 2.20

Usos de un gráfico de series temporales

Los gráficos de series temporales son herramientas importantes en diversas aplicaciones de la estadística. Cuando se registran los valores de una misma variable durante un largo periodo, a veces, es difícil discernir cualquier tendencia o patrón. Sin embargo, una vez que los mismos puntos de datos se muestran gráficamente, algunas características saltan a la vista. Los gráficos de series temporales facilitan la detección de tendencias.

Cómo NO mentir con las estadísticas

Es importante recordar que la razón por la que desarrollamos una variedad de métodos para presentar los datos es para comprender el tema de lo que las observaciones representan. Queremos tener una "sensación" de los datos. ¿Las observaciones son todas muy parecidas o están repartidas en un amplio rango de valores, están agrupadas en un extremo del espectro o están distribuidas uniformemente, etc.? Intentamos obtener una representación visual de los datos numéricos. En breve desarrollaremos medidas matemáticas formales de los datos, pero nuestra presentación gráfica visual puede decir mucho. Desgraciadamente, también puede decir muchas cosas que distraen, confunden y simplemente son erróneas en cuanto a la impresión que lo visual deja. Hace muchos años, Darrell Huff escribió el libro How to Lie with Statistics [Cómo mentir con estadísticas]. Ha tenido más de 25 ediciones y ha vendido más de un millón y medio de ejemplares. Su perspectiva era dura y utilizaba muchos ejemplos reales destinados a engañar. Quería hacer que la gente fuera consciente de ese engaño, pero quizás lo más importante era educar para que otros no cometieran los mismos errores inadvertidamente.

De nuevo, el objetivo es ilustrar con imágenes que cuenten la historia de los datos. Los gráficos circulares tienen una serie de problemas comunes cuando se utilizan para transmitir el mensaje de los datos. Demasiados trozos del pastel abruman al lector. Más de quizás cinco o seis categorías deberían dar una idea de la importancia relativa de cada trozo. Al fin y al cabo, este es el objetivo de un gráfico circular: qué subconjunto importa más en relación con los demás. Si hay más componentes que esto, tal vez sea mejor un enfoque alternativo o tal vez algunos puedan consolidarse en una categoría "otros". Los gráficos circulares no pueden mostrar los cambios a lo largo del tiempo, aunque vemos que esto se intenta con demasiada frecuencia. En los documentos financieros federales, estatales y municipales se suelen presentar gráficos circulares para mostrar los componentes de los ingresos de los que dispone el órgano de gobierno para su consignación: impuesto sobre la renta, impuesto sobre las ventas, impuestos sobre los vehículos de motor, etc. En sí misma es una información interesante y se puede hacer muy bien con un gráfico circular. El error se produce cuando se ponen dos años uno al lado del otro. Como los ingresos totales cambian de un año a otro, pero el tamaño del pastel es fijo, no se proporciona ninguna información real y no se puede comparar de forma significativa el tamaño relativo de cada trozo del pastel.

Los histogramas pueden ser muy útiles para entender los datos. Si se presentan correctamente, pueden ser una forma visual rápida de presentar las probabilidades de las diferentes categorías mediante la simple visualización de la comparación de las áreas relativas en cada categoría. Aquí el error, intencionado o no, es variar la amplitud de las categorías. Por supuesto, esto hace imposible la comparación con las demás categorías. Adorna la importancia de la categoría con un ancho ampliado porque tiene un área mayor, de forma inapropiada, y así "dice" visualmente que esa categoría tiene una mayor probabilidad de ocurrencia.

Los gráficos de series temporales tal vez sean de los que más se abusa. Un gráfico de alguna variable a lo largo del tiempo nunca debe presentarse en ejes que cambien en parte de la página, ya sea en la dimensión vertical u horizontal. Tal vez se cambie el marco temporal de años a meses. Probablemente esto se haga para ahorrar espacio o porque los datos mensuales no estaban disponibles para los primeros años. En cualquier caso, esto confunde la presentación y destruye cualquier valor del gráfico. Si esto no se hace para confundir a propósito al lector, entonces ciertamente es un trabajo perezoso o descuidado.

Cambiar las unidades de medida del eje puede suavizar o acentuar una caída. Si quiere mostrar grandes cambios, mida la variable en unidades pequeñas, centavos en lugar de miles de dólares. Y, por supuesto, para continuar con el fraude, asegúrese de que el eje no comienza en cero, cero. Si comienza en cero, cero entonces se hace evidente que el eje ha sido manipulado.

Tal vez tenga un cliente al que le preocupa la volatilidad de la cartera que usted gestiona. Una forma fácil de presentar los datos es utilizar periodos largos en el gráfico de la serie temporal. Utilice meses o, mejor, trimestres en lugar de datos diarios o semanales. Si eso no consigue reducir la volatilidad, entonces separe el eje temporal en relación con el eje de la tasa de rendimiento o de la valoración de la cartera. Si quiere mostrar un crecimiento dramático "rápido", entonces reduzca el eje temporal. Cualquier crecimiento positivo mostrará tasas de crecimiento visualmente "altas". Tenga en cuenta que si el crecimiento es negativo, este truco mostrará que la cartera se está hundiendo a un ritmo dramático.

Una vez más, el objetivo de la Estadística Descriptiva es transmitir imágenes significativas que cuenten la historia de los datos. La manipulación intencionada es un fraude y una falta de ética en el peor de los casos, pero incluso en el mejor, cometer este tipo de errores llevará a la confusión del análisis.