Gráficos de tallo y hoja (gráfico de tallo), gráficos de líneas y gráficos de barras
Un gráfico sencillo, el gráfico de tallo y hoja o gráfico de tallo, procede del campo del análisis exploratorio de datos. Es una buena opción cuando los conjuntos de datos son pequeños. Para crear el gráfico, divida cada observación de datos en un tallo y una hoja. La hoja consta de un último dígito significativo. Por ejemplo, 23 tiene el tallo dos y la hoja tres. El número 432 tiene el tallo 43 y la hoja dos. Asimismo, el número 5.432 tiene el tallo 543 y la hoja dos. El decimal 9,3 tiene el tallo nueve y la hoja tres. Escriba los tallos en una línea vertical de menor a mayor. Dibuje una línea vertical a la derecha de los tallos. Luego, escriba las hojas en orden creciente junto a su correspondiente tallo.
Ejemplo 2.1
En la clase de Precálculo de primavera de Susan Dean las calificaciones del primer examen fueron las siguientes (de menor a mayor):
33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 96; 100
Tallo | Hoja |
---|---|
3 | 3 |
4 | 2 9 9 |
5 | 3 5 5 |
6 | 1 3 7 8 8 9 9 |
7 | 2 3 4 8 |
8 | 0 3 8 8 8 |
9 | 0 2 4 4 4 4 6 |
10 | 0 |
El gráfico de tallo muestra que la mayoría de las calificaciones fueron de 60, 70, 80 y 90. Ocho de las 31 calificaciones, es decir, aproximadamente el 26 % estaban en los 90 o 100, un número bastante alto de calificaciones con A.
Inténtelo 2.1
Para el equipo de baloncesto de Park City los resultados de los últimos 30 partidos fueron los siguientes (de menor a mayor):
32; 32; 33; 34; 38; 40; 42; 42; 43; 44; 46; 47; 47; 48; 48; 48; 49; 50; 50; 51; 52; 52; 52; 53; 54; 56; 57; 57; 60; 61
Construya un diagrama de tallo para los datos.
El diagrama de tallo es una forma rápida de representar datos gráficamente y ofrece una imagen exacta de la información. Hay que buscar un patrón general y los valores atípicos. Un valor atípico es una observación de datos que no se ajusta al resto de los datos. A veces se le llama valor extremo. Cuando grafique un valor atípico parecerá que no se ajusta al patrón del gráfico. Algunos valores atípicos se deben a errores (por ejemplo, anotar 50 en vez de 500), mientras que otros pueden indicar que está ocurriendo algo inusual. Para explicar los valores atípicos se necesita información de fondo, por lo que los trataremos con más detalle más adelante.
Ejemplo 2.2
Los datos son las distancias (en kilómetros) de un hogar a supermercados locales. Cree un diagrama de tallo con los datos:
1,1; 1,5; 2,3; 2,5; 2,7; 3,2; 3,3; 3,3; 3,5; 3,8; 4,0; 4,2; 4,5; 4,5; 4,7; 4,8; 5,5; 5,6; 6,5; 6,7; 12,3
Translation missing: es.problem
¿Los datos parecen tener alguna concentración de valores?
NOTA
Las hojas están a la derecha del decimal.
Solución
El valor 12,3 puede ser un valor atípico. Los valores parecen concentrarse en los tres y cuatro kilómetros.
Tallo | Hoja |
---|---|
1 | 1 5 |
2 | 3 5 7 |
3 | 2 3 3 5 8 |
4 | 0 2 5 5 7 8 |
5 | 5 6 |
6 | 5 7 |
7 | |
8 | |
9 | |
10 | |
11 | |
12 | 3 |
Inténtelo 2.2
Los siguientes datos muestran las distancias (en millas) desde los hogares de los estudiantes de Estadística fuera del campus hasta el instituto universitario. Cree un diagrama de tallo con los datos e identifique los valores atípicos:
0,5; 0,7; 1,1; 1,2; 1,2; 1,3; 1,3; 1,5; 1,5; 1,7; 1,7; 1,8; 1,9; 2,0; 2,2; 2,5; 2,6; 2,8; 2,8; 2,8; 3,5; 3,8; 4,4; 4,8; 4,9; 5,2; 5,5; 5,7; 5,8; 8,0
Ejemplo 2.3
Translation missing: es.problem
El diagrama de tallo y hoja bilateral permite comparar los dos conjuntos de datos en dos columnas. En el diagrama de tallo y hoja bilateral dos conjuntos de hojas comparten el mismo tallo. Las hojas están a la izquierda y a la derecha de los tallos. La Tabla 2.4 y la Tabla 2.5 muestran las edades de los presidentes en su investidura y al momento de su muerte. Construya un diagrama de tallo y hoja bilateral utilizando estos datos.
Solución
Edades en la investidura | Edades al momento de la muerte | |
---|---|---|
9 9 8 7 7 7 6 3 2 | 4 | 6 9 |
8 7 7 7 7 6 6 6 5 5 5 5 4 4 4 4 4 2 2 1 1 1 1 1 0 | 5 | 3 6 6 7 7 8 |
9 8 5 4 4 2 1 1 1 0 | 6 | 0 0 3 3 4 4 5 6 7 7 7 8 |
7 | 0 0 1 1 1 4 7 8 8 9 | |
8 | 0 1 3 5 8 | |
9 | 0 0 3 3 |
Presidente | Edad | Presidente | Edad | Presidente | Edad |
---|---|---|---|---|---|
Washington | 57 | Lincoln | 52 | Hoover | 54 |
J. Adams | 61 | A. Johnson | 56 | F. Roosevelt | 51 |
Jefferson | 57 | Grant | 46 | Truman | 60 |
Madison | 57 | Hayes | 54 | Eisenhower | 62 |
Monroe | 58 | Garfield | 49 | Kennedy | 43 |
J. Q. Adams | 57 | Arthur | 51 | L. Johnson | 55 |
Jackson | 61 | Cleveland | 47 | Nixon | 56 |
Van Buren | 54 | B. Harrison | 55 | Ford | 61 |
W. H. Harrison | 68 | Cleveland | 55 | Carter | 52 |
Tyler | 51 | McKinley | 54 | Reagan | 69 |
Polk | 49 | T. Roosevelt | 42 | G. H. W. Bush | 64 |
Taylor | 64 | Taft | 51 | Clinton | 47 |
Fillmore | 50 | Wilson | 56 | G. W. Bush | 54 |
Pierce | 48 | Harding | 55 | Obama | 47 |
Buchanan | 65 | Coolidge | 51 |
Presidente | Edad | Presidente | Edad | Presidente | Edad |
---|---|---|---|---|---|
Washington | 67 | Lincoln | 56 | Hoover | 90 |
J. Adams | 90 | A. Johnson | 66 | F. Roosevelt | 63 |
Jefferson | 83 | Grant | 63 | Truman | 88 |
Madison | 85 | Hayes | 70 | Eisenhower | 78 |
Monroe | 73 | Garfield | 49 | Kennedy | 46 |
J. Q. Adams | 80 | Arthur | 56 | L. Johnson | 64 |
Jackson | 78 | Cleveland | 71 | Nixon | 81 |
Van Buren | 79 | B. Harrison | 67 | Ford | 93 |
W. H. Harrison | 68 | Cleveland | 71 | Reagan | 93 |
Tyler | 71 | McKinley | 58 | ||
Polk | 53 | T. Roosevelt | 60 | ||
Taylor | 65 | Taft | 72 | ||
Fillmore | 74 | Wilson | 67 | ||
Pierce | 64 | Harding | 57 | ||
Buchanan | 77 | Coolidge | 60 |
Otro tipo de gráfico que resulta útil para valores de datos específicos es el gráfico de líneas. En el gráfico de líneas en particular que se muestra en el Ejemplo 2.4, el eje x (eje horizontal) está formado por los valores de los datos y el eje y (eje vertical) por puntos de frecuencia. Los puntos de frecuencia se conectan mediante segmentos de la línea.
Ejemplo 2.4
En una encuesta, se preguntó a 40 madres cuántas veces a la semana hay que recordarle a un adolescente que haga sus tareas. Los resultados se muestran en la Tabla 2.6 y en la Figura 2.2.
Número de veces que se le recuerda al adolescente | Frecuencia |
---|---|
0 | 2 |
1 | 5 |
2 | 8 |
3 | 14 |
4 | 7 |
5 | 4 |
Inténtelo 2.4
En una encuesta, se preguntó a 40 personas cuántas veces al año llevaban su automóvil al taller para repararlo. Los resultados se muestran en la Tabla 2.7. Construya un gráfico de líneas.
Número de veces en el taller | Frecuencia |
---|---|
0 | 7 |
1 | 10 |
2 | 14 |
3 | 9 |
Los gráficos de barras están formados por barras separadas entre sí. Las barras pueden ser rectángulos o recuadros rectangulares (usados en representaciones tridimensionales), y pueden ser verticales u horizontales. El gráfico de barras que se muestra en el Ejemplo 2.5 tiene los grupos de edad representados en el eje x y las proporciones en el eje y.
Ejemplo 2.5
Translation missing: es.problem
A finales de 2011, Facebook tenía más de 146 millones de usuarios en Estados Unidos. La Tabla 2.8 muestra tres grupos de edad, el número de usuarios en cada grupo de edad y la proporción (%) de usuarios en cada grupo de edad. Construya un gráfico de barras con estos datos.
Grupos de edad | Número de usuarios de Facebook | Proporción (%) de usuarios de Facebook |
---|---|---|
13-25 | 65.082.280 | 45 % |
26-44 | 53.300.200 | 36 % |
45-64 | 27.885.100 | 19 % |
Solución
Inténtelo 2.5
La población de Park City se compone de niños, adultos en edad de trabajar y jubilados. La Tabla 2.9 muestra los tres grupos de edad, el número de personas de cada grupo en la ciudad y la proporción (%) de personas en cada grupo de edad. Construya un gráfico de barras que muestre las proporciones.
Grupos de edad | Número de personas | Proporción de la población |
---|---|---|
Niños | 67.059 | 19 % |
Adultos en edad de trabajar | 152.198 | 43 % |
Jubilados | 131.662 | 38 % |
Ejemplo 2.6
Translation missing: es.problem
Las columnas de la Tabla 2.10 contienen la raza o el origen étnico de los estudiantes de escuelas públicas de EE. UU. para la clase de 2011, los porcentajes para la población examinada de Colocación Avanzada para esa clase y los porcentajes para la población estudiantil en general. Cree un gráfico de barras con la raza o el origen étnico de los estudiantes (datos cualitativos) en el eje x y los porcentajes de la población de examinados de Colocación Avanzada en el eje y.
Raza/etnia | Población examinada de AP | Población estudiantil total |
---|---|---|
1 = asiático, asiático americano o isleño del Pacífico | 10,3 % | 5,7 % |
2 = negro o afroamericano | 9,0 % | 14,7 % |
3 = hispano o latino | 17,0 % | 17,6 % |
4 = amerindio o nativo de Alaska | 0,6 % | 1,1 % |
5 = blanco | 57,1 % | 59,2 % |
6 = no informado/otro | 6,0 % | 1,7% |
Solución
Inténtelo 2.6
Park City se divide en seis distritos electorales. La tabla muestra el porcentaje de la población total de votantes registrados que vive en cada distrito, así como el porcentaje total de la población entera que vive en cada distrito. Construya un gráfico de barras que muestre la población de votantes registrados por distrito.
Distrito | Población de votantes registrados | Población total de la ciudad |
---|---|---|
1 | 15,5 % | 19,4 % |
2 | 12,2 % | 15,6 % |
3 | 9,8 % | 9,0 % |
4 | 17,4 % | 18,5 % |
5 | 22,8 % | 20,7 % |
6 | 22,3 % | 16,8 % |
Ejemplo 2.7
Translation missing: es.problem
A continuación, se presenta una tabla de dos vías que muestra los tipos de mascotas que poseen los hombres y las mujeres:
Perros | Gatos | Peces | Total | |
Hombres | 4 | 2 | 2 | 8 |
Mujeres | 4 | 6 | 2 | 12 |
Total | 8 | 8 | 4 | 20 |
Dados estos datos, calcule las distribuciones condicionales para la subpoblación de hombres que poseen cada tipo de mascota.
Solución
Hombres que tienen perros = 4/8 = 0,5
Hombres que tienen gatos = 2/8 = 0,25
Hombres que tienen peces = 2/8 = 0,25
Nota: La suma de todas las distribuciones condicionales debe ser igual a uno. En este caso: 0,5 + 0,25 + 0,25 = 1; por lo tanto, la solución "se comprueba".
Histogramas, polígonos de frecuencia y gráficos de series temporales
Para la mayor parte del trabajo que se realiza en este libro se utilizará un histograma para mostrar los datos. Una de las ventajas de un histograma es que puede mostrar fácilmente grandes conjuntos de datos. Una regla general es utilizar un histograma cuando el conjunto de datos consta de 100 valores o más.
Un histograma está formado por recuadros contiguos (adyacentes). Tiene un eje horizontal y otro vertical. El eje horizontal está identificado con lo que representan los datos (por ejemplo, la distancia de su casa a la escuela). El eje vertical está identificado como frecuencia o frecuencia relativa (o porcentaje de frecuencia o probabilidad). El gráfico tendrá la misma forma con cualquiera de las dos etiquetas. El histograma (al igual que el diagrama de tallo) puede darle la forma de los datos, el centro y la dispersión de los datos.
La frecuencia relativa es igual a la frecuencia de un valor observado de los datos dividida entre el número total de valores de los datos en la muestra. (Recuerde que la frecuencia se define como el número de veces que se produce una respuesta). Si:
- f = frecuencia
- n = número total de valores de datos (o la suma de las frecuencias individuales) y
- RF = frecuencia relativa,
entonces:
Por ejemplo, si tres estudiantes de la clase de Inglés del Sr. Ahab compuesta por 40 estudiantes obtuvieron del 90 % al 100 %, entonces, f = 3, n = 40 y RF = = = 0,075. El 7,5 % de los estudiantes obtuvieron del 90 % al 100 %. Del 90 % al 100 % son medidas cuantitativas.
Para construir un histograma, primero hay que decidir cuántas barras o intervalos (también llamados clases) representan los datos. Muchos histogramas constan de cinco a 15 barras o clases para mayor claridad. Hay que elegir el número de barras. Elija un punto de partida para que el primer intervalo sea menor que el valor más pequeño de los datos. Un punto de partida conveniente es un valor inferior llevado a un decimal más que el valor con más decimales. Por ejemplo, si el valor con más decimales es 6,1 y este es el valor más pequeño, un punto de partida conveniente es 6,05 (6,1 – 0,05 = 6,05). Decimos que 6,05 tiene más precisión. Si el valor con más decimales es 2,23 y el valor más bajo es 1,5, un punto de partida conveniente es 1,495 (1,5 – 0,005 = 1,495). Si el valor con más decimales es 3,234 y el valor más bajo es 1,0, un punto de partida conveniente es 0,9995 (1,0 – 0,0005 = 0,9995). Si todos los datos son enteros y el valor más pequeño es dos, un punto de partida conveniente es 1,5 (2 – 0,5 = 1,5). Además, cuando el punto de partida y otros límites se llevan a un decimal adicional, ningún valor de los datos caerá en un límite. Los dos siguientes ejemplos detallan cómo construir un histograma utilizando datos continuos y cómo crear un histograma utilizando datos discretos.
Ejemplo 2.8
Los siguientes datos son las estaturas (en pulgadas con una aproximación de media pulgada) de 100 jugadores hombres de fútbol semiprofesional. Las alturas son datos continuos, ya que la altura se mide.
60; 60,5; 61; 61; 61,5
63,5; 63,5; 63,5
64; 64; 64; 64; 64; 64; 64; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5
66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 66,5; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67,5; 67,5; 67,5; 67,5; 67,5; 67,5; 67,5
68; 68; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69,5; 69,5; 69,5; 69,5; 69,5
70; 70; 70; 70; 70; 70; 70,5; 70,5; 70,5; 71; 71; 71
72; 72; 72; 72,5; 72,5; 73; 73,5
74
El valor de datos más pequeño es 60. Como los datos con más decimales tienen un decimal (por ejemplo, 61,5), queremos que nuestro punto de partida tenga dos decimales. Dado que los números 0,5, 0,05, 0,005, etc. son números convenientes, utilice 0,05 y réstelo a 60, el valor más pequeño, para el punto de partida conveniente.
60 – 0,05 = 59,95 que es más preciso que, por ejemplo, 61,5 por un decimal. El punto de partida es, pues, 59,95.
El valor mayor es 74, por lo que 74 + 0,05 = 74,05 es el valor final.
Luego, calcule el ancho de cada barra o intervalo de clase. Para calcular este ancho, reste el punto inicial del valor final y divídalo entre el número de barras (debe elegir el número de barras que desee). Suponga que elige ocho barras.
NOTA
Redondearemos a dos y haremos que cada barra o intervalo de clase tenga dos unidades de ancho. Redondear a dos es una forma de evitar que un valor caiga en un límite. El redondeo al número siguiente es a menudo necesario, incluso si va en contra de las reglas estándar de redondeo. Para este ejemplo, utilizar 1,76 como ancho también funcionaría. Una pauta que siguen algunos para el ancho de una barra o intervalo de clase es tomar la raíz cuadrada del número de valores de los datos y luego redondear al número entero más cercano, si es necesario. Por ejemplo, si hay 150 valores de datos, tome la raíz cuadrada de 150 y redondee a 12 barras o intervalos.
Los límites son:
- 59,95
- 59,95 + 2 = 61,95
- 61,95 + 2 = 63,95
- 63,95 + 2 = 65,95
- 65,95 + 2 = 67,95
- 67,95 + 2 = 69,95
- 69,95 + 2 = 71,95
- 71,95 + 2 = 73,95
- 73,95 + 2 = 75,95
Las alturas de 60 a 61,5 pulgadas están en el intervalo de 59,95 a 61,95. Las alturas que son 63,5 están en el intervalo de 61,95 a 63,95. Las alturas que van de 64 a 64,5 están en el intervalo de 63,95 a 65,95. Las alturas de 66 a 67,5 están en el intervalo de 65,95 a 67,95. Las alturas de 68 a 69,5 están en el intervalo de 67,95 a 69,95. Las alturas de 70 a 71 están en el intervalo de 69,95 a 71,95. Las alturas de 72 a 73,5 están en el intervalo de 71,95 a 73,95. La altura 74 está en el intervalo de 73,95 a 75,95.
El siguiente histograma muestra las alturas en el eje x y la frecuencia relativa en el eje y.
Inténtelo 2.8
Los siguientes datos son las tallas de los zapatos de 50 estudiantes hombres. Las tallas son datos continuos ya que se mide la talla de zapato. Construya un histograma y calcule el ancho de cada barra o intervalo de clase. Suponga que elige seis barras.
9; 9; 9,5; 9,5; 10; 10; 10; 10; 10; 10; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5
11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11,5; 11,5; 11,5; 11,5; 11,5; 11,5; 11,5
12; 12; 12; 12; 12; 12; 12; 12,5; 12,5; 12,5; 12,5; 14
Ejemplo 2.9
Cree un histograma para los siguientes datos: el número de libros comprados por 50 estudiantes universitarios a tiempo parcial en el ABC College. El número de libros es un dato discreto, ya que los libros se cuentan.
1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1
2; 2; 2; 2; 2; 2; 2; 2; 2; 2
3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3
4; 4; 4; 4; 4; 4
5; 5; 5; 5; 5
6; 6
Once estudiantes compran un libro. Diez estudiantes compran dos libros. Dieciséis estudiantes compran tres libros. Seis estudiantes compran cuatro libros. Cinco estudiantes compran cinco libros. Dos estudiantes compran seis libros.
Como los datos son enteros, reste 0,5 a 1, el valor más pequeño de los datos, y sume 0,5 a 6, el valor más grande de los datos. Entonces el punto de partida es 0,5 y el valor final es 6,5.
Translation missing: es.problem
Luego, calcule el ancho de cada barra o intervalo de clase. Si los datos son discretos y no hay demasiados valores diferentes, lo más conveniente es un ancho que sitúe los valores de los datos en el centro del intervalo de barras o clases. Dado que los datos consisten en los números 1, 2, 3, 4, 5, 6, y el punto de partida es 0,5, un ancho de uno sitúa el 1 en el centro del intervalo de 0,5 a 1,5, el 2 en el centro del intervalo de 1,5 a 2,5, el 3 en el centro del intervalo de 2,5 a 3,5, el 4 en el centro del intervalo de _______ a _______, el 5 en el centro del intervalo de _______ a _______ y el _______ en el centro del intervalo de _______ a _______.
Solución
- de 3,5 a 4,5
- de 4,5 a 5,5
- 6
- de 5,5 a 6,5
Calcule el número de barras de la siguiente manera:
donde 1 es el ancho de una barra. Por lo tanto, barras = 6.
El siguiente histograma muestra el número de libros en el eje xy la frecuencia en el eje y.
Ejemplo 2.10
Translation missing: es.problem
Con este conjunto de datos construya un histograma.
Número de horas que mis compañeros de clase pasan jugando videojuegos los fines de semana | ||||
---|---|---|---|---|
9,95 | 10 | 2,25 | 16,75 | 0 |
19,5 | 22,5 | 7,5 | 15 | 12,75 |
5,5 | 11 | 10 | 20,75 | 17,5 |
23 | 21,9 | 24 | 23,75 | 18 |
20 | 15 | 22,9 | 18,8 | 20,5 |
Solución
Algunos valores de este conjunto de datos caen en los límites de los intervalos de clase. Un valor se cuenta en un intervalo de clase si cae en el límite izquierdo, pero no si cae en el límite derecho. Diferentes investigadores pueden establecer histogramas para los mismos datos de diferentes maneras. Hay más de una forma correcta de configurar un histograma.
Polígonos de frecuencia
Los polígonos de frecuencias son análogos a los gráficos de líneas y, al igual que los gráficos de líneas facilitan la interpretación visual de los datos continuos, también lo hacen los polígonos de frecuencias.
Para construir un polígono de frecuencias, primero hay que examinar los datos y decidir el número de intervalos, o intervalos de clase, que se van a utilizar en los ejes x y y. Después de elegir los rangos apropiados, comience a trazar los puntos de datos. Después de trazar todos los puntos, dibuje segmentos de línea para conectarlos.
Ejemplo 2.11
Se construyó un polígono de frecuencias a partir de la tabla de frecuencias que aparece a continuación.
Distribución de frecuencias de las calificaciones del examen final de Cálculo | |||
---|---|---|---|
Límite inferior | Límite superior | Frecuencia | Frecuencia acumulada |
49,5 | 59,5 | 5 | 5 |
59,5 | 69,5 | 10 | 15 |
69,5 | 79,5 | 30 | 45 |
79,5 | 89,5 | 40 | 85 |
89,5 | 99,5 | 15 | 100 |
La primera etiqueta del eje x es 44,5. Esto representa un intervalo que va de 39,5 a 49,5. Dado que la calificación más baja de la prueba es 54,5, este intervalo se utiliza solo para permitir que el gráfico toque el eje x. El punto identificado como 54,5 representa el siguiente intervalo, o el primer intervalo “real” de la tabla, y contiene cinco calificaciones. Este razonamiento se sigue para cada uno de los intervalos restantes, con el punto 104,5 que representa el intervalo de 99,5 a 109,5. De nuevo, este intervalo no contiene datos y solo se utiliza para que el gráfico toque el eje x. Observando el gráfico, decimos que esta distribución está distorsionada porque un lado del gráfico no es un espejo del otro.
Inténtelo 2.11
Construya un polígono de frecuencias de las edades de los presidentes de EE. UU. en el momento de la investidura que se muestra en la Tabla 2.15.
Edad en el momento de la investidura | Frecuencia |
---|---|
41,5-46,5 | 4 |
46,5-51,5 | 11 |
51,5-56,5 | 14 |
56,5-61,5 | 9 |
61,5-66,5 | 4 |
66,5-71,5 | 2 |
Los polígonos de frecuencia son útiles para comparar distribuciones. Esto se consigue superponiendo los polígonos de frecuencia dibujados para diferentes conjuntos de datos.
Ejemplo 2.12
Construiremos un polígono de frecuencias superpuestas comparando las calificaciones del Ejemplo 2.11 con la nota numérica final de los estudiantes.
Distribución de frecuencias de las calificaciones del examen final de Cálculo | |||
---|---|---|---|
Límite inferior | Límite superior | Frecuencia | Frecuencia acumulada |
49,5 | 59,5 | 5 | 5 |
59,5 | 69,5 | 10 | 15 |
69,5 | 79,5 | 30 | 45 |
79,5 | 89,5 | 40 | 85 |
89,5 | 99,5 | 15 | 100 |
Distribución de frecuencias de las notas finales de Cálculo | |||
---|---|---|---|
Límite inferior | Límite superior | Frecuencia | Frecuencia acumulada |
49,5 | 59,5 | 10 | 10 |
59,5 | 69,5 | 10 | 20 |
69,5 | 79,5 | 30 | 50 |
79,5 | 89,5 | 45 | 95 |
89,5 | 99,5 | 5 | 100 |
Construcción de un gráfico de series temporales
Supongamos que queremos estudiar el rango de temperaturas de una región durante todo un mes. Todos los días a mediodía anotamos la temperatura y la anotamos en un registro. Con estos datos se podrían realizar diversos estudios estadísticos. Podemos hallar la media o la mediana de la temperatura del mes. Podemos construir un histograma que muestre el número de días en que las temperaturas alcanzan un determinado rango de valores. Sin embargo, todos estos métodos ignoran una parte de los datos que hemos recopilado.
Una característica de los datos que podemos considerar es la del tiempo. Dado que cada fecha se empareja con la lectura de la temperatura del día, no tenemos que pensar que los datos son aleatorios. En cambio, podemos utilizar los tiempos indicados para imponer un orden cronológico a los datos. Un gráfico que reconoce esta ordenación y muestra la evolución de la temperatura a medida que avanza el mes se denomina gráfico de series temporales.
Para construir un gráfico de series temporales debemos observar las dos partes de nuestro conjunto de datos emparejados. Comenzamos con un sistema de coordenadas cartesianas estándar. El eje horizontal se utiliza para trazar la fecha o los incrementos de tiempo, y el eje vertical se utiliza para trazar los valores de la variable que estamos midiendo. De este modo, hacemos que cada punto del gráfico corresponda a una fecha y a una cantidad medida. Los puntos del gráfico suelen estar conectados por líneas rectas en el orden en que se producen.
Ejemplo 2.13
Translation missing: es.problem
Los siguientes datos muestran el Índice de Precios del Consumidor (IPC) Anual, cada mes, durante diez años. Construya un gráfico de series temporales solo para los datos del Índice de Precios del Consumidor Anual.
Año | Ene | Feb | Mar | Abr | May | Jun | Jul |
---|---|---|---|---|---|---|---|
2003 | 181,7 | 183,1 | 184,2 | 183,8 | 183,5 | 183,7 | 183,9 |
2004 | 185,2 | 186,2 | 187,4 | 188,0 | 189,1 | 189,7 | 189,4 |
2005 | 190,7 | 191,8 | 193,3 | 194,6 | 194,4 | 194,5 | 195,4 |
2006 | 198,3 | 198,7 | 199,8 | 201,5 | 202,5 | 202,9 | 203,5 |
2007 | 202,416 | 203,499 | 205,352 | 206,686 | 207,949 | 208,352 | 208,299 |
2008 | 211,080 | 211,693 | 213,528 | 214,823 | 216,632 | 218,815 | 219,964 |
2009 | 211,143 | 212,193 | 212,709 | 213,240 | 213,856 | 215,693 | 215,351 |
2010 | 216,687 | 216,741 | 217,631 | 218,009 | 218,178 | 217,965 | 218,011 |
2011 | 220,223 | 221,309 | 223,467 | 224,906 | 225,964 | 225,722 | 225,922 |
2012 | 226,665 | 227,663 | 229,392 | 230,085 | 229,815 | 229,478 | 229,104 |
Año | Ago | Sep | Oct | Nov | Dic | Anual |
---|---|---|---|---|---|---|
2003 | 184,6 | 185,2 | 185,0 | 184,5 | 184,3 | 184,0 |
2004 | 189,5 | 189,9 | 190,9 | 191,0 | 190,3 | 188,9 |
2005 | 196,4 | 198,8 | 199,2 | 197,6 | 196,8 | 195,3 |
2006 | 203,9 | 202,9 | 201,8 | 201,5 | 201,8 | 201,6 |
2007 | 207,917 | 208,490 | 208,936 | 210,177 | 210,036 | 207,342 |
2008 | 219,086 | 218,783 | 216,573 | 212,425 | 210,228 | 215,303 |
2009 | 215,834 | 215,969 | 216,177 | 216,330 | 215,949 | 214,537 |
2010 | 218,312 | 218,439 | 218,711 | 218,803 | 219,179 | 218,056 |
2011 | 226,545 | 226,889 | 226,421 | 226,230 | 225,672 | 224,939 |
2012 | 230,379 | 231,407 | 231,317 | 230,221 | 229,601 | 229,594 |
Solución
Inténtelo 2.13
La siguiente tabla es una parte de un conjunto de datos de www.worldbank.org. Utilice la tabla para construir un gráfico de la serie temporal de las emisiones de CO2 de Estados Unidos.
Emisiones de CO2 | |||
---|---|---|---|
Año | Ucrania | Reino Unido | Estados Unidos |
2003 | 352.259 | 540.640 | 5.681.664 |
2004 | 343.121 | 540.409 | 5.790.761 |
2005 | 339.029 | 541.990 | 5.826.394 |
2006 | 327.797 | 542.045 | 5.737.615 |
2007 | 328.357 | 528.631 | 5.828.697 |
2008 | 323.657 | 522.247 | 5.656.839 |
2009 | 272.176 | 474.579 | 5.299.563 |
Usos de un gráfico de series temporales
Los gráficos de series temporales son herramientas importantes en diversas aplicaciones de la estadística. Cuando se registran los valores de una misma variable durante un largo periodo, a veces, es difícil discernir cualquier tendencia o patrón. Sin embargo, una vez que los mismos puntos de datos se muestran gráficamente, algunas características saltan a la vista. Los gráficos de series temporales facilitan la detección de tendencias.
Cómo NO mentir con las estadísticas
Es importante recordar que la razón por la que desarrollamos una variedad de métodos para presentar los datos es para comprender el tema de lo que las observaciones representan. Queremos tener una "sensación" de los datos. ¿Las observaciones son todas muy parecidas o están repartidas en un amplio rango de valores, están agrupadas en un extremo del espectro o están distribuidas uniformemente, etc.? Intentamos obtener una representación visual de los datos numéricos. En breve desarrollaremos medidas matemáticas formales de los datos, pero nuestra presentación gráfica visual puede decir mucho. Desgraciadamente, también puede decir muchas cosas que distraen, confunden y simplemente son erróneas en cuanto a la impresión que lo visual deja. Hace muchos años, Darrell Huff escribió el libro How to Lie with Statistics [Cómo mentir con estadísticas]. Ha tenido más de 25 ediciones y ha vendido más de un millón y medio de ejemplares. Su perspectiva era dura y utilizaba muchos ejemplos reales destinados a engañar. Quería hacer que la gente fuera consciente de ese engaño, pero quizás lo más importante era educar para que otros no cometieran los mismos errores inadvertidamente.
De nuevo, el objetivo es ilustrar con imágenes que cuenten la historia de los datos. Los gráficos circulares tienen una serie de problemas comunes cuando se utilizan para transmitir el mensaje de los datos. Demasiados trozos del pastel abruman al lector. Más de quizás cinco o seis categorías deberían dar una idea de la importancia relativa de cada trozo. Al fin y al cabo, este es el objetivo de un gráfico circular: qué subconjunto importa más en relación con los demás. Si hay más componentes que esto, tal vez sea mejor un enfoque alternativo o tal vez algunos puedan consolidarse en una categoría "otros". Los gráficos circulares no pueden mostrar los cambios a lo largo del tiempo, aunque vemos que esto se intenta con demasiada frecuencia. En los documentos financieros federales, estatales y municipales se suelen presentar gráficos circulares para mostrar los componentes de los ingresos de los que dispone el órgano de gobierno para su consignación: impuesto sobre la renta, impuesto sobre las ventas, impuestos sobre los vehículos de motor, etc. En sí misma es una información interesante y se puede hacer muy bien con un gráfico circular. El error se produce cuando se ponen dos años uno al lado del otro. Como los ingresos totales cambian de un año a otro, pero el tamaño del pastel es fijo, no se proporciona ninguna información real y no se puede comparar de forma significativa el tamaño relativo de cada trozo del pastel.
Los histogramas pueden ser muy útiles para entender los datos. Si se presentan correctamente, pueden ser una forma visual rápida de presentar las probabilidades de las diferentes categorías mediante la simple visualización de la comparación de las áreas relativas en cada categoría. Aquí el error, intencionado o no, es variar la amplitud de las categorías. Por supuesto, esto hace imposible la comparación con las demás categorías. Adorna la importancia de la categoría con un ancho ampliado porque tiene un área mayor, de forma inapropiada, y así "dice" visualmente que esa categoría tiene una mayor probabilidad de ocurrencia.
Los gráficos de series temporales tal vez sean de los que más se abusa. Un gráfico de alguna variable a lo largo del tiempo nunca debe presentarse en ejes que cambien en parte de la página, ya sea en la dimensión vertical u horizontal. Tal vez se cambie el marco temporal de años a meses. Probablemente esto se haga para ahorrar espacio o porque los datos mensuales no estaban disponibles para los primeros años. En cualquier caso, esto confunde la presentación y destruye cualquier valor del gráfico. Si esto no se hace para confundir a propósito al lector, entonces ciertamente es un trabajo perezoso o descuidado.
Cambiar las unidades de medida del eje puede suavizar o acentuar una caída. Si quiere mostrar grandes cambios, mida la variable en unidades pequeñas, centavos en lugar de miles de dólares. Y, por supuesto, para continuar con el fraude, asegúrese de que el eje no comienza en cero, cero. Si comienza en cero, cero entonces se hace evidente que el eje ha sido manipulado.
Tal vez tenga un cliente al que le preocupa la volatilidad de la cartera que usted gestiona. Una forma fácil de presentar los datos es utilizar periodos largos en el gráfico de la serie temporal. Utilice meses o, mejor, trimestres en lugar de datos diarios o semanales. Si eso no consigue reducir la volatilidad, entonces separe el eje temporal en relación con el eje de la tasa de rendimiento o de la valoración de la cartera. Si quiere mostrar un crecimiento dramático "rápido", entonces reduzca el eje temporal. Cualquier crecimiento positivo mostrará tasas de crecimiento visualmente "altas". Tenga en cuenta que si el crecimiento es negativo, este truco mostrará que la cartera se está hundiendo a un ritmo dramático.
Una vez más, el objetivo de la Estadística Descriptiva es transmitir imágenes significativas que cuenten la historia de los datos. La manipulación intencionada es un fraude y una falta de ética en el peor de los casos, pero incluso en el mejor, cometer este tipo de errores llevará a la confusión del análisis.