Alexander Holmes; Barbara Illowsky; Susan Dean

2.2 Medidas de la ubicación de los datos

Las medidas habituales de localización son cuartiles y percentiles

Los cuartiles son percentiles especiales. El primer cuartil, Q₁, es igual que el percentil 25, y el tercer cuartil, Q₃, es igual que el percentil 75. La mediana, M, se denomina tanto el segundo cuartil como el percentil 50.

Para calcular cuartiles y percentiles, los datos se deben ordenar de menor a mayor. Los cuartiles dividen los datos ordenados en cuartos. Los percentiles dividen los datos ordenados en centésimas. Obtener una calificación en el percentil 90 de un examen no significa, necesariamente, que haya obtenido el 90 % en una prueba. Significa que el 90 % de las calificaciones de las pruebas son iguales o inferiores a su calificación y el 10 % de las calificaciones de las pruebas son iguales o superiores a su calificación.

Los percentiles son útiles para comparar valores. Por esta razón, universidades e institutos universitarios usan ampliamente los percentiles. Uno de los casos en los que institutos universitarios y universidades utilizan los percentiles es cuando los resultados del SAT se emplean para determinar una calificación mínima del examen que se utilizará como factor de aceptación. Por ejemplo, supongamos que Duke acepta calificaciones del SAT iguales o superiores al percentil 75. Eso se traduce en una calificación de, al menos, 1.220.

Los percentiles se utilizan sobre todo con poblaciones muy grandes. Por lo tanto, si se dijera que el 90 % de las calificaciones de las pruebas son menores (y no iguales o menores) que su calificación, sería aceptable porque eliminar un valor de datos particular no es significativo.

La mediana es un número que mide el “centro” de los datos. Se puede pensar en la mediana como el “valor medio”, pero no tiene por qué ser uno de los valores observados. Es un número que separa los datos ordenados en mitades. La mitad de los valores son iguales o menores que la mediana, y la mitad de los valores son iguales o mayores. Por ejemplo, considere los siguientes datos.
1; 11,5; 6; 7,2; 4; 8; 9; 10; 6,8; 8,3; 2; 2; 10; 1
Ordenado de menor a mayor:
1; 1; 2; 2; 4; 6; 6,8; 7,2; 8; 8,3; 9; 10; 10; 11,5

Como hay 14 observaciones, la mediana está entre el séptimo valor, 6,8, y el octavo, 7,2. Para hallar la mediana, sume los dos valores y divídalos entre dos.

\frac{6,8 + 7,2}{2} = 7

2.2

La mediana es siete. La mitad de los valores son menores que siete y la mitad de los valores son mayores que siete.

Los cuartiles son números que separan los datos en cuartos. Los cuartiles pueden o no formar parte de los datos. Para hallar los cuartiles, primero hay que hallar la mediana o el segundo cuartil. El primer cuartil, Q₁, es el valor central de la mitad inferior de los datos, y el tercer cuartil, Q₃, es el valor central, o la mediana, de la mitad superior de los datos. Para hacerse una idea, considere el mismo conjunto de datos:
1; 1; 2; 2; 4; 6; 6,8; 7,2; 8; 8,3; 9; 10; 10; 11,5

La mediana o segundo cuartil es siete. La mitad inferior de los datos son 1; 1; 2; 2; 4; 6; 6,8. El valor central de la mitad inferior es dos.
1; 1; 2; 2; 4; 6; 6,8

El número dos, que forma parte de los datos, es el primer cuartil. Una cuarta parte de los conjuntos de valores son iguales o inferiores a dos y tres cuartas partes de los valores son superiores a dos.

La mitad superior de los datos es 7,2; 8; 8,3; 9; 10; 10; 11,5. El valor central de la mitad superior es nueve.

El tercer cuartil, Q3, es nueve. Tres cuartas partes (75 %) del conjunto de datos ordenados son menores de nueve. Una cuarta parte (25 %) del conjunto de datos ordenados son mayores de nueve. El tercer cuartil forma parte del conjunto de datos de este ejemplo.

El rango intercuartil es un número que indica la dispersión de la mitad central o del 50 % central de los datos. Es la diferencia entre el tercer cuartil (Q₃) y el primer cuartil (Q₁).

IQR = Q₃ – Q₁

El IQR puede ayudar a determinar posibles valores atípicos. Se sospecha que un valor es un posible valor atípico si está menos de (1,5)(IQR) por debajo del primer cuartil o más de (1,5)(IQR) por encima del tercer cuartil. Los posibles valores atípicos siempre requieren una investigación más profunda.

NOTA

Un valor atípico potencial es un punto de datos que es significativamente diferente de los otros puntos de datos. Estos puntos de datos especiales pueden ser errores o algún tipo de anormalidad o pueden ser una clave para entender los datos.

Ejemplo 2.14

Translation missing: es.problem

Para los siguientes 13 precios de bienes raíces, calcule el IQR y determine si algún precio es un posible valor atípico. Los precios están en dólares.
389.950; 230.500; 158.000; 479.000; 639.000; 114.950; 5.500.000; 387.000; 659.000; 529.000; 575.000; 488.800; 1.095.000

Solución

Ordene los datos de menor a mayor.
114.950; 158.000; 230.500; 387.000; 389.950; 479.000; 488.800; 529.000; 575.000; 639.000; 659.000; 1.095.000; 5.500.000

M = 488.800

Q₁ = $\frac{230.500 + 387.000}{2}$ = 308.750

Q₃ = $\frac{639.000 + 659.000}{2}$ = 649.000

IQR = 649.000 – 308.750 = 340.250

(1,5)(IQR) = (1,5)(340.250) = 510.375

Q₁ – (1,5)(IQR) = 308.750 – 510.375 = –201.625

Q₃ + (1,5)(IQR) = 649.000 + 510.375 = 1.159.375

Ningún precio de la vivienda es inferior a –201.625. Sin embargo, 5.500.000 son más que 1.159.375. Por lo tanto, 5.500.000 es un posible valor atípico.

Ejemplo 2.15

Translation missing: es.problem

Para los dos conjuntos de datos del ejemplo de las calificaciones de los exámenes, halle lo siguiente:

El rango intercuartil. Compare los dos rangos intercuartiles.
Cualquier valor atípico en cualquier conjunto.

Solución

El resumen de cinco números para las clases diurnas y nocturnas es

	Mínimo	Q₁	Mediana	Q₃	Máximo
Día	32	56	74,5	82,5	99
Noche	25,5	78	81	89	98

Tabla 2.21

El IQR para el grupo de día es Q₃ – Q₁ = 82,5 – 56 = 26,5
El IQR para el grupo nocturno es Q₃ – Q₁ = 89 – 78 = 11
El rango intercuartil (la dispersión o variabilidad) para la clase diurna es mayor que el IQR de la clase nocturna. Esto sugiere que se hallarán más variaciones en los resultados de las pruebas de la clase diurna.
Los valores atípicos de la clase diurna se encuentran utilizando la regla del IQR por 1,5. Así que,
- Q₁ – IQR(1,5) = 56 – 26,5(1,5) = 16,25
- Q₃ + IQR(1,5) = 82,5 + 26,5(1,5) = 122,25
Dado que los valores mínimos y máximos de la clase diurna son superiores a 16,25 e inferiores a 122,25, no hay valores atípicos.

Los valores atípicos de la clase nocturna se calculan como:
- Q₁ – IQR (1,5) = 78 – 11(1,5) = 61,5
- Q₃ + IQR(1,5) = 89 + 11(1,5) = 105,5
Para esta clase, cualquier calificación de la prueba inferior a 61,5 es un valor atípico. Por lo tanto, las calificaciones de 45 y 25,5 son valores atípicos. Dado que ninguna calificación de la prueba es superior a 105,5, no hay ningún valor atípico en el extremo superior.

Ejemplo 2.16

Se les preguntó a cincuenta estudiantes de Estadística cuánto dormían por noche de escuela (redondeado a la hora más cercana). Los resultados fueron:

Cantidad de sueño por noche escolar (horas)	Frecuencia	Frecuencia relativa	Frecuencia relativa acumulada
4	2	0,04	0,04
5	5	0,10	0,14
6	7	0,14	0,28
7	12	0,24	0,52
8	14	0,28	0,80
9	7	0,14	0,94
10	3	0,06	1,00

Tabla 2.22

Calcule el percentil 28. Fíjese en el 0,28 de la columna “frecuencia relativa acumulada”. El veintiocho por ciento de 50 valores de datos son 14 valores. Hay 14 valores inferiores al percentil 28. Incluyen los dos 4, los cinco 5 y los siete 6. El percentil 28 está entre los seis últimos y los siete primeros. El percentil 28 es 6,5.

Calcule la mediana. Observe de nuevo la columna de “frecuencia relativa acumulada” y halle 0,52. La mediana es el percentil 50 o el segundo cuartil. El 50 % de 50 es 25. Hay 25 valores inferiores a la mediana. Incluyen los dos 4, los cinco 5, los siete 6 y once de los 7. La mediana o el percentil 50 está entre los valores 25, o siete, y 26, o siete. La mediana es siete.

Calcule el tercer cuartil. El tercer cuartil es lo mismo que el percentil 75. Puede dar esta respuesta “al ojo”. Si observa la columna de “frecuencia relativa acumulada”, verá 0,52 y 0,80. Cuando tiene todos los cuatros, cincos, seises y sietes tiene el 52 % de los datos. Cuando incluye todos los 8, tiene el 80 % de los datos. El percentil 75, entonces, debe ser un ocho. Otra forma de ver el problema es hallar el 75 % de 50, que es 37,5, y redondear a 38. El tercer cuartil, Q₃, es el valor 38, que es un ocho. Puede comprobar esta respuesta contando los valores (hay 37 valores por debajo del tercer cuartil y 12 valores por encima).

Inténtelo 2.16

Se les ha preguntado a cuarenta conductores de autobús cuántas horas dedican cada día a recorrer sus rutas (redondeadas a la hora más cercana). Calcule el percentil 65.

Cantidad de tiempo invertido en la ruta (horas)	Frecuencia	Frecuencia relativa	Frecuencia relativa acumulada
2	12	0,30	0,30
3	14	0,35	0,65
4	10	0,25	0,90
5	4	0,10	1,00

Tabla 2.23

Ejemplo 2.17

Translation missing: es.problem

Mediante la Tabla 2.22:

Calcule el percentil 80.
Calcule el percentil 90.
Calcule el primer cuartil. ¿Cuál es otro nombre para el primer cuartil?

Solución

Al usar los datos de la tabla de frecuencias, tenemos:

El percentil 80 está entre los ocho últimos y los nueve primeros de la tabla (entre los valores 40 y 41). Por lo tanto, tenemos que tomar la media de los valores 40 y 41. El percentil 80 $= \frac{8 + 9}{2} = 8,5$
El percentil 90 será el valor del dato 45 (la ubicación es 0,90(50) = 45) y el valor del dato 45 es nueve.
El Q₁ es también el percentil 25. El cálculo de la ubicación del percentil 25es: P₂₅ = 0,25(50) = 12,5 ≈ 13 el valor del dato 13. Así, el percentil 25 es seis.

Una fórmula para hallar el percentil k

Si investiga un poco, hallará varias fórmulas para calcular el percentil k Aquí está una de ellas.

k = el percentil k. Puede o no formar parte de los datos.

i = el índice (clasificación o posición de un valor de datos)

n = el número total de puntos de datos u observaciones

Ordene los datos de menor a mayor.
Calcule $i = \frac{k}{100} (n + 1)$
Si i es un número entero, el percentil k es el valor de los datos en la posición i en el conjunto ordenado de datos.
Si i no es un entero, entonces redondee i hacia arriba o redondee i hacia abajo a los enteros más cercanos. Promedia los dos valores de los datos en estas dos posiciones en el conjunto de datos ordenados. Esto es más fácil de entender con un ejemplo.

Ejemplo 2.18

Translation missing: es.problem

Se enumeran 29 edades de los mejores actores ganadores del Oscar en orden de menor a mayor.
18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77

Calcule el percentil 70.
Calcule el percentil 83.

Solución

- k = 70
- i = el índice
- n = 29
i = k 100 k 100 (n + 1) = ( 70 100 70 100 )(29 + 1) = 21. Veintiuno es un número entero, y el valor de los datos en la posición 21 del conjunto de datos ordenados es 64. El percentil 70 es 64 años.
- k = percentil 83
- i = el índice
- n = 29
i = k 100 k 100 (n + 1) = ( 83 100 83 100 )(29 + 1) = 24,9, que NO es un número entero. Redondee a 24 hacia abajo y a 25 hacia arriba. La edad en el puesto 24 es de 71 años y la edad en el puesto 25 es de 72 años. Promedio 71 y 72. El percentil 83 es de 71,5 años.

Inténtelo 2.18

Se enumeran 29 edades de los mejores actores ganadores del Oscar en orden de menor a mayor.

18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77
Calcule el percentil 20 y el percentil 55.

Una fórmula para hallar el percentil de un valor en un conjunto de datos

Ordene los datos de menor a mayor.
x = el número de valores de datos contando desde la parte inferior de la lista de datos hasta, pero sin incluir, el valor de datos para el que se desea hallar el percentil.
y = el número de valores de datos iguales al valor de los datos para los que se quiere hallar el percentil.
n = el número total de datos.
Calcule $\frac{x + 0,5 y}{n}$ (100). Luego, redondee al número entero más cercano.

Ejemplo 2.19

Translation missing: es.problem

Se enumeran 29 edades de los mejores actores ganadores del Oscar en orden de menor a mayor.
18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77

Calcule el percentil de 58.
Calcule el percentil de 25.

Solución

Contando desde el final de la lista hay 18 valores de datos inferiores a 58. Hay un valor de 58.
x = 18 y y = 1. $\frac{x + 0,5 y}{n}$ (100) = $\frac{18 + 0,5 (1)}{29}$ (100) = 63,80. 58 es el percentil 64.
Contando desde el final de la lista hay tres valores de datos inferiores a 25. Hay un valor de 25.
x = 3 y y = 1. $\frac{x + 0,5 y}{n}$ (100) = $\frac{3 + 0,5 (1)}{29}$ (100) = 12,07. Veinticinco es el percentil 12.

Interpretación de percentiles, cuartiles y mediana

Un percentil indica la posición relativa de un valor de datos cuando estos se ordenan numéricamente de menor a mayor. Los porcentajes de los valores de los datos son menores o iguales al percentil p. Por ejemplo, el 15 % de los valores de los datos son inferiores o iguales al percentil 15.

Los percentiles bajos corresponden siempre a valores de datos más bajos.
Los percentiles altos corresponden siempre a valores de datos más altos.

Un percentil puede corresponder o no a un juicio de valor sobre si es “bueno” o “deficiente”. La interpretación de si un determinado percentil es “bueno” o “deficiente” depende del contexto de la situación a la que se aplican los datos. En algunas situaciones, un percentil bajo se consideraría “bueno”; en otros contextos, un percentil alto podría considerarse “bueno”. En muchas situaciones no se aplica ningún juicio de valor.

Entender cómo interpretar correctamente los percentiles es importante no solo a la hora de describir los datos, sino también a la hora de calcular las probabilidades en capítulos posteriores de este texto.

NOTA

Al escribir la interpretación de un percentil en el contexto de los datos dados, la oración debe contener la siguiente información.

información sobre el contexto de la situación considerada.
el valor del dato (valor de la variable) que representa el percentil.
el porcentaje de personas o elementos con valores de datos por debajo del percentil.
el porcentaje de personas o elementos con valores de datos por encima del percentil.

Ejemplo 2.20

Translation missing: es.problem

En un examen de Matemáticas cronometrado, el primer cuartil del tiempo que se tardó en terminar el examen fue de 35 minutos. Interprete el primer cuartil en el contexto de esta situación.

Solución

El veinticinco por ciento de los estudiantes terminó el examen en 35 minutos o menos.
El setenta y cinco por ciento de los estudiantes terminó el examen en 35 minutos o más.
Un percentil bajo podría considerarse bueno, ya que es deseable terminar más rápido en un examen cronometrado (si tarda demasiado, es posible que no pueda terminar).

Ejemplo 2.21

Translation missing: es.problem

En un examen de Matemáticas de 20 preguntas, el percentil 70 del número de respuestas correctas fue de 16. Interprete el percentil 70 en el contexto de esta situación.

Solución

El setenta por ciento de los estudiantes respondió correctamente 16 o menos preguntas.
El treinta por ciento de los estudiantes respondió correctamente 16 o más preguntas.
Un percentil más alto podría considerarse bueno, ya que es deseable responder correctamente más preguntas.

Inténtelo 2.21

En una asignación escrita de 60 puntos, el percentil 80 del número de puntos obtenidos fue de 49. Interprete el percentil 80 en el contexto de esta situación.

Ejemplo 2.22

Translation missing: es.problem

En un colegio comunitario se comprobó que el percentil 30 de unidades de crédito en las que se inscriben los estudiantes es de siete unidades. Interprete el percentil 30 en el contexto de esta situación.

Solución

El treinta por ciento de los estudiantes están inscritos en siete o menos unidades de crédito.
El setenta por ciento de los estudiantes están inscritos en siete o más unidades de crédito.
En este ejemplo, no hay un juicio de valor "bueno" o "malo" asociado a un percentil más alto o más bajo. Los estudiantes acuden a los colegios comunitarios por razones y necesidades diversas y su carga lectiva varía según sus necesidades.

Ejemplo 2.23

La escuela intermedia Sharpe está solicitando una subvención que se utilizará para añadir equipos de acondicionamiento físico para el gimnasio. El director encuestó 15 estudiantes anónimos para determinar cuántos minutos al día dedican los estudiantes a hacer ejercicio. Se muestran los resultados de los 15 estudiantes anónimos.

0 minutos; 40 minutos; 60 minutos; 30 minutos; 60 minutos

10 minutos; 45 minutos; 30 minutos; 300 minutos; 90 minutos;

30 minutos; 120 minutos; 60 minutos; 0 minutos; 20 minutos

Determine los cinco valores siguientes.

Mín. = 0
Q₁ = 20
Med. = 40
Q₃ = 60
Máx. = 300

Si usted fuera el director, ¿se justificaría la compra de nuevos equipos de acondicionamiento físico? Dado que el 75 % de los estudiantes hacen ejercicio durante 60 minutos o menos al día, y que el IQR es de 40 minutos (60 – 20 = 40), sabemos que la mitad de los estudiantes encuestados hacen ejercicio entre 20 y 60 minutos al día. Esto parece una cantidad razonable de tiempo de ejercicio, por lo que el director estaría justificado en la compra del nuevo equipamiento.

Sin embargo, el director debe tener cuidado. El valor 300 parece ser un posible valor atípico.

Q₃ + 1,5(IQR) = 60 + (1,5)(40) = 120.

El valor 300 es mayor que 120, por lo que es un posible valor atípico. Si lo eliminamos y calculamos los cinco valores, obtenemos los siguientes valores:

Mín. = 0
Q₁ = 20
Q₃ = 60
Máx. = 120

Todavía tenemos un 75 % de los estudiantes que hacen ejercicio durante 60 minutos o menos al día y la mitad de los estudiantes que hacen ejercicio entre 20 y 60 minutos al día. Sin embargo, 15 estudiantes es una muestra pequeña y el director debería encuestar más estudiantes para estar seguro de los resultados de su encuesta.