Barbara Illowsky; Susan Dean

12.6 Valores atípicos

En algunos conjuntos de datos, hay valores (puntos de datos observados), llamados valores atípicos. Los valores atípicos son puntos de datos observados que se alejan de la línea de mínimos cuadrados. Tienen grandes "errores", donde el "error" o residual es la distancia vertical de la línea al punto.

Los valores atípicos deben examinarse de cerca. A veces, por una u otra razón, no deben incluirse en el análisis de los datos. Es posible que un valor atípico sea el resultado de datos erróneos. Otras veces, un valor atípico puede contener información valiosa sobre la población estudiada y debe seguir incluyéndose en los datos. La clave está en examinar cuidadosamente las causas de que un punto de datos sea un valor atípico.

Además de los valores atípicos, una muestra puede contener uno o varios puntos que se denominan puntos influyentes. Se trata de puntos de datos observados que están alejados de los demás en la dirección horizontal. Estos puntos pueden tener un gran efecto en la pendiente de la línea de regresión. Para empezar a identificar un punto influyente, puede eliminarlo del conjunto de datos y ver si la pendiente de la línea de regresión cambia significativamente.

Se pueden utilizar computadoras y muchas calculadoras para identificar los valores atípicos de los datos. Los resultados de computadoras del análisis de regresión identifican tanto los valores atípicos como los puntos influyentes para que pueda examinarlos.

Identificar los valores atípicos

Podríamos adivinar los valores atípicos al observar un gráfico del diagrama de dispersión y la línea de mejor ajuste. Sin embargo, nos gustaría contar con alguna directriz sobre la distancia que debe tener un punto para considerarse un valor atípico. Como regla general, podemos señalar como valor atípico cualquier punto que esté situado más de dos desviaciones típicas por encima o por debajo de la línea de mejor ajuste. La desviación típica utilizada es la de los residuales o errores.

Podemos hacerlo visualmente en el diagrama de dispersión al dibujar un par de líneas adicionales que estén dos desviaciones típicas por encima y por debajo de la línea de mejor ajuste. Todos los puntos de datos que se encuentren fuera de este par de líneas adicionales se marcan como posibles valores atípicos. Alternativamente, podemos hacerlo numéricamente, al calcular cada residual y compararlo con el doble de la desviación típica. En la TI-83, 83+ u 84+, el enfoque gráfico es más fácil. En primer lugar se muestra el procedimiento gráfico, seguido de los cálculos numéricos. Por lo general, solo tendrá que utilizar uno de estos métodos.

Ejemplo 12.12

Translation missing: es.problem

En el ejemplo del tercer examen o examen final, se puede determinar si hay un valor atípico o no. Si hay un valor atípico, como ejercicio, elimínelo y ajuste los datos restantes a una nueva línea. En este ejemplo, la nueva línea debería ajustarse mejor a los datos restantes. Esto significa que el SSE debería ser menor y el coeficiente de correlación debería estar más cerca de 1 o –1.

Solución

Identificación gráfica de los valores atípicos

Con las calculadoras gráficas TI-83, 83+ u 84+ es fácil identificar los valores atípicos de forma gráfica y visual. Si midiéramos la distancia vertical de cualquier punto de datos al punto correspondiente de la línea de mejor ajuste y esa distancia fuera igual a 2s o más, entonces consideraríamos que el punto de datos está "demasiado lejos" de la línea de mejor ajuste. Tenemos que calcular y graficar las líneas que están dos desviaciones típicas por debajo y por encima de la línea de regresión. Los puntos que estén fuera de estas dos líneas son valores atípicos. Llamaremos a estas líneas Y2 y Y3:

Al igual que hicimos con la ecuación de la línea de regresión y el coeficiente de correlación, utilizaremos la tecnología para calcular esta desviación típica. Utilizando la función LinRegTTest con estos datos, desplácese por las pantallas de salida hasta hallar s = 16,412.

Línea Y2 = -173,5 + 4,83x -2(16,4) y línea Y3 = -173,5 + 4,83x + 2(16,4)

donde ŷ = -173,5 + 4,83x es la línea de mejor ajuste. Y2 y Y3 tienen la misma pendiente que la línea de mejor ajuste.

Grafique el diagrama de dispersión con la línea de mejor ajuste en la ecuación Y1, luego introduzca las dos líneas adicionales como Y2 y Y3 en el editor de ecuaciones "Y=" y pulse ZOOM 9. Encontrará que el único punto de datos que no está entre las líneas Y2 y Y3 es el punto x = 65, y = 175. En la pantalla de la calculadora está apenas fuera de estas líneas. El valor atípico es el estudiante que obtuvo una calificación de 65 en el tercer examen y 175 en el examen final; este punto está a más de dos desviaciones típicas lejos de la línea de mejor ajuste.

A veces, un punto está tan cerca de las líneas utilizadas para marcar los valores atípicos en el gráfico que es difícil saber si el punto está entre las líneas o fuera de ellas. En una computadora, ampliar el gráfico puede ayudar; en la pantalla de una calculadora pequeña, el zoom puede hacer que el gráfico sea más claro. Tenga en cuenta que, cuando el gráfico no ofrece una imagen suficientemente clara, puede utilizar las comparaciones numéricas para identificar los valores atípicos.

El diagrama de dispersión de las puntuaciones de los exámenes con una línea de mejor ajuste. Dos líneas discontinuas amarillas son paralelas a la línea de mejor ajuste. Las líneas discontinuas van por encima y por debajo de la línea de mejor ajuste a distancias iguales. Un punto de datos queda fuera del límite creado por las líneas discontinuas: es un valor atípico.

Figura 12.18

Inténtelo 12.12

Identifique el posible valor atípico en el diagrama de dispersión. La desviación típica de los residuales o errores es de aproximadamente 8,6.

Figura 12.19

Identificación numérica de los valores atípicos

En la Tabla 12.5, las dos primeras columnas son los datos del tercer examen y del examen final. La tercera columna muestra los valores ŷ predichos, calculados a partir de la línea de mejor ajuste: ŷ = -173,5 + 4,83x. Los residuales, o errores, se han calculado en la cuarta columna de la tabla: valor y observado - valor y predicho = y - ŷ.

s es la desviación típica de todos los valores y - ŷ = ε donde n = el número total de puntos de datos. Si se calcula cada residual, se eleva al cuadrado y se suman los resultados, se obtiene la suma de errores al cuadrado (Sum of Squared Errors, SSE). La desviación típica de los residuales se calcula a partir de la SSE como:

$s = \sqrt{\frac{S S E}{n - 2}}$

Nota

Dividimos entre (n - 2) porque el modelo de regresión implica dos estimaciones.

En vez de calcular el valor de s nosotros mismos, podemos calcular s con la computadora o la calculadora. Para este ejemplo, la función de la calculadora LinRegTTest calculó s = 16,4 como la desviación típica de los residuales 35; -17; 16; -6; -19; 9; 3; -1; -10; -9; -1 .

x	y	ŷ	y - ŷ
65	175	140	175 – 140 = 35
67	133	150	133 – 150= -17
71	185	169	185 – 169 = 16
71	163	169	163 – 169 = -6
66	126	145	126 – 145 = -19
75	198	189	198 – 189 = 9
67	153	150	153 – 150 = 3
70	163	164	163 – 164 = -1
71	159	169	159 – 169 = -10
69	151	160	151 – 160 = -9
69	159	160	159 – 160 = -1

Tabla 12.5

Buscamos todos los puntos de datos cuyo residual sea mayor que 2s = 2(16,4) = 32,8 o menor que –32.8. Compare estos valores con los residuales de la cuarta columna de la tabla. El único dato de este tipo es el del estudiante que tuvo una nota de 65 en el tercer examen y 175 en el examen final; el residual de este estudiante es 35.

¿Cómo afecta el valor atípico la línea de mejor ajuste?

Numérica y gráficamente, hemos identificado el punto (65, 175) como un valor atípico. Deberíamos repasar los datos de este punto para ver si hay algún problema con estos. Si hay un error, debemos corregirlo si es posible o eliminar los datos. Si son correctos, los dejaríamos en el conjunto de datos. Para este problema, supondremos que examinamos y descubrimos que estos datos atípicos son un error. Por lo tanto, seguiremos adelante y eliminaremos el valor atípico, para poder explorar cómo afecta los resultados, como experiencia de aprendizaje.

Calcule una nueva línea de mejor ajuste y el coeficiente de correlación con los diez puntos restantes: En las calculadoras TI-83, TI-83+ y TI-84+, elimine el valor atípico de L1 y L2. Con la función LinRegTTest, la nueva línea de mejor ajuste y el coeficiente de correlación son:

ŷ = –355,19 + 7,39x y r = 0,9121

La nueva línea con r = 0,9121 es una correlación más fuerte que la original (r = 0,6631) porque r = 0,9121 está más cerca de uno. Esto significa que la nueva línea se ajusta mejor a los diez valores de datos restantes. La línea puede predecir mejor la puntuación del examen final, dada la puntuación del tercer examen.

Identificación numérica de valores atípicos: Calcular s y buscar valores atípicos manualmente

Si no tiene la función LinRegTTest, puede calcular el valor atípico del primer ejemplo; haga lo siguiente.

Primero, eleve al cuadrado cada |y - ŷ|

Las potencias al cuadrado son: 35²; 17²; 16²; 6²; 19²; 9²; 3²; 1²; 10²; 9²; 1²

A continuación, añada (sume) todos los términos |y - ŷ| al cuadrado mediante la fórmula:

$\overset{11}{\underset{i = 1}{Σ}} {(| y_{i} - {\hat{y}}_{i} |)}^{2} = \overset{11}{\underset{i = 1}{Σ}} ε_{i}^{2}$ (Recordemos que y_i – ŷ_i = ε_i).

= 35² + 17² + 16² + 6² + 19² + 9² + 3² + 1² + 10² + 9² + 1²

= 2440 = SSE. El resultado, SSE, es la suma de errores al cuadrado.

A continuación, calcule s, la desviación típica de todos los valores y - ŷ = ε, donde n = el número total de puntos de datos.

El cálculo es $s = \sqrt{\frac{SSE}{n - 2}}$ .

Para el problema del tercer examen o examen final: $s = \sqrt{\frac{2440}{11 - 2}} = 16,47$ .

A continuación, multiplique s por 2:
(2)(16,47) = 32,94
32,94 está 2 desviaciones típicas lejos de la media de los valores y - ŷ.

Si midiéramos la distancia vertical desde cualquier punto de datos hasta el punto correspondiente de la línea de mejor ajuste y esa distancia fuera de al menos 2s, entonces consideraríamos que el punto de datos está "demasiado lejos" de la línea de mejor ajuste. A ese punto lo llamamos un potencial valor atípico.

Para el ejemplo, si alguno de los valores de y – ŷ| es al menos 32,94, el punto de datos correspondiente (x, y) es un posible valor atípico.

Para el problema del tercer examen o examen final, todos los |y – ŷ| son menores que 31,29, excepto el primero que es 35.

35 > 31,29 Es decir, |y – ŷ| ≥ (2)(s)

El punto que corresponde a |y – ŷ| = 35 es (65, 175). Por lo tanto, el punto de datos (65, 175) es un potencial valor atípico. Para este ejemplo, lo borraremos. (Recuerde que no siempre eliminamos un valor atípico).

Nota

Cuando se eliminan los valores atípicos, el investigador debería dejar constancia de que se han eliminado los datos y por qué, o bien debería proporcionar los resultados con y sin los datos eliminados. Si los datos son erróneos y se conocen los valores correctos (por ejemplo, el estudiante uno obtuvo realmente una puntuación de 70 en lugar de 65), se puede realizar esta corrección en los datos.

El siguiente paso es calcular una nueva línea de mejor ajuste con los diez puntos restantes. La nueva línea de mejor ajuste y el coeficiente de correlación son:

ŷ = –355,19 + 7,39x y r = 0,9121

Ejemplo 12.13

Translation missing: es.problem

Con esta nueva línea de mejor ajuste (basada en los diez puntos de datos restantes en el ejemplo del tercer examen o examen final), ¿qué esperaría recibir en el examen final un estudiante que obtiene 73 en el tercer examen? ¿Es lo mismo que la predicción realizada con la línea original?

Solución

Con la nueva línea de mejor ajuste, ŷ = -355,19 + 7,39(73) = 184,28. Un estudiante que haya obtenido 73 puntos en el tercer examen esperaría obtener 184 puntos en el examen final.

La línea original predecía ŷ = -173,51 + 4,83(73) = 179,08 por lo que la predicción utilizando la nueva línea con el valor atípico eliminado difiere de la predicción original.

Inténtelo 12.13

Los puntos de datos para el gráfico del ejemplo del tercer examen o examen final son los siguientes: (1, 5), (2, 7), (2, 6), (3, 9), (4, 12), (4, 13), (5, 18), (6, 19), (7, 12) y (7, 21). Elimine el valor atípico y vuelva a calcular la línea de mejor ajuste. Calcule el valor de ŷ cuando x = 10.

Ejemplo 12.14

El índice de precios al consumidor (IPC) mide la variación promedio en el tiempo de los precios que pagan los consumidores urbanos por los bienes y servicios de consumo. El IPC afecta a casi todos los estadounidenses debido a las múltiples formas en que se utiliza. Uno de sus mayores usos es como medida de la inflación. Al suministrar información sobre la evolución de los precios en la economía nacional al gobierno, las empresas y los trabajadores, el IPC permite tomar decisiones económicas. El Presidente, el Congreso y la Junta de la Reserva Federal utilizan las tendencias del IPC para formular políticas monetarias y fiscales. En la siguiente tabla, x es el año y y es el IPC.

x	y	x	y
1915	10,1	1969	36,7
1926	17,7	1975	49,3
1935	13,7	1979	72,6
1940	14,7	1980	82,4
1947	24,1	1986	109,6
1952	26,5	1991	130,7
1964	31,0	1999	166,6

Tabla 12.6 Datos

Translation missing: es.problem

Dibuje un diagrama de dispersión de los datos.
Calcule la línea de mínimos cuadrados. Escriba la ecuación en la forma ŷ = a + bx.
Dibuje la línea en el diagrama de dispersión.
Halle el coeficiente de correlación. ¿Es significativo?
¿Cuál es el IPC promedio del año 1990?

Solución

Vea la Figura 12.20.
ŷ = -3204 + 1,662x es la ecuación de la línea de mejor ajuste.
r = 0,8694
El número de puntos de datos es n = 14. Utilice los valores críticos al 95 % de la tabla de coeficientes de correlación de la muestra que aparecen al final del Capítulo 12. n - 2 = 12. El valor crítico correspondiente es 0,532. Dado que 0,8694 > 0,532, r es significativo.
ŷ = -3204 + 1,662(1990) = 103,4 IPC
Con la función LinRegTTest de la calculadora hallamos que s = 25,4 ; al graficar las líneas Y2 = –3.204 + 1,662X – 2(25,4) y Y3 = –204 + 1,662X + 2(25,4) se observa que ningún valor de los datos está fuera de esas líneas, por lo cual se identifica que no hay valores atípicos. (Observe que el año 1999 estaba muy cerca de la línea superior, pero todavía dentro de ella).

Diagrama de dispersión y línea de mejor ajuste de los datos del índice de precios al consumidor, en el eje y, así como de los datos del año, en el eje x.

Figura 12.20

Nota

En el ejemplo, observe el patrón de los puntos en comparación con la línea. Aunque el coeficiente de correlación es significativo, el patrón del diagrama de dispersión indica que una curva sería el modelo más apropiado que una línea. En este ejemplo, un estadístico preferiría utilizar otros métodos para ajustar una curva a estos datos, en lugar de modelar los datos con la línea que hemos hallado. Además de realizar los cálculos, siempre es importante observar el diagrama de dispersión para decidir si un modelo lineal es adecuado.

Si le interesa ver más años de datos, visite la página web del IPC de la Oficina de Estadísticas Laborales ftp://ftp.bls.gov/pub/special.requests/cpi/cpiai.txt; nuestros datos están tomados de la columna titulada "Annual Avg." (tercera columna de la derecha). Por ejemplo, podría añadir más años de datos actuales. Sume los años más recientes: 2004: IPC = 188,9; 2008: IPC = 215,3; 2011: IPC = 224,9. Vea cómo incide en el modelo. (Compruebe: ŷ = -4436 + 2,295x; r = 0,9018. ¿Es r significativo? ¿Se ha mejorado el ajuste con la adición de los nuevos puntos)?

Inténtelo 12.14

El siguiente cuadro muestra el desarrollo económico medido en renta per cápita RPC.

Año	Producto Interno Bruto (PIB)	Año	Producto Interno Bruto (PIB)
1870	340	1920	1050
1880	499	1930	1170
1890	592	1940	1364
1900	757	1950	1836
1910	927	1960	2132

Tabla 12.7

¿Cuáles son las variables independientes y dependientes?
Dibuje un diagrama de dispersión.
Utilice la regresión para hallar la línea de mejor ajuste y el coeficiente de correlación.
Interprete la importancia del coeficiente de correlación.
¿Existe una relación lineal entre las variables?
Calcule el coeficiente de determinación e interprételo.
¿Cuál es la pendiente de la ecuación de regresión? ¿Qué significa?
Utilice la línea de mejor ajuste para estimar la RPC para el año 1900, para el año 2000.
Determine si hay valores atípicos.

Valores críticos al 95 % de la tabla de coeficientes de correlación de la muestra

Grados de libertad: n - 2	Valores críticos: (+ y -)
1	0,997
2	0,950
3	0,878
4	0,811
5	0,754
6	0,707
7	0,666
8	0,632
9	0,602
10	0,576
11	0,555
12	0,532
13	0,514
14	0,497
15	0,482
16	0,468
17	0,456
18	0,444
19	0,433
20	0,423
21	0,413
22	0,404
23	0,396
24	0,388
25	0,381
26	0,374
27	0,367
28	0,361
29	0,355
30	0,349
40	0,304
50	0,273
60	0,250
70	0,232
80	0,217
90	0,205
100	0,195

Tabla 12.8