Omitir e ir al contenidoIr a la página de accesibilidadMenú de atajos de teclado
Logo de OpenStax
Introducción a la estadística

12.6 Valores atípicos

Introducción a la estadística12.6 Valores atípicos

En algunos conjuntos de datos, hay valores (puntos de datos observados), llamados valores atípicos. Los valores atípicos son puntos de datos observados que se alejan de la línea de mínimos cuadrados. Tienen grandes "errores", donde el "error" o residual es la distancia vertical de la línea al punto.

Los valores atípicos deben examinarse de cerca. A veces, por una u otra razón, no deben incluirse en el análisis de los datos. Es posible que un valor atípico sea el resultado de datos erróneos. Otras veces, un valor atípico puede contener información valiosa sobre la población estudiada y debe seguir incluyéndose en los datos. La clave está en examinar cuidadosamente las causas de que un punto de datos sea un valor atípico.

Además de los valores atípicos, una muestra puede contener uno o varios puntos que se denominan puntos influyentes. Se trata de puntos de datos observados que están alejados de los demás en la dirección horizontal. Estos puntos pueden tener un gran efecto en la pendiente de la línea de regresión. Para empezar a identificar un punto influyente, puede eliminarlo del conjunto de datos y ver si la pendiente de la línea de regresión cambia significativamente.

Se pueden utilizar computadoras y muchas calculadoras para identificar los valores atípicos de los datos. Los resultados de computadoras del análisis de regresión identifican tanto los valores atípicos como los puntos influyentes para que pueda examinarlos.

Identificar los valores atípicos

Podríamos adivinar los valores atípicos al observar un gráfico del diagrama de dispersión y la línea de mejor ajuste. Sin embargo, nos gustaría contar con alguna directriz sobre la distancia que debe tener un punto para considerarse un valor atípico. Como regla general, podemos señalar como valor atípico cualquier punto que esté situado más de dos desviaciones típicas por encima o por debajo de la línea de mejor ajuste. La desviación típica utilizada es la de los residuales o errores.

Podemos hacerlo visualmente en el diagrama de dispersión al dibujar un par de líneas adicionales que estén dos desviaciones típicas por encima y por debajo de la línea de mejor ajuste. Todos los puntos de datos que se encuentren fuera de este par de líneas adicionales se marcan como posibles valores atípicos. Alternativamente, podemos hacerlo numéricamente, al calcular cada residual y compararlo con el doble de la desviación típica. En la TI-83, 83+ u 84+, el enfoque gráfico es más fácil. En primer lugar se muestra el procedimiento gráfico, seguido de los cálculos numéricos. Por lo general, solo tendrá que utilizar uno de estos métodos.

Ejemplo 12.12

Translation missing: es.problem

En el ejemplo del tercer examen o examen final, se puede determinar si hay un valor atípico o no. Si hay un valor atípico, como ejercicio, elimínelo y ajuste los datos restantes a una nueva línea. En este ejemplo, la nueva línea debería ajustarse mejor a los datos restantes. Esto significa que el SSE debería ser menor y el coeficiente de correlación debería estar más cerca de 1 o –1.

Inténtelo 12.12

Identifique el posible valor atípico en el diagrama de dispersión. La desviación típica de los residuales o errores es de aproximadamente 8,6.

Figura 12.19

Identificación numérica de los valores atípicos

En la Tabla 12.5, las dos primeras columnas son los datos del tercer examen y del examen final. La tercera columna muestra los valores ŷ predichos, calculados a partir de la línea de mejor ajuste: ŷ = -173,5 + 4,83x. Los residuales, o errores, se han calculado en la cuarta columna de la tabla: valor y observado - valor y predicho = y - ŷ.

s es la desviación típica de todos los valores y - ŷ = ε donde n = el número total de puntos de datos. Si se calcula cada residual, se eleva al cuadrado y se suman los resultados, se obtiene la suma de errores al cuadrado (Sum of Squared Errors, SSE). La desviación típica de los residuales se calcula a partir de la SSE como:

s= SSE n2 s= SSE n2

Nota

Dividimos entre (n - 2) porque el modelo de regresión implica dos estimaciones.

En vez de calcular el valor de s nosotros mismos, podemos calcular s con la computadora o la calculadora. Para este ejemplo, la función de la calculadora LinRegTTest calculó s = 16,4 como la desviación típica de los residuales 35; -17; 16; -6; -19; 9; 3; -1; -10; -9; -1 .

x y ŷ y - ŷ
65 175 140 175 – 140 = 35
67 133 150 133 – 150= -17
71 185 169 185 – 169 = 16
71 163 169 163 – 169 = -6
66 126 145 126 – 145 = -19
75 198 189 198 – 189 = 9
67 153 150 153 – 150 = 3
70 163 164 163 – 164 = -1
71 159 169 159 – 169 = -10
69 151 160 151 – 160 = -9
69 159 160 159 – 160 = -1
Tabla 12.5

Buscamos todos los puntos de datos cuyo residual sea mayor que 2s = 2(16,4) = 32,8 o menor que –32.8. Compare estos valores con los residuales de la cuarta columna de la tabla. El único dato de este tipo es el del estudiante que tuvo una nota de 65 en el tercer examen y 175 en el examen final; el residual de este estudiante es 35.

¿Cómo afecta el valor atípico la línea de mejor ajuste?

Numérica y gráficamente, hemos identificado el punto (65, 175) como un valor atípico. Deberíamos repasar los datos de este punto para ver si hay algún problema con estos. Si hay un error, debemos corregirlo si es posible o eliminar los datos. Si son correctos, los dejaríamos en el conjunto de datos. Para este problema, supondremos que examinamos y descubrimos que estos datos atípicos son un error. Por lo tanto, seguiremos adelante y eliminaremos el valor atípico, para poder explorar cómo afecta los resultados, como experiencia de aprendizaje.

Calcule una nueva línea de mejor ajuste y el coeficiente de correlación con los diez puntos restantes: En las calculadoras TI-83, TI-83+ y TI-84+, elimine el valor atípico de L1 y L2. Con la función LinRegTTest, la nueva línea de mejor ajuste y el coeficiente de correlación son:

ŷ = –355,19 + 7,39x y r = 0,9121

La nueva línea con r = 0,9121 es una correlación más fuerte que la original (r = 0,6631) porque r = 0,9121 está más cerca de uno. Esto significa que la nueva línea se ajusta mejor a los diez valores de datos restantes. La línea puede predecir mejor la puntuación del examen final, dada la puntuación del tercer examen.

Identificación numérica de valores atípicos: Calcular s y buscar valores atípicos manualmente

Si no tiene la función LinRegTTest, puede calcular el valor atípico del primer ejemplo; haga lo siguiente.

Primero, eleve al cuadrado cada |y - ŷ|

Las potencias al cuadrado son: 352; 172; 162; 62; 192; 92; 32; 12; 102; 92; 12

A continuación, añada (sume) todos los términos |y - ŷ| al cuadrado mediante la fórmula:

Σ i = 1 11 ( | y i y ^ i | ) 2 = Σ i = 1 11 ε i 2 Σ i = 1 11 ( | y i y ^ i | ) 2 = Σ i = 1 11 ε i 2 (Recordemos que yiŷi = εi).

= 352 + 172 + 162 + 62 + 192 + 92 + 32 + 12 + 102 + 92 + 12

= 2440 = SSE. El resultado, SSE, es la suma de errores al cuadrado.

A continuación, calcule s, la desviación típica de todos los valores y - ŷ = ε, donde n = el número total de puntos de datos.

El cálculo es s= SSE n2 s= SSE n2 .

Para el problema del tercer examen o examen final: s= 2440 112 =16,47 s= 2440 112 =16,47.

A continuación, multiplique s por 2:
(2)(16,47) = 32,94
32,94 está 2 desviaciones típicas lejos de la media de los valores y - ŷ.

Si midiéramos la distancia vertical desde cualquier punto de datos hasta el punto correspondiente de la línea de mejor ajuste y esa distancia fuera de al menos 2s, entonces consideraríamos que el punto de datos está "demasiado lejos" de la línea de mejor ajuste. A ese punto lo llamamos un potencial valor atípico.

Para el ejemplo, si alguno de los valores de yŷ| es al menos 32,94, el punto de datos correspondiente (x, y) es un posible valor atípico.

Para el problema del tercer examen o examen final, todos los |yŷ| son menores que 31,29, excepto el primero que es 35.

35 > 31,29 Es decir, |yŷ| ≥ (2)(s)

El punto que corresponde a |yŷ| = 35 es (65, 175). Por lo tanto, el punto de datos (65, 175) es un potencial valor atípico. Para este ejemplo, lo borraremos. (Recuerde que no siempre eliminamos un valor atípico).

Nota

Cuando se eliminan los valores atípicos, el investigador debería dejar constancia de que se han eliminado los datos y por qué, o bien debería proporcionar los resultados con y sin los datos eliminados. Si los datos son erróneos y se conocen los valores correctos (por ejemplo, el estudiante uno obtuvo realmente una puntuación de 70 en lugar de 65), se puede realizar esta corrección en los datos.



El siguiente paso es calcular una nueva línea de mejor ajuste con los diez puntos restantes. La nueva línea de mejor ajuste y el coeficiente de correlación son:

ŷ = –355,19 + 7,39x y r = 0,9121

Ejemplo 12.13

Translation missing: es.problem

Con esta nueva línea de mejor ajuste (basada en los diez puntos de datos restantes en el ejemplo del tercer examen o examen final), ¿qué esperaría recibir en el examen final un estudiante que obtiene 73 en el tercer examen? ¿Es lo mismo que la predicción realizada con la línea original?

Inténtelo 12.13

Los puntos de datos para el gráfico del ejemplo del tercer examen o examen final son los siguientes: (1, 5), (2, 7), (2, 6), (3, 9), (4, 12), (4, 13), (5, 18), (6, 19), (7, 12) y (7, 21). Elimine el valor atípico y vuelva a calcular la línea de mejor ajuste. Calcule el valor de ŷ cuando x = 10.

Ejemplo 12.14

El índice de precios al consumidor (IPC) mide la variación promedio en el tiempo de los precios que pagan los consumidores urbanos por los bienes y servicios de consumo. El IPC afecta a casi todos los estadounidenses debido a las múltiples formas en que se utiliza. Uno de sus mayores usos es como medida de la inflación. Al suministrar información sobre la evolución de los precios en la economía nacional al gobierno, las empresas y los trabajadores, el IPC permite tomar decisiones económicas. El Presidente, el Congreso y la Junta de la Reserva Federal utilizan las tendencias del IPC para formular políticas monetarias y fiscales. En la siguiente tabla, x es el año y y es el IPC.

x y x y
1915 10,1 1969 36,7
1926 17,7 1975 49,3
1935 13,7 1979 72,6
1940 14,7 1980 82,4
1947 24,1 1986 109,6
1952 26,5 1991 130,7
1964 31,0 1999 166,6
Tabla 12.6 Datos

Translation missing: es.problem

  1. Dibuje un diagrama de dispersión de los datos.
  2. Calcule la línea de mínimos cuadrados. Escriba la ecuación en la forma ŷ = a + bx.
  3. Dibuje la línea en el diagrama de dispersión.
  4. Halle el coeficiente de correlación. ¿Es significativo?
  5. ¿Cuál es el IPC promedio del año 1990?

Nota

En el ejemplo, observe el patrón de los puntos en comparación con la línea. Aunque el coeficiente de correlación es significativo, el patrón del diagrama de dispersión indica que una curva sería el modelo más apropiado que una línea. En este ejemplo, un estadístico preferiría utilizar otros métodos para ajustar una curva a estos datos, en lugar de modelar los datos con la línea que hemos hallado. Además de realizar los cálculos, siempre es importante observar el diagrama de dispersión para decidir si un modelo lineal es adecuado.

Si le interesa ver más años de datos, visite la página web del IPC de la Oficina de Estadísticas Laborales ftp://ftp.bls.gov/pub/special.requests/cpi/cpiai.txt; nuestros datos están tomados de la columna titulada "Annual Avg." (tercera columna de la derecha). Por ejemplo, podría añadir más años de datos actuales. Sume los años más recientes: 2004: IPC = 188,9; 2008: IPC = 215,3; 2011: IPC = 224,9. Vea cómo incide en el modelo. (Compruebe: ŷ = -4436 + 2,295x; r = 0,9018. ¿Es r significativo? ¿Se ha mejorado el ajuste con la adición de los nuevos puntos)?

Inténtelo 12.14

El siguiente cuadro muestra el desarrollo económico medido en renta per cápita RPC.

Año Producto Interno Bruto (PIB) Año Producto Interno Bruto (PIB)
1870 340 1920 1050
1880 499 1930 1170
1890 592 1940 1364
1900 757 1950 1836
1910 927 1960 2132
Tabla 12.7
  1. ¿Cuáles son las variables independientes y dependientes?
  2. Dibuje un diagrama de dispersión.
  3. Utilice la regresión para hallar la línea de mejor ajuste y el coeficiente de correlación.
  4. Interprete la importancia del coeficiente de correlación.
  5. ¿Existe una relación lineal entre las variables?
  6. Calcule el coeficiente de determinación e interprételo.
  7. ¿Cuál es la pendiente de la ecuación de regresión? ¿Qué significa?
  8. Utilice la línea de mejor ajuste para estimar la RPC para el año 1900, para el año 2000.
  9. Determine si hay valores atípicos.

Valores críticos al 95 % de la tabla de coeficientes de correlación de la muestra

Grados de libertad: n - 2 Valores críticos: (+ y -)
1 0,997
2 0,950
3 0,878
4 0,811
5 0,754
6 0,707
7 0,666
8 0,632
9 0,602
10 0,576
11 0,555
12 0,532
13 0,514
14 0,497
15 0,482
16 0,468
17 0,456
18 0,444
19 0,433
20 0,423
21 0,413
22 0,404
23 0,396
24 0,388
25 0,381
26 0,374
27 0,367
28 0,361
29 0,355
30 0,349
40 0,304
50 0,273
60 0,250
70 0,232
80 0,217
90 0,205
100 0,195
Tabla 12.8
Cita/Atribución

Este libro no puede ser utilizado en la formación de grandes modelos de lenguaje ni incorporado de otra manera en grandes modelos de lenguaje u ofertas de IA generativa sin el permiso de OpenStax.

¿Desea citar, compartir o modificar este libro? Este libro utiliza la Creative Commons Attribution License y debe atribuir a OpenStax.

Información de atribución
  • Si redistribuye todo o parte de este libro en formato impreso, debe incluir en cada página física la siguiente atribución:
    Acceso gratis en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica/pages/1-introduccion
  • Si redistribuye todo o parte de este libro en formato digital, debe incluir en cada vista de la página digital la siguiente atribución:
    Acceso gratuito en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica/pages/1-introduccion
Información sobre citas

© 28 ene. 2022 OpenStax. El contenido de los libros de texto que produce OpenStax tiene una licencia de Creative Commons Attribution License . El nombre de OpenStax, el logotipo de OpenStax, las portadas de libros de OpenStax, el nombre de OpenStax CNX y el logotipo de OpenStax CNX no están sujetos a la licencia de Creative Commons y no se pueden reproducir sin el previo y expreso consentimiento por escrito de Rice University.