Omitir e ir al contenidoIr a la página de accesibilidadMenú de atajos de teclado
Logo de OpenStax
Introducción a la estadística

12.6 Valores atípicos

Introducción a la estadística12.6 Valores atípicos

Menú
Índice
  1. Prefacio
  2. 1 Muestreo y datos
    1. Introducción
    2. 1.1 Definiciones de estadística, probabilidad y términos clave
    3. 1.2 Datos, muestreo y variación de datos y muestreo
    4. 1.3 Frecuencia, tablas de frecuencia y niveles de medición
    5. 1.4 Diseño experimental y ética
    6. 1.5 Experimento de recopilación de datos
    7. 1.6 Experimento de muestreo
    8. Términos clave
    9. Repaso del capítulo
    10. Práctica
    11. Tarea para la casa
    12. Resúmalo todo: tarea para la casa
    13. Referencias
    14. Soluciones
  3. 2 Estadística descriptiva
    1. Introducción
    2. 2.1 Gráficos de tallo y hoja (gráfico de tallo), gráficos de líneas y gráficos de barras
    3. 2.2 Histogramas, polígonos de frecuencia y gráficos de series temporales
    4. 2.3 Medidas de la ubicación de los datos
    5. 2.4 Diagramas de caja
    6. 2.5 Medidas del centro de los datos
    7. 2.6 Distorsión y media, mediana y moda
    8. 2.7 Medidas de la dispersión de los datos
    9. 2.8 Estadística descriptiva
    10. Términos clave
    11. Repaso del capítulo
    12. Repaso de fórmulas
    13. Práctica
    14. Tarea para la casa
    15. Resúmalo todo: tarea para la casa
    16. Referencias
    17. Soluciones
  4. 3 Temas de probabilidad
    1. Introducción
    2. 3.1 Terminología
    3. 3.2 Eventos mutuamente excluyentes e independientes
    4. 3.3 Dos reglas básicas de la probabilidad
    5. 3.4 Tablas de contingencia
    6. 3.5 Diagramas de árbol y de Venn
    7. 3.6 Temas de probabilidad
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Uniéndolo todo: Práctica
    13. Tarea para la casa
    14. Resúmalo todo: tarea para la casa
    15. Referencias
    16. Soluciones
  5. 4 Variables aleatorias discretas
    1. Introducción
    2. 4.1 Función de Distribución de Probabilidad (PDF) para una variable aleatoria discreta
    3. 4.2 Media o valor esperado y desviación típica
    4. 4.3 Distribución binomial
    5. 4.4 Distribución geométrica
    6. 4.5 Distribución hipergeométrica
    7. 4.6 Distribución de Poisson
    8. 4.7 Distribución discreta (experimento con cartas)
    9. 4.8 Distribución discreta (experimento de los dados de la suerte)
    10. Términos clave
    11. Repaso del capítulo
    12. Repaso de fórmulas
    13. Práctica
    14. Tarea para la casa
    15. Referencias
    16. Soluciones
  6. 5 Variables aleatorias continuas
    1. Introducción
    2. 5.1 Funciones de probabilidad continuas
    3. 5.2 La distribución uniforme
    4. 5.3 La distribución exponencial
    5. 5.4 Distribución continua
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  7. 6 La distribución normal
    1. Introducción
    2. 6.1 La distribución normal estándar
    3. 6.2 Uso de la distribución normal
    4. 6.3 Distribución normal (tiempos de vuelta)
    5. 6.4 Distribución normal (longitud del meñique)
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  8. 7 El teorema del límite central
    1. Introducción
    2. 7.1 Teorema del límite central de medias muestrales (promedios)
    3. 7.2 El teorema del límite central para las sumas
    4. 7.3 Uso del teorema del límite central
    5. 7.4 Teorema del límite central (monedas en el bolsillo)
    6. 7.5 Teorema del límite central (recetas de galletas)
    7. Términos clave
    8. Repaso del capítulo
    9. Repaso de fórmulas
    10. Práctica
    11. Tarea para la casa
    12. Referencias
    13. Soluciones
  9. 8 Intervalos de confianza
    1. Introducción
    2. 8.1 La media de una población utilizando la distribución normal
    3. 8.2 La media de una población utilizando la distribución t de Student
    4. 8.3 Una proporción de la población
    5. 8.4 Intervalo de confianza (costos de hogares)
    6. 8.5 Intervalo de confianza (lugar de nacimiento)
    7. 8.6 Intervalo de confianza (altura de las mujeres)
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Tarea para la casa
    13. Referencias
    14. Soluciones
  10. 9 Pruebas de hipótesis con una muestra
    1. Introducción
    2. 9.1 Hipótesis nula y alternativa
    3. 9.2 Resultados y errores de tipo I y II
    4. 9.3 Distribución necesaria para la comprobación de la hipótesis
    5. 9.4 Eventos poco comunes, la muestra, decisión y conclusión
    6. 9.5 Información adicional y ejemplos de pruebas de hipótesis completas
    7. 9.6 Pruebas de hipótesis de una sola media y una sola proporción
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Tarea para la casa
    13. Referencias
    14. Soluciones
  11. 10 Pruebas de hipótesis con dos muestras
    1. Introducción
    2. 10.1 Medias de dos poblaciones con desviaciones típicas desconocidas
    3. 10.2 Dos medias poblacionales con desviaciones típicas conocidas
    4. 10.3 Comparación de dos proporciones de población independientes
    5. 10.4 Muestras coincidentes o emparejadas
    6. 10.5 Prueba de hipótesis para dos medias y dos proporciones
    7. Términos clave
    8. Repaso del capítulo
    9. Repaso de fórmulas
    10. Práctica
    11. Tarea para la casa
    12. Resúmalo todo: tarea para la casa
    13. Referencias
    14. Soluciones
  12. 11 La distribución chi-cuadrado
    1. Introducción
    2. 11.1 Datos sobre la distribución chi-cuadrado
    3. 11.2 Prueba de bondad de ajuste
    4. 11.3 Prueba de independencia
    5. 11.4 Prueba de homogeneidad
    6. 11.5 Comparación de las pruebas chi-cuadrado
    7. 11.6 Prueba de una sola varianza
    8. 11.7 Laboratorio 1: Bondad de ajuste de chi-cuadrado
    9. 11.8 Laboratorio 2: prueba de independencia de chi-cuadrado
    10. Términos clave
    11. Repaso del capítulo
    12. Repaso de fórmulas
    13. Práctica
    14. Tarea para la casa
    15. Resúmalo todo: tarea para la casa
    16. Referencias
    17. Soluciones
  13. 12 Regresión lineal y correlación
    1. Introducción
    2. 12.1 Ecuaciones lineales
    3. 12.2 Diagramas de dispersión
    4. 12.3 La ecuación de regresión
    5. 12.4 Comprobación de la importancia del coeficiente de correlación
    6. 12.5 Predicción
    7. 12.6 Valores atípicos
    8. 12.7 Regresión (distancia desde la escuela)
    9. 12.8 Regresión (costo de los libros de texto)
    10. 12.9 Regresión (eficiencia del combustible)
    11. Términos clave
    12. Repaso del capítulo
    13. Repaso de fórmulas
    14. Práctica
    15. Tarea para la casa
    16. Resúmalo todo: tarea para la casa
    17. Referencias
    18. Soluciones
  14. 13 Distribución F y análisis de varianza anova de una vía
    1. Introducción
    2. 13.1 ANOVA de una vía
    3. 13.2 La distribución F y el cociente F
    4. 13.3 Datos sobre la distribución F
    5. 13.4 Prueba de dos varianzas
    6. 13.5 Laboratorio: ANOVA de una vía
    7. Términos clave
    8. Repaso del capítulo
    9. Repaso de fórmulas
    10. Práctica
    11. Tarea para la casa
    12. Referencias
    13. Soluciones
  15. A Ejercicios de repaso (caps. 3-13)
  16. B Pruebas prácticas (de la 1 a la 4) y exámenes finales
  17. C Conjuntos de datos
  18. D Proyectos de grupos y asociaciones
  19. E Hojas de soluciones
  20. F Oraciones, símbolos y fórmulas matemáticas
  21. G Notas para las calculadoras TI-83, 83+, 84 y 84+
  22. H Tablas
  23. Índice

En algunos conjuntos de datos, hay valores (puntos de datos observados), llamados valores atípicos. Los valores atípicos son puntos de datos observados que se alejan de la línea de mínimos cuadrados. Tienen grandes "errores", donde el "error" o residual es la distancia vertical de la línea al punto.

Los valores atípicos deben examinarse de cerca. A veces, por una u otra razón, no deben incluirse en el análisis de los datos. Es posible que un valor atípico sea el resultado de datos erróneos. Otras veces, un valor atípico puede contener información valiosa sobre la población estudiada y debe seguir incluyéndose en los datos. La clave está en examinar cuidadosamente las causas de que un punto de datos sea un valor atípico.

Además de los valores atípicos, una muestra puede contener uno o varios puntos que se denominan puntos influyentes. Se trata de puntos de datos observados que están alejados de los demás en la dirección horizontal. Estos puntos pueden tener un gran efecto en la pendiente de la línea de regresión. Para empezar a identificar un punto influyente, puede eliminarlo del conjunto de datos y ver si la pendiente de la línea de regresión cambia significativamente.

Se pueden utilizar computadoras y muchas calculadoras para identificar los valores atípicos de los datos. Los resultados de computadoras del análisis de regresión identifican tanto los valores atípicos como los puntos influyentes para que pueda examinarlos.

Identificar los valores atípicos

Podríamos adivinar los valores atípicos al observar un gráfico del diagrama de dispersión y la línea de mejor ajuste. Sin embargo, nos gustaría contar con alguna directriz sobre la distancia que debe tener un punto para considerarse un valor atípico. Como regla general, podemos señalar como valor atípico cualquier punto que esté situado más de dos desviaciones típicas por encima o por debajo de la línea de mejor ajuste. La desviación típica utilizada es la de los residuales o errores.

Podemos hacerlo visualmente en el diagrama de dispersión al dibujar un par de líneas adicionales que estén dos desviaciones típicas por encima y por debajo de la línea de mejor ajuste. Todos los puntos de datos que se encuentren fuera de este par de líneas adicionales se marcan como posibles valores atípicos. Alternativamente, podemos hacerlo numéricamente, al calcular cada residual y compararlo con el doble de la desviación típica. En la TI-83, 83+ u 84+, el enfoque gráfico es más fácil. En primer lugar se muestra el procedimiento gráfico, seguido de los cálculos numéricos. Por lo general, solo tendrá que utilizar uno de estos métodos.

Ejemplo 12.12

translation missing: es.problem

En el ejemplo del tercer examen o examen final, se puede determinar si hay un valor atípico o no. Si hay un valor atípico, como ejercicio, elimínelo y ajuste los datos restantes a una nueva línea. En este ejemplo, la nueva línea debería ajustarse mejor a los datos restantes. Esto significa que el SSE debería ser menor y el coeficiente de correlación debería estar más cerca de 1 o –1.

Inténtelo 12.12

Identifique el posible valor atípico en el diagrama de dispersión. La desviación típica de los residuales o errores es de aproximadamente 8,6.

Figura 12.19

Identificación numérica de los valores atípicos

En la Tabla 12.5, las dos primeras columnas son los datos del tercer examen y del examen final. La tercera columna muestra los valores ŷ predichos, calculados a partir de la línea de mejor ajuste: ŷ = -173,5 + 4,83x. Los residuales, o errores, se han calculado en la cuarta columna de la tabla: valor y observado - valor y predicho = y - ŷ.

s es la desviación típica de todos los valores y - ŷ = ε donde n = el número total de puntos de datos. Si se calcula cada residual, se eleva al cuadrado y se suman los resultados, se obtiene la suma de errores al cuadrado (Sum of Squared Errors, SSE). La desviación típica de los residuales se calcula a partir de la SSE como:

s= SSE n2 s= SSE n2

Nota

Dividimos entre (n - 2) porque el modelo de regresión implica dos estimaciones.

En vez de calcular el valor de s nosotros mismos, podemos calcular s con la computadora o la calculadora. Para este ejemplo, la función de la calculadora LinRegTTest calculó s = 16,4 como la desviación típica de los residuales 35; -17; 16; -6; -19; 9; 3; -1; -10; -9; -1 .

x y ŷ y - ŷ
65 175 140 175 – 140 = 35
67 133 150 133 – 150= -17
71 185 169 185 – 169 = 16
71 163 169 163 – 169 = -6
66 126 145 126 – 145 = -19
75 198 189 198 – 189 = 9
67 153 150 153 – 150 = 3
70 163 164 163 – 164 = -1
71 159 169 159 – 169 = -10
69 151 160 151 – 160 = -9
69 159 160 159 – 160 = -1
Tabla 12.5

Buscamos todos los puntos de datos cuyo residual sea mayor que 2s = 2(16,4) = 32,8 o menor que –32.8. Compare estos valores con los residuales de la cuarta columna de la tabla. El único dato de este tipo es el del estudiante que tuvo una nota de 65 en el tercer examen y 175 en el examen final; el residual de este estudiante es 35.

¿Cómo afecta el valor atípico la línea de mejor ajuste?

Numérica y gráficamente, hemos identificado el punto (65, 175) como un valor atípico. Deberíamos repasar los datos de este punto para ver si hay algún problema con estos. Si hay un error, debemos corregirlo si es posible o eliminar los datos. Si son correctos, los dejaríamos en el conjunto de datos. Para este problema, supondremos que examinamos y descubrimos que estos datos atípicos son un error. Por lo tanto, seguiremos adelante y eliminaremos el valor atípico, para poder explorar cómo afecta los resultados, como experiencia de aprendizaje.

Calcule una nueva línea de mejor ajuste y el coeficiente de correlación con los diez puntos restantes: En las calculadoras TI-83, TI-83+ y TI-84+, elimine el valor atípico de L1 y L2. Con la función LinRegTTest, la nueva línea de mejor ajuste y el coeficiente de correlación son:

ŷ = –355,19 + 7,39x y r = 0,9121

La nueva línea con r = 0,9121 es una correlación más fuerte que la original (r = 0,6631) porque r = 0,9121 está más cerca de uno. Esto significa que la nueva línea se ajusta mejor a los diez valores de datos restantes. La línea puede predecir mejor la puntuación del examen final, dada la puntuación del tercer examen.

Identificación numérica de valores atípicos: Calcular s y buscar valores atípicos manualmente

Si no tiene la función LinRegTTest, puede calcular el valor atípico del primer ejemplo; haga lo siguiente.

Primero, eleve al cuadrado cada |y - ŷ|

Las potencias al cuadrado son: 352; 172; 162; 62; 192; 92; 32; 12; 102; 92; 12

A continuación, añada (sume) todos los términos |y - ŷ| al cuadrado mediante la fórmula:

Σ i = 1 11 ( | y i y ^ i | ) 2 = Σ i = 1 11 ε i 2 Σ i = 1 11 ( | y i y ^ i | ) 2 = Σ i = 1 11 ε i 2 (Recordemos que yiŷi = εi).

= 352 + 172 + 162 + 62 + 192 + 92 + 32 + 12 + 102 + 92 + 12

= 2440 = SSE. El resultado, SSE, es la suma de errores al cuadrado.

A continuación, calcule s, la desviación típica de todos los valores y - ŷ = ε, donde n = el número total de puntos de datos.

El cálculo es s= SSE n2 s= SSE n2 .

Para el problema del tercer examen o examen final: s= 2440 112 =16,47 s= 2440 112 =16,47.

A continuación, multiplique s por 2:
(2)(16,47) = 32,94
32,94 está 2 desviaciones típicas lejos de la media de los valores y - ŷ.

Si midiéramos la distancia vertical desde cualquier punto de datos hasta el punto correspondiente de la línea de mejor ajuste y esa distancia fuera de al menos 2s, entonces consideraríamos que el punto de datos está "demasiado lejos" de la línea de mejor ajuste. A ese punto lo llamamos un potencial valor atípico.

Para el ejemplo, si alguno de los valores de yŷ| es al menos 32,94, el punto de datos correspondiente (x, y) es un posible valor atípico.

Para el problema del tercer examen o examen final, todos los |yŷ| son menores que 31,29, excepto el primero que es 35.

35 > 31,29 Es decir, |yŷ| ≥ (2)(s)

El punto que corresponde a |yŷ| = 35 es (65, 175). Por lo tanto, el punto de datos (65, 175) es un potencial valor atípico. Para este ejemplo, lo borraremos. (Recuerde que no siempre eliminamos un valor atípico).

Nota

Cuando se eliminan los valores atípicos, el investigador debería dejar constancia de que se han eliminado los datos y por qué, o bien debería proporcionar los resultados con y sin los datos eliminados. Si los datos son erróneos y se conocen los valores correctos (por ejemplo, el estudiante uno obtuvo realmente una puntuación de 70 en lugar de 65), se puede realizar esta corrección en los datos.



El siguiente paso es calcular una nueva línea de mejor ajuste con los diez puntos restantes. La nueva línea de mejor ajuste y el coeficiente de correlación son:

ŷ = –355,19 + 7,39x y r = 0,9121

Ejemplo 12.13

translation missing: es.problem

Con esta nueva línea de mejor ajuste (basada en los diez puntos de datos restantes en el ejemplo del tercer examen o examen final), ¿qué esperaría recibir en el examen final un estudiante que obtiene 73 en el tercer examen? ¿Es lo mismo que la predicción realizada con la línea original?

Inténtelo 12.13

Los puntos de datos para el gráfico del ejemplo del tercer examen o examen final son los siguientes: (1, 5), (2, 7), (2, 6), (3, 9), (4, 12), (4, 13), (5, 18), (6, 19), (7, 12) y (7, 21). Elimine el valor atípico y vuelva a calcular la línea de mejor ajuste. Calcule el valor de ŷ cuando x = 10.

Ejemplo 12.14

El índice de precios al consumidor (IPC) mide la variación promedio en el tiempo de los precios que pagan los consumidores urbanos por los bienes y servicios de consumo. El IPC afecta a casi todos los estadounidenses debido a las múltiples formas en que se utiliza. Uno de sus mayores usos es como medida de la inflación. Al suministrar información sobre la evolución de los precios en la economía nacional al gobierno, las empresas y los trabajadores, el IPC permite tomar decisiones económicas. El Presidente, el Congreso y la Junta de la Reserva Federal utilizan las tendencias del IPC para formular políticas monetarias y fiscales. En la siguiente tabla, x es el año y y es el IPC.

x y x y
1915 10,1 1969 36,7
1926 17,7 1975 49,3
1935 13,7 1979 72,6
1940 14,7 1980 82,4
1947 24,1 1986 109,6
1952 26,5 1991 130,7
1964 31,0 1999 166,6
Tabla 12.6 Datos

translation missing: es.problem

  1. Dibuje un diagrama de dispersión de los datos.
  2. Calcule la línea de mínimos cuadrados. Escriba la ecuación en la forma ŷ = a + bx.
  3. Dibuje la línea en el diagrama de dispersión.
  4. Halle el coeficiente de correlación. ¿Es significativo?
  5. ¿Cuál es el IPC promedio del año 1990?

Nota

En el ejemplo, observe el patrón de los puntos en comparación con la línea. Aunque el coeficiente de correlación es significativo, el patrón del diagrama de dispersión indica que una curva sería el modelo más apropiado que una línea. En este ejemplo, un estadístico preferiría utilizar otros métodos para ajustar una curva a estos datos, en lugar de modelar los datos con la línea que hemos hallado. Además de realizar los cálculos, siempre es importante observar el diagrama de dispersión para decidir si un modelo lineal es adecuado.

Si le interesa ver más años de datos, visite la página web del IPC de la Oficina de Estadísticas Laborales ftp://ftp.bls.gov/pub/special.requests/cpi/cpiai.txt; nuestros datos están tomados de la columna titulada "Annual Avg." (tercera columna de la derecha). Por ejemplo, podría añadir más años de datos actuales. Sume los años más recientes: 2004: IPC = 188,9; 2008: IPC = 215,3; 2011: IPC = 224,9. Vea cómo incide en el modelo. (Compruebe: ŷ = -4436 + 2,295x; r = 0,9018. ¿Es r significativo? ¿Se ha mejorado el ajuste con la adición de los nuevos puntos)?

Inténtelo 12.14

El siguiente cuadro muestra el desarrollo económico medido en renta per cápita RPC.

Año Producto Interno Bruto (PIB) Año Producto Interno Bruto (PIB)
1870 340 1920 1050
1880 499 1930 1170
1890 592 1940 1364
1900 757 1950 1836
1910 927 1960 2132
Tabla 12.7
  1. ¿Cuáles son las variables independientes y dependientes?
  2. Dibuje un diagrama de dispersión.
  3. Utilice la regresión para hallar la línea de mejor ajuste y el coeficiente de correlación.
  4. Interprete la importancia del coeficiente de correlación.
  5. ¿Existe una relación lineal entre las variables?
  6. Calcule el coeficiente de determinación e interprételo.
  7. ¿Cuál es la pendiente de la ecuación de regresión? ¿Qué significa?
  8. Utilice la línea de mejor ajuste para estimar la RPC para el año 1900, para el año 2000.
  9. Determine si hay valores atípicos.

Valores críticos al 95 % de la tabla de coeficientes de correlación de la muestra

Grados de libertad: n - 2 Valores críticos: (+ y -)
1 0,997
2 0,950
3 0,878
4 0,811
5 0,754
6 0,707
7 0,666
8 0,632
9 0,602
10 0,576
11 0,555
12 0,532
13 0,514
14 0,497
15 0,482
16 0,468
17 0,456
18 0,444
19 0,433
20 0,423
21 0,413
22 0,404
23 0,396
24 0,388
25 0,381
26 0,374
27 0,367
28 0,361
29 0,355
30 0,349
40 0,304
50 0,273
60 0,250
70 0,232
80 0,217
90 0,205
100 0,195
Tabla 12.8
Solicitar una copia impresa

As an Amazon Associate we earn from qualifying purchases.

Cita/Atribución

¿Desea citar, compartir o modificar este libro? Este libro utiliza la Creative Commons Attribution License y debe atribuir a OpenStax.

Información de atribución
  • Si redistribuye todo o parte de este libro en formato impreso, debe incluir en cada página física la siguiente atribución:
    Acceso gratis en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica/pages/1-introduccion
  • Si redistribuye todo o parte de este libro en formato digital, debe incluir en cada vista de la página digital la siguiente atribución:
    Acceso gratuito en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica/pages/1-introduccion
Información sobre citas

© 28 ene. 2022 OpenStax. El contenido de los libros de texto que produce OpenStax tiene una licencia de Creative Commons Attribution License . El nombre de OpenStax, el logotipo de OpenStax, las portadas de libros de OpenStax, el nombre de OpenStax CNX y el logotipo de OpenStax CNX no están sujetos a la licencia de Creative Commons y no se pueden reproducir sin el previo y expreso consentimiento por escrito de Rice University.