Los datos rara vez se ajustan exactamente a una línea recta. Por lo general, hay que conformarse con predicciones aproximadas. Normalmente, se tiene un conjunto de datos cuyo diagrama de dispersión parece "ajustarse" a una línea recta. Esto se llama línea de mejor ajuste o línea de mínimos cuadrados.
Ejercicio colaborativo
Si conoce la longitud del dedo meñique (el más pequeño) de una persona, ¿cree que podría predecir su altura? Recopile los datos de su clase (longitud del dedo meñique, en pulgadas). La variable independiente, x, es la longitud del dedo meñique y la variable dependiente, y, es la altura. Para cada conjunto de datos, trace los puntos en papel cuadriculado. Haga su gráfico lo suficientemente grande y utilice una regla. Luego, "a ojo", dibuja una línea que parezca "ajustarse" a los datos. Para su línea, elija dos puntos convenientes y utilícelos para calcular la pendiente de la línea. Halle la intersección y de la línea extendiendo su línea para que cruce el eje y. Con las pendientes y las intersecciones en y, escriba su ecuación de "mejor ajuste". ¿Cree que todos tendrán la misma ecuación? ¿Por qué sí o por qué no? Según su ecuación, ¿cuál es la altura prevista para una longitud del meñique de 2,5 pulgadas?
Ejemplo 12.6
Una muestra aleatoria de 11 estudiantes de Estadística produjo los siguientes datos, donde x es la calificación del tercer examen sobre 80, y y es la calificación del examen final sobre 200. ¿Puede predecir la nota del examen final de un estudiante al azar si conoce la nota del tercer examen?
x (calificación del tercer examen) | y (calificación del examen final) |
---|---|
65 | 175 |
67 | 133 |
71 | 185 |
71 | 163 |
66 | 126 |
75 | 198 |
67 | 153 |
70 | 163 |
71 | 159 |
69 | 151 |
69 | 159 |
Inténtelo 12.6
Los buceadores tienen tiempos máximos de inmersión que no pueden superar cuando van a diferentes profundidades. Los datos en la Tabla 12.4 muestran diferentes profundidades con los tiempos máximos de inmersión en minutos. Use su calculadora para hallar la línea de regresión de mínimos cuadrados y predecir el tiempo máximo de inmersión para 110 pies.
X (profundidad en pies) | Y (tiempo máximo de inmersión) |
---|---|
50 | 80 |
60 | 55 |
70 | 45 |
80 | 35 |
90 | 25 |
100 | 22 |
La puntuación del tercer examen, x, es la variable independiente y la puntuación del examen final, y, es la variable dependiente. Trazaremos la línea de regresión que mejor se "ajuste" a los datos. Si cada uno de ustedes ajustara una línea "a ojo", trazarían líneas diferentes. Podemos utilizar lo que se llama una línea de regresión por mínimos cuadrados para obtener la línea de mejor ajuste.
Considere el siguiente diagrama. Cada punto de los datos tiene la forma (x, y) y cada punto de la línea de mejor ajuste utilizando la regresión lineal por mínimos cuadrados tiene la forma (x, ŷ).
La ŷ se lee "estimador de y", a la vez que es el valor estimado de y. Es el valor de y obtenido mediante la línea de regresión. Generalmente no es igual a la y de los datos.
El término y0 – ŷ0 = ε0 se denomina "error" o residual. No es un error en el sentido de una equivocación. El valor absoluto del residual mide la distancia vertical entre el valor real de y, además del valor estimado de y. En otras palabras, mide la distancia vertical entre el punto de datos real y el punto previsto en la línea.
Si el punto de datos observado se encuentra por encima de la línea, el residuo es positivo y la línea subestima el valor real de los datos para y. Si el punto de datos observado se encuentra por debajo de la línea, el residuo es negativo y la línea sobreestima ese valor de datos real para y.
En el diagrama de la Figura 12.10, y0 - ŷ0 = ε0 es el residual del punto mostrado. Aquí el punto está por encima de la línea y el residuo es positivo.
ε = la letra griega épsilon
Para cada punto de datos, puede calcular los residuales o errores, yi - ŷi = εi para i = 1, 2, 3, ..., 11.
Cada |ε| es una distancia vertical.
Para el ejemplo de las puntuaciones del tercer examen y del examen final de los 11 estudiantes de Estadística, hay 11 puntos de datos. Por lo tanto, hay 11 valores ε. Si se eleva al cuadrado cada ε y se suma, se obtiene
Esto se denomina suma de errores al cuadrado (Sum of Squared Errors, SSE).
Utilizando el cálculo, puede determinar los valores de a y b que hacen que la SSE sea un mínimo. Cuando hace la SSE un mínimo, ha determinado los puntos que están en la línea de mejor ajuste. Resulta que la línea de mejor ajuste tiene la ecuación:
donde y .
Las medias muestrales de los valores x y los valores y son y , respectivamente. La línea de mejor ajuste siempre pasa por el punto .
La pendiente b puede escribirse como donde sy = la desviación típica de los valores de y y sx = la desviación típica de los valores x. r es el coeficiente de correlación, que se analiza en la siguiente sección.
Criterio de mínimos cuadrados para el mejor ajuste
El proceso de ajuste de la línea de mejor ajuste se denomina regresión lineal. La idea de hallar la línea de mejor ajuste se basa en la suposición de que los datos están dispersos alrededor de una línea recta. El criterio para la línea de mejor ajuste es que la suma de errores al cuadrado (SSE) se minimice, es decir, que sea lo más pequeña posible. Cualquier otra línea que se elija tendrá una SSE mayor que la línea de mejor ajuste. Esta línea de mejor ajuste se denomina línea de regresión por mínimos cuadrados .
Nota
Las hojas de cálculo, los softwares estadísticos y muchas calculadoras pueden calcular rápidamente la línea de mejor ajuste y crear los gráficos. Los cálculos suelen ser tediosos si se hacen a mano. Al final de esta sección se muestran las instrucciones para utilizar las calculadoras TI-83, TI-83+ y TI-84+ para hallar la línea de mejor ajuste y crear un diagrama de dispersión.
EJEMPLO DEL TERCER EXAMEN versus el EXAMEN FINAL: El gráfico de la línea de mejor ajuste para el ejemplo del tercer examen o examen final es el siguiente:
La línea de regresión de mínimos cuadrados (línea de mejor ajuste) para el ejemplo del tercer examen o examen final viene dada por la ecuación:
Recordatorio
Recuerde que siempre es importante trazar primero un diagrama de dispersión. Si el diagrama de dispersión indica que existe una relación lineal entre las variables, entonces es razonable utilizar una línea de mejor ajuste para hacer predicciones para y dada x dentro del dominio de los valores de x en los datos de la muestra, pero no necesariamente para los valores de x fuera de ese dominio. Podría utilizar la línea para predecir la puntuación del examen final de un estudiante que obtuvo una puntuación de 73 en el tercer examen. NO debería utilizar la línea para predecir la puntuación del examen final de un estudiante que obtuvo una puntuación de 50 en el tercer examen, porque 50 no está dentro del dominio de los valores de x de los datos de la muestra, que están entre 65 y 75.
ENTENDER LA PENDIENTE
La pendiente de la línea, b, describe cómo se relacionan los cambios en las variables. Es importante interpretar la pendiente de la línea en el contexto de la situación representada por los datos. Debería ser capaz de escribir una frase interpretando la pendiente en inglés sencillo.
INTERPRETACIÓN DE LA PENDIENTE: La pendiente de la línea de mejor ajuste nos indica cómo cambia la variable dependiente (y) por cada incremento unitario de la variable independiente (x), en promedio.
EJEMPLO DEL TERCER EXAMEN versus el EXAMEN FINALPendiente: La pendiente de la línea es b = 4,83.
Interpretación: Por un aumento de un punto en la puntuación del tercer examen, la puntuación del examen final aumenta en 4,83 puntos, en promedio.
Uso de las calculadoras TI-83, 83+, 84, 84+
Uso de la prueba T de regresión lineal: LinRegTTest
- En el editor de listas STAT introduzca los datos X en la lista L1 y los datos Y en la lista L2 emparejados de forma que los valores (x,y) correspondientes estén uno al lado del otro en las listas (si un par de valores concreto se repite, introdúzcalo tantas veces como aparezca en los datos).
- En el menú STAT TESTS, desplácese hacia abajo con el cursor para seleccionar LinRegTTest (tenga cuidado al seleccionar LinRegTTest, ya que algunas calculadoras pueden tener también un elemento diferente llamado LinRegTInt).
- En la pantalla de entrada de LinRegTTest introduzca: Xlist: L1 ; Ylist: L2 ; Freq: 1
- En la línea siguiente, en la indicación β o ρ, resalte "≠ 0" y pulse ENTER.
- Deje en blanco la línea "RegEq:"
- Resalte Calculate (Calcular) y pulse ENTER.
La pantalla de salida contiene mucha información. Por ahora nos centraremos en algunos elementos de la salida, y volveremos más tarde a los demás elementos.
La segunda línea señala y = a + bx. Desplácese hacia abajo para hallar los valores a = –173,513, y b = 4,8273; la ecuación de la línea de mejor ajuste es ŷ = –173,51 + 4,83x
Los dos elementos de la parte inferior son r2 = 0,43969 y r = 0,663. Por ahora, basta con observar dónde hallar estos valores; los analizaremos en las dos próximas secciones.
Graficar el diagrama de dispersión y la línea de regresión
- Suponemos que sus datos X ya están introducidos en la lista L1 y sus datos Y están en la lista L2
- Pulse 2nd STATPLOT ENTER para utilizar Plot 1
- En la pantalla de entrada de PLOT 1, resalte On, y pulse ENTER
- Para TYPE: resalte el primer ícono que es el diagrama de dispersión y pulse ENTER.
- Indique Xlist: L1 y Ylist: L2
- Para Mark: no importa el símbolo que resalte.
- Pulse la tecla ZOOM y luego el número 9 (para la opción de menú "ZoomStat"); la calculadora ajustará la ventana a los datos
- Para graficar la línea de mejor ajuste, presione la tecla "Y=" y escriba la ecuación –173,5 + 4,83X en la ecuación Y1 (la tecla X está inmediatamente a la izquierda de la tecla STAT). Vuelva a pulsar ZOOM 9 para graficarla.
- Opcional: Si desea cambiar la ventana de visualización, pulse la tecla WINDOW. Introduzca la ventana deseada mediante Xmin, Xmax, Ymin, Ymax
NOTA
Otra forma de graficar la línea después de crear un diagrama de dispersión es utilizar LinRegTTest
- Asegúrese de haber hecho el diagrama de dispersión. Compruébelo en su pantalla.
- Vaya a LinRegTTest e introduzca las listas.
- En RegEq: pulse VARS y la flecha hacia Y-VARS. Pulse 1 para 1:Function. Pulse 1 para 1:Y1. A continuación, use la fecha hacia abajo a Calculate y haga el cálculo de la línea de mejor ajuste.
- Pulse Y = (verá la ecuación de regresión).
- Pulse GRAPH. Se trazará la línea".
El coeficiente de correlación r
Además de mirar el diagrama de dispersión y ver que una línea parece razonable, ¿cómo se puede saber si la línea es un buen predictor? Utilice el coeficiente de correlación como otro indicador (además del diagrama de dispersión) de la fuerza de la relación entre x y y.
El coeficiente de correlación, r , desarrollado por Karl Pearson a principios del siglo XX, es numérico y proporciona una medida de la fuerza y la dirección de la asociación lineal entre la variable independiente x y la variable dependiente y.
El coeficiente de correlación se calcula como
donde n = el número de puntos de datos.
Si se sospecha que existe una relación lineal entre x y y, entonces r puede medir la fuerza de la relación lineal.
Lo que nos dice el VALOR de r:
- El valor de r está siempre entre -1 y +1: -1 ≤ r ≤ 1.
- El tamaño de la correlación r indica la fuerza de la relación lineal entre x y y. Los valores de r cercanos a -1 o a +1 indican una relación lineal más fuerte entre x y y.
- Si r = 0 es probable que no haya correlación lineal. Sin embargo, es importante ver el diagrama de dispersión, porque los datos que muestran un patrón curvo u horizontal pueden tener una correlación de 0.
- Si r = 1, hay una correlación positiva perfecta. Si r = –1, hay una correlación negativa perfecta. En ambos casos, todos los puntos de datos originales se encuentran en una línea recta. Por supuesto, en el mundo real, esto no suele ocurrir.
Lo que nos dice el SIGNO de r
- Un valor positivo de r significa que cuando x aumenta, y tiende a aumentar y cuando x disminuye, y tiende a disminuir (correlación positiva).
- Un valor negativo de r significa que cuando x aumenta, y tiende a disminuir y cuando x disminuye, y tiende a aumentar (correlación negativa).
- El signo de r es el mismo que el de la pendiente, b, de la línea de mejor ajuste.
Nota
La fórmula de r parece formidable. Sin embargo, las hojas de cálculo, los softwares estadísticos y muchas calculadoras pueden calcular rápidamente r. El coeficiente de correlación r es el elemento inferior de las pantallas de salida de LinRegTTest en las calculadoras TI-83, TI-83+ o TI-84+ (vea la sección anterior para las instrucciones).
El coeficiente de determinación
La variable r2 se denomina el coeficiente de determinación y es el cuadrado del coeficiente de correlación, pero suele indicarse en porcentaje, en lugar de en forma decimal. Tiene una interpretación en el contexto de los datos:
- , cuando se expresa en porcentaje, representa el porcentaje de variación de la variable dependiente (predicha) y que puede explicarse por la variación de la variable independiente (explicativa) x utilizando la línea de regresión (de mejor ajuste).
- 1 – , cuando se expresa como porcentaje, representa el porcentaje de variación en y que NO se explica por la variación en x utilizando la línea de regresión. Esto puede verse como la dispersión de los puntos de datos observados en torno a la línea de regresión.
Considere el ejemplo del tercer examen o examen final introducido en la sección anterior
- La línea de mejor ajuste es: ŷ = -173,51 + 4,83x
- El coeficiente de correlación es r = 0,6631
- El coeficiente de determinación es r2 = 0,66312 = 0,4397
- Interpretación de r2 en el contexto de este ejemplo:
- Aproximadamente el 44 % de la variación (0,4397 es aproximadamente 0,44) en las notas del examen final puede explicarse por la variación en las notas del tercer examen, utilizando la línea de regresión de mejor ajuste.
- Por lo tanto, aproximadamente el 56 % de la variación (1 – 0,44 = 0,56) en las notas del examen final NO puede explicarse por la variación en las notas del tercer examen, utilizando la línea de regresión de mejor ajuste. (Esto se ve como la dispersión de los puntos alrededor de la línea).