Jay Abramson

2.4 Ajuste de modelos lineales a los datos

Objetivos de aprendizaje

En esta sección, podrá:

Dibujar e interpretar gráficos de dispersión.
Hallar la línea de mejor ajuste.
Distinguir entre relaciones lineales y no lineales.
Utilizar un modelo lineal para hacer predicciones.

Un profesor intenta identificar las tendencias entre las puntuaciones de los exámenes finales. En su clase hay una mezcla de alumnos, por lo que se pregunta si hay alguna relación entre la edad y las notas de los exámenes finales. Una forma de analizar las puntuaciones es crear un diagrama que relacione la edad de cada alumno con la puntuación recibida en el examen. En esta sección, examinaremos uno de estos diagramas, el cual se conoce como diagrama de dispersión.

Dibujar e interpretar gráficos de dispersión

El diagrama de dispersión es un gráfico de puntos trazados capaz de mostrar una relación entre dos conjuntos de datos. Si la relación procede de un modelo lineal, o de un modelo casi lineal, el profesor puede sacar conclusiones por medio de su conocimiento acerca de funciones lineales. La Figura 1 muestra un ejemplo de gráfico de dispersión.

Gráfico de dispersión, titulado "Puntuación del examen final frente a la edad". El eje x es la edad y el eje y es la nota del examen final. El rango de edades está entre los 20 y los 50 años, y el rango de puntuación va de 55 a 90 y tantos. — Figura 1 Gráfico de dispersión de las variables de edad y puntuación del examen final

Observe que este gráfico de dispersión no indica ninguna relación lineal. Los puntos no parecen seguir ninguna tendencia. En otras palabras, no parece haber ninguna relación entre la edad del estudiante y la puntuación en el examen final.

Ejemplo 1

Usar un diagrama de dispersión para investigar los chirridos de los grillos

La tabla siguiente muestra el número de chirridos de grillos en 15 segundos, para varias temperaturas de aire diferentes, en grados Fahrenheit⁴. Trace estos datos y determine si los datos parecen estar relacionados linealmente.

Chirridos	44	35	20,4	33	31	35	18,5	37	26
Temperatura	80,5	70,5	57	66	68	72	52	73,5	53

Tabla 1

Solución

El trazado de estos datos, tal y como se representa en la Figura 2, sugiere que puede haber una tendencia. Podemos ver en la tendencia de los datos que el número de chirridos aumenta a medida que aumenta la temperatura. La tendencia parece ser más o menos lineal, aunque ciertamente no es perfecta.

Gráfico de dispersión, titulado "Chirridos de grillos frente a temperatura del aire". El eje x es el número de chirridos de grillos en 15 segundos y el eje y es la temperatura (F). La línea de regresión es generalmente positiva. — Figura 2

Hallar la línea de mejor ajuste

Una vez que reconocemos la necesidad de una función lineal para modelar esos datos, la pregunta obvia que sigue es "¿cuál es esa función lineal?”. Una forma de aproximar nuestra función lineal es trazar la línea que parezca ajustarse mejor a los datos. Entonces podemos extender la línea hasta que podamos verificar la intersección en y. Podemos calcular la pendiente de la línea al extenderla hasta que podamos estimar la $\frac{subida}{recorrido} .$

Ejemplo 2

Hallar la línea de mejor ajuste

Halle una función lineal que se ajuste a los datos en la Tabla 1 al “ojear" una línea que parezca ajustarse.

Solución

En un gráfico, podríamos intentar trazar una línea.

Utilizando los puntos inicial y final de nuestra línea dibujada a mano, los puntos (0, 30) y (50, 90), este gráfico tiene una pendiente de

m = \frac{60}{50} = 1,2

y una intersección en y en 30. Esto da una ecuación de

T (c) = 1,2 c + 30

donde $c$ es el número de chirridos en 15 segundos, y $T (c)$ es la temperatura en grados Fahrenheit. La ecuación resultante se representa en la Figura 3.

Diagrama de dispersión, que muestra la línea de mejor ajuste. Se titula "Chirridos de grillos frente a la temperatura del aire". El eje x es 'c, Número de chirridos' y el eje y es 'T(c), Temperatura (F)'. — Figura 3

Análisis

Esta ecuación lineal se puede utilizar para inferir las respuestas a varias preguntas que podríamos hacer sobre la tendencia.

Reconocer la interpolación o la extrapolación

Aunque los datos de la mayoría de los ejemplos no caen perfectamente sobre la línea, la ecuación es nuestra mejor conjetura sobre cómo se comportará la relación fuera de los valores para los que tenemos datos. Utilizamos un proceso conocido como interpolación cuando predecimos un valor dentro del dominio y el rango de los datos. La extrapolación se utiliza cuando predecimos un valor fuera del dominio y del rango de los datos.

La Figura 4 compara los dos procesos para los datos del chirrido de los grillos que se abordan en el Ejemplo 2. Podemos ver que la interpolación se produciría si utilizamos nuestro modelo para predecir la temperatura cuando los valores de los chirridos están entre 18,5 y 44. La extrapolación se produciría si utilizáramos nuestro modelo para predecir la temperatura cuando los valores de los chirridos fueran inferiores a 18,5 o superiores a 44.

Diagrama de dispersión, que muestra la línea de mejor ajuste y dónde se produce la interpolación y la extrapolación. Se titula "Chirridos de grillos frente a la temperatura del aire". El eje x es 'c, Número de chirridos' y el eje y es 'T(c), Temperatura (F)'. — Figura 4 La interpolación se produce dentro del dominio y del rango de los datos proporcionados, mientras que la extrapolación se produce fuera.

Hay una diferencia entre hacer predicciones dentro del dominio y del rango de valores para los que tenemos datos y fuera de ese dominio y rango. Predecir un valor fuera del dominio y del rango tiene sus limitaciones. Cuando nuestro modelo deja de ser válido a partir de cierto momento, a veces se denomina ruptura del modelo. Por ejemplo, la predicción de una función de costos para un periodo de dos años implicaría el examen de los datos en los que la entrada es el tiempo en años y la salida es el costo. Sin embargo, si intentamos extrapolar un costo cuando $x = 50,$ que es dentro de 50 años, el modelo no se aplicaría porque no podríamos contabilizar factores a la vuelta de cincuenta años.

Interpolación y extrapolación

En el análisis de los datos se utilizan diferentes métodos para hacer predicciones.

El método de interpolación consiste en predecir un valor dentro del dominio o rango de los datos.
El método de extrapolación consiste en predecir un valor fuera del dominio o rango de los datos.
La ruptura del modelo se produce en el momento en que este deja de ser aplicable.

Ejemplo 3

Entender la interpolación y la extrapolación

Utilice los datos relativos a los grillos en la Tabla 1 para responder las siguientes preguntas:

Ⓐ ¿Predecir la temperatura cuando los grillos hacen 30 chirridos en 15 segundos sería interpolación o extrapolación? Haga la predicción y discuta si es razonable.
Ⓑ ¿Predecir el número de chirridos que harán los grillos a 40 grados sería interpolación o extrapolación? Haga la predicción y discuta si es razonable.

Solución

Ⓐ El número de chirridos en los datos proporcionados varía de 18,5 a 44. La predicción a 30 chirridos por 15 segundos está dentro del dominio de nuestros datos, por lo que sería una interpolación. Usando nuestro modelo:
$\begin{array}{l} T (30) = 30 + 1,2 (30) \\ = 66 grados \end{array}$

Con base en los datos que tenemos, este valor parece razonable.
Ⓑ Los valores de temperatura variaron de 52 a 80,5. Predecir el número de chirridos a 40 grados es una extrapolación porque 40 está fuera del rango de nuestros datos. Usando nuestro modelo:
$\begin{array}{l} 40 = 30 + 1,2 c \\ 10 = 1,2 c \\ c \approx 8,33 \end{array}$

Podemos comparar las regiones de interpolación y extrapolación mediante la Figura 5.

Análisis

Nuestro modelo predice que los grillos chirrían 8,33 veces en 15 segundos. Aunque esto sería posible, no tenemos ninguna razón para creer que nuestro modelo sea válido fuera del dominio y del rango. De hecho, generalmente los grillos dejan de chirriar por debajo de los 50 grados.

Inténtelo #1

Según los datos a partir de la Tabla 1, ¿qué temperatura podemos predecir si contamos 20 chirridos en 15 segundos?

Hallar la línea de mejor ajuste con una herramienta gráfica

Si bien es cierto que la observación de una línea funciona razonablemente bien, existen técnicas estadísticas para ajustar una línea a los datos que minimizan las diferencias entre la línea y los valores de los datos⁵. Una de estas técnicas se denomina regresión de mínimos cuadrados y puede estimarse con muchas calculadoras gráficos, programas de hojas de cálculo, programas estadísticos y muchas calculadoras en línea⁶. La regresión de mínimos cuadrados es un medio para determinar la línea que mejor se ajusta a los datos, y aquí nos referiremos a este método como regresión lineal.

Cómo

Dados los datos de entrada y las correspondientes salidas de una función lineal, calcular la línea de mejor ajuste con la regresión lineal.

Introduzca la entrada en la Lista 1(L1).
Introduzca la salida en la Lista 2(L2).
En una herramienta gráfica, seleccione Regresión lineal(LinReg).

Ejemplo 4

Hallar la línea de regresión de mínimos cuadrados

Halle la línea de regresión de mínimos cuadrados con los datos de los grillos en la Tabla 1.

Solución

Introduzca la entrada (chirridos) en la Lista 1 (L1).
Introduzca la salida (temperatura) en la Lista 2 (L2). Vea la Tabla 2.

L1 44 35 20,4 33 31 35 18,5 37 26

L2 80,5 70,5 57 66 68 72 52 73,5 53

Tabla 2
En una herramienta gráfica, seleccione Regresión lineal(LinReg). Utilizando los datos anteriores acerca de los chirridos de grillos, con la tecnología obtenemos la ecuación
$T (c) = 30,281 + 1,143 c$

Análisis

Observe que esta línea es bastante similar a la ecuación que hemos "ojeado", pero debería ajustarse mejor a los datos. Observe también que el uso de esta ecuación cambiaría nuestra predicción para la temperatura al escuchar 30 chirridos en 15 segundos de 66 grados a:

\begin{array}{l} T (30) = 30,281 + 1,143 (30) \\ = 64,571 \\ \approx 64,6 grados \end{array}

La representación del gráfico de dispersión con la línea de regresión de mínimos cuadrados se muestra en la Figura 6.

Preguntas y respuestas

¿Habrá alguna vez un caso en el que dos líneas diferentes sirvan como el mejor ajuste para los datos?

No. Únicamente hay una línea de mejor ajuste.

Distinguir entre modelos lineales y no lineales

Como hemos visto anteriormente con el modelo de grillo-chirrido, algunos datos muestran fuertes tendencias lineales. Sin embargo, otros datos, como las puntuaciones de los exámenes finales representadas por la edad, son claramente no lineales. La mayoría de las calculadoras y los programas informáticos también pueden proporcionarnos el coeficiente de correlación, que es una medida del grado de ajuste de la línea a los datos. Muchas calculadoras gráficas requieren que el usuario active una selección de "diagnóstico" para determinar el coeficiente de correlación, que los matemáticos denominan $r .$ El coeficiente de correlación es una forma sencilla de hacerse una idea de lo cerca que están los datos de una línea.

Deberíamos calcular el coeficiente de correlación únicamente para los datos que siguen un patrón lineal o para determinar el grado en que un conjunto de datos es lineal. Si los datos presentan un patrón no lineal, el coeficiente de correlación de una regresión lineal no tiene sentido. Para tener una idea de la relación entre el valor de $r$ y el gráfico de los datos, la Figura 7 muestra algunos grandes conjuntos de datos con sus coeficientes de correlación. Recuerde que, en todos los gráficos, el eje horizontal muestra la entrada y el eje vertical la salida.

Figura 7 Datos graficados y coeficientes de correlación relacionados. (créditos: "DenisBoigelot", Wikimedia Commons)

Coeficiente de correlación

El coeficiente de correlación es un valor, $r,$ entre -1 y 1.

r > 0 sugiere una relación positiva (creciente)
r < 0 sugiere una relación negativa (decreciente)
Cuanto más cerca esté el valor de 0, más dispersos estarán los datos.
Cuanto más cerca esté el valor de 1 o –1, menos dispersos estarán los datos.

Ejemplo 5

Hallar el coeficiente de correlación

Calcule el coeficiente de correlación para los datos de grillo-chirrido en la Tabla 1.

Solución

Debido a que los datos parecen seguir un patrón lineal, podemos utilizar la tecnología para calcular $r .$ Introduzca las entradas y salidas correspondientes y seleccione la regresión lineal. La calculadora también le proporcionará el coeficiente de correlación, $r = 0,9509.$ Este valor es muy cercano a 1, lo que sugiere una fuerte relación lineal creciente.

Nota: En algunas calculadoras, el diagnóstico deberá estar "activado" para obtener el coeficiente de correlación cuando se realiza una regresión lineal: [2nd]>[0]>[alpha][ $x$ -1], y luego desplácese hasta DIAGNOSTICSON.

Predecir con la línea de regresión

Una vez que determinamos que un conjunto de datos es lineal utilizando el coeficiente de correlación, podemos utilizar la línea de regresión para hacer predicciones. Como hemos aprendido anteriormente, la línea de regresión es la que más se acerca a los datos en el gráfico de dispersión, lo que significa que solo una de esas líneas es la que mejor se ajusta a los datos.

Ejemplo 6

Usar la línea de regresión para hacer predicciones

El consumo de gasolina en Estados Unidos no ha dejado de aumentar. Los datos de consumo de 1994 a 2004 se revelan en la Tabla 3⁷. Determine si la tendencia es lineal y, de ser así, halle un modelo para los datos. Utilice el modelo para predecir el consumo en 2008.

Año	94	95	96	97	98	99	00	01	02	03	04
Consumo (miles de millones de galones)	113	116	118	119	123	125	126	128	131	133	136

Tabla 3

El gráfico de dispersión de los datos, incluida la línea de regresión de mínimos cuadrados, se muestra en la Figura 8.

Diagrama de dispersión, que muestra la línea de mejor ajuste. Se titula "Consumo de gasolina en función del año". El eje x es "Año posterior a 1994" y el eje y es "Consumo de gas (miles de millones de galones)". — Figura 8

Solución

Podemos introducir una nueva variable de entrada, $t,$ que representa los años desde 1994.

La ecuación de regresión de mínimos cuadrados es:

C (t) = 113,318 + 2,209 t

Utilizando la tecnología, el coeficiente de correlación se calculó en 0,9965, lo que sugiere una tendencia lineal creciente muy fuerte.

Utilizando esto para predecir el consumo en 2008 $(t = 14),$

\begin{array}{l} C (14) = 113,318 + 2,209 (14) \\ = 144,244 \end{array}

El modelo prevé un consumo de gasolina de 144,244 millones de galones en 2008.

Inténtelo #2

Utilice el modelo que hemos creado con la tecnología en el Ejemplo 6 para predecir el consumo de gasolina en 2011. ¿Es interpolación o extrapolación?

Acceda a estos recursos en línea para obtener instrucciones adicionales y practicar el ajuste de modelos lineales a los datos.

2.4 Ejercicios de sección

Verbales

1.

Describa lo que significa que haya ruptura del modelo cuando se utiliza un modelo lineal.

2.

¿Qué es la interpolación cuando se utiliza un modelo lineal?

3.

¿Qué es la extrapolación cuando se utiliza un modelo lineal?

4.

Explique la diferencia entre un coeficiente de correlación positivo y uno negativo.

5.

Explique cómo interpretar el valor absoluto de un coeficiente de correlación.

Algebraicos

6.

Se realizó una regresión para determinar si existe alguna relación entre las horas que se pasan mirando televisión cada día $(x)$ y el número de abdominales que puede hacer una persona $(y) .$ Los resultados de la regresión se presentan a continuación. Utilice esto para predecir el número de abdominales que puede hacer una persona que mira la televisión durante 11 horas.

\begin{array}{l} y = a x + b \\ a = -1,341 \\ b = 32,234 \\ r = -0,896 \end{array}

7.

Se realizó una regresión para determinar si existe una relación entre el diámetro de un árbol ( $x,$ en pulgadas) y la edad del árbol ( $y,$ en años). Los resultados de la regresión se presentan a continuación. Utilice esto para predecir la edad de un árbol con un diámetro de 10 pulgadas.

\begin{array}{l} y = a x + b \\ a = 6,301 \\ b = -1,044 \\ r = -0,970 \end{array}

En los siguientes ejercicios, dibuje un gráfico de dispersión para los datos proporcionados. ¿Parece que los datos están relacionados linealmente?

8.

0	2	4	6	8	10
–22	-19	-15	–11	-6	-2

9.

1	2	3	4	5	6
46	50	59	75	100	136

10.

100	250	300	450	600	750
12	12,6	13,1	14	14,5	15,2

11.

1	3	5	7	9	11
1	9	28	65	125	216

12.

Para los siguientes datos, dibuje un gráfico de dispersión. Si quisiéramos saber cuándo llegará la población a los 15.000 habitantes, ¿la respuesta implicaría una interpolación o una extrapolación? Observe la línea e infiera la respuesta.

Año	Población
1990	11.500
1995	12.100
2000	12.700
2005	13.000
2010	13.750

13.

Para los siguientes datos, dibuje un gráfico de dispersión. Si quisiéramos saber cuándo la temperatura alcanzará los 28 °F, ¿la respuesta implicaría una interpolación o una extrapolación? Observe la línea e infiera la respuesta.

Temperatura, °F	16	18	20	25	30
Tiempo, segundos	46	50	54	55	62

Gráficos

En los siguientes ejercicios, haga coincidir cada gráfico de dispersión con una de las cuatro correlaciones especificadas en la Figura 9 y la Figura 10.

14.

$r = 0, 95$

15.

$r = - 0, 89$

16.

$r = 0,26$

17.

$r = - 0,39$

En los siguientes ejercicios, dibuje una línea de mejor ajuste para los datos trazados.

18.

19.

20.

21.

Numéricos

22.

El censo de Estados Unidos registra el porcentaje de personas de 25 años o más que tienen un título universitario. Estos datos de varios años se recogen en la Tabla 4⁸. Determine si la tendencia parece lineal. Si es así, y suponiendo que la tendencia se mantenga, ¿en qué año el porcentaje superará el 35 %?

Año	Porcentaje de graduados
1990	21,3
1992	21,4
1994	22,2
1996	23,6
1998	24,4
2000	25,6
2002	26,7
2004	27,7
2006	28
2008	29,4

Tabla 4

23.

La importación estadounidense de vino (en hectolitros) durante varios años se indica en la Tabla 5. Determine si la tendencia parece lineal. Si es así, y suponiendo que la tendencia se mantenga, ¿en qué año las importaciones superarán los 12.000 hectolitros?

Año	Importaciones
1992	2.665
1994	2.688
1996	3.565
1998	4.129
2000	4.584
2002	5.655
2004	6.549
2006	7.950
2008	8.487
2009	9.462

Tabla 5

24.

La Tabla 6 muestra el año y el número de desempleados en una determinada ciudad durante varios años. Determine si la tendencia parece lineal. Si es así, y suponiendo que la tendencia se mantenga, ¿en qué año el número de desempleados llegará a 5?

Año	Número de desempleados
1990	750
1992	670
1994	650
1996	605
1998	550
2000	510
2002	460
2004	420
2006	380
2008	320

Tabla 6

En tecnología

En los siguientes ejercicios, utilice cada conjunto de datos para determinar la línea de regresión con una calculadora u otra herramienta tecnológica, y determine el coeficiente de correlación con una precisión de 3 decimales.

25.

$x$	8	15	26	31	56
$y$	23	41	53	72	103

26.

$x$	5	7	10	12	15
$y$	4	12	17	22	24

27.

$x$	$y$	$x$	$y$
3	21,9	11	15,76
4	22,22	12	13,68
5	22,74	13	14,1
6	22,26	14	14,02
7	20,78	15	11,94
8	17,6	16	12,76
9	16,52	17	11,28
10	18,54	18	9,1

28.

$x$	$y$
4	44,8
5	43,1
6	38,8
7	39
8	38
9	32,7
10	30,1
11	29,3
12	27
13	25,8

29.

$x$	21	25	30	31	40	50
$y$	17	11	2	-1	-18	-40

30.

$x$	100	80	60	55	40	20
$y$	2.000	1.798	1.589	1.580	1.390	1.202

31.

$x$	900	988	1.000	1.010	1.200	1.205
$y$	70	80	82	84	105	108

Extensiones

32.

Grafique $f (x) = 0,5 x + 10$ . Elija un conjunto de 5 pares ordenados utilizando entradas $x = –2, 1, 5, 6, 9$ y emplee la regresión lineal para verificar que la función se ajuste bien a los datos.

33.

Grafique $f (x) = - 2 x - 10$ . Elija un conjunto de 5 pares ordenados utilizando entradas $x = –2, 1, 5, 6, 9$ y emplee la regresión lineal para verificar la función.

En los siguientes ejercicios, considere este escenario: El beneficio de una empresa disminuyó de forma constante durante un periodo de diez años. Los siguientes pares ordenados muestran los dólares y el número de unidades vendidas en centenas, así como el beneficio en miles durante el periodo de diez años (número de unidades vendidas, beneficio) para determinados años registrados:

$(46, 1.600), (48, 1.550), (50, 1.505), (52, 1.540), (54, 1.495)$ .

34.

Utilice la regresión lineal para determinar una función $P$ donde el beneficio en miles de dólares depende del número de unidades vendidas en cientos.

35.

Halle hasta la décima más cercana e interprete la intersección en x.

36.

Halle hasta la décima más cercana e interprete la intersección en y.

Aplicaciones en el mundo real

En los siguientes ejercicios, considere este escenario: La población de una ciudad aumentó de forma constante durante un periodo de diez años. Los siguientes pares ordenados muestran la población y el año a lo largo de los diez años, (población, año) para determinados años registrados:

$(2500, 2000), (2650, 2001), (3000, 2003), (3500, 2006), (4200, 2010)$

37.

Utilice la regresión lineal para determinar una función $y,$ donde el año depende de la población. Redondee a tres decimales de exactitud.

38.

Predecir cuándo la población llegará a los 8.000 habitantes.

En los siguientes ejercicios, considere este escenario: El beneficio de una empresa aumentó de forma constante durante un período de diez años. Los siguientes pares ordenados muestran el número de unidades vendidas en centenas y el beneficio en miles durante el periodo de diez años (número de unidades vendidas, beneficio) para determinados años registrados:

$(46, 250), (48, 305), (50, 350), (52, 390), (54, 410)$ .

39.

Utilice la regresión lineal para determinar una función y, donde el beneficio en miles de dólares depende del número de cientos de unidades vendidas.

40.

Predecir cuándo el beneficio superará el millón de dólares.

En los siguientes ejercicios, considere este escenario: El beneficio de una empresa disminuyó de forma constante durante un periodo de diez años. Los siguientes pares ordenados muestran los dólares y el número de unidades vendidas en centenas y el beneficio en miles de durante el período de diez años (número de unidades vendidas, beneficio) para determinados años registrados:

$(46, 250), (48, 225), (50, 205), (52, 180), (54, 165) .$

41.

Utilice la regresión lineal para determinar una función y, donde el beneficio en miles de dólares depende del número de cientos de unidades vendidas.

42.

Predecir cuándo el beneficio caerá por debajo del umbral de 25.000 dólares.

Notas a pie de página

4Datos seleccionados de http://classic.globe.gov/fsl/scientistsblog/2007/10/. Recuperado el 3 de agosto de 2010
5Técnicamente, el método minimiza la suma de las diferencias al cuadrado en la dirección vertical entre la línea y los valores de los datos.
6Por ejemplo, http://www.shodor.org/unchem/math/lls/leastsq.html
7http://www.bts.gov/publications/national_transportation_statistics/2005/html/table_04_10.html
8http://www.census.gov/hhes/socdemo/education/data/cps/historical/index.html. Consultado el 1 de mayo de 2014.