Omitir e ir al contenidoIr a la página de accesibilidadMenú de atajos de teclado
Logo de OpenStax
Precálculo 2ed

2.4 Ajuste de modelos lineales a los datos

Precálculo 2ed2.4 Ajuste de modelos lineales a los datos

Objetivos de aprendizaje

En esta sección, podrá:

  • Dibujar e interpretar gráficos de dispersión.
  • Hallar la línea de mejor ajuste.
  • Distinguir entre relaciones lineales y no lineales.
  • Utilizar un modelo lineal para hacer predicciones.

Un profesor intenta identificar las tendencias entre las puntuaciones de los exámenes finales. En su clase hay una mezcla de alumnos, por lo que se pregunta si hay alguna relación entre la edad y las notas de los exámenes finales. Una forma de analizar las puntuaciones es crear un diagrama que relacione la edad de cada alumno con la puntuación recibida en el examen. En esta sección, examinaremos uno de estos diagramas, el cual se conoce como diagrama de dispersión.

Dibujar e interpretar gráficos de dispersión

El diagrama de dispersión es un gráfico de puntos trazados capaz de mostrar una relación entre dos conjuntos de datos. Si la relación procede de un modelo lineal, o de un modelo casi lineal, el profesor puede sacar conclusiones por medio de su conocimiento acerca de funciones lineales. La Figura 1 muestra un ejemplo de gráfico de dispersión.

Gráfico de dispersión, titulado "Puntuación del examen final frente a la edad". El eje x es la edad y el eje y es la nota del examen final. El rango de edades está entre los 20 y los 50 años, y el rango de puntuación va de 55 a 90 y tantos.
Figura 1 Gráfico de dispersión de las variables de edad y puntuación del examen final

Observe que este gráfico de dispersión no indica ninguna relación lineal. Los puntos no parecen seguir ninguna tendencia. En otras palabras, no parece haber ninguna relación entre la edad del estudiante y la puntuación en el examen final.

Ejemplo 1

Usar un diagrama de dispersión para investigar los chirridos de los grillos

La tabla siguiente muestra el número de chirridos de grillos en 15 segundos, para varias temperaturas de aire diferentes, en grados Fahrenheit4. Trace estos datos y determine si los datos parecen estar relacionados linealmente.

Chirridos 44 35 20,4 33 31 35 18,5 37 26
Temperatura 80,5 70,5 57 66 68 72 52 73,5 53
Tabla 1

Hallar la línea de mejor ajuste

Una vez que reconocemos la necesidad de una función lineal para modelar esos datos, la pregunta obvia que sigue es "¿cuál es esa función lineal?”. Una forma de aproximar nuestra función lineal es trazar la línea que parezca ajustarse mejor a los datos. Entonces podemos extender la línea hasta que podamos verificar la intersección en y. Podemos calcular la pendiente de la línea al extenderla hasta que podamos estimar la subidarecorrido.subidarecorrido.

Ejemplo 2

Hallar la línea de mejor ajuste

Halle una función lineal que se ajuste a los datos en la Tabla 1 al “ojear" una línea que parezca ajustarse.

Análisis

Esta ecuación lineal se puede utilizar para inferir las respuestas a varias preguntas que podríamos hacer sobre la tendencia.

Reconocer la interpolación o la extrapolación

Aunque los datos de la mayoría de los ejemplos no caen perfectamente sobre la línea, la ecuación es nuestra mejor conjetura sobre cómo se comportará la relación fuera de los valores para los que tenemos datos. Utilizamos un proceso conocido como interpolación cuando predecimos un valor dentro del dominio y el rango de los datos. La extrapolación se utiliza cuando predecimos un valor fuera del dominio y del rango de los datos.

La Figura 4 compara los dos procesos para los datos del chirrido de los grillos que se abordan en el Ejemplo 2. Podemos ver que la interpolación se produciría si utilizamos nuestro modelo para predecir la temperatura cuando los valores de los chirridos están entre 18,5 y 44. La extrapolación se produciría si utilizáramos nuestro modelo para predecir la temperatura cuando los valores de los chirridos fueran inferiores a 18,5 o superiores a 44.

Diagrama de dispersión, que muestra la línea de mejor ajuste y dónde se produce la interpolación y la extrapolación. Se titula "Chirridos de grillos frente a la temperatura del aire". El eje x es 'c, Número de chirridos' y el eje y es 'T(c), Temperatura (F)'.
Figura 4 La interpolación se produce dentro del dominio y del rango de los datos proporcionados, mientras que la extrapolación se produce fuera.

Hay una diferencia entre hacer predicciones dentro del dominio y del rango de valores para los que tenemos datos y fuera de ese dominio y rango. Predecir un valor fuera del dominio y del rango tiene sus limitaciones. Cuando nuestro modelo deja de ser válido a partir de cierto momento, a veces se denomina ruptura del modelo. Por ejemplo, la predicción de una función de costos para un periodo de dos años implicaría el examen de los datos en los que la entrada es el tiempo en años y la salida es el costo. Sin embargo, si intentamos extrapolar un costo cuando x=50,x=50, que es dentro de 50 años, el modelo no se aplicaría porque no podríamos contabilizar factores a la vuelta de cincuenta años.

Interpolación y extrapolación

En el análisis de los datos se utilizan diferentes métodos para hacer predicciones.

  • El método de interpolación consiste en predecir un valor dentro del dominio o rango de los datos.
  • El método de extrapolación consiste en predecir un valor fuera del dominio o rango de los datos.
  • La ruptura del modelo se produce en el momento en que este deja de ser aplicable.

Ejemplo 3

Entender la interpolación y la extrapolación

Utilice los datos relativos a los grillos en la Tabla 1 para responder las siguientes preguntas:

  1. ¿Predecir la temperatura cuando los grillos hacen 30 chirridos en 15 segundos sería interpolación o extrapolación? Haga la predicción y discuta si es razonable.
  2. ¿Predecir el número de chirridos que harán los grillos a 40 grados sería interpolación o extrapolación? Haga la predicción y discuta si es razonable.

Análisis

Nuestro modelo predice que los grillos chirrían 8,33 veces en 15 segundos. Aunque esto sería posible, no tenemos ninguna razón para creer que nuestro modelo sea válido fuera del dominio y del rango. De hecho, generalmente los grillos dejan de chirriar por debajo de los 50 grados.

Inténtelo #1

Según los datos a partir de la Tabla 1, ¿qué temperatura podemos predecir si contamos 20 chirridos en 15 segundos?

Hallar la línea de mejor ajuste con una herramienta gráfica

Si bien es cierto que la observación de una línea funciona razonablemente bien, existen técnicas estadísticas para ajustar una línea a los datos que minimizan las diferencias entre la línea y los valores de los datos5. Una de estas técnicas se denomina regresión de mínimos cuadrados y puede estimarse con muchas calculadoras gráficos, programas de hojas de cálculo, programas estadísticos y muchas calculadoras en línea6. La regresión de mínimos cuadrados es un medio para determinar la línea que mejor se ajusta a los datos, y aquí nos referiremos a este método como regresión lineal.

Cómo

Dados los datos de entrada y las correspondientes salidas de una función lineal, calcular la línea de mejor ajuste con la regresión lineal.

  1. Introduzca la entrada en la Lista 1(L1).
  2. Introduzca la salida en la Lista 2(L2).
  3. En una herramienta gráfica, seleccione Regresión lineal(LinReg).

Ejemplo 4

Hallar la línea de regresión de mínimos cuadrados

Halle la línea de regresión de mínimos cuadrados con los datos de los grillos en la Tabla 1.

Análisis

Observe que esta línea es bastante similar a la ecuación que hemos "ojeado", pero debería ajustarse mejor a los datos. Observe también que el uso de esta ecuación cambiaría nuestra predicción para la temperatura al escuchar 30 chirridos en 15 segundos de 66 grados a:

T(30)=30,281+1,143(30)          =64,571          64,6 grados T(30)=30,281+1,143(30)          =64,571          64,6 grados

La representación del gráfico de dispersión con la línea de regresión de mínimos cuadrados se muestra en la Figura 6.

Diagrama de dispersión, que muestra la línea de mejor ajuste. Se titula "Chirridos de grillos frente a la temperatura del aire". El eje x es 'c, Número de chirridos' y el eje y es 'T(c), Temperatura (F)'.
Figura 6

Preguntas y respuestas

¿Habrá alguna vez un caso en el que dos líneas diferentes sirvan como el mejor ajuste para los datos?

No. Únicamente hay una línea de mejor ajuste.

Distinguir entre modelos lineales y no lineales

Como hemos visto anteriormente con el modelo de grillo-chirrido, algunos datos muestran fuertes tendencias lineales. Sin embargo, otros datos, como las puntuaciones de los exámenes finales representadas por la edad, son claramente no lineales. La mayoría de las calculadoras y los programas informáticos también pueden proporcionarnos el coeficiente de correlación, que es una medida del grado de ajuste de la línea a los datos. Muchas calculadoras gráficas requieren que el usuario active una selección de "diagnóstico" para determinar el coeficiente de correlación, que los matemáticos denominan r.r. El coeficiente de correlación es una forma sencilla de hacerse una idea de lo cerca que están los datos de una línea.

Deberíamos calcular el coeficiente de correlación únicamente para los datos que siguen un patrón lineal o para determinar el grado en que un conjunto de datos es lineal. Si los datos presentan un patrón no lineal, el coeficiente de correlación de una regresión lineal no tiene sentido. Para tener una idea de la relación entre el valor de rr y el gráfico de los datos, la Figura 7 muestra algunos grandes conjuntos de datos con sus coeficientes de correlación. Recuerde que, en todos los gráficos, el eje horizontal muestra la entrada y el eje vertical la salida.

Figura 7 Datos graficados y coeficientes de correlación relacionados. (créditos: "DenisBoigelot", Wikimedia Commons)

Coeficiente de correlación

El coeficiente de correlación es un valor, r,r, entre -1 y 1.

  • r > 0 sugiere una relación positiva (creciente)
  • r < 0 sugiere una relación negativa (decreciente)
  • Cuanto más cerca esté el valor de 0, más dispersos estarán los datos.
  • Cuanto más cerca esté el valor de 1 o –1, menos dispersos estarán los datos.

Ejemplo 5

Hallar el coeficiente de correlación

Calcule el coeficiente de correlación para los datos de grillo-chirrido en la Tabla 1.

Predecir con la línea de regresión

Una vez que determinamos que un conjunto de datos es lineal utilizando el coeficiente de correlación, podemos utilizar la línea de regresión para hacer predicciones. Como hemos aprendido anteriormente, la línea de regresión es la que más se acerca a los datos en el gráfico de dispersión, lo que significa que solo una de esas líneas es la que mejor se ajusta a los datos.

Ejemplo 6

Usar la línea de regresión para hacer predicciones

El consumo de gasolina en Estados Unidos no ha dejado de aumentar. Los datos de consumo de 1994 a 2004 se revelan en la Tabla 37. Determine si la tendencia es lineal y, de ser así, halle un modelo para los datos. Utilice el modelo para predecir el consumo en 2008.

Año 94 95 96 97 98 99 00 01 02 03 04
Consumo (miles de millones de galones) 113 116 118 119 123 125 126 128 131 133 136
Tabla 3

El gráfico de dispersión de los datos, incluida la línea de regresión de mínimos cuadrados, se muestra en la Figura 8.

Diagrama de dispersión, que muestra la línea de mejor ajuste. Se titula "Consumo de gasolina en función del año". El eje x es "Año posterior a 1994" y el eje y es "Consumo de gas (miles de millones de galones)".
Figura 8

Inténtelo #2

Utilice el modelo que hemos creado con la tecnología en el Ejemplo 6 para predecir el consumo de gasolina en 2011. ¿Es interpolación o extrapolación?

Acceda a estos recursos en línea para obtener instrucciones adicionales y practicar el ajuste de modelos lineales a los datos.

2.4 Ejercicios de sección

Verbales

1.

Describa lo que significa que haya ruptura del modelo cuando se utiliza un modelo lineal.

2.

¿Qué es la interpolación cuando se utiliza un modelo lineal?

3.

¿Qué es la extrapolación cuando se utiliza un modelo lineal?

4.

Explique la diferencia entre un coeficiente de correlación positivo y uno negativo.

5.

Explique cómo interpretar el valor absoluto de un coeficiente de correlación.

Algebraicos

6.

Se realizó una regresión para determinar si existe alguna relación entre las horas que se pasan mirando televisión cada día (x)(x) y el número de abdominales que puede hacer una persona (y).(y). Los resultados de la regresión se presentan a continuación. Utilice esto para predecir el número de abdominales que puede hacer una persona que mira la televisión durante 11 horas.

y=ax+b a=-1,341 b=32,234 r=-0,896 y=ax+b a=-1,341 b=32,234 r=-0,896
7.

Se realizó una regresión para determinar si existe una relación entre el diámetro de un árbol ( x,x, en pulgadas) y la edad del árbol ( y,y, en años). Los resultados de la regresión se presentan a continuación. Utilice esto para predecir la edad de un árbol con un diámetro de 10 pulgadas.

y=ax+b a=6,301 b=-1,044 r=-0,970 y=ax+b a=6,301 b=-1,044 r=-0,970

En los siguientes ejercicios, dibuje un gráfico de dispersión para los datos proporcionados. ¿Parece que los datos están relacionados linealmente?

8.
0 2 4 6 8 10
–22 -19 -15 –11 -6 -2
9.
1 2 3 4 5 6
46 50 59 75 100 136
10.
100 250 300 450 600 750
12 12,6 13,1 14 14,5 15,2
11.
1 3 5 7 9 11
1 9 28 65 125 216
12.

Para los siguientes datos, dibuje un gráfico de dispersión. Si quisiéramos saber cuándo llegará la población a los 15.000 habitantes, ¿la respuesta implicaría una interpolación o una extrapolación? Observe la línea e infiera la respuesta.

AñoPoblación
199011.500
199512.100
200012.700
200513.000
201013.750
13.

Para los siguientes datos, dibuje un gráfico de dispersión. Si quisiéramos saber cuándo la temperatura alcanzará los 28 °F, ¿la respuesta implicaría una interpolación o una extrapolación? Observe la línea e infiera la respuesta.

Temperatura, °F 16 18 20 25 30
Tiempo, segundos 46 50 54 55 62

Gráficos

En los siguientes ejercicios, haga coincidir cada gráfico de dispersión con una de las cuatro correlaciones especificadas en la Figura 9 y la Figura 10.

Figura 9
Figura 10
14.

r=0,95r=0,95

15.

r=0,89r=0,89

16.

r=0,26r=0,26

17.

r=0,39r=0,39

En los siguientes ejercicios, dibuje una línea de mejor ajuste para los datos trazados.

18.
19.
20.
21.

Numéricos

22.

El censo de Estados Unidos registra el porcentaje de personas de 25 años o más que tienen un título universitario. Estos datos de varios años se recogen en la Tabla 48. Determine si la tendencia parece lineal. Si es así, y suponiendo que la tendencia se mantenga, ¿en qué año el porcentaje superará el 35 %?

AñoPorcentaje de graduados
199021,3
199221,4
199422,2
1996 23,6
199824,4
200025,6
200226,7
200427,7
200628
200829,4
Tabla 4
23.

La importación estadounidense de vino (en hectolitros) durante varios años se indica en la Tabla 5. Determine si la tendencia parece lineal. Si es así, y suponiendo que la tendencia se mantenga, ¿en qué año las importaciones superarán los 12.000 hectolitros?

AñoImportaciones
19922.665
19942.688
19963.565
19984.129
20004.584
20025.655
20046.549
20067.950
20088.487
20099.462
Tabla 5
24.

La Tabla 6 muestra el año y el número de desempleados en una determinada ciudad durante varios años. Determine si la tendencia parece lineal. Si es así, y suponiendo que la tendencia se mantenga, ¿en qué año el número de desempleados llegará a 5?

AñoNúmero de desempleados
1990750
1992670
1994650
1996605
1998550
2000510
2002460
2004420
2006380
2008320
Tabla 6

En tecnología

En los siguientes ejercicios, utilice cada conjunto de datos para determinar la línea de regresión con una calculadora u otra herramienta tecnológica, y determine el coeficiente de correlación con una precisión de 3 decimales.

25.
xx 8 15 26 31 56
yy 23 41 53 72 103
26.
xx 5 7 10 12 15
yy 4 12 17 22 24
27.
xx yy xx y y
321,91115,76
422,221213,68
522,741314,1
622,261414,02
720,781511,94
817,61612,76
916,521711,28
1018,54189,1
28.
xx yy
444,8
543,1
638,8
739
838
932,7
1030,1
1129,3
1227
1325,8
29.
xx 21 25 30 31 40 50
yy 17 11 2 -1 -18 -40
30.
xx 100 80 60 55 40 20
yy 2.000 1.798 1.589 1.580 1.390 1.202
31.
xx 900 988 1.000 1.010 1.200 1.205
yy 70 80 82 84 105 108

Extensiones

32.

Grafique f(x)=0,5x+10f(x)=0,5x+10. Elija un conjunto de 5 pares ordenados utilizando entradas x=–2, 1, 5, 6, 9x=–2, 1, 5, 6, 9 y emplee la regresión lineal para verificar que la función se ajuste bien a los datos.

33.

Grafique f(x)=-2 x-10f(x)=-2 x-10. Elija un conjunto de 5 pares ordenados utilizando entradas x=–2, 1, 5, 6, 9x=–2, 1, 5, 6, 9 y emplee la regresión lineal para verificar la función.

En los siguientes ejercicios, considere este escenario: El beneficio de una empresa disminuyó de forma constante durante un periodo de diez años. Los siguientes pares ordenados muestran los dólares y el número de unidades vendidas en centenas, así como el beneficio en miles durante el periodo de diez años (número de unidades vendidas, beneficio) para determinados años registrados:

(46, 1.600),(48, 1.550),(50, 1.505),(52, 1.540),(54, 1.495)(46, 1.600),(48, 1.550),(50, 1.505),(52, 1.540),(54, 1.495).

34.

Utilice la regresión lineal para determinar una función PP donde el beneficio en miles de dólares depende del número de unidades vendidas en cientos.

35.

Halle hasta la décima más cercana e interprete la intersección en x.

36.

Halle hasta la décima más cercana e interprete la intersección en y.

Aplicaciones en el mundo real

En los siguientes ejercicios, considere este escenario: La población de una ciudad aumentó de forma constante durante un periodo de diez años. Los siguientes pares ordenados muestran la población y el año a lo largo de los diez años, (población, año) para determinados años registrados:

(2500, 2000), (2650, 2001), (3000, 2003), (3500, 2006), (4200, 2010) (2500, 2000), (2650, 2001), (3000, 2003), (3500, 2006), (4200, 2010)

37.

Utilice la regresión lineal para determinar una función y,y, donde el año depende de la población. Redondee a tres decimales de exactitud.

38.

Predecir cuándo la población llegará a los 8.000 habitantes.

En los siguientes ejercicios, considere este escenario: El beneficio de una empresa aumentó de forma constante durante un período de diez años. Los siguientes pares ordenados muestran el número de unidades vendidas en centenas y el beneficio en miles durante el periodo de diez años (número de unidades vendidas, beneficio) para determinados años registrados:

(46, 250),(48, 305),(50, 350),(52, 390),(54, 410)(46, 250),(48, 305),(50, 350),(52, 390),(54, 410).

39.

Utilice la regresión lineal para determinar una función y, donde el beneficio en miles de dólares depende del número de cientos de unidades vendidas.

40.

Predecir cuándo el beneficio superará el millón de dólares.

En los siguientes ejercicios, considere este escenario: El beneficio de una empresa disminuyó de forma constante durante un periodo de diez años. Los siguientes pares ordenados muestran los dólares y el número de unidades vendidas en centenas y el beneficio en miles de durante el período de diez años (número de unidades vendidas, beneficio) para determinados años registrados:

(46, 250), (48, 225), (50, 205), (52, 180), (54, 165). (46, 250), (48, 225), (50, 205), (52, 180), (54, 165).

41.

Utilice la regresión lineal para determinar una función y, donde el beneficio en miles de dólares depende del número de cientos de unidades vendidas.

42.

Predecir cuándo el beneficio caerá por debajo del umbral de 25.000 dólares.

Notas a pie de página

  • 4Datos seleccionados de http://classic.globe.gov/fsl/scientistsblog/2007/10/. Recuperado el 3 de agosto de 2010
  • 5Técnicamente, el método minimiza la suma de las diferencias al cuadrado en la dirección vertical entre la línea y los valores de los datos.
  • 6Por ejemplo, http://www.shodor.org/unchem/math/lls/leastsq.html
  • 7http://www.bts.gov/publications/national_transportation_statistics/2005/html/table_04_10.html
  • 8http://www.census.gov/hhes/socdemo/education/data/cps/historical/index.html. Consultado el 1 de mayo de 2014.
Cita/Atribución

Este libro no puede ser utilizado en la formación de grandes modelos de lenguaje ni incorporado de otra manera en grandes modelos de lenguaje u ofertas de IA generativa sin el permiso de OpenStax.

¿Desea citar, compartir o modificar este libro? Este libro utiliza la Creative Commons Attribution License y debe atribuir a OpenStax.

Información de atribución
  • Si redistribuye todo o parte de este libro en formato impreso, debe incluir en cada página física la siguiente atribución:
    Acceso gratis en https://openstax.org/books/prec%C3%A1lculo-2ed/pages/1-introduccion
  • Si redistribuye todo o parte de este libro en formato digital, debe incluir en cada vista de la página digital la siguiente atribución:
    Acceso gratuito en https://openstax.org/books/prec%C3%A1lculo-2ed/pages/1-introduccion
Información sobre citas

© 27 abr. 2022 OpenStax. El contenido de los libros de texto que produce OpenStax tiene una licencia de Creative Commons Attribution License . El nombre de OpenStax, el logotipo de OpenStax, las portadas de libros de OpenStax, el nombre de OpenStax CNX y el logotipo de OpenStax CNX no están sujetos a la licencia de Creative Commons y no se pueden reproducir sin el previo y expreso consentimiento por escrito de Rice University.