Objetivos de aprendizaje
En esta sección, podrá:
- Dibujar e interpretar gráficos de dispersión.
- Hallar la línea de mejor ajuste.
- Distinguir entre relaciones lineales y no lineales.
- Utilizar un modelo lineal para hacer predicciones.
Un profesor intenta identificar las tendencias entre las puntuaciones de los exámenes finales. En su clase hay una mezcla de alumnos, por lo que se pregunta si hay alguna relación entre la edad y las notas de los exámenes finales. Una forma de analizar las puntuaciones es crear un diagrama que relacione la edad de cada alumno con la puntuación recibida en el examen. En esta sección, examinaremos uno de estos diagramas, el cual se conoce como diagrama de dispersión.
Dibujar e interpretar gráficos de dispersión
El diagrama de dispersión es un gráfico de puntos trazados capaz de mostrar una relación entre dos conjuntos de datos. Si la relación procede de un modelo lineal, o de un modelo casi lineal, el profesor puede sacar conclusiones por medio de su conocimiento acerca de funciones lineales. La Figura 1 muestra un ejemplo de gráfico de dispersión.
Observe que este gráfico de dispersión no indica ninguna relación lineal. Los puntos no parecen seguir ninguna tendencia. En otras palabras, no parece haber ninguna relación entre la edad del estudiante y la puntuación en el examen final.
Ejemplo 1
Usar un diagrama de dispersión para investigar los chirridos de los grillos
La tabla siguiente muestra el número de chirridos de grillos en 15 segundos, para varias temperaturas de aire diferentes, en grados Fahrenheit4. Trace estos datos y determine si los datos parecen estar relacionados linealmente.
Chirridos | 44 | 35 | 20,4 | 33 | 31 | 35 | 18,5 | 37 | 26 |
Temperatura | 80,5 | 70,5 | 57 | 66 | 68 | 72 | 52 | 73,5 | 53 |
Solución
El trazado de estos datos, tal y como se representa en la Figura 2, sugiere que puede haber una tendencia. Podemos ver en la tendencia de los datos que el número de chirridos aumenta a medida que aumenta la temperatura. La tendencia parece ser más o menos lineal, aunque ciertamente no es perfecta.
Hallar la línea de mejor ajuste
Una vez que reconocemos la necesidad de una función lineal para modelar esos datos, la pregunta obvia que sigue es "¿cuál es esa función lineal?”. Una forma de aproximar nuestra función lineal es trazar la línea que parezca ajustarse mejor a los datos. Entonces podemos extender la línea hasta que podamos verificar la intersección en y. Podemos calcular la pendiente de la línea al extenderla hasta que podamos estimar la
Ejemplo 2
Hallar la línea de mejor ajuste
Halle una función lineal que se ajuste a los datos en la Tabla 1 al “ojear" una línea que parezca ajustarse.
Solución
En un gráfico, podríamos intentar trazar una línea.
Utilizando los puntos inicial y final de nuestra línea dibujada a mano, los puntos (0, 30) y (50, 90), este gráfico tiene una pendiente de
y una intersección en y en 30. Esto da una ecuación de
donde es el número de chirridos en 15 segundos, y es la temperatura en grados Fahrenheit. La ecuación resultante se representa en la Figura 3.
Análisis
Esta ecuación lineal se puede utilizar para inferir las respuestas a varias preguntas que podríamos hacer sobre la tendencia.
Reconocer la interpolación o la extrapolación
Aunque los datos de la mayoría de los ejemplos no caen perfectamente sobre la línea, la ecuación es nuestra mejor conjetura sobre cómo se comportará la relación fuera de los valores para los que tenemos datos. Utilizamos un proceso conocido como interpolación cuando predecimos un valor dentro del dominio y el rango de los datos. La extrapolación se utiliza cuando predecimos un valor fuera del dominio y del rango de los datos.
La Figura 4 compara los dos procesos para los datos del chirrido de los grillos que se abordan en el Ejemplo 2. Podemos ver que la interpolación se produciría si utilizamos nuestro modelo para predecir la temperatura cuando los valores de los chirridos están entre 18,5 y 44. La extrapolación se produciría si utilizáramos nuestro modelo para predecir la temperatura cuando los valores de los chirridos fueran inferiores a 18,5 o superiores a 44.
Hay una diferencia entre hacer predicciones dentro del dominio y del rango de valores para los que tenemos datos y fuera de ese dominio y rango. Predecir un valor fuera del dominio y del rango tiene sus limitaciones. Cuando nuestro modelo deja de ser válido a partir de cierto momento, a veces se denomina ruptura del modelo. Por ejemplo, la predicción de una función de costos para un periodo de dos años implicaría el examen de los datos en los que la entrada es el tiempo en años y la salida es el costo. Sin embargo, si intentamos extrapolar un costo cuando que es dentro de 50 años, el modelo no se aplicaría porque no podríamos contabilizar factores a la vuelta de cincuenta años.
Interpolación y extrapolación
En el análisis de los datos se utilizan diferentes métodos para hacer predicciones.
- El método de interpolación consiste en predecir un valor dentro del dominio o rango de los datos.
- El método de extrapolación consiste en predecir un valor fuera del dominio o rango de los datos.
- La ruptura del modelo se produce en el momento en que este deja de ser aplicable.
Ejemplo 3
Entender la interpolación y la extrapolación
Utilice los datos relativos a los grillos en la Tabla 1 para responder las siguientes preguntas:
- Ⓐ ¿Predecir la temperatura cuando los grillos hacen 30 chirridos en 15 segundos sería interpolación o extrapolación? Haga la predicción y discuta si es razonable.
- Ⓑ ¿Predecir el número de chirridos que harán los grillos a 40 grados sería interpolación o extrapolación? Haga la predicción y discuta si es razonable.
Solución
- Ⓐ El número de chirridos en los datos proporcionados varía de 18,5 a 44. La predicción a 30 chirridos por 15 segundos está dentro del dominio de nuestros datos, por lo que sería una interpolación. Usando nuestro modelo:
Con base en los datos que tenemos, este valor parece razonable. - Ⓑ Los valores de temperatura variaron de 52 a 80,5. Predecir el número de chirridos a 40 grados es una extrapolación porque 40 está fuera del rango de nuestros datos. Usando nuestro modelo:
Podemos comparar las regiones de interpolación y extrapolación mediante la Figura 5.
Análisis
Nuestro modelo predice que los grillos chirrían 8,33 veces en 15 segundos. Aunque esto sería posible, no tenemos ninguna razón para creer que nuestro modelo sea válido fuera del dominio y del rango. De hecho, generalmente los grillos dejan de chirriar por debajo de los 50 grados.
Inténtelo #1
Según los datos a partir de la Tabla 1, ¿qué temperatura podemos predecir si contamos 20 chirridos en 15 segundos?
Hallar la línea de mejor ajuste con una herramienta gráfica
Si bien es cierto que la observación de una línea funciona razonablemente bien, existen técnicas estadísticas para ajustar una línea a los datos que minimizan las diferencias entre la línea y los valores de los datos5. Una de estas técnicas se denomina regresión de mínimos cuadrados y puede estimarse con muchas calculadoras gráficos, programas de hojas de cálculo, programas estadísticos y muchas calculadoras en línea6. La regresión de mínimos cuadrados es un medio para determinar la línea que mejor se ajusta a los datos, y aquí nos referiremos a este método como regresión lineal.
Cómo
Dados los datos de entrada y las correspondientes salidas de una función lineal, calcular la línea de mejor ajuste con la regresión lineal.
- Introduzca la entrada en la Lista 1(L1).
- Introduzca la salida en la Lista 2(L2).
- En una herramienta gráfica, seleccione Regresión lineal(LinReg).
Ejemplo 4
Hallar la línea de regresión de mínimos cuadrados
Halle la línea de regresión de mínimos cuadrados con los datos de los grillos en la Tabla 1.
Solución
- Introduzca la entrada (chirridos) en la Lista 1 (L1).
- Introduzca la salida (temperatura) en la Lista 2 (L2). Vea la Tabla 2.
L1 44 35 20,4 33 31 35 18,5 37 26 L2 80,5 70,5 57 66 68 72 52 73,5 53 - En una herramienta gráfica, seleccione Regresión lineal(LinReg). Utilizando los datos anteriores acerca de los chirridos de grillos, con la tecnología obtenemos la ecuación
Análisis
Observe que esta línea es bastante similar a la ecuación que hemos "ojeado", pero debería ajustarse mejor a los datos. Observe también que el uso de esta ecuación cambiaría nuestra predicción para la temperatura al escuchar 30 chirridos en 15 segundos de 66 grados a:
La representación del gráfico de dispersión con la línea de regresión de mínimos cuadrados se muestra en la Figura 6.
Preguntas y respuestas
¿Habrá alguna vez un caso en el que dos líneas diferentes sirvan como el mejor ajuste para los datos?
No. Únicamente hay una línea de mejor ajuste.
Distinguir entre modelos lineales y no lineales
Como hemos visto anteriormente con el modelo de grillo-chirrido, algunos datos muestran fuertes tendencias lineales. Sin embargo, otros datos, como las puntuaciones de los exámenes finales representadas por la edad, son claramente no lineales. La mayoría de las calculadoras y los programas informáticos también pueden proporcionarnos el coeficiente de correlación, que es una medida del grado de ajuste de la línea a los datos. Muchas calculadoras gráficas requieren que el usuario active una selección de "diagnóstico" para determinar el coeficiente de correlación, que los matemáticos denominan El coeficiente de correlación es una forma sencilla de hacerse una idea de lo cerca que están los datos de una línea.
Deberíamos calcular el coeficiente de correlación únicamente para los datos que siguen un patrón lineal o para determinar el grado en que un conjunto de datos es lineal. Si los datos presentan un patrón no lineal, el coeficiente de correlación de una regresión lineal no tiene sentido. Para tener una idea de la relación entre el valor de y el gráfico de los datos, la Figura 7 muestra algunos grandes conjuntos de datos con sus coeficientes de correlación. Recuerde que, en todos los gráficos, el eje horizontal muestra la entrada y el eje vertical la salida.
Coeficiente de correlación
El coeficiente de correlación es un valor, entre -1 y 1.
- r > 0 sugiere una relación positiva (creciente)
- r < 0 sugiere una relación negativa (decreciente)
- Cuanto más cerca esté el valor de 0, más dispersos estarán los datos.
- Cuanto más cerca esté el valor de 1 o –1, menos dispersos estarán los datos.
Ejemplo 5
Hallar el coeficiente de correlación
Calcule el coeficiente de correlación para los datos de grillo-chirrido en la Tabla 1.
Solución
Debido a que los datos parecen seguir un patrón lineal, podemos utilizar la tecnología para calcular Introduzca las entradas y salidas correspondientes y seleccione la regresión lineal. La calculadora también le proporcionará el coeficiente de correlación, Este valor es muy cercano a 1, lo que sugiere una fuerte relación lineal creciente.
Nota: En algunas calculadoras, el diagnóstico deberá estar "activado" para obtener el coeficiente de correlación cuando se realiza una regresión lineal: [2nd]>[0]>[alpha][ -1], y luego desplácese hasta DIAGNOSTICSON.
Predecir con la línea de regresión
Una vez que determinamos que un conjunto de datos es lineal utilizando el coeficiente de correlación, podemos utilizar la línea de regresión para hacer predicciones. Como hemos aprendido anteriormente, la línea de regresión es la que más se acerca a los datos en el gráfico de dispersión, lo que significa que solo una de esas líneas es la que mejor se ajusta a los datos.
Ejemplo 6
Usar la línea de regresión para hacer predicciones
El consumo de gasolina en Estados Unidos no ha dejado de aumentar. Los datos de consumo de 1994 a 2004 se revelan en la Tabla 37. Determine si la tendencia es lineal y, de ser así, halle un modelo para los datos. Utilice el modelo para predecir el consumo en 2008.
Año | 94 | 95 | 96 | 97 | 98 | 99 | 00 | 01 | 02 | 03 | 04 |
Consumo (miles de millones de galones) | 113 | 116 | 118 | 119 | 123 | 125 | 126 | 128 | 131 | 133 | 136 |
El gráfico de dispersión de los datos, incluida la línea de regresión de mínimos cuadrados, se muestra en la Figura 8.
Solución
Podemos introducir una nueva variable de entrada, que representa los años desde 1994.
La ecuación de regresión de mínimos cuadrados es:
Utilizando la tecnología, el coeficiente de correlación se calculó en 0,9965, lo que sugiere una tendencia lineal creciente muy fuerte.
Utilizando esto para predecir el consumo en 2008
El modelo prevé un consumo de gasolina de 144,244 millones de galones en 2008.
Inténtelo #2
Utilice el modelo que hemos creado con la tecnología en el Ejemplo 6 para predecir el consumo de gasolina en 2011. ¿Es interpolación o extrapolación?
Acceda a estos recursos en línea para obtener instrucciones adicionales y practicar el ajuste de modelos lineales a los datos.
2.4 Ejercicios de sección
Verbales
¿Qué es la interpolación cuando se utiliza un modelo lineal?
Explique la diferencia entre un coeficiente de correlación positivo y uno negativo.
Algebraicos
Se realizó una regresión para determinar si existe alguna relación entre las horas que se pasan mirando televisión cada día y el número de abdominales que puede hacer una persona Los resultados de la regresión se presentan a continuación. Utilice esto para predecir el número de abdominales que puede hacer una persona que mira la televisión durante 11 horas.
Se realizó una regresión para determinar si existe una relación entre el diámetro de un árbol ( en pulgadas) y la edad del árbol ( en años). Los resultados de la regresión se presentan a continuación. Utilice esto para predecir la edad de un árbol con un diámetro de 10 pulgadas.
En los siguientes ejercicios, dibuje un gráfico de dispersión para los datos proporcionados. ¿Parece que los datos están relacionados linealmente?
0 | 2 | 4 | 6 | 8 | 10 |
–22 | -19 | -15 | –11 | -6 | -2 |
100 | 250 | 300 | 450 | 600 | 750 |
12 | 12,6 | 13,1 | 14 | 14,5 | 15,2 |
Para los siguientes datos, dibuje un gráfico de dispersión. Si quisiéramos saber cuándo llegará la población a los 15.000 habitantes, ¿la respuesta implicaría una interpolación o una extrapolación? Observe la línea e infiera la respuesta.
Año | Población |
---|---|
1990 | 11.500 |
1995 | 12.100 |
2000 | 12.700 |
2005 | 13.000 |
2010 | 13.750 |
Para los siguientes datos, dibuje un gráfico de dispersión. Si quisiéramos saber cuándo la temperatura alcanzará los 28 °F, ¿la respuesta implicaría una interpolación o una extrapolación? Observe la línea e infiera la respuesta.
Temperatura, °F | 16 | 18 | 20 | 25 | 30 |
Tiempo, segundos | 46 | 50 | 54 | 55 | 62 |
Gráficos
En los siguientes ejercicios, haga coincidir cada gráfico de dispersión con una de las cuatro correlaciones especificadas en la Figura 9 y la Figura 10.
En los siguientes ejercicios, dibuje una línea de mejor ajuste para los datos trazados.
Numéricos
El censo de Estados Unidos registra el porcentaje de personas de 25 años o más que tienen un título universitario. Estos datos de varios años se recogen en la Tabla 48. Determine si la tendencia parece lineal. Si es así, y suponiendo que la tendencia se mantenga, ¿en qué año el porcentaje superará el 35 %?
Año | Porcentaje de graduados |
---|---|
1990 | 21,3 |
1992 | 21,4 |
1994 | 22,2 |
1996 | 23,6 |
1998 | 24,4 |
2000 | 25,6 |
2002 | 26,7 |
2004 | 27,7 |
2006 | 28 |
2008 | 29,4 |
La importación estadounidense de vino (en hectolitros) durante varios años se indica en la Tabla 5. Determine si la tendencia parece lineal. Si es así, y suponiendo que la tendencia se mantenga, ¿en qué año las importaciones superarán los 12.000 hectolitros?
Año | Importaciones |
---|---|
1992 | 2.665 |
1994 | 2.688 |
1996 | 3.565 |
1998 | 4.129 |
2000 | 4.584 |
2002 | 5.655 |
2004 | 6.549 |
2006 | 7.950 |
2008 | 8.487 |
2009 | 9.462 |
La Tabla 6 muestra el año y el número de desempleados en una determinada ciudad durante varios años. Determine si la tendencia parece lineal. Si es así, y suponiendo que la tendencia se mantenga, ¿en qué año el número de desempleados llegará a 5?
Año | Número de desempleados |
---|---|
1990 | 750 |
1992 | 670 |
1994 | 650 |
1996 | 605 |
1998 | 550 |
2000 | 510 |
2002 | 460 |
2004 | 420 |
2006 | 380 |
2008 | 320 |
En tecnología
En los siguientes ejercicios, utilice cada conjunto de datos para determinar la línea de regresión con una calculadora u otra herramienta tecnológica, y determine el coeficiente de correlación con una precisión de 3 decimales.
5 | 7 | 10 | 12 | 15 | |
4 | 12 | 17 | 22 | 24 |
3 | 21,9 | 11 | 15,76 |
4 | 22,22 | 12 | 13,68 |
5 | 22,74 | 13 | 14,1 |
6 | 22,26 | 14 | 14,02 |
7 | 20,78 | 15 | 11,94 |
8 | 17,6 | 16 | 12,76 |
9 | 16,52 | 17 | 11,28 |
10 | 18,54 | 18 | 9,1 |
4 | 44,8 |
5 | 43,1 |
6 | 38,8 |
7 | 39 |
8 | 38 |
9 | 32,7 |
10 | 30,1 |
11 | 29,3 |
12 | 27 |
13 | 25,8 |
100 | 80 | 60 | 55 | 40 | 20 | |
2.000 | 1.798 | 1.589 | 1.580 | 1.390 | 1.202 |
Extensiones
Grafique . Elija un conjunto de 5 pares ordenados utilizando entradas y emplee la regresión lineal para verificar que la función se ajuste bien a los datos.
Grafique . Elija un conjunto de 5 pares ordenados utilizando entradas y emplee la regresión lineal para verificar la función.
En los siguientes ejercicios, considere este escenario: El beneficio de una empresa disminuyó de forma constante durante un periodo de diez años. Los siguientes pares ordenados muestran los dólares y el número de unidades vendidas en centenas, así como el beneficio en miles durante el periodo de diez años (número de unidades vendidas, beneficio) para determinados años registrados:
.
Utilice la regresión lineal para determinar una función donde el beneficio en miles de dólares depende del número de unidades vendidas en cientos.
Halle hasta la décima más cercana e interprete la intersección en y.
Aplicaciones en el mundo real
En los siguientes ejercicios, considere este escenario: La población de una ciudad aumentó de forma constante durante un periodo de diez años. Los siguientes pares ordenados muestran la población y el año a lo largo de los diez años, (población, año) para determinados años registrados:
Utilice la regresión lineal para determinar una función donde el año depende de la población. Redondee a tres decimales de exactitud.
Predecir cuándo la población llegará a los 8.000 habitantes.
En los siguientes ejercicios, considere este escenario: El beneficio de una empresa aumentó de forma constante durante un período de diez años. Los siguientes pares ordenados muestran el número de unidades vendidas en centenas y el beneficio en miles durante el periodo de diez años (número de unidades vendidas, beneficio) para determinados años registrados:
.
Utilice la regresión lineal para determinar una función y, donde el beneficio en miles de dólares depende del número de cientos de unidades vendidas.
Predecir cuándo el beneficio superará el millón de dólares.
En los siguientes ejercicios, considere este escenario: El beneficio de una empresa disminuyó de forma constante durante un periodo de diez años. Los siguientes pares ordenados muestran los dólares y el número de unidades vendidas en centenas y el beneficio en miles de durante el período de diez años (número de unidades vendidas, beneficio) para determinados años registrados:
Utilice la regresión lineal para determinar una función y, donde el beneficio en miles de dólares depende del número de cientos de unidades vendidas.
Predecir cuándo el beneficio caerá por debajo del umbral de 25.000 dólares.
Notas a pie de página
- 4Datos seleccionados de http://classic.globe.gov/fsl/scientistsblog/2007/10/. Recuperado el 3 de agosto de 2010
- 5Técnicamente, el método minimiza la suma de las diferencias al cuadrado en la dirección vertical entre la línea y los valores de los datos.
- 6Por ejemplo, http://www.shodor.org/unchem/math/lls/leastsq.html
- 7http://www.bts.gov/publications/national_transportation_statistics/2005/html/table_04_10.html
- 8http://www.census.gov/hhes/socdemo/education/data/cps/historical/index.html. Consultado el 1 de mayo de 2014.