Alexander Holmes; Barbara Illowsky; Susan Dean

El análisis de regresión es una técnica estadística que permite comprobar la hipótesis de que una variable depende de otra u otras variables. Además, el análisis de regresión brinda una estimación de la magnitud del impacto de un cambio en una variable sobre otra. Por supuesto, esta última característica es de vital importancia para predecir los valores futuros.

El análisis de regresión se basa en una relación funcional entre variables y supone, además, que la relación es lineal. Esta suposición de linealidad es necesaria porque, en su mayor parte, las propiedades estadísticas teóricas de la estimación no lineal no están aún bien elaboradas por los matemáticos y econometristas. Esto nos plantea algunas dificultades en el análisis económico porque muchos de nuestros modelos teóricos no son lineales. La curva de costo marginal, por ejemplo, es decididamente no lineal, al igual que la función de costo total, si creemos en el efecto de la especialización del trabajo y en la ley productividad marginal decreciente. Existen técnicas para superar algunas de estas dificultades, como la transformación exponencial y logarítmica de los datos. No obstante, debeos reconocer desde el principio que el típico análisis de regresión de mínimos cuadrados ordinarios (MCO) siempre utilizará una función lineal para estimar lo que podría ser una relación no lineal.

El modelo de regresión lineal general se puede enunciar mediante la ecuación:

y_{i} = β_{0} + β_{1} X_{1 i} + β_{2} X_{2 i} + \dots + β_{k} X_{k i} + ε_{i}

donde β₀ es la intersección, β_i's es la pendiente entre Y y el X_i apropiado, y ε (pronunciado épsilon), es el término de error que captura los errores en la medición de Y y el efecto sobre Y de cualquier variable que falte en la ecuación y que contribuiría a explicar las variaciones en Y. Esta ecuación es la ecuación teórica de la población y, por lo tanto, utiliza letras griegas. La ecuación que estimaremos tendrá los símbolos romanos equivalentes. Esto es paralelo a la forma en que antes hemos mantenido el seguimiento de los parámetros de la población y los parámetros de la muestra. El símbolo de la media poblacional era µ y el de la media muestral $\bar{X}$ , para la desviación típica de la población fue σ y para la desviación típica de la muestra fue s. Luego, la ecuación que se estimará con una muestra de datos para dos variables independientes será:

y_{i} = b_{0} + b_{1} x_{1 i} + b_{2} x_{2 i} + e_{i}

Al igual que nuestro trabajo anterior con las distribuciones de probabilidad, este modelo solo funciona si se cumplen ciertos supuestos. Estos son: que Y se distribuya normalmente, que los errores también se distribuyan normalmente con una media de cero y una desviación típica constante, y que los términos de error sean independientes del tamaño de X e independientes entre sí.

Supuestos del modelo de regresión de mínimos cuadrados ordinarios

Cada uno de estos supuestos requiere mayor explicación. Si uno de estos supuestos no se cumple, afectará a la calidad de las estimaciones. Algunas de las fallas de estos supuestos pueden solucionarse, mientras que otras dan lugar a estimaciones que, sencillamente, no aportan nada a las preguntas que el modelo intenta responder o, peor aún, dan lugar a estimaciones sesgadas.

Las variables independientes, $x_{i}$ , se miden sin error, y son números fijos que son independientes del término de error. Esta suposición nos indica en efecto que Y es determinista, el resultado de un componente fijo "X" y un componente de error aleatorio "ϵ".
El término de error es una variable aleatoria con una media de cero y una varianza constante. Esto significa que las varianzas de las variables independientes no se fundamentan en el valor de la variable. Consideremos la relación entre el ingreso personal y la cantidad de un bien comprado como ejemplo de un caso en el que la varianza depende del valor de la variable independiente, el ingreso. Es plausible que, a medida que aumentan los ingresos, la variación en torno a la cantidad comprada también aumente simplemente por la flexibilidad que proporcionan los niveles de ingresos más altos. El supuesto es de varianza constante con respecto a la magnitud de la variable independiente, llamada homoscedasticidad. Si el supuesto falla, se denomina heteroscedasticidad. La Figura 13.6 muestra el caso de la homoscedasticidad en el que las tres distribuciones tienen la misma varianza en torno al valor predicho de Y, sin importar la magnitud de X.
Si bien las variables independientes son todas valores fijos, provienen de una distribución de probabilidad que se distribuye normalmente. Esto puede verse en la Figura 13.6 por la forma de las distribuciones situadas en la línea de predicción en el valor esperado del valor correspondiente de Y.
Las variables independientes son distintas de Y, pero también se supone que sean distintas a las demás variables X. El modelo está diseñado para estimar los efectos de las variables independientes sobre alguna variable dependiente de acuerdo con una teoría propuesta. El caso en el que algunas o más de las variables independientes están correlacionadas no es inusual. Puede que no haya ninguna relación de causa y efecto entre las variables independientes; sin embargo, se mueven juntas. Tomemos el caso de una curva de oferta simple en la que la cantidad suministrada está teóricamente relacionada con el precio del producto y los precios de los insumos. Puede haber varios insumos que, con el tiempo, se muevan juntos por la presión inflacionaria general. Por consiguiente, los precios de los insumos trastocarán este supuesto del análisis de regresión. Esta condición se denomina multicolinealidad, que se abordará en detalle más adelante.
Los términos de error no están correlacionados entre sí. Esta situación surge de un efecto sobre un término de error de otro término de error. Aunque no se trata exclusivamente de un problema de series temporales, es aquí donde más a menudo vemos este caso. Una variable X en el tiempo uno tiene un efecto en la variable Y, pero este efecto tiene luego un efecto en el siguiente tiempo. Este efecto da lugar a una relación entre los términos de error. Este caso se denomina autocorrelación, "autocorrelacionado". Los términos de error no son ahora independientes entre sí, sino que tienen su propio efecto sobre los términos de errores subsiguientes.

La Figura 13.6 muestra el caso en el que se cumplen los supuestos del modelo de regresión. La línea estimada es $\hat{y} = a + b x.$ Se muestran tres valores de X. Se coloca una distribución normal en cada punto, donde X es igual a la línea estimada y el error asociado a cada valor de Y. Observe que las tres distribuciones se distribuyen normalmente en torno al punto de la línea. Además, la variación, la varianza, en torno al valor predicho, es constante, lo cual indicando la homoscedasticidad del supuesto 2. La Figura 13.6 no muestra todos los supuestos del modelo de regresión, pero sirve para visualizar los más importantes.

Figura 13.6

Figura 13.7

Esta es la forma general que se denomina modelo de regresión múltiple. El llamado análisis de regresión "simple" tiene una sola variable independiente (derecha), en lugar de muchas variables independientes. La regresión simple es solo un caso especial de la regresión múltiple. Hay que empezar con una regresión simple: es fácil de graficar en dos dimensiones, difícil de graficar en tres dimensiones e imposible de graficar en más de tres dimensiones. En consecuencia, nuestros gráficos serán para el caso de regresión simple. La Figura 13.7 presenta el problema de regresión en forma de gráfica de dispersión del conjunto de datos donde se hipotetiza que Y depende de la única variable independiente X.

Una relación básica de los principios macroeconómicos es la función de consumo. Esta relación teórica establece que, a medida que aumenta el ingreso de una persona, su consumo aumenta, pero en una cantidad menor que el aumento del ingreso. Si Y es el consumo y X es el ingreso en la ecuación que aparece debajo de la Figura 13.7, el problema de regresión consiste, en primer lugar, en establecer que esta relación existe y, en segundo lugar, en determinar el impacto de un cambio en el ingreso sobre el consumo de una persona. El parámetro β₁ se denominó Propensión marginal al consumo en Principios de Macroeconomía.

Cada "punto" en la Figura 13.7 representa el consumo y el ingreso de diferentes personas en un momento dado. Antes se denominaban datos de sección transversal; observaciones sobre variables en un momento dado a través de diferentes personas u otras unidades de medida. Este análisis se realiza con datos de series temporales, que serían el consumo y el ingreso per cápita o por país en diferentes momentos. En los problemas macroeconómicos se utilizan datos agregados de series temporales para todo un país. Para este concepto teórico en particular, estos datos están disponibles en el informe anual del Consejo de asesores económicos del Presidente.

El problema de la regresión se reduce a determinar qué línea recta representaría mejor los datos en la Figura 13.8. El análisis de regresión se denomina a veces análisis de "mínimos cuadrados». Esto se debe a que el método para determinar qué línea se "ajusta" mejor a los datos consiste en minimizar la suma de los residuales al cuadrado de una línea a través de los datos.

Figura 13.8
Ecuación de la población: C = β₀ + β₁ Ingresos + ε
Ecuación estimada: C = b₀ + b₁ Ingresos + e

Esta figura muestra la supuesta relación entre el consumo y el ingreso a partir de la teoría macroeconómica. En este caso, los datos se han representado en forma de gráfica de dispersión y se ha trazado una línea recta estimada. En este gráfico podemos ver un término de error, e₁. Cada punto de datos tiene también un término de error. Una vez más, el término de error se introduce en la ecuación para captar los efectos sobre el consumo que no los causan los cambios en los ingresos. Esos otros efectos podrían ser los ahorros o el patrimonio de una persona, o los periodos de desempleo. Veremos cómo, al minimizar la suma de estos errores, obtenemos una estimación de la pendiente y la intersección de esta línea.

Considere el siguiente gráfico. La notación ha vuelto a ser la del modelo más general, en lugar del caso específico de la función macroeconómica de consumo en nuestro ejemplo.

Figura 13.9

La ŷ se lee "estimador de y" y es el valor estimado de y. (En la Figura 13.8 $\hat{C}$ representa el valor estimado del consumo porque está en la línea estimada). Es el valor de y obtenido mediante la línea de regresión. La ŷ no suele ser igual a y a partir de los datos.

El término $y_{0} - ŷ_{0} = e_{0}$ se denomina "error" o residual. No es un error en el sentido de una equivocación. El término de error se introdujo en la ecuación de estimación para captar las variables ausentes y los errores de medición que pudieron generarse en las variables dependientes. El valor absoluto del residual mide la distancia vertical entre el valor real de y y el valor estimado de y. En otras palabras, mide la distancia vertical entre el punto de datos real y el punto previsto en la línea, como se aprecia en el gráfico en el punto X₀.

Si el punto de datos observado se encuentra por encima de la línea, el residuo es positivo y la línea subestima el valor real de los datos para y.

Si el punto de datos observado se encuentra por debajo de la línea, el residuo es negativo y la línea sobreestima ese valor de datos real para y.

En el gráfico, $y_{0} - ŷ_{0} = e_{0}$ es el residual del punto indicado. Aquí el punto está por encima de la línea y el residuo es positivo. Para cada punto de datos se calculan los residuales, o errores, y_i – ŷ_i = e_i para i = 1, 2, 3, ..., n donde n es el tamaño de la muestra. Cada |e| es una distancia vertical.

La suma de los errores al cuadrado (Sum of Squared Errors, SSE) es el término propiamente dicho.

Utilizando el cálculo, se puede determinar la línea recta que tiene los valores de los parámetros b₀ y b₁ que minimiza la SSE. Cuando hace la SSE un mínimo, ha determinado los puntos que están en la línea de mejor ajuste. Resulta que la línea de mejor ajuste tiene la ecuación:

ŷ = b_{0} + b_{1} x

donde $b_{0} = \bar{y} - b_{1} \bar{x}$ y $b_{1} = \frac{Σ (x - \bar{x}) (y - \bar{y})}{Σ {(x - \bar{x})}^{2}} = \frac{cov (x, y)}{{s_{x}}^{2}}$

Las medias muestrales de los valores x y los valores y son $\bar{x}$ y $\bar{y}$ , respectivamente. La línea de mejor ajuste siempre pasa por el punto ( $\bar{x}$ , $\bar{y}$ ) llamados los puntos de las medias.

La pendiente b también se escribe:

b_{1} = r_{y, x} (\frac{s_{y}}{s_{x}})

donde s_y = la desviación típica de los valores de y y s_x = la desviación típica de los valores de x y r es el coeficiente de correlación entre x e y.

Estas ecuaciones se denominan ecuaciones normales y proceden de otro hallazgo matemático muy importante, que recibe el nombre de teorema de Gauss-Markov, sin el cual no podríamos hacer análisis de regresión. El teorema de Gauss-Markov señala que las estimaciones que obtenemos al utilizar el método de regresión por mínimos cuadrados ordinarios (MCO) darán lugar a estimaciones que tienen algunas propiedades muy importantes. En el teorema de Gauss-Markov se demostró que una línea de mínimos cuadrados es ELIÓ, es decir, Estimador Lineal e Imparcial Óptimo. Óptimo es la propiedad estadística de que un estimador es el que tiene la mínima varianza. Lineal se refiere a la propiedad del tipo de línea que se estima. Un estimador imparcial es aquel cuya función de estimación tiene una media prevista que es igual a la media de la población. (Recordará que el valor previsto de $µ_{\bar{x}}$ era igual a la media poblacional µ de acuerdo con el teorema del límite central. Este es exactamente el mismo concepto aquí).

Tanto Gauss como Markov fueron gigantes en el campo de las matemáticas, y Gauss también en el de la física, en el siglo XVIII y comienzos del siglo XIX. Apenas coincidieron cronológicamente, nunca geográficamente, pero el trabajo de Markov sobre este teorema se basó ampliamente en el trabajo anterior de Carl Gauss. El amplio valor aplicado de este teorema tuvo que esperar hasta mediados de este último siglo.

Con el método de los MCO podemos ahora dar con la estimación de la varianza del error que es la varianza de los errores al cuadrado, e². A veces se denomina error estándar de la estimación. (Gramaticalmente esto se enunciaría mejor como la estimación de la varianza del error). La fórmula para la estimación de la varianza del error es:

s_{a}^{2} = \frac{Σ {(y_{i} - ŷ_{i})}^{2}}{n - k} = \frac{Σ {e_{i}}^{2}}{n - k}

donde ŷ es el valor predicho de la y, mientras que la y es el valor observado; así, el término ${(y_{i} - ŷ_{i})}^{2}$ son los errores al cuadrado que hay que minimizar para dar con las estimaciones de los parámetros de la línea de regresión. Esta es realmente la varianza de los términos de error y sigue nuestra fórmula de varianza regular. Una nota importante es que aquí estamos dividiendo entre $(n - k)$ , que son los grados de libertad. Los grados de libertad de una ecuación de regresión serán el número de observaciones, n, reducido por el número de parámetros estimados, que incluye la intersección como parámetro.

La varianza de los errores es fundamental a la hora de comprobar las hipótesis de una regresión. Nos indica lo "ajustada" que es la dispersión sobre la línea. Como veremos en breve, cuanto mayor sea la dispersión en torno a la línea, es decir, cuanto mayor sea la varianza de los errores, menos probable será que la variable independiente hipotética tenga un efecto significativo sobre la variable dependiente. En resumen, es más probable que la teoría que se está probando falle si la varianza del término de error es alta. Si lo pensamos bien, esto no debería sorprender. Al comprobar las hipótesis sobre una media, observamos que las varianzas grandes reducen el estadístico de prueba y, por tanto, no alcanza la cola de la distribución. En estos casos, no se pueden rechazar las hipótesis nulas. Si no podemos rechazar la hipótesis nula en un problema de regresión, debemos concluir que la variable independiente hipotética no tiene ningún efecto sobre la variable dependiente.

Una forma de visualizar este concepto es dibujar dos gráficos de dispersión de los datos x e y a lo largo de una línea predeterminada. El primero tendrá poca varianza de los errores, lo que significa que todos los puntos de datos se moverán cerca de la línea. Ahora haga lo mismo, excepto que los puntos de datos tendrán una gran estimación de la varianza del error, lo que significa que los puntos de datos están muy dispersos a lo largo de la línea. Es evidente que la confianza sobre una relación entre x e y se ve afectada por esta diferencia entre la estimación de la varianza del error.

Comprobación de los parámetros de la línea

Todo el objetivo del análisis de regresión era probar la hipótesis de que la variable dependiente, Y, dependía de hecho de los valores de las variables independientes, tal y como afirmaba alguna teoría de base, como el ejemplo de la función de consumo. De cara a la ecuación estimada en la Figura 13.8, esto equivale a determinar los valores de b₀ y b₁. Observe que de nuevo utilizamos la convención de letras griegas para los parámetros de la población y letras romanas para sus estimaciones.

El resultado del análisis de regresión proporcionado por el sofware producirá una estimación de b₀ y b₁, y cualquier otra b para otras variables independientes que se hayan incluido en la ecuación estimada. La cuestión es saber si estas estimaciones son correctas. Para comprobar una hipótesis relativa a cualquier estimación, tendremos que conocer la distribución de muestreo subyacente. No debería sorprender a estas alturas del curso que la respuesta sea la distribución normal. Esto se aprecia al recordar el supuesto de que el término de error en la población, ε, se distribuye normalmente. Si el término de error se distribuye normalmente y la varianza de las estimaciones de los parámetros de la ecuación, b₀ y b₁, está determinada por la varianza del término de error, se deduce que las varianzas de las estimaciones de los parámetros también están distribuidas normalmente. Efectivamente, este es el caso.

Esto lo vemos por la creación de la estadística para la prueba de la hipótesis relativa al parámetro de la pendiente, β₁ en nuestra ecuación de la función de consumo. Para comprobar si Y depende o no de X, o en nuestro ejemplo, que el consumo depende del ingreso, solo tenemos que comprobar la hipótesis de que β₁ es igual a cero. Esta hipótesis se enunciaría formalmente como:

H_{0} : β_{1} = 0

H_{a} : β_{1} \neq 0

Si no podemos rechazar la hipótesis nula, debemos concluir que nuestra teoría no tiene validez. Si no podemos rechazar la hipótesis nula de que β₁ = 0, entonces b₁, el coeficiente del ingreso, es cero y cero por cualquier cosa es cero. Por lo tanto, el efecto del ingreso sobre el consumo es cero. No hay ninguna relación como nuestra teoría había sugerido.

Observe que hemos establecido la presunción, la hipótesis nula, como "no hay relación". Esto hace que la carga de la prueba recaiga en la hipótesis alternativa. En otras palabras, si queremos validar nuestra pretensión de encontrar una relación, debemos hacerlo con un nivel de significación superior al 90 %, 95 % o 99 %. El statu quo es la ignorancia, no existe ninguna relación. Además, para poder afirmar que realmente hemos añadido algo a nuestro bagaje, debemos hacerlo con una probabilidad significativa de estar en lo correcto. John Maynard Keynes acertó y así nació la economía keynesiana a partir de este concepto básico en 1936.

La estadística de esta prueba proviene directamente de nuestra vieja amiga, la fórmula de estandarización:

t_{c} = \frac{b_{1} - β_{1}}{S_{b_{1}}}

donde b₁ es el valor estimado de la pendiente de la línea de regresión, β₁ es el valor hipotético de beta, en este caso cero, y $S_{b_{1}}$ es la desviación típica de la estimación de b₁. En este caso, nos preguntamos cuántas desviaciones típicas se aleja la pendiente estimada de la pendiente hipotética. Se trata exactamente de la misma pregunta que nos hacíamos antes con respecto a una hipótesis sobre una media: ¿cuántas desviaciones típicas hay entre la media estimada, la media muestral y la media hipotética?

El estadístico de prueba se escribe como una distribución t de Student. No obstante, si el tamaño de la muestra es lo suficientemente grande como para que los grados de libertad sean superiores a 30, podemos volver a utilizar la distribución normal. Para verificar por qué podemos utilizar la t de Student o la distribución normal, solo tenemos que ver $S_{b_{1}}$ , la fórmula de la desviación típica de la estimación de b₁:

S_{b_{1}} = \frac{S_{e}^{2}}{\sqrt{{(x_{i} - \bar{x})}^{2}}}

o

S_{b_{1}} = \frac{S_{e}^{2}}{(n - 1) S_{x}^{2}}

13.3

Donde S_e es la estimación de la varianza del error y S²_x es la varianza de los valores x del coeficiente de la variable independiente que se está probando.

Vemos que S_e, la estimación de la varianza del error, forma parte del cálculo. Dado que la estimación de la varianza del error se basa en el supuesto de normalidad de los términos de error, concluimos que la distribución muestral de las b, los coeficientes de nuestra línea de regresión hipotética, también se distribuyen normalmente.

Una última nota se refiere a los grados de libertad del estadístico de prueba, ν = n – k. Anteriormente restamos 1 del tamaño de la muestra para determinar los grados de libertad en un problema de la t de Student. Aquí debemos restar un grado de libertad por cada parámetro estimado en la ecuación. Para el ejemplo de la función de consumo perdemos 2 grados de libertad, uno para $b_{0}$ , la intersección, y uno para b₁, la pendiente de la función de consumo. Los grados de libertad serían n - k - 1, donde k es el número de variables independientes y el extra se pierde por la intersección. Si estuviéramos estimando una ecuación con tres variables independientes, perderíamos 4 grados de libertad: tres para las variables independientes, k, y uno más para la intersección.

La regla de decisión para la aceptación o el rechazo de la hipótesis nula sigue exactamente la misma forma que en todas nuestras pruebas de hipótesis anteriores. Es decir, si el valor calculado de t (o Z) cae en las colas de la distribución, donde las colas están definidas por α, el nivel de significación requerido en la prueba, no podemos aceptar la hipótesis nula. Si, por el contrario, el valor calculado del estadístico de prueba se encuentra dentro de la región crítica, no podemos rechazar la hipótesis nula.

Si concluimos que no podemos aceptar la hipótesis nula, podemos afirmar con nivel de confianza de $(1 - α)$ que la pendiente de la línea viene dada por b₁. Esta es una conclusión extremadamente importante. El análisis de regresión no solo nos permite comprobar si existe una relación de causa y efecto, sino que también podemos determinar la magnitud de esa relación, en caso de que exista. Es esta característica del análisis de regresión la que lo hace tan valioso. Si se pueden desarrollar modelos que tengan validez estadística, podremos simular los efectos de los cambios en las variables que pueden estar bajo nuestro control con cierto grado de probabilidad, por supuesto. Por ejemplo, si se demuestra que la publicidad influye en las ventas, podemos determinar los efectos de cambiar el presupuesto de publicidad y decidir si el aumento de las ventas merece la pena el gasto añadido.

Multicolinealidad

Nuestro análisis anterior indicaba que, al igual que todos los modelos estadísticos, el modelo de regresión de los MCO lleva aparejados importantes supuestos. Cada supuesto, si se viola, tiene un efecto sobre la capacidad del modelo para proporcionar estimaciones útiles y significativas. El teorema de Gauss-Markov nos asegura que las estimaciones de los MCO son imparciales y de varianza mínima, pero esto es cierto solo bajo los supuestos del modelo. Aquí veremos los efectos en las estimaciones de los MCO si las variables independientes están correlacionadas. En los cursos de Econometría se examinan los demás supuestos y los métodos para mitigar las dificultades que plantean si se incumplen. Nos ocupamos de la multicolinealidad porque es frecuente en los modelos económicos, con resultados a menudo frustrantes.

El modelo de los MCO supone que todas las variables son independientes entre sí. Esta suposición es fácil de comprobar para una muestra de datos en particular con simples coeficientes de correlación. La correlación, como muchos aspectos en estadística, es una cuestión de grado: un poco no es bueno y mucho es terrible.

El objetivo de la técnica de regresión es determinar los efectos de cada una de las variables independientes en una variable dependiente hipotética. Si dos variables independientes están interrelacionadas, es decir, correlacionadas, no podemos aislar los efectos sobre Y de una de ellas. En un caso extremo, donde $x_{1}$ es una combinación lineal de $x_{2}$ , correlación igual a uno, ambas variables se mueven de forma idéntica con Y. En este caso, es imposible determinar la variable que es la verdadera causa del efecto sobre Y. (Si las dos variables estuvieran en realidad perfectamente correlacionadas, entonces no se podría calcular matemáticamente ningún resultado de regresión).

Las ecuaciones normales de los coeficientes muestran los efectos de la multicolinealidad en los coeficientes.

b_{1} = \frac{s_{y} (r_{x_{1} y} - r_{x_{1} x_{2}} r_{x_{2} y})}{s_{x_{1}} (1 - r_{x_{1} x_{2}}^{2})}

b_{2} = \frac{s_{y} (r_{x_{2} y} - r_{x_{1} x_{2}} r_{x_{1} y})}{s_{x_{2}} (1 - r_{x_{1} x_{2}}^{2})}

b_{0} = \bar{y} - b_{1} {\bar{x}}_{1} - b_{2} {\bar{x}}_{2}

La correlación entre $x_{1}$ y $x_{2}$ , $r_{x_{1} x_{2}}^{2}$ , aparece en el denominador tanto de la fórmula de estimación de $b_{1}$ como de $b_{2}$ . Si se cumple el supuesto de independencia, este término es cero. Esto indica que no hay ningún efecto de correlación en el coeficiente. Por otra parte, a medida que aumenta la correlación entre las dos variables independientes, el denominador disminuye; por ende, la estimación del coeficiente aumenta. La correlación tiene el mismo efecto en ambos coeficientes de estas dos variables. En esencia, cada variable está "tomando" parte del efecto sobre Y, que debería atribuirse a la variable colineal. Esto da lugar a estimaciones sesgadas.

La multicolinealidad tiene otro impacto perjudicial en las estimaciones de los MCO. La correlación entre las dos variables independientes también aparece en las fórmulas de estimación de la varianza de los coeficientes.

s_{b_{1}}^{2} = \frac{s_{a}^{2}}{(n - 1) s_{x_{1}}^{2} (1 - r_{x_{1} x_{2}}^{2})}

s_{b_{2}}^{2} = \frac{s_{a}^{2}}{(n - 1) s_{x_{2}}^{2} (1 - r_{x_{1} x_{2}}^{2})}

Aquí también observamos la correlación entre $x_{1}$ y $x_{2}$ en el denominador de las estimaciones de la varianza de los coeficientes de ambas variables. Si la correlación es cero, como se supone en el modelo de regresión, la fórmula se reduce al cociente conocido entre la varianza de los errores y la varianza de la variable independiente correspondiente. Sin embargo, si las dos variables independientes están correlacionadas, la varianza de la estimación del coeficiente aumenta. Esto da lugar a un valor t menor para la prueba de hipótesis del coeficiente. En resumen, la multicolinealidad hace que no se rechace la hipótesis nula de que la variable X no tiene ningún impacto en Y cuando, de hecho, X tiene un impacto estadísticamente significativo en Y. Dicho de otro modo, los grandes errores estándar del coeficiente estimado que crea la multicolinealidad sugieren una insignificancia estadística incluso cuando la relación hipotética es contundente.

¿Qué tan buena es la ecuación?

En la última sección nos ocupamos de comprobar la hipótesis de que la variable dependiente de hecho dependía de la variable o variables independientes hipotéticas. Puede que encontremos una variable independiente que tenga algún efecto sobre la variable dependiente, pero puede que no sea la única, y puede que ni siquiera sea la más importante. Recuerde que el término de error se colocó en el modelo para captar los efectos de cualquier variable independiente que falte. De ello se desprende que el término de error se utiliza para dar una medida de la "bondad del ajuste" de la ecuación, tomada en su conjunto para explicar la variación de la variable dependiente, Y.

El coeficiente de correlación múltiple, también llamado coeficiente de determinación múltiple o coeficiente de determinación, viene dado por la fórmula:

R^{2} = \frac{SSR}{SST}

donde SSR es la suma de cuadrados de la regresión, la desviación al cuadrado del valor predicho de y con respecto al valor medio de y $(ŷ - \bar{y})$ , y SST es la suma total de cuadrados que es la desviación total al cuadrado de la variable dependiente, y, de su valor medio, incluso el término de error, SSE, la suma de errores al cuadrado. La Figura 13.10 muestra cómo la desviación total de la variable dependiente, y, se divide en estas dos partes.

Figura 13.10

La Figura 13.10 muestra la línea de regresión estimada y una única observación, x₁. El análisis de regresión trata de explicar la variación de los datos en torno al valor medio de la variable dependiente, y. La pregunta es: ¿por qué las observaciones de y varían con respecto al nivel promedio de y? El valor de y en la observación x₁ varía de la media de y por la diferencia ( $y_{i} - \bar{y}$ ). La suma de estas diferencias al cuadrado es la SST, la suma total de cuadrados (Sum of Squares Total). El valor real de y en x₁ se desvía del valor estimado, ŷ, por la diferencia entre el valor estimado y el valor real, ( $y_{i} - ŷ$ ). Recordemos que este es el término de error, e, y la suma de estos errores es SSE, suma de errores al cuadrado (Sum of Squared Errors). La desviación del valor predicho de y, ŷ, del valor medio de y es ( $ŷ - \bar{y}$ ) y es la SSR, suma de cuadrados de la regresión (Sum of Squares Regression). Recibe el nombre de "regresión" porque es la desviación explicada por la regresión. (A veces, la SSR se denomina SSM para la suma de la media de los cuadrados [Sum of Squares Mean] porque mide la desviación del valor medio de la variable dependiente, y, como se muestra en el gráfico).

Dado que la SST = SSR + SSE, vemos que el coeficiente de correlación múltiple es el porcentaje de la varianza, o desviación en y de su valor medio, que se explica por la ecuación cuando se toma como un todo. R² variará entre cero y 1, donde cero indica que ninguna de la variación en y se explicó con la ecuación y un valor de 1 indica que el 100 % de la variación de y se explicó con la ecuación. Para los estudios de series temporales se espera un R² alto y para los datos de sección transversal se espera un R² bajo.

Aunque un R² elevado es deseable, recuerde que lo que motivó la utilización del modelo de regresión fue la comprobación de la hipótesis sobre la existencia de una relación entre un conjunto de variables independientes y una variable dependiente en particular. La validación de una relación causa-efecto desarrollada por alguna teoría es la verdadera razón por la que elegimos el análisis de regresión. El incremento en el número de variables independientes tendrá el efecto de aumentar el R². Para tener en cuenta este efecto, la medida adecuada del coeficiente de determinación es el ${\bar{R}}^{2}$ , ajustado por grados de libertad, para evitar la suma sin sentido de variables independientes.

No hay ninguna prueba estadística para el R² y, por tanto, poco se puede decir del modelo utilizando el R² con nuestro característico nivel de confianza. Dos modelos que tienen el mismo tamaño de SSE, es decir, la suma de errores al cuadrado, pueden tener R² muy diferentes si los modelos que compiten tienen diferentes SST, la suma total de desviaciones al cuadrado. La bondad del ajuste de los dos modelos es la misma: ambos tienen la misma suma de cuadrados no explicados, errores al cuadrado. Sin embargo, debido a la mayor suma total de cuadrados en uno de los modelos, el R² difiere. De nuevo, el verdadero valor de la regresión como herramienta es examinar las hipótesis desarrolladas a partir de un modelo que predice determinadas relaciones entre las variables. Se trata de pruebas de hipótesis sobre los coeficientes del modelo y no de un juego de maximización de R².

Otra forma de comprobar la calidad general del modelo global es probar los coeficientes como grupo y no de forma independiente. Por tratarse de una regresión múltiple (más de una X), utilizamos la prueba F para determinar si nuestros coeficientes afectan colectivamente a Y. La hipótesis es:

$H_{o} : β_{1} = β_{2} = \dots = β_{i} = 0$

$H_{a} :$ "al menos uno de los βi no es igual a 0".

Si no se puede rechazar la hipótesis nula, entonces concluimos que ninguna de las variables independientes contribuye a explicar la variación de Y. Al revisar la Figura 13.10, vemos que la SSR, la suma de cuadrados explicada, es una medida de cuánto de la variación de Y se explicada con todas las variables del modelo. La SSE, la suma de los errores al cuadrado, mide la cantidad de errores inexplicados. De ello se desprende que el cociente de estos dos puede proporcionarnos una prueba estadística del modelo en su conjunto. Al recordar que la distribución F es el cociente de las distribuciones de chi-cuadrado, que las varianzas se distribuyen según este y que tanto la suma de errores al cuadrado como la suma de cuadrados son varianzas, tenemos el estadístico de prueba para esta hipótesis como:

F_{c} = \frac{(\frac{S S R}{k})}{(\frac{S S E}{n - k - 1})}

donde n es el número de observaciones y k es el número de variables independientes. Se demuestra que esto es equivalente a:

F_{c} = \frac{n - k - 1}{k} \cdot \frac{R^{2}}{1 - R^{2}}

construido a partir de la Figura 13.10 donde R² es el coeficiente de determinación, que también es una medida de la "bondad" del modelo.

Al igual que en todas nuestras pruebas de hipótesis, llegamos a una conclusión tras comparar la estadística F calculada con el valor crítico, dado nuestro nivel de confianza deseado. Si la estadística calculada de la prueba, F en este caso, se encuentra en la cola de la distribución, entonces no podemos aceptar la hipótesis nula. Al no poder aceptar las hipótesis nulas, concluimos que la especificación de este modelo tiene validez, porque al menos uno de los coeficientes estimados es significativamente diferente de cero.

Otra manera de llegar a esta conclusión es con la regla de comparación del valor p. El valor p es el área de la cola, dado el estadístico F calculado. En esencia, la computadora calcula el valor F en la tabla por nosotros. El resultado de la regresión computarizada para la estadística F calculada se encuentra normalmente en la sección de la tabla ANOVA, etiquetada "significación F". A continuación, se presenta cómo leer el resultado de una regresión en Excel. Es la probabilidad de NO aceptar una hipótesis nula falsa. Si esta probabilidad es menor que nuestro error alfa predeterminado, la conclusión es que no podemos aceptar la hipótesis nula.

Variables ficticias

Hasta ahora, el análisis de la técnica de regresión de los MCO suponía que las variables independientes de los modelos probados eran variables aleatorias continuas. Sin embargo, no hay restricciones en el modelo de regresión contra las variables independientes que son binarias. Esto abre el modelo de regresión para comprobar las hipótesis relativas a variables categóricas como el sexo, la raza, la región del país, antes de un determinado dato, después de una determinada fecha y otras innumerables. Estas variables categóricas solo toman dos valores, 1 y 0, éxito o fracaso, de la distribución de probabilidad binomial. La forma de la ecuación pasa a ser:

ŷ = b_{0} + b_{2} x_{2} + b_{1} x_{1}

Figura 13.11

donde $x_{2} = 0, 1$ . X₂ es la variable ficticia y X₁ es una variable aleatoria continua. La constante, b₀, es la intersección en y, el valor donde la línea cruza el eje y. Cuando el valor de X₂ = 0, la línea estimada se cruza en b₀. Cuando el valor de X₂ = 1 entonces la línea estimada cruza en b₀ + b₂. En efecto, la variable ficticia desplaza la línea estimada hacia arriba o hacia abajo, según la magnitud del efecto de la característica captada por la variable ficticia. Nótese que se trata de un simple desplazamiento paralelo y no influye en el impacto de la otra variable independiente; X₁. Esta es una variable aleatoria continua y predice diferentes valores de y a diferentes valores de X₁, a la vez que mantiene constante la condición de la variable ficticia.

Ejemplo de la variable ficticia es el trabajo que estima el impacto del sexo en los salarios. Existe toda una bibliografía sobre este tema y las variables ficticias se utilizan ampliamente. Para este ejemplo se examinan los salarios de los maestros de educación primaria y secundaria en un determinado estado. La utilización de una categoría laboral homogénea, la de los maestros, y para un solo estado reduce muchas de las variaciones que inciden naturalmente en los salarios, como el riesgo físico diferencial, el coste de vida en un estado en particular y otras condiciones laborales. La ecuación de estimación, en su forma más sencilla, especifica el salario en función de varias características de los maestros que, según la teoría económica, incidirían en el salario. Estos incluirían el grado de grado de instrucción como medida de productividad potencial, la edad o la experiencia para captar la formación en el trabajo, de nuevo como medida de productividad. Dado que los datos corresponden a los maestros empleados en un distrito escolar público y no a trabajadores de una compañía con ánimo de lucro, se incluye el ingreso promedio del distrito escolar por promedio de asistencia diaria de estudiantes como medida de la capacidad de pago. A continuación, se presentan los resultados del análisis de regresión realizado con los datos de 24.916 maestros.

Variable	Coeficientes de regresión (b)	Errores estándar de los estimados para la función de ingresos de los maestros (s_b)
Intersección	4269,9
Sexo (masculino = 1)	632,38	13,39
Total de años de experiencia	52,32	1,10
Años de experiencia en el distrito actual	29,97	1,52
Educación	629,33	13,16
Ingresos totales por ADA	90,24	3,76
${\bar{R}}^{2}$	0,725
n	24.916

Tabla 13.1 Estimación de los ingresos de los maestros de educación primaria y secundaria

Los coeficientes de todas las variables independientes son significativamente diferentes de cero, como indican los errores estándar. Si se dividen los errores estándar de cada coeficiente, se obtiene un valor t superior a 1,96, que es el nivel requerido para una significación del 95 %. La variable binaria, nuestra variable ficticia de interés en este análisis, es el sexo, donde a los hombres se les asigna un valor de 1 y a las mujeres un valor de 0. El coeficiente es significativamente diferente de cero con estadístico t dramático de 47 desviaciones típicas. Así, no podemos aceptar la hipótesis nula de que el coeficiente sea igual a cero. Por consiguiente, concluimos que existe una prima pagada a los maestros hombres de 632 dólares tras mantener constantes la experiencia, la educación y la riqueza del distrito escolar en el que el maestro está empleado. Cabe destacar que estos datos son de hace algún tiempo y que los 632 dólares representan una prima salarial del 6 % en aquella época. A continuación, se presenta un gráfico de este ejemplo de variables ficticias.

Figura 13.12

En dos dimensiones, el salario es la variable dependiente en el eje vertical, mientras que el total de años de experiencia se eligió como variable independiente continua en el eje horizontal. Se podría haber elegido cualquiera de las otras variables independientes para ilustrar el efecto de la variable ficticia. La relación entre los años totales de experiencia tiene una pendiente de 52,32 dólares por año de experiencia, a la vez que la línea estimada tiene una intersección de 4269 dólares si la variable de sexo es igual a cero, para las mujeres. Si la variable de sexo es igual a 1, en el caso de los hombres, el coeficiente se suma a la intersección en y. Así, la relación entre el total de años de experiencia y el salario se desplaza paralelamente hacia arriba, como se indica en el gráfico. En el gráfico también están marcados varios puntos de referencia. Una maestra de escuela con 10 años de experiencia recibe un salario de 4.792 dólares solo en función de su experiencia, pero se le paga 109 dólares menos que su colega hombre con cero años de experiencia.

También se puede estimar una interacción más compleja entre una variable ficticia y la variable dependiente. Puede ser que la variable ficticia no solo tenga algo más que un simple efecto de desplazamiento sobre la variable dependiente, sino que también interactúe con una o más de las otras variables independientes continuas. Aunque no se ha comprobado en el ejemplo anterior, se podría plantear la hipótesis de que el impacto del sexo el salario no fue ningún cambio puntual, sino que también influyó en el valor de los años adicionales de experiencia en el salario. Es decir, los salarios de las maestras se descontaron al principio y, además, no crecieron al mismo ritmo por efecto de la experiencia que los de sus colegas hombres. Esto se manifestaría como una pendiente diferente para la relación entre el total de años de experiencia para los hombres que para las mujeres. Si esto es así, las maestras no solo empezarían por debajo de sus colegas hombres (según el desplazamiento de la línea de regresión estimada), sino que se rezagarían cada vez más, a medida que aumentara el tiempo y la experiencia.

El siguiente gráfico muestra cómo se puede comprobar esta hipótesis con el uso de variables ficticias y una variable de interacción.

Figura 13.13

La ecuación de estimación señala cómo la pendiente de X₁, la variable aleatoria continua de experiencia, contiene dos partes, b₁ y b₃. Esto ocurre porque la nueva variable X₂ X₁, llamada variable de interacción, se creó para permitir un efecto en la pendiente de X₁ a partir de los cambios en X₂, la variable ficticia binaria. Nótese que, cuando la variable ficticia X₂ = 0, la variable de interacción tiene un valor de 0, pero cuando X₂ = 1, la variable de interacción tiene un valor de X₁. El coeficiente b₃ es una estimación de la diferencia del coeficiente de X₁ cuando X₂ = 1 en comparación con cuando X₂ = 0. En el ejemplo de los salarios de los maestros, si se paga una prima a los maestros hombres que incide en la tasa de aumento de los salarios con base en la experiencia, entonces la tasa de aumento de sus salarios sería b₁ + b₃, mientras que la de las maestras sería simplemente b₁. Esto se comprueba con la hipótesis:

H_{0} : β_{3} = 0 | β_{1} = 0, β_{2} = 0

H_{a} : β_{3} \neq 0 | β_{1} \neq 0, β_{2} \neq 0

Se trata de una prueba t que utiliza el estadístico de prueba para el parámetro β₃. Si no podemos aceptar la hipótesis nula de que β₃ = 0, concluiremos que existe una diferencia entre la tasa de aumento del grupo para el que el valor de la variable binaria se fija en 1, los hombres en este ejemplo. Esta ecuación de estimación puede combinarse con la anterior, que solo probaba un desplazamiento paralelo en la línea estimada. Las funciones de ingresos/experiencia en la Figura 13.13 se dibujan para este caso con un desplazamiento en la función de ingresos y una diferencia en la pendiente de la función con respecto a los años totales de experiencia.

Ejemplo 13.5

Una muestra aleatoria de 11 estudiantes de Estadística produjo los siguientes datos, donde x es la calificación del tercer examen sobre 80, y y es la calificación del examen final sobre 200. ¿Puede predecir la calificación del examen final de un estudiante seleccionado al azar si conoce la calificación del tercer examen?

x (calificación del tercer examen)	y (calificación del examen final)
65	175
67	133
71	185
71	163
66	126
75	198
67	153
70	163
71	159
69	151
69	159

Tabla 13.2 Tabla que muestra las calificaciones del examen final basadas en las calificaciones del tercer examen.

Este es un diagrama de dispersión de los datos proporcionados. La calificación del tercer examen se representa en el eje x y la del examen final en el eje y. Los puntos forman un patrón fuerte, positivo y lineal.

Figura 13.14 Diagrama de dispersión que muestra las calificaciones del examen final con base en las del tercer examen.

13.4 La ecuación de regresión

Supuestos del modelo de regresión de mínimos cuadrados ordinarios

Comprobación de los parámetros de la línea

Multicolinealidad

¿Qué tan buena es la ecuación?

Variables ficticias