Al comenzar esta sección, observamos que el tipo de datos con los que vamos a trabajar ha cambiado. Tal vez no se note, pero todos los datos que hemos estado utilizando son para una sola variable. Puede ser de dos muestras, pero sigue siendo una variable univariante. El tipo de datos descrito en los ejemplos anteriores y para cualquier modelo de causa y efecto son datos bivariados; "bi" para dos variables. En realidad, los estadísticos utilizan datos multivariantes, es decir, muchas variables.
Para nuestro trabajo, podemos clasificar los datos en tres grandes categorías: de series temporales, de sección transversal y de panel. Aprendimos sobre los dos primeros al inicio. Los datos de series temporales miden una única unidad de observación a medida que pasa el tiempo, por ejemplo, una persona, una compañía o un país. Lo que se mide serán al menos dos características, por ejemplo, los ingresos de la persona, la cantidad de un determinado bien que compra y el precio que ha pagado. Se trataría de tres informaciones en un tiempo, digamos 1985. Si siguiéramos a esa persona a lo largo del tiempo, tendríamos esos mismos datos para 1985, 1986, 1987, etc. Esto constituiría un conjunto de datos de series temporales. Si hiciéramos esto durante 10 años, tendríamos 30 datos sobre los hábitos de consumo de este bien por parte de esta persona durante la última década y conoceríamos sus ingresos y el precio que ha pagado.
Un segundo tipo de conjunto de datos es el de los datos transversales. En este caso, la variación no es a través del tiempo para una sola unidad de observación, sino a través de las unidades de observación durante un punto en el tiempo. Para un tiempo determinado, reuniríamos el precio pagado, la cantidad comprada y los ingresos de muchas personas por separado.
Un tercer tipo de conjunto de datos son los datos de panel. Aquí se sigue un panel de unidades de observación a lo largo del tiempo. Si retomamos el ejemplo anterior, podríamos seguir a 500 personas, la unidad de observación, a lo largo del tiempo, diez años, y así observar sus ingresos, el precio pagado y la cantidad del bien adquirido. Si tuviéramos 500 personas y datos durante diez años sobre el precio, los ingresos y la cantidad comprada, tendríamos 15.000 datos. Este tipo de conjuntos de datos son muy costosos de construir y mantener. Sin embargo, proporcionan una enorme cantidad de información que puede utilizarse para responder preguntas muy importantes. Por ejemplo, ¿cuál es el efecto en la tasa de participación laboral de las mujeres a medida que su familia de origen, la madre y el padre, envejecen? ¿O existen efectos diferenciales en los resultados de salud, dependiendo de la edad a la que una persona empezó a fumar? Solo los datos de panel pueden dar respuesta a estas y otras cuestiones relacionadas, ya que debemos seguir a varias personas en el transcurso del tiempo. Sin embargo, el trabajo que realizamos aquí no será del todo apropiado para conjuntos de datos como estos.
Partiendo de un conjunto de datos con dos variables independientes, nos preguntamos: ¿están relacionadas? Una forma de responder visualmente a esta pregunta es crear un gráfica de dispersión de los datos. Antes no podíamos hacerlo cuando hacíamos estadística descriptiva porque esos datos eran univariantes. Ahora tenemos datos bivariados, por lo que podemos trazar en dos dimensiones. Las tres dimensiones son posibles en un trozo de papel plano, pero resultan muy difíciles de conceptualizar por completo. Por supuesto, no se pueden representar gráficamente más de tres dimensiones, aunque las relaciones pueden medirse matemáticamente.
Para dotar de precisión matemática a la medición de lo que vemos, utilizamos el coeficiente de correlación. La correlación nos dice algo sobre el movimiento conjunto de dos variables, pero nada sobre el motivo de este movimiento. Formalmente, en el análisis de correlación supone que las dos variables analizadas son independientes. Esto significa que ninguna de los dos provoca el movimiento de la otra. Además, significa que ninguna de las dos variables depende de la otra, ni de ninguna otra. Incluso con estas limitaciones, el análisis de correlación puede arrojar algunos resultados interesantes.
El coeficiente de correlación, ρ (se pronuncia ro), es la estadística matemática para una población que nos proporciona una medida de la fuerza de una relación lineal entre las dos variables. Para una muestra de datos, la estadística r, desarrollada por Karl Pearson a principios de los 1900, es una estimación de la correlación de la población y se define matemáticamente como:
donde sx1 y sx2 son las desviaciones típicas de las dos variables independientes X1 y X2, y son las medias muestrales de las dos variables, y X1i y X2i son las observaciones individuales de X1 y X2. El coeficiente de correlación r oscila entre -1 y 1. La segunda fórmula equivalente se utiliza a menudo porque puede ser más fácil de calcular. Aunque estas fórmulas parezcan espeluznantes, en realidad no son más que el cociente de la covarianza entre las dos variables y el producto de sus dos desviaciones típicas. Es decir, es una medida de las varianzas relativas.
En la práctica, todos los análisis de regresión y correlación se realizarán mediante softwares diseñados para estos fines. Cualquier cosa que supere tal vez media docena de observaciones crea inmensos problemas computacionales. Por ello, la correlación y, más aun, la regresión, no fueron herramientas de investigación muy utilizadas hasta la llegada de las "máquinas de computación". En la actualidad, la potencia de cómputo necesaria para analizar los datos mediante paquetes de regresión se considera casi trivial en comparación con la de hace una década.
Para visualizar cualquier relación lineal que pueda existir, vea el trazado de un diagrama de dispersión de los datos estandarizados. La Figura 13.2 presenta varios diagramas de dispersión y el valor calculado de r. Observe en los paneles (a) y (b) que los datos tienden generalmente a moverse juntos, (a) hacia arriba y (b) hacia abajo. El panel (a) es un ejemplo de correlación positiva y el panel (b) es un ejemplo de correlación o relación negativa. El signo del coeficiente de correlación nos indica si la relación es positiva o negativa (inversa). Si todos los valores de X1 y X2 se encuentran en una línea recta, el coeficiente de correlación será 1 o -1, dependiendo de si la línea tiene una pendiente positiva o negativa, y cuanto más se acerque a uno o a uno negativo, más fuerte será la relación entre las dos variables. RECUERDE SIEMPRE QUE EL COEFICIENTE DE CORRELACIÓN NO NOS INDICA LA PENDIENTE.
Recuerde que lo único que nos señala el coeficiente de correlación es si los datos están o no relacionados linealmente. En el panel (d) las variables tienen obviamente algún tipo de relación muy específica entre sí, pero el coeficiente de correlación es cero, lo que indica que no existe ninguna relación lineal.
Si se sospecha que existe una relación lineal entre X1 y X2, entonces r puede medir la fuerza de la relación lineal.
- El valor de r está siempre entre –1 y +1: –1 ≤ r ≤ 1.
- El tamaño de la correlación r indica la fuerza de la relación lineal entre X1 y X2. Los valores de r cercanos a –1 o a +1 indican una relación lineal más fuerte entre X1 y X2.
- Si r = 0, no hay ninguna relación lineal entre X1 y X2 (no hay correlación lineal).
- Si r = 1, hay una correlación positiva perfecta. Si r = –1, hay una correlación negativa perfecta. En ambos casos, todos los puntos de datos originales se encuentran en una línea recta: CUALQUIER línea recta sin importar la pendiente. Por supuesto, en el mundo real, esto no suele ocurrir.
- Un valor positivo de r significa que, cuando X1 aumenta, X2 tiende a aumentar y cuando X1 disminuye, X2 tiende a disminuir (correlación positiva).
- Un valor negativo de r significa que, cuando X1 aumenta, X2 tiende a disminuir y cuando X1 disminuye, X2 tiende a aumentar (correlación negativa).