Omitir e ir al contenidoIr a la página de accesibilidadMenú de atajos de teclado
Logo de OpenStax
Introducción a la estadística empresarial

13.1 El coeficiente de correlación r

Introducción a la estadística empresarial13.1 El coeficiente de correlación r

Menú
Índice
  1. Prefacio
  2. 1 Muestreo y datos
    1. Introducción
    2. 1.1 Definiciones de estadística, probabilidad y términos clave
    3. 1.2 Datos, muestreo y variación de datos y muestreo
    4. 1.3 Niveles de medición
    5. 1.4 Diseño experimental y ética
    6. Términos clave
    7. Repaso del capítulo
    8. Tarea para la casa
    9. Referencias
    10. Soluciones
  3. 2 Estadística descriptiva
    1. Introducción
    2. 2.1 Datos mostrados
    3. 2.2 Medidas de la ubicación de los datos
    4. 2.3 Medidas del centro de los datos
    5. 2.4 Notación sigma y cálculo de la media aritmética
    6. 2.5 Media geométrica
    7. 2.6 Distorsión y media, mediana y moda
    8. 2.7 Medidas de la dispersión de los datos
    9. Términos clave
    10. Repaso del capítulo
    11. Repaso de fórmulas
    12. Práctica
    13. Tarea para la casa
    14. Resúmalo todo: tarea para la casa
    15. Referencias
    16. Soluciones
  4. 3 Temas de probabilidad
    1. Introducción
    2. 3.1 Terminología
    3. 3.2 Eventos mutuamente excluyentes e independientes
    4. 3.3 Dos reglas básicas de la probabilidad
    5. 3.4 Tablas de contingencia y árboles de probabilidad
    6. 3.5 Diagramas de Venn
    7. Términos clave
    8. Repaso del capítulo
    9. Repaso de fórmulas
    10. Práctica
    11. Uniéndolo todo: Práctica
    12. Tarea para la casa
    13. Resúmalo todo: tarea para la casa
    14. Referencias
    15. Soluciones
  5. 4 Variables aleatorias discretas
    1. Introducción
    2. 4.1 Distribución hipergeométrica
    3. 4.2 Distribución binomial
    4. 4.3 Distribución geométrica
    5. 4.4 Distribución de Poisson
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  6. 5 Variables aleatorias continuas
    1. Introducción
    2. 5.1 Propiedades de las funciones de densidad de probabilidad continuas
    3. 5.2 La distribución uniforme
    4. 5.3 La distribución exponencial
    5. Términos clave
    6. Repaso del capítulo
    7. Repaso de fórmulas
    8. Práctica
    9. Tarea para la casa
    10. Referencias
    11. Soluciones
  7. 6 La distribución normal
    1. Introducción
    2. 6.1 La distribución normal estándar
    3. 6.2 Uso de la distribución normal
    4. 6.3 Estimación de la binomial con la distribución normal
    5. Términos clave
    6. Repaso del capítulo
    7. Repaso de fórmulas
    8. Práctica
    9. Tarea para la casa
    10. Referencias
    11. Soluciones
  8. 7 El teorema del límite central
    1. Introducción
    2. 7.1 Teorema del límite central de las medias muestrales
    3. 7.2 Uso del teorema del límite central
    4. 7.3 Teorema del límite central de las proporciones
    5. 7.4 Factor de corrección de población finita
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  9. 8 Intervalos de confianza
    1. Introducción
    2. 8.1 Un intervalo de confianza para una desviación típica de la población, con un tamaño de muestra conocido o grande
    3. 8.2 Un intervalo de confianza para una desviación típica de población desconocida, caso de una muestra pequeña
    4. 8.3 Un intervalo de confianza para una proporción de población
    5. 8.4 Cálculo del tamaño de la muestra n: variables aleatorias continuas y binarias
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  10. 9 Pruebas de hipótesis con una muestra
    1. Introducción
    2. 9.1 Hipótesis nula y alternativa
    3. 9.2 Resultados y errores de tipo I y II
    4. 9.3 Distribución necesaria para la comprobación de la hipótesis
    5. 9.4 Ejemplos de pruebas de hipótesis completas
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  11. 10 Pruebas de hipótesis con dos muestras
    1. Introducción
    2. 10.1 Comparación de las medias de dos poblaciones independientes
    3. 10.2 Criterios de Cohen para efectos de tamaño pequeño, mediano y grande
    4. 10.3 Prueba de diferencias de medias: suponer varianzas de población iguales
    5. 10.4 Comparación de dos proporciones de población independientes
    6. 10.5 Dos medias poblacionales con desviaciones típicas conocidas
    7. 10.6 Muestras coincidentes o emparejadas
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Tarea para la casa
    13. Resúmalo todo: tarea para la casa
    14. Referencias
    15. Soluciones
  12. 11 La distribución chi-cuadrado
    1. Introducción
    2. 11.1 Datos sobre la distribución chi-cuadrado
    3. 11.2 Prueba de una sola varianza
    4. 11.3 Prueba de bondad de ajuste
    5. 11.4 Prueba de independencia
    6. 11.5 Prueba de homogeneidad
    7. 11.6 Comparación de las pruebas chi-cuadrado
    8. Términos clave
    9. Repaso del capítulo
    10. Repaso de fórmulas
    11. Práctica
    12. Tarea para la casa
    13. Resúmalo todo: tarea para la casa
    14. Referencias
    15. Soluciones
  13. 12 La distribución F y el anova de una vía
    1. Introducción
    2. 12.1 Prueba de dos varianzas
    3. 12.2 ANOVA de una vía
    4. 12.3 La distribución F y el cociente F
    5. 12.4 Datos sobre la distribución F
    6. Términos clave
    7. Repaso del capítulo
    8. Repaso de fórmulas
    9. Práctica
    10. Tarea para la casa
    11. Referencias
    12. Soluciones
  14. 13 Regresión lineal y correlación
    1. Introducción
    2. 13.1 El coeficiente de correlación r
    3. 13.2 Comprobación de la importancia del coeficiente de correlación
    4. 13.3 Ecuaciones lineales
    5. 13.4 La ecuación de regresión
    6. 13.5 Interpretación de los coeficientes de regresión: elasticidad y transformación logarítmica
    7. 13.6 Predicción con una ecuación de regresión
    8. 13.7 Cómo utilizar Microsoft Excel® para el análisis de regresión
    9. Términos clave
    10. Repaso del capítulo
    11. Práctica
    12. Soluciones
  15. A Cuadros estadísticos
  16. B Oraciones, símbolos y fórmulas matemáticas
  17. Índice

Al comenzar esta sección, observamos que el tipo de datos con los que vamos a trabajar ha cambiado. Tal vez no se note, pero todos los datos que hemos estado utilizando son para una sola variable. Puede ser de dos muestras, pero sigue siendo una variable univariante. El tipo de datos descrito en los ejemplos anteriores y para cualquier modelo de causa y efecto son datos bivariados; "bi" para dos variables. En realidad, los estadísticos utilizan datos multivariantes, es decir, muchas variables.

Para nuestro trabajo, podemos clasificar los datos en tres grandes categorías: de series temporales, de sección transversal y de panel. Aprendimos sobre los dos primeros al inicio. Los datos de series temporales miden una única unidad de observación a medida que pasa el tiempo, por ejemplo, una persona, una compañía o un país. Lo que se mide serán al menos dos características, por ejemplo, los ingresos de la persona, la cantidad de un determinado bien que compra y el precio que ha pagado. Se trataría de tres informaciones en un tiempo, digamos 1985. Si siguiéramos a esa persona a lo largo del tiempo, tendríamos esos mismos datos para 1985, 1986, 1987, etc. Esto constituiría un conjunto de datos de series temporales. Si hiciéramos esto durante 10 años, tendríamos 30 datos sobre los hábitos de consumo de este bien por parte de esta persona durante la última década y conoceríamos sus ingresos y el precio que ha pagado.

Un segundo tipo de conjunto de datos es el de los datos transversales. En este caso, la variación no es a través del tiempo para una sola unidad de observación, sino a través de las unidades de observación durante un punto en el tiempo. Para un tiempo determinado, reuniríamos el precio pagado, la cantidad comprada y los ingresos de muchas personas por separado.

Un tercer tipo de conjunto de datos son los datos de panel. Aquí se sigue un panel de unidades de observación a lo largo del tiempo. Si retomamos el ejemplo anterior, podríamos seguir a 500 personas, la unidad de observación, a lo largo del tiempo, diez años, y así observar sus ingresos, el precio pagado y la cantidad del bien adquirido. Si tuviéramos 500 personas y datos durante diez años sobre el precio, los ingresos y la cantidad comprada, tendríamos 15.000 datos. Este tipo de conjuntos de datos son muy costosos de construir y mantener. Sin embargo, proporcionan una enorme cantidad de información que puede utilizarse para responder preguntas muy importantes. Por ejemplo, ¿cuál es el efecto en la tasa de participación laboral de las mujeres a medida que su familia de origen, la madre y el padre, envejecen? ¿O existen efectos diferenciales en los resultados de salud, dependiendo de la edad a la que una persona empezó a fumar? Solo los datos de panel pueden dar respuesta a estas y otras cuestiones relacionadas, ya que debemos seguir a varias personas en el transcurso del tiempo. Sin embargo, el trabajo que realizamos aquí no será del todo apropiado para conjuntos de datos como estos.

Partiendo de un conjunto de datos con dos variables independientes, nos preguntamos: ¿están relacionadas? Una forma de responder visualmente a esta pregunta es crear un gráfica de dispersión de los datos. Antes no podíamos hacerlo cuando hacíamos estadística descriptiva porque esos datos eran univariantes. Ahora tenemos datos bivariados, por lo que podemos trazar en dos dimensiones. Las tres dimensiones son posibles en un trozo de papel plano, pero resultan muy difíciles de conceptualizar por completo. Por supuesto, no se pueden representar gráficamente más de tres dimensiones, aunque las relaciones pueden medirse matemáticamente.

Para dotar de precisión matemática a la medición de lo que vemos, utilizamos el coeficiente de correlación. La correlación nos dice algo sobre el movimiento conjunto de dos variables, pero nada sobre el motivo de este movimiento. Formalmente, en el análisis de correlación supone que las dos variables analizadas son independientes. Esto significa que ninguna de los dos provoca el movimiento de la otra. Además, significa que ninguna de las dos variables depende de la otra, ni de ninguna otra. Incluso con estas limitaciones, el análisis de correlación puede arrojar algunos resultados interesantes.

El coeficiente de correlación, ρ (se pronuncia ro), es la estadística matemática para una población que nos proporciona una medida de la fuerza de una relación lineal entre las dos variables. Para una muestra de datos, la estadística r, desarrollada por Karl Pearson a principios de los 1900, es una estimación de la correlación de la población y se define matemáticamente como:

r = 1n1 Σ(X1i X1)(X2i X2) sx1sx2 r= 1n1 Σ(X1i X1)(X2i X2) sx1sx2
O
r = ΣX1iX2i nX1X2 (ΣX12inX12) (ΣX22inX22) r= ΣX1iX2i nX1X2 (ΣX12inX12) (ΣX22inX22)

donde sx1 y sx2 son las desviaciones típicas de las dos variables independientes X1 y X2, X1X1 y X2X2 son las medias muestrales de las dos variables, y X1i y X2i son las observaciones individuales de X1 y X2. El coeficiente de correlación r oscila entre -1 y 1. La segunda fórmula equivalente se utiliza a menudo porque puede ser más fácil de calcular. Aunque estas fórmulas parezcan espeluznantes, en realidad no son más que el cociente de la covarianza entre las dos variables y el producto de sus dos desviaciones típicas. Es decir, es una medida de las varianzas relativas.

En la práctica, todos los análisis de regresión y correlación se realizarán mediante softwares diseñados para estos fines. Cualquier cosa que supere tal vez media docena de observaciones crea inmensos problemas computacionales. Por ello, la correlación y, más aun, la regresión, no fueron herramientas de investigación muy utilizadas hasta la llegada de las "máquinas de computación". En la actualidad, la potencia de cómputo necesaria para analizar los datos mediante paquetes de regresión se considera casi trivial en comparación con la de hace una década.

Para visualizar cualquier relación lineal que pueda existir, vea el trazado de un diagrama de dispersión de los datos estandarizados. La Figura 13.2 presenta varios diagramas de dispersión y el valor calculado de r. Observe en los paneles (a) y (b) que los datos tienden generalmente a moverse juntos, (a) hacia arriba y (b) hacia abajo. El panel (a) es un ejemplo de correlación positiva y el panel (b) es un ejemplo de correlación o relación negativa. El signo del coeficiente de correlación nos indica si la relación es positiva o negativa (inversa). Si todos los valores de X1 y X2 se encuentran en una línea recta, el coeficiente de correlación será 1 o -1, dependiendo de si la línea tiene una pendiente positiva o negativa, y cuanto más se acerque a uno o a uno negativo, más fuerte será la relación entre las dos variables. RECUERDE SIEMPRE QUE EL COEFICIENTE DE CORRELACIÓN NO NOS INDICA LA PENDIENTE.

...
Figura 13.2

Recuerde que lo único que nos señala el coeficiente de correlación es si los datos están o no relacionados linealmente. En el panel (d) las variables tienen obviamente algún tipo de relación muy específica entre sí, pero el coeficiente de correlación es cero, lo que indica que no existe ninguna relación lineal.

Si se sospecha que existe una relación lineal entre X1 y X2, entonces r puede medir la fuerza de la relación lineal.

Lo que nos dice el VALOR de r:
  • El valor de r está siempre entre –1 y +1: –1 ≤ r ≤ 1.
  • El tamaño de la correlación r indica la fuerza de la relación lineal entre X1 y X2. Los valores de r cercanos a –1 o a +1 indican una relación lineal más fuerte entre X1 y X2.
  • Si r = 0, no hay ninguna relación lineal entre X1 y X2 (no hay correlación lineal).
  • Si r = 1, hay una correlación positiva perfecta. Si r = –1, hay una correlación negativa perfecta. En ambos casos, todos los puntos de datos originales se encuentran en una línea recta: CUALQUIER línea recta sin importar la pendiente. Por supuesto, en el mundo real, esto no suele ocurrir.
Lo que nos dice el SIGNO de r
  • Un valor positivo de r significa que, cuando X1 aumenta, X2 tiende a aumentar y cuando X1 disminuye, X2 tiende a disminuir (correlación positiva).
  • Un valor negativo de r significa que, cuando X1 aumenta, X2 tiende a disminuir y cuando X1 disminuye, X2 tiende a aumentar (correlación negativa).

Nota

Una fuerte correlación no sugiere que X1 cause X2 o que X2 cause X1. Decimos que “la correlación no implica causalidad”.
Solicitar una copia impresa

As an Amazon Associate we earn from qualifying purchases.

Cita/Atribución

¿Desea citar, compartir o modificar este libro? Este libro utiliza la Creative Commons Attribution License y debe atribuir a OpenStax.

Información de atribución
  • Si redistribuye todo o parte de este libro en formato impreso, debe incluir en cada página física la siguiente atribución:
    Acceso gratis en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-empresarial/pages/1-introduccion
  • Si redistribuye todo o parte de este libro en formato digital, debe incluir en cada vista de la página digital la siguiente atribución:
    Acceso gratuito en https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-empresarial/pages/1-introduccion
Información sobre citas

© 28 ene. 2022 OpenStax. El contenido de los libros de texto que produce OpenStax tiene una licencia de Creative Commons Attribution License . El nombre de OpenStax, el logotipo de OpenStax, las portadas de libros de OpenStax, el nombre de OpenStax CNX y el logotipo de OpenStax CNX no están sujetos a la licencia de Creative Commons y no se pueden reproducir sin el previo y expreso consentimiento por escrito de Rice University.