Considere el siguiente conjunto de datos.
4; 5; 6; 6; 6; 7; 7; 7; 7; 7; 7; 8; 8; 8; 9; 10
Este conjunto de datos se puede representar mediante el siguiente histograma. Cada intervalo tiene un ancho de uno y cada valor se sitúa en el centro de un intervalo.
El histograma muestra una distribución simétrica de los datos. Una distribución es simétrica si se puede trazar una línea vertical en algún punto del histograma de manera que la forma a la izquierda y a la derecha de la línea vertical sean imágenes una espejo de la otra. La media, la mediana y la moda son siete para estos datos. En una distribución perfectamente simétrica, la media y la mediana son iguales. Este ejemplo tiene una moda (unimodal), y la moda es la misma que la media y la mediana. En una distribución simétrica que tiene dos modas (bimodal), las dos modas serían diferentes de la media y la mediana.
El histograma de los datos: 4; 5; 6; 6; 6; 7; 7; 7; 7; 8 que se muestra en la Figura 2.11 no es simétrico. El lado derecho parece “cortado” en comparación con el lado izquierdo. Una distribución de este tipo se denomina distorsionada a la izquierda porque se desplaza hacia la izquierda. Podemos medir formalmente la distorsión de una distribución del mismo modo que podemos medir matemáticamente el peso del centro de los datos o su "velocidad" general. La fórmula matemática de la distorsión es . Cuanto mayor sea la desviación con respecto a cero, mayor será el grado de distorsión. Si la distorsión es negativa, la distribución está distorsionada a la izquierda, como en la Figura 2.12. Una medida positiva de la distorsión indica distorsionada a la derecha, como en la Figura 2.13.
La media es 6,3, la mediana es 6,5 y la moda es siete. Observe que la media es menor que la mediana y ambas son menores que la moda. Tanto la media como la mediana reflejan la distorsión, pero la media lo refleja más.
El histograma de los datos: 6; 7; 7; 7; 7; 8; 8; 8; 9; 10 mostrados en la Figura 2.12, tampoco es simétrico. Es con distorsión a la derecha.
La media es 7,7, la mediana es 7,5 y la moda es siete. De las tres estadísticas, la media es la mayor, mientras que la moda es la menor. De nuevo, la media es la que más refleja la distorsión.
Para resumir, generalmente si la distribución de los datos está distorsionada a la izquierda, la media es menor que la mediana, que suele ser menor que la moda. Si la distribución de los datos está distorsionada a la derecha, la moda suele ser menor que la mediana, que es menor que la media.
Al igual que con la media, la mediana y la moda, y como veremos en breve, la varianza, existen fórmulas matemáticas que nos dan medidas precisas de estas características de la distribución de los datos. Volviendo a mirar la fórmula de la distorsión, vemos que se trata de una relación entre la media de los datos y las observaciones individuales al cubo.
donde es la desviación típica muestral de los datos, , y es la media aritmética y es el tamaño de la muestra.
Formalmente, la media aritmética se conoce como el primer momento de la distribución. El segundo momento que veremos es la varianza, y la distorsión es el tercer momento. La varianza mide las diferencias al cuadrado de los datos respecto a la media y la distorsión mide las diferencias al cubo de los datos respecto a la media. Mientras que una varianza nunca puede ser un número negativo, la medida de distorsión sí puede y así es como determinamos si los datos están distorsionados la derecha o a la izquierda. La distorsión de una distribución normal es cero, y cualquier dato simétrico debería tener una distorsión cercana a cero. Los valores negativos de la distorsión indican que los datos están sesgados hacia la izquierda y los valores positivos de la distorsión indican que los datos están sesgados hacia la derecha. Por izquierda distorsionada, queremos decir que la cola izquierda es larga en relación con la cola derecha. Del mismo modo, la derecha distorsionada significa que la cola derecha es larga en relación con la cola izquierda. La distorsión caracteriza el grado de asimetría de una distribución en torno a su media. Mientras que la media y la desviación típica son magnitudes dimensionales (por eso tomaremos la raíz cuadrada de la varianza) es decir, tienen las mismas unidades que las magnitudes medidas , la distorsión se define convencionalmente de forma que sea adimensional. Es un número puro que caracteriza únicamente la forma de la distribución. Un valor positivo de distorsión significa una distribución con una cola asimétrica que se extiende hacia un X más positiva y un valor negativo significa una distribución cuya cola se extiende hacia X más negativa. Una medida cero de distorsión indicará una distribución simétrica.
La distorsión y la simetría son importantes cuando hablemos de distribuciones de probabilidad en capítulos posteriores.