La ciencia de la Estadística se ocupa de la recopilación, del análisis, de la interpretación y de la presentación de datos. Vemos y utilizamos datos en nuestra vida cotidiana.
En este curso aprenderá a organizar y resumir datos. La organización y el resumen de los datos se denominan Estadística Descriptiva. Dos formas de resumir los datos son la elaboración de gráficos y el uso de números (por ejemplo, hallar un promedio). Después de haber estudiado la probabilidad y las distribuciones de probabilidad, utilizará métodos formales para sacar conclusiones de los datos “buenos”. Los métodos formales se denominan Estadística Inferencial. La inferencia estadística utiliza la probabilidad para determinar el grado de confianza que podemos tener en que nuestras conclusiones son correctas.
La interpretación eficaz de los datos (inferencia) se basa en buenos procedimientos de producción de datos y en examinarlos de forma reflexiva. Se encontrará con lo que le parecerá un exceso de fórmulas matemáticas para interpretar los datos. La meta de la Estadística no es realizar numerosos cálculos con las fórmulas, sino comprender los datos. Los cálculos se pueden hacer con una calculadora o una computadora. La comprensión debe venir de usted. Si puede comprender a fondo los fundamentos de la Estadística, podrá tener más confianza en las decisiones que tome en la vida.
Probabilidad
La probabilidad es una herramienta matemática utilizada para estudiar el azar. Se trata de la oportunidad (la posibilidad) de que se produzca un evento. Por ejemplo, si se lanza una moneda imparcial cuatro veces, los resultados no pueden ser dos caras y dos cruces. Sin embargo, si se lanza la misma moneda 4.000 veces, los resultados se aproximarán a mitad cara y mitad cruz. La probabilidad teórica esperada de salir cara en cualquier lanzamiento es o 0,5. Aunque los resultados de unas pocas repeticiones son inciertos, existe un patrón regular de resultados cuando hay muchas repeticiones. Tras leer sobre el estadístico inglés Karl Pearson, que lanzó una moneda 24.000 veces con un resultado de 12.012 caras, uno de los autores lanzó una moneda 2.000 veces. Los resultados fueron 996 caras. La fracción es igual a 0,498, que está muy cerca de 0,5, la probabilidad esperada.
La teoría de la probabilidad comenzó con el estudio de los juegos de azar, como el póquer. Las predicciones adoptan la forma de probabilidades. Para predecir la probabilidad de que se produzca un terremoto, de que llueva o de que obtenga una A en este curso utilizamos las probabilidades. Los médicos utilizan la probabilidad para determinar la posibilidad de que una vacuna provoque la enfermedad que se supone que debe prevenir. Un agente de bolsa utiliza la probabilidad para determinar la tasa de rendimiento de las inversiones de un cliente. Puede utilizar la probabilidad para decidir si compra un billete de lotería o no. En su estudio de la Estadística, utilizará el poder de las Matemáticas a través de cálculos de probabilidad para analizar e interpretar sus datos.
Términos clave
En estadística, generalmente queremos estudiar una población. Se puede pensar en una población como un conjunto de personas, cosas u objetos en estudio. Para estudiar la población seleccionamos una muestra. La idea del muestreo es seleccionar una porción (o subconjunto) de la población mayor y estudiar esa porción (la muestra) para obtener información sobre la población. Los datos son el resultado de un muestreo de una población.
Como se necesita mucho tiempo y dinero para examinar toda una población, el muestreo es una técnica muy práctica. Si desea calcular el promedio general de calificaciones de su escuela, tendría sentido seleccionar una muestra de estudiantes que asisten a la escuela. Los datos recopilados de la muestra serían los promedios de las calificaciones de los estudiantes. En las elecciones presidenciales se toman muestras de sondeos de opinión de 1.000 a 2.000 personas. Se supone que el sondeo de opinión representa el punto de vista de las personas de todo el país. Los fabricantes de bebidas carbonatadas en lata toman muestras para determinar si una lata de 16 onzas contiene 16 onzas de bebida carbonatada.
A partir de los datos de la muestra podemos calcular un estadístico. Un estadístico es un número que representa una propiedad de la muestra. Por ejemplo, si consideramos que una clase de Matemáticas es una muestra de la población de todas las clases de Matemáticas, el número promedio de puntos obtenidos por los estudiantes de esa clase de Matemáticas al final del trimestre es un ejemplo de un estadístico. La estadística es una estimación de un parámetro poblacional, en este caso la media. Un parámetro es una característica numérica de toda la población que puede estimarse mediante un estadístico. Dado que consideramos que todas las clases de Matemáticas son la población, el número promedio de puntos obtenidos por estudiante en todas las clases de Matemáticas es un ejemplo de parámetro.
Una de las principales preocupaciones en el campo de la Estadística es la precisión con la que un estadístico estima un parámetro. La precisión depende realmente de lo bien que la muestra represente a la población. La muestra debe contener las características de la población para ser una muestra representativa. En la Estadística Inferencial nos interesa tanto el estadístico de la muestra como el parámetro de la población. En un capítulo posterior utilizaremos el estadístico de la muestra para comprobar la validez del parámetro poblacional establecido.
Una variable, o variable aleatoria, que normalmente se anota con letras mayúsculas como la X y la Y, es una característica o medida que puede determinarse para cada miembro de una población. Las variables pueden ser numéricas o categóricas. Las variables numéricas toman valores con unidades iguales, como el peso en libras y el tiempo en horas. Las variables categóricas sitúan a la persona o cosa en una categoría. Si suponemos que X equivale al número de puntos obtenidos por un estudiante de Matemáticas al final de un trimestre, entonces X es una variable numérica. Si suponemos que Y es la afiliación de una persona a un partido, entonces algunos ejemplos de Y incluyen republicano, demócrata e independiente. Y es una variable categórica. Podríamos hacer algunos cálculos con valores de X (calcular el promedio de puntos obtenidos, por ejemplo), pero no tiene sentido hacer cálculos con valores de Y (calcular un promedio de afiliación a un partido no tiene sentido).
Los datos son los valores reales de la variable. Pueden ser números o palabras. El dato es un valor único.
Dos palabras que aparecen a menudo en estadística son media y proporción. Si presenta tres exámenes de sus clases de Matemáticas y obtiene calificaciones de 86, 75 y 92, calcularía su calificación media sumando las tres calificaciones de los exámenes y dividiéndolas entre tres (su calificación media sería 84,3 con un decimal). Si en su clase de Matemáticas hay 40 estudiantes y 22 son hombres y 18 son mujeres, entonces la proporción de estudiantes hombres es y la proporción de estudiantes mujeres es . La media y la proporción se tratan con más detalle en capítulos posteriores.
NOTA
Las palabras “media” y “promedio” suelen utilizarse indistintamente. La sustitución de una palabra por otra es una práctica habitual. El término técnico es “media aritmética” y “promedio” es técnicamente un lugar central. Sin embargo, en la práctica, entre los no estadísticos, se suele aceptar “promedio” por “media aritmética”.
Ejemplo 1.1
Translation missing: es.problem
Determine a qué se refieren los términos clave en el siguiente estudio. Queremos saber la cantidad promedio (media) de dinero que gastan los estudiantes de primer año del ABC College en material escolar que no incluya libros. Encuestamos al azar a 100 estudiantes de primer año del ABC College. Tres de esos estudiantes gastaron 150, 200 y 225 dólares, respectivamente.
Solución
La población está formada por todos los estudiantes de primer año que asisten al ABC College este trimestre.
La muestra podría ser todos los estudiantes inscritos en una sección de un curso de Estadística para principiantes en el ABC College (aunque esta muestra podría no representar a toda la población).
El parámetro es la cantidad promedio (media) de dinero (sin libros) que gastan los estudiantes de primer año del ABC College este trimestre: la media de la población.
El estadístico es la cantidad promedio de dinero gastado (sin libros) por los estudiantes de primer año en la muestra.
La variable podría ser la cantidad de dinero gastado (sin libros) por un estudiante de primer año. Supongamos que X = la cantidad de dinero gastado (sin libros) por un estudiante de primer año que asiste al ABC College.
Los datos son los montos en dólares gastados por los estudiantes de primer año. Los datos son, por ejemplo, 150, 200 y 225 dólares.
Inténtelo 1.1
Determine a qué se refieren los términos clave en el siguiente estudio. Queremos saber la cantidad promedio de dinero que gastan cada año en uniformes escolares las familias con hijos en Knoll Academy. Encuestamos al azar a 100 familias con hijos en la escuela. Tres de las familias gastaron 65, 75 y 95 dólares, respectivamente.
Ejemplo 1.2
Translation missing: es.problem
Determine a qué se refieren los términos clave en el siguiente estudio.
Se ha realizado un estudio en un instituto universitario local para analizar el promedio de calificaciones (Grade Point Average, GPA) acumulado de los estudiantes que se graduaron el año pasado. Marque la letra de la oración que mejor describa cada uno de los elementos siguientes.
1. Población ____ 2. Estadística ____ 3. Parámetro ____ 4. Muestra ____ 5. Variable ____ 6. Datos ____
- todos los estudiantes que cursaron educación superior el año pasado
- el GPA acumulado de un estudiante que se graduó de la educación superior el año pasado
- 3,65, 2,80, 1,50, 3,90
- un grupo de estudiantes que se graduaron de la educación superior el año pasado seleccionados al azar
- el GPA acumulado de los estudiantes que se graduaron de la educación superior el año pasado
- todos los estudiantes que se graduaron de la educación superior el año pasado
- el GPA acumulado de los estudiantes del estudio que se graduaron de la educación superior el año pasado
Solución
1. f; 2. g; 3. e; 4. d; 5. b; 6. c
Ejemplo 1.3
Translation missing: es.problem
Determine a qué se refieren los términos clave en el siguiente estudio.
Como parte de un estudio diseñado para probar la seguridad de los automóviles, la Junta Nacional de Seguridad del Transporte recopiló y revisó datos sobre los efectos de un choque de automóviles en maniquíes de prueba. Este es el criterio que utilizaron:
Velocidad a la que chocan los automóviles | Ubicación del “conductor” (es decir, maniquíes) |
35 millas/hora | Asiento delantero |
Los automóviles con maniquíes en los asientos delanteros se estrellaron contra un muro a una velocidad de 35 millas por hora. Queremos saber la proporción de maniquíes en el asiento del conductor que habrían tenido lesiones en la cabeza, si hubieran sido conductores reales. Empezamos con una muestra aleatoria simple de 75 automóviles.
Solución
La población son todos los automóviles que contienen maniquíes en el asiento delantero.
La muestra son los 75 automóviles seleccionados por muestreo aleatorio simple.
El parámetro es la proporción de maniquíes conductores (si hubiesen sido personas reales) que habrían sufrido lesiones en la cabeza en la población.
El estadístico es la proporción de maniquíes conductores (si hubiesen sido personas reales) que habrían sufrido lesiones en la cabeza en la muestra.
La variable X = si un maniquí conductor (si hubiese sido una persona real) habría sufrido lesiones en la cabeza.
Los datos son: sí, tuvo una lesión en la cabeza, o no, no la tuvo.
Ejemplo 1.4
Translation missing: es.problem
Determine a qué se refieren los términos clave en el siguiente estudio.
Una compañía de seguros desea determinar la proporción de todos los médicos que se han visto implicados en una o más demandas por negligencia. La compañía selecciona 500 médicos al azar de un directorio profesional y determina el número de la muestra que se ha visto envuelto en una demanda por negligencia.
Solución
La población son todos los médicos que figuran en el directorio profesional.
El parámetro es la proporción de médicos que se han visto implicados en una o más demandas por negligencia en la población.
La muestra son los 500 médicos seleccionados al azar del directorio profesional.
El estadístico es la proporción de médicos que han estado implicados en una o más demandas por negligencia en la muestra.
La variable X = si un médico individual ha estado involucrado en una demanda por negligencia.
Los datos son: sí, estuvo involucrado en una o más demandas por negligencia, o no, no lo estuvo.