La varianza es una medida de qué tan disperso es un conjunto de datos. Si la varianza es pequeña, significa que los valores del conjunto están bastante agrupados. Si la varianza es grande, significa que los números están más dispersos. En estadística, este concepto tiene muchos usos. Por ejemplo, si comparas las varianzas de dos conjuntos de datos (por ejemplo, resultados de pacientes femeninos contra resultados de pacientes masculinos) puedes comprobar si una variable produce un efecto perceptible. Quieres saber cómo calcular la varianza. Sigue leyendo si quieres saber más sobre el tema.
Calcular la varianza: Paso a paso
- Toma nota de la muestra del conjunto de datos. En la mayoría de los casos, los estadísticos solo tienen acceso a una muestra o a un subconjunto de la población que van a analizar. Por ejemplo, en vez de analizar la población «costo de todos los autos de Alemania», un estadístico averiguaría el costo de una muestra aleatoria de unos pocos miles de autos. De este modo podría basarse en esa muestra para obtener una estimación aproximada del costo de los autos en Alemania, aunque es posible que no coincida con el valor exacto.
- Anota la fórmula de la varianza de una muestra. La varianza de un conjunto de datos te indica qué tan dispersos están los puntos de datos. Mientras más cerca de cero esté la varianza, más cercanos estarán entre sí los puntos de datos.
- Calcula la media de la muestra. El símbolo x̅ o «x barra» se refiere a la media de la muestra. Calcúlala como lo calcularías cualquier media: suma todos los puntos de datos, luego divídela por la cantidad de puntos de datos.
- Réstale la media a cada punto de datos. Ahora es momento de calcular – x̅, donde es cada número del conjunto de datos. Cada respuesta te indicará la desviación con respecto de la media o, en lenguaje coloquial, qué tan lejos de la media está cada número.
- Eleva cada resultado al cuadrado. Tal como se explicó más arriba, la lista actual de desviaciones ( – x̅) suman cero. Esto quiere decir que la «desviación promedio» siempre será igual a cero. Por lo tanto, esto no te dice demasiado acerca de qué tan dispersos están los datos. Para resolver este problema, debes elevar al cuadrado cada desviación.
- Calcula la suma de los valores al cuadrado. Ahora es momento de calcular el numerador total de la fórmula ∑[ – x̅]. La letra sigma mayúscula, ∑, te indica que debes sumar el valor del siguiente término para cada valor de . Ya calculaste ( – x̅)} para cada valor de en la muestra. Así que todo lo que tienes que hacer ahora, es sumar los resultados.
- Divide por n−1 , donde es la cantidad de puntos de datos. Hace mucho tiempo, los estadísticos dividían la varianza de la muestra por . Esto te da el valor promedio de la desviación al cuadrado, que coincide perfectamente con la varianza de la muestra.
Te dejamos un vídeo: