La varianza es una medida que permite comprender un conjunto, desde un punto de vista simple analiza la dispersión que hay entre los datos y su promedio, sin embargo se puede utilizar para profundizar y hacer estudios de diferentes fenómenos estadísticos.
Los campos en los que se puede utilizar la varianza son muy amplios y van desde el análisis de datos, las finanzas e incluso el marketing digital por lo que muchos expertos la tienen en cuenta a la hora de tomar decisiones.
¿Qué es la varianza?
En estadística descriptiva, la varianza se define como el promedio del cuadrado de la desviación de la variable respecto a su media, aunque suena un poco complicado es más simple de lo que parece y aquí te vamos a explicar cómo calcularla.
¿Cómo se calcula la varianza?
Para calcular la varianza, primero se debe calcular la media del conjunto de datos. Luego, se resta cada valor del conjunto a la media y se eleva al cuadrado. Estos cuadrados se suman y se dividen entre el número total de datos en el conjunto.
La fórmula para calcular la varianza es la siguiente:
Donde Σ es la suma de los términos, xi es cada valor en el conjunto de datos, x es la media del conjunto y n es el número total de datos en el conjunto.
Ejemplo del cálculo de la varianza
Se quiere implementar una campaña de marketing a través de redes sociales, para ello los analistas piden calcular la varianza de la edad de un público objetivo, se tienen los siguientes datos:
Nombre
Edad
Ana
24
Juana
28
Angie
25
Mauricio
27
Solución:
Lo primero que se debe realizar es el cálculo de la media o promedio de los datos, se utiliza la ecuación:
Para resolver esta ecuación lo que debemos hacer es sumar todos los datos de las edades y dividir el resultado entre el número de personas que para el caso son 4, quedando:
De acuerdo con la ecuación de la varianza
Ahora se debe hacer una resta de cada edad menos el promedio, elevar al cuadrado la diferencia, sumar las diferencias y finalmente dividir entre el número total de datos. Parece dificil pero vamos a hacerlo paso a paso:
Dato menos el promedio al cuadrado:
Σ(xi-x)^2representa la suma de las diferencias
Dividiendo entre el número de datos tendríamos:
La varianza entre los valores de las edades es de solo 2,5 significa que el público objetivo se encuentra bien seleccionado en los rangos de edad, en dado caso que la varianza fuera muy alta significaría que las personas que conforman el grupo seleccionado no se encuentran en el mismo rango de edad.
¿Por qué se usa la varianza?
Primero vamos a analizar por qué se utiliza la varianza y no simplemente una medición de las desviaciones, para ello supongamos que tenemos tres datos:
4
5
6
Ahora queremos calcular las desviaciones que hay entre los datos y su promedio, para ello vamos inicialmente a calcular el promedio, recordemos que la fórmula es:
Reemplazando los valores tenemos que:
Ahora vamos a ver la diferencia de cada dato con el promedio:
4 – 5= -1
5 – 5 = 0
6 – 5 = 1
Ahora al sumar las diferencias tenemos entonces -1 + 0 + 1 lo que nos da cero, lo que nos lleva a la siguiente conclusión: la media de las desviaciones es cero. Da igual los valores que tomemos, el resultado siempre es el mismo, siempre es cero.
¿Por qué se eleva al cuadrado la diferencia?
Elevar al cuadrado las desviaciones antes de tomar la media es la forma matemática para evitar que la suma de diferencias sea siempre cero.
Por ejemplo para el caso anterior:
4 – 5= -1, elevando al cuadrado (-1)^2 =1
5 – 5 = 0, elevando al cuadrado (0)^2 =0
6 – 5 = 1, elevando al cuadrado (1)^2 =1
Ahora al sumar las diferencias elevadas al cuadrado tenemos entonces: 1+0+1 =2, por lo que podemos asegurar que la varianza es de 2.
Recuerda que ya sea que la desviación sea positiva, negativa o cero, el cuadrado nunca es negativo. En otras palabras la varianza siempre es mayor o igual a cero.
Pero al elevar al cuadrado, también tenemos las unidades en que medimos la varianza. Por ejemplo, si la media está en metros, la varianza se mide en metros al cuadrado. Para evitar este problema, podemos sacar la raíz cuadrada de la varianza, llamada desviación estándar, que se usa en muchas situaciones.
Diferencias entre la varianza y la desviación estándar
Es importante destacar que la varianza y la desviación estándar están estrechamente relacionadas. La desviación estándar es la raíz cuadrada de la varianza y se utiliza a menudo en su lugar porque es más fácil de interpretar. Mientras que la varianza está en unidades cuadradas, la desviación estándar está en unidades de la variable original.
Ventajas y desventajas
La varianza tiene varias ventajas, entre ellas, es fácil de calcular y es una medida objetiva y precisa de la variabilidad de los datos. Sin embargo, también tiene algunas desventajas. Por ejemplo, puede ser influenciada por valores extremos o atípicos, lo que puede distorsionar los resultados. Además, al estar elevando al cuadrado las diferencias, la varianza puede ser difícil de interpretar y comparar con otras medidas de dispersión, como la desviación estándar.
Para entender mejor esto, veamos algunos ejemplos. Supongamos que tenemos dos conjuntos de datos:
Conjunto A: 3, 5, 7, 9, 11
Conjunto B: 1, 2, 3, 4, 100
La media de ambos conjuntos es 7, pero la varianza es muy diferente. La del conjunto A es 8, mientras que la del conjunto B es 1286. Esto se debe a que el valor atípico 100 en el conjunto B distorsiona la medida de dispersión.
La desviación estándar es una medida de dispersión que muestra la distancia entre los datos y la media. Cuanto mayor sea la desviación estándar, mayor será la dispersión de los datos.
¿Cómo se representa?
Para representar o indicar la desviación estándar de un grupo o población se utiliza el símbolo σ (sigma), para indicar la desviación estándar de una muestra se utiliza el símbolo S (mayúscula) y cuando la desviación se deriva de una muestra se usa el símbolo s (minúscula), en algunos libros en inglés se puede encontrar la desviación estándar como SD por las siglas de standard desviation.
¿Cuál es la fórmula de la desviación estándar?
La fórmula para la desviación estándar es
Aunque parece compleja la fórmula realmente es muy sencillo resolverla, aquí te vamos a explicar el paso a paso para que puedas hacerlo.
Paso a paso para calcular la desviación estándar
Paso 1: lo primero que se debe hacer es calcular el promedio de los datos. Recuerda que promedio o media es la sumatoria dividida entre la cantidad total de datos.
Paso 2: posterior al cálculo del promedio, cada uno de los datos se resta con este promedio y el resultado de la resta se eleva al cuadrado.
Nota: es muy importante elevar al cuadrado porque los valores de las observaciones por debajo de la media dan diferencias negativas, mientras que los valores de las observaciones por encima de los valores medios dan valores positivos si se sumaran así simplemente (sin elevar al cuadrado) las diferencias positivas y negativas se compensan entre sí y, en el caso de una distribución simétrica, daría como resultado una desviación igual a cero.
Para evitar este problema, las desviaciones se elevan al cuadrado para que todas las desviaciones sean positivas y puedan sumarse.
Paso 3: luego de tener los valores de la resta entre el dato y el promedio y elevar dicho resultado al cuadrado, se deben sumar todos los resultados al cuadrado.
Paso 4: se divide el valor obtenido en la sumatoria de las diferencias al cuadrado, es decir se divide el resultado del paso 3 entre el número total de datos menos uno.
Paso 5: se calcula la raíz cuadrada, por así decirlo, para «compensar» el cuadrado anterior de los valores. No tener en cuenta la raíz cuadrada da como resultado otra famosa medida de dispersión llamada Varianza.
La desviación estándar se puede utilizar para indicar un valor de referencia para evaluar la variabilidad del proceso.
Ejemplo de desviación estándar
Se desea calcular la desviación estándar del coeficiente intelectual de una población infantil con el fin de establecer el rendimiento de una institución educativa.
Un promedio alto, con una desviación estándar baja representa que la mayor parte de los niños tiene el mismo nivel intelectual, es decir la institución tiene un buen modelo educativo ya que todos están aprendiendo.
Un promedio bajo, con una desviación estándar baja representa que la mayor parte de los niños tiene el mismo nivel intelectual, es decir la institución tiene que trabajar en su modelo educativo ya que en general los niños no están aprendiendo.
Cualquier promedio con una desviación estándar alta significa que hay niños muy buenos y hay niños que no tienen el mismo nivel de sus compañeros por lo que la institución debe optar por realizar clases de refuerzo.
De acuerdo con con la escala de Weschler los coeficientes se dividen en:
Puntuaciones de CI de menos de 70 puntos: Perfil de muy bajo rendimiento.
Puntuaciones de CI de entre 70 y 80 puntos: Nivel de inteligencia limítrofe.
Puntuaciones de CI de entre 80 y 89 puntos: Bajo, pero dentro del promedio normal.
Puntuaciones de CI de entre 90 y 110 puntos: Promedio normal.
Puntuaciones de CI de entre 110 y 119 puntos: Alto, pero dentro del promedio normal.
Puntuaciones de CI de entre 119 y 129 puntos: Nivel de inteligencia superior al promedio.
Puntuaciones de CI de más de 129 puntos: Nivel de inteligencia muy superior al promedio.
Luego de medir el coeficiente intelectual de cada uno de los niños los resultados se presentan a continuación:
Nombre del niño
Coeficiente intelectual
Juana
135
Andrés
131
Ana
129
Andrea
133
Pedro
127
Carlos
128
Valentina
130
Susana
132
David
129
Paola
125
Solución
La metodología para poder resolver y encontrar la desviación estándar del coeficiente de los niños en la institución educativa es la descrita en el paso a paso por lo que iremos desarrollando uno por uno.
Paso 1: cálculo del promedio
Se utiliza la ecuación
Por lo que debemos sumar todos los datos y dividir el resultado entre el número total de niños que para el caso son 10, quedando así:
Dando como resultado
Por lo que el promedio es 129,9 una vez se conoce ese valor procedemos a realizar el paso 2.
Paso 2:restar cada dato con el promedio y elevar al cuadrado
Tomamos el primer dato que para el caso es el coeficiente intelectual de Juana y lo restamos con el promedio.
Luego de tener la diferencia se debe elevar el resultado al cuadrado.
Una vez se tiene la diferencia al cuadrado se procede a hacer el mismo procedimiento con el siguiente dato que es el de Andrés, para sintetizar el procedimiento presentaremos los resultados de cada uno de los niños en la siguiente tabla:
Nombre
CI
Diferencia con el promedio
Diferencia al cuadrado
Juana
135
5,1
26,01
Andrés
131
1,1
1,21
Ana
129
-0,9
0,81
Andrea
133
3,1
9,61
Pedro
127
-2,9
8,41
Carlos
128
-1,9
3,61
Valentina
130
0,1
0,01
Susana
132
2,1
4,41
David
129
-0,9
0,81
Paola
125
-4,9
24,01
Paso 3: sumar las diferencias al cuadrado
Una vez tenemos las diferencias al cuadrado de cada uno de los niños se deben sumar.
Para este caso la suma de las diferencias al cuadrado es de 78,9
Paso 4: dividir entre el número de datos menos uno
Una vez se tiene la suma de las diferencias al cuadrado, en este caso 78,9 se debe dividir ese valor entre la cantidad de datos menos uno, para este ejemplo tenemos 10 datos de 10 niños por lo que la división se debe hacer sobre 9 así:
Paso 5: sacar la raíz cuadrada
El último paso es sacar la raíz cuadrada del valor obtenido en el paso 4, el resultado final será la desviación estándar. Procederemos a hacerlo:
Ahora sí conocemos toda la información estádistica del coeficiente intelectual de los niños, el promedio los niños tienen un nivel de inteligencia muy superior al promedio, adicionalmente la desviación estándar es de tan solo 2,96 puntos lo que significa que la institución tiene unas excelentes metodologías de enseñanza y que todos los niños están aprendiendo.
Si la desviación estándar hubiera sido por ejemplo de 20 hubiera significado que hay niños con coeficiente muy alto mientras otros tienen uno promedio.
Importancia de la desviación estándar
La desviación estándar es ampliamente utilizada en el análisis estadístico debido a que permite:
Incluye la totalidad de los datos
Debido a su naturaleza de sumatoria y la diferencia de cada dato con el promedio se tienen en cuenta todos los elementos de la muestra favoreciendo la comprensión del fenomeno que se esté estudiando. Cabe aclarar que otras medidas de desviación no tienen el mismo efecto como por ejemplo el rango.
El incluir la totalidad de los datos mantiene bajo estudio los valores más altos o más bajos por lo que representa en forma adecuada la dispersión que puede haber en el conjunto.
Combinación
Al ser un procedimiento matemático, la desviación estándar se puede utilizar en combinación con otras medidas de tendencia e incluso con otras desviaciones estándar, no existe otra medida de dispersión que pueda hacer eso ademas de que se puede implementar una solución algebraica por lo que puede trabajarse en equipos de cómputo.
Distribución de datos
La desviación estándar tiene el componente de la diferencia al cuadrado lo que permite determinar
Principales usos de la desviación estándar
Aunque la desviación estándar puede ser utilizada en practicamente cualquier análisis estadístico los principales usos de esta son:
Análisis financiero
Es posible determinar la desviación del precio de un activo financiero a través del tiempo utilizando la desviación estándar lo que permite identificar si es un buen momento para comprar o para vender.
Ampliamente utilizada por diferentes traders y exchange esta medida permite determinar la oportunidad de inversión de acuerdo a los datos historicos de un activo.
Análisis de anuncios
La cantidad de información que se maneja a través del marketing digital es abrumadora, por esta razón se tiene en cuenta la desviación estándar de los datos que se obtienen para poder determinar la mejor estrategia de venta.
Recursos humanos
Los salarios que ofrecen diferentes empresas para cargos similares pueden ser comparados, a través de la desviación estándar se puede comprender el comportamiento laboral y así poder atraer mejor talento a un mejor costo.
Desviación estándar en Excel
Debido a que la desviación estándar es un proceso en el que se ve involucrada la operación de sumatoria y de exponenciación al cuadrado muchas veces se puede tornar demorado dependiendo el número de datos que se manejen, por ello en Excel podrás calcularla de forma fácil y aquí te explicamos cómo.
Vamos a trabajar con el mismo ejemplo de los coeficientes intelectuales de los niños para que puedas comparar los resultados.
Lo primero que debemos hacer es la información suministrada en el ejercicio, para ello haremos la table con el nombre de los niños en la columna A y el coeficiente intelectual en la columna B.
Posterior a esto definimos la celda en la cual va a quedar el resultado de la desviación estándar, para este caso vamos a pedirle a Excel que nos escriba el resultado en la celda D6.
La función que utilizamos es =DESVESTA y posteriormente seleccionamos los datos de los coeficientes intelectuales (solo los valores numericos) cerramos parentesis y presionamos la tecla ENTER
Después de realizar el proceso Excel calculará la desviación estándar con el mismo procedimiento con el que solucionamos el ejemplo, dando como resultado.
Desviación estándar agrupada
La desviación estándar agrupada es una herramienta que permite calcular una única desviación que es representativa de todas las muestras o grupos independientes incluidos en un estudio.
Se hace bajo la suposición que los datos provienen de poblaciones que comparten una desviación estándar común.
Es importante saber que la desviación agrupada no es ni el promedio, ni el promedio ponderado de la desviación estándar de cada grupo.
Por ejemplo para el caso que venimos trabajando de la desviación de los coeficientes intelectuales de los niños vamos a suponer ahora que el colegio tiene 3 sedes y se quiere tener una desviación estándar agrupada.
La sede 1 es la del ejemplo que hemos venido trabajando, los resultados obtenidos en las 3 sedes del colegio fueron:
Sede
Promedio
Desviación estándar
Cantidad de niños
1
129.9
2.96
10
2
126
3
12
3
132
2.5
15
La fórmula para calcular la desviación agrupada es:
Donde:
ni: es la cantidad de datos de cada grupo
Si: es la desviación estándar de cada grupo
k: es la cantidad de grupos
Entonces, para el caso tenemos que la desviación agrupada es igual a:
La desviación agrupada de las tres sedes es 2.79
Calculadora de desviación
Ingrese los datos separados por comas o espacios:
La desviación estándar de los datos es:
¿Cómo referenciarnos?
Si deseas incluir esta información en alguno de tus trabajos no olvides referenciarnos, puedes hacerlo así:
Munévar, R. (7 de abril de 2024) Desviación Estándar. Ecuacionde.com. Recuperado el día/mes/año (inserta aquí la fecha del día que consultas nuestra web) de https://ecuacionde.com/desviacion-estandar
Gracias por visitar nuestra página web.
Te invitamos a seguir descubriendo nuestro contenido
This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.