Ciência de Dados - Variação Estatística


Variação

A variação é outro número que indica a dispersão dos valores.

Na verdade, se você tirar a raiz quadrada da variância, obtém o desvio padrão. Ou vice-versa, se você multiplicar o desvio padrão por ele mesmo, obtém a variância!

Primeiro, usaremos o conjunto de dados com 10 observações para dar um exemplo de como podemos calcular a variância:

Duração Pulso_média Max_Pulse Caloria_Queima Horas_Trabalho Horas_Sono
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

A variação é frequentemente representada pelo símbolo Sigma Square: σ^2


Etapa 1 para calcular a variação: encontre a média

Queremos encontrar a variância de Average_Pulse.

1. Encontre a média:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

A média é 102,5


Etapa 2: para cada valor - encontre a diferença da média

2. Encontre a diferença da média para cada valor:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Etapa 3: para cada diferença - encontre o valor quadrado

3. Encontre o valor quadrado para cada diferença:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Nota: Devemos elevar ao quadrado os valores para obter o spread total.



Etapa 4: a variação é o número médio desses valores ao quadrado

4. Some os valores ao quadrado e encontre a média:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

A variação é 206,25.


Use Python para encontrar a variação de health_data

Podemos usar a var()função do Numpy para encontrar a variância (lembre-se que agora usamos o primeiro conjunto de dados com 10 observações):

Exemplo

import numpy as np

var = np.var(health_data)
print(var)

A saída:

Variação

Use o Python para encontrar a variação do conjunto de dados completo

Aqui calculamos a variância de cada coluna para o conjunto de dados completo:

Exemplo

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

A saída:

Variação