Ciência de Dados - Desvio Padrão de Estatística
Desvio padrão
O desvio padrão é um número que descreve a dispersão das observações.
Uma função matemática terá dificuldades em prever valores precisos, se as observações forem "espalhadas". O desvio padrão é uma medida de incerteza.
Um desvio padrão baixo significa que a maioria dos números está próxima do valor médio.
Um desvio padrão alto significa que os valores estão espalhados por uma faixa mais ampla.
O Desvio Padrão é frequentemente representado pelo símbolo Sigma: σ
Podemos usar a std()
função do Numpy para encontrar o desvio padrão de uma variável:
Exemplo
import numpy as np
std = np.std(full_health_data)
print(std)
A saída:
O que esses números significam?
Coeficiente de variação
O coeficiente de variação é usado para se ter uma ideia de quão grande é o desvio padrão.
Matematicamente, o coeficiente de variação é definido como:
Coefficient of Variation = Standard Deviation / Mean
Podemos fazer isso em Python se continuarmos com o seguinte código:
Exemplo
import numpy as np
cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)
A saída:
Vemos que as variáveis Duration, Calorie_Burnage e Hours_Work têm um desvio padrão alto em comparação com Max_Pulse, Average_Pulse e Hours_Sleep.