Data Science - Matriz de Correlação Estatística
Matriz de correlação
Uma matriz é uma matriz de números organizados em linhas e colunas.
Uma matriz de correlação é simplesmente uma tabela que mostra os coeficientes de correlação entre as variáveis.
Aqui, as variáveis são representadas na primeira linha e na primeira coluna:
A tabela acima usou dados do conjunto de dados de integridade completo.
Observações:
- Observamos que Duration e Calorie_Burnage estão intimamente relacionados, com um coeficiente de correlação de 0,89. Isso faz sentido, pois quanto mais treinamos, mais calorias queimamos
- Observamos que quase não há relações lineares entre Average_Pulse e Calorie_Burnage (coeficiente de correlação de 0,02)
- Podemos concluir que Average_Pulse não afeta Calorie_Burnage? Não. Voltaremos para responder a esta pergunta mais tarde!
Matriz de correlação em Python
Podemos usar a corr()
função em Python para criar uma matriz de correlação. Também usamos a round()
função para arredondar a saída para dois decimais:
Exemplo
Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)
Saída:
Usando um mapa de calor
Podemos usar um mapa de calor para visualizar a correlação entre variáveis:
Quanto mais próximo o coeficiente de correlação estiver de 1, mais verdes serão os quadrados.
Quanto mais próximo o coeficiente de correlação estiver de -1, mais marrons ficam os quadrados.
Use Seaborn para criar um mapa de calor
Podemos usar a biblioteca Seaborn para criar um mapa de calor de correlação (Seaborn é uma biblioteca de visualização baseada em matplotlib):
Exemplo
import matplotlib.pyplot as plt
import seaborn as sns
correlation_full_health =
full_health_data.corr()
axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50,
500, n=500),
square=True
)
plt.show()
Exemplo explicado:
- Importe a biblioteca seaborn como sns.
- Use o conjunto full_health_data.
- Use sns.heatmap() para informar ao Python que queremos um mapa de calor para visualizar a matriz de correlação.
- Use a matriz de correlação. Defina os valores máximo e mínimo do mapa de calor. Defina que 0 é o centro.
- Defina as cores com sns.diverging_palette. n=500 significa que queremos 500 tipos de cores na mesma paleta de cores.
- quadrado = Verdadeiro significa que queremos ver quadrados.