Data Science - Matriz de Correlação Estatística


Matriz de correlação

Uma matriz é uma matriz de números organizados em linhas e colunas.

Uma matriz de correlação é simplesmente uma tabela que mostra os coeficientes de correlação entre as variáveis.

Aqui, as variáveis ​​são representadas na primeira linha e na primeira coluna:

Matriz de correlação

A tabela acima usou dados do conjunto de dados de integridade completo.

Observações:

  • Observamos que Duration e Calorie_Burnage estão intimamente relacionados, com um coeficiente de correlação de 0,89. Isso faz sentido, pois quanto mais treinamos, mais calorias queimamos
  • Observamos que quase não há relações lineares entre Average_Pulse e Calorie_Burnage (coeficiente de correlação de 0,02)
  • Podemos concluir que Average_Pulse não afeta Calorie_Burnage? Não. Voltaremos para responder a esta pergunta mais tarde!

Matriz de correlação em Python

Podemos usar a corr()função em Python para criar uma matriz de correlação. Também usamos a round()função para arredondar a saída para dois decimais:

Exemplo

Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)

Saída:

Matriz de correlação

Usando um mapa de calor

Podemos usar um mapa de calor para visualizar a correlação entre variáveis:

Mapa de calor de correlação

Quanto mais próximo o coeficiente de correlação estiver de 1, mais verdes serão os quadrados.

Quanto mais próximo o coeficiente de correlação estiver de -1, mais marrons ficam os quadrados.


Use Seaborn para criar um mapa de calor

Podemos usar a biblioteca Seaborn para criar um mapa de calor de correlação (Seaborn é uma biblioteca de visualização baseada em matplotlib):

Exemplo

import matplotlib.pyplot as plt
import seaborn as sns

correlation_full_health = full_health_data.corr()

axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)

plt.show()

Exemplo explicado:

  • Importe a biblioteca seaborn como sns.
  • Use o conjunto full_health_data.
  • Use sns.heatmap() para informar ao Python que queremos um mapa de calor para visualizar a matriz de correlação.
  • Use a matriz de correlação. Defina os valores máximo e mínimo do mapa de calor. Defina que 0 é o centro.
  • Defina as cores com sns.diverging_palette. n=500 significa que queremos 500 tipos de cores na mesma paleta de cores.
  • quadrado = Verdadeiro significa que queremos ver quadrados.