Ciência de Dados - Correlação Estatística
Correlação
A correlação mede a relação entre duas variáveis.
Mencionamos que uma função tem o propósito de prever um valor, convertendo entrada (x) em saída (f(x)). Podemos dizer também que uma função usa a relação entre duas variáveis para previsão.
Coeficiente de correlação
O coeficiente de correlação mede a relação entre duas variáveis.
O coeficiente de correlação nunca pode ser menor que -1 ou maior que 1.
- 1 = existe uma relação linear perfeita entre as variáveis (como Average_Pulse contra Calorie_Burnage)
- 0 = não há relação linear entre as variáveis
- -1 = existe uma relação linear negativa perfeita entre as variáveis (por exemplo, menos horas trabalhadas, leva a uma maior queima de calorias durante uma sessão de treino)
Exemplo de uma relação linear perfeita (coeficiente de correlação = 1)
Usaremos o gráfico de dispersão para visualizar a relação entre Average_Pulse e Calorie_Burnage (usamos o pequeno conjunto de dados do relógio esportivo com 10 observações).
Desta vez, queremos gráficos de dispersão, então alteramos o tipo para "dispersão":
Exemplo
import matplotlib.pyplot as plt
health_data.plot(x ='Average_Pulse', y='Calorie_Burnage',
kind='scatter')
plt.show()
Saída:
Como vimos anteriormente, existe uma relação linear perfeita entre Average_Pulse e Calorie_Burnage.
Exemplo de uma relação linear negativa perfeita (coeficiente de correlação = -1)
Traçamos dados fictícios aqui. O eixo x representa a quantidade de horas trabalhadas em nosso trabalho antes de uma sessão de treinamento. O eixo y é Calorie_Burnage.
Se trabalharmos mais horas, tendemos a ter menor queima de calorias porque estamos exaustos antes da sessão de treino.
O coeficiente de correlação aqui é -1.
Exemplo
import pandas as pd
import matplotlib.pyplot as plt
negative_corr =
{'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage':
[220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)
negative_corr.plot(x ='Hours_Work_Before_Training',
y='Calorie_Burnage', kind='scatter')
plt.show()
Exemplo de nenhuma relação linear (coeficiente de correlação = 0)
Aqui, plotamos Max_Pulse em relação à duração do conjunto full_health_data.
Como você pode ver, não há relação linear entre as duas variáveis. Isso significa que uma sessão de treinamento mais longa não leva a um Max_Pulse mais alto.
O coeficiente de correlação aqui é 0.
Exemplo
import matplotlib.pyplot as plt
full_health_data.plot(x ='Duration', y='Max_Pulse',
kind='scatter')
plt.show()