Ciência de Dados - Correlação Estatística


Correlação

A correlação mede a relação entre duas variáveis.

Mencionamos que uma função tem o propósito de prever um valor, convertendo entrada (x) em saída (f(x)). Podemos dizer também que uma função usa a relação entre duas variáveis ​​para previsão.


Coeficiente de correlação

O coeficiente de correlação mede a relação entre duas variáveis.

O coeficiente de correlação nunca pode ser menor que -1 ou maior que 1.

  • 1 = existe uma relação linear perfeita entre as variáveis ​​(como Average_Pulse contra Calorie_Burnage)
  • 0 = não há relação linear entre as variáveis
  • -1 = existe uma relação linear negativa perfeita entre as variáveis ​​(por exemplo, menos horas trabalhadas, leva a uma maior queima de calorias durante uma sessão de treino)

Exemplo de uma relação linear perfeita (coeficiente de correlação = 1)

Usaremos o gráfico de dispersão para visualizar a relação entre Average_Pulse e Calorie_Burnage (usamos o pequeno conjunto de dados do relógio esportivo com 10 observações).

Desta vez, queremos gráficos de dispersão, então alteramos o tipo para "dispersão":

Exemplo

import matplotlib.pyplot as plt

health_data.plot(x ='Average_Pulse', y='Calorie_Burnage', kind='scatter')
plt.show()

Saída:

Coeficiente de Correlação = 1

Como vimos anteriormente, existe uma relação linear perfeita entre Average_Pulse e Calorie_Burnage.



Exemplo de uma relação linear negativa perfeita (coeficiente de correlação = -1)

Coeficiente de Correlação = -1

Traçamos dados fictícios aqui. O eixo x representa a quantidade de horas trabalhadas em nosso trabalho antes de uma sessão de treinamento. O eixo y é Calorie_Burnage.

Se trabalharmos mais horas, tendemos a ter menor queima de calorias porque estamos exaustos antes da sessão de treino.

O coeficiente de correlação aqui é -1.

Exemplo

import pandas as pd
import matplotlib.pyplot as plt

negative_corr = {'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage': [220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)

negative_corr.plot(x ='Hours_Work_Before_Training', y='Calorie_Burnage', kind='scatter')
plt.show()

Exemplo de nenhuma relação linear (coeficiente de correlação = 0)

Coeficiente de Correlação = 0

Aqui, plotamos Max_Pulse em relação à duração do conjunto full_health_data.

Como você pode ver, não há relação linear entre as duas variáveis. Isso significa que uma sessão de treinamento mais longa não leva a um Max_Pulse mais alto.

O coeficiente de correlação aqui é 0.

Exemplo

import matplotlib.pyplot as plt

full_health_data.plot(x ='Duration', y='Max_Pulse', kind='scatter')
plt.show()