Ciência de Dados - Correlação Estatística vs. Causalidade
Correlação não implica causalidade
A correlação mede a relação numérica entre duas variáveis.
Um alto coeficiente de correlação (próximo de 1), não significa que podemos concluir com certeza uma relação real entre duas variáveis.
Um exemplo clássico:
- Durante o verão, a venda de sorvete na praia aumenta
- Simultaneamente, os acidentes de afogamento também aumentam
Isso significa que o aumento da venda de sorvete é uma causa direta do aumento de acidentes por afogamento?
O exemplo da praia em Python
Aqui, construímos um conjunto de dados fictício para você experimentar:
Exemplo
import pandas as pd
import matplotlib.pyplot as plt
Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale =
[20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident":
[20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale":
[20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)
Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()
correlation_beach = Drowning.corr()
print(correlation_beach)
Saída:
Correlação vs Causalidade - O Exemplo da Praia
Em outras palavras: podemos usar a venda de sorvete para prever acidentes de afogamento?
A resposta é provavelmente não.
É provável que essas duas variáveis estejam se correlacionando acidentalmente.
O que causa o afogamento então?
- Nadadores não qualificados
- Ondas
- Cãibra
- Distúrbios convulsivos
- Falta de supervisão
- Álcool (mau) uso
- etc.
Invertamos o argumento:
Um coeficiente de correlação baixo (próximo de zero) significa que a mudança em x não afeta y?
Voltando à pergunta:
- Podemos concluir que Average_Pulse não afeta Calorie_Burnage devido a um baixo coeficiente de correlação?
A resposta é não.
Há uma diferença importante entre correlação e causalidade:
- Correlação é um número que mede o quão próximo os dados estão relacionados
- A causalidade é a conclusão de que x causa y.
Portanto, é importante refletir criticamente sobre o conceito de causalidade quando fazemos previsões!