Ciência de Dados - Correlação Estatística vs. Causalidade


Correlação não implica causalidade

A correlação mede a relação numérica entre duas variáveis.

Um alto coeficiente de correlação (próximo de 1), não significa que podemos concluir com certeza uma relação real entre duas variáveis.

Um exemplo clássico:

  • Durante o verão, a venda de sorvete na praia aumenta
  • Simultaneamente, os acidentes de afogamento também aumentam

Isso significa que o aumento da venda de sorvete é uma causa direta do aumento de acidentes por afogamento?


O exemplo da praia em Python

Aqui, construímos um conjunto de dados fictício para você experimentar:

Exemplo

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

Saída:

Correlação vs. Causalidade

Correlação vs Causalidade - O Exemplo da Praia

Em outras palavras: podemos usar a venda de sorvete para prever acidentes de afogamento?

A resposta é provavelmente não.

É provável que essas duas variáveis ​​estejam se correlacionando acidentalmente.

O que causa o afogamento então?

  • Nadadores não qualificados
  • Ondas
  • Cãibra
  • Distúrbios convulsivos
  • Falta de supervisão
  • Álcool (mau) uso
  • etc.

Invertamos o argumento:

Um coeficiente de correlação baixo (próximo de zero) significa que a mudança em x não afeta y?

Voltando à pergunta:

  • Podemos concluir que Average_Pulse não afeta Calorie_Burnage devido a um baixo coeficiente de correlação?

A resposta é não.

Há uma diferença importante entre correlação e causalidade:

  • Correlação é um número que mede o quão próximo os dados estão relacionados
  • A causalidade é a conclusão de que x causa y.

Portanto, é importante refletir criticamente sobre o conceito de causalidade quando fazemos previsões!