Ciência de dados - Tabela de regressão: R-quadrado


R - Quadrado

R-quadrado e R-quadrado ajustado descreve o quão bem o modelo de regressão linear se ajusta aos pontos de dados:

Tabela de Regressão - Estatísticas de Coeficientes

O valor de R-Quadrado está sempre entre 0 a 1 (0% a 100%).

  • Um valor R-quadrado alto significa que muitos pontos de dados estão próximos da linha da função de regressão linear.
  • Um valor baixo de R-Quadrado significa que a linha da função de regressão linear não se ajusta bem aos dados.

Exemplo Visual de um Valor Baixo R - Quadrado (0,00)

Nosso modelo de regressão mostra um valor R-Quadrado de zero, o que significa que a linha da função de regressão linear não se ajusta bem aos dados.

Isso pode ser visualizado quando plotamos a função de regressão linear através dos pontos de dados Average_Pulse e Calorie_Burnage.

Baixo R - Valor Quadrado (0,00)

Exemplo Visual de um Alto R - Valor Quadrado (0,79)

No entanto, se plotarmos Duration e Calorie_Burnage , o R-Squared aumenta. Aqui, vemos que os pontos de dados estão próximos da linha da função de regressão linear:

Baixo R - Valor Quadrado (0,00)

Segue o código em Python:

Exemplo

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

Resumo - Prevendo Calorie_Burnage com Average_Pulse

Como podemos resumir a função de regressão linear com Average_Pulse como variável explicativa?

  • Coeficiente de 0,3296, o que significa que Average_Pulse tem um efeito muito pequeno em Calorie_Burnage.
  • Valor P alto (0,824), o que significa que não podemos concluir uma relação entre Average_Pulse e Calorie_Burnage.
  • Valor R-quadrado de 0, o que significa que a linha da função de regressão linear não se ajusta bem aos dados.