Data Science - Tabela de Regressão: P-Value


A "Estatística da Parte dos Coeficientes" na Tabela de Regressão

Tabela de Regressão - Estatísticas de Coeficientes

Agora, queremos testar se os coeficientes da função de regressão linear têm um impacto significativo na variável dependente (Calorie_Burnage).

Isso significa que queremos provar que existe uma relação entre Average_Pulse e Calorie_Burnage, usando testes estatísticos.

Existem quatro componentes que explicam as estatísticas dos coeficientes:

  • std err significa erro padrão
  • t é o "valor t" dos coeficientes
  • P>|t| é chamado de "valor P"
  •  [0,025 0,975] representa o intervalo de confiança dos coeficientes

Vamos nos concentrar em entender o "P-value" neste módulo.


O valor P

O valor P é um número estatístico para concluir se existe uma relação entre Average_Pulse e Calorie_Burnage.

Testamos se o valor verdadeiro do coeficiente é igual a zero (sem relação). O teste estatístico para isso é chamado de teste de hipótese.

  • Um valor P baixo (< 0,05) significa que o coeficiente provavelmente não será igual a zero.
  • Um valor P alto (> 0,05) significa que não podemos concluir que a variável explicativa afeta a variável dependente (aqui: se Average_Pulse afeta Calorie_Burnage).
  • Um valor P alto também é chamado de valor P insignificante.

Testando hipóteses

O teste de hipóteses é um procedimento estatístico para testar se seus resultados são válidos.

Em nosso exemplo, estamos testando se o verdadeiro coeficiente de Average_Pulse e a interceptação são iguais a zero.

O teste de hipótese tem duas afirmações. A hipótese nula e a hipótese alternativa.

  • A hipótese nula pode ser brevemente escrita como H0
  • A hipótese alternativa pode ser brevemente escrita como HA

Escrito matematicamente:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

O sinal ≠ significa "diferente de"


Teste de hipóteses e valor-P

A hipótese nula pode ser rejeitada ou não.

Se rejeitarmos a hipótese nula, concluímos que existe uma relação entre Average_Pulse e Calorie_Burnage. O valor P é usado para esta conclusão.

Um limiar comum do valor P é 0,05.

Nota: Um valor P de 0,05 significa que 5% das vezes, rejeitaremos falsamente a hipótese nula. Isso significa que aceitamos que 5% das vezes, podemos ter concluído um relacionamento falsamente.

Se o valor P for inferior a 0,05, podemos rejeitar a hipótese nula e concluir que existe uma relação entre as variáveis.

No entanto, o valor P de Average_Pulse é 0,824. Portanto, não podemos concluir uma relação entre Average_Pulse e Calorie_Burnage.

Isso significa que há uma chance de 82,4% de que o verdadeiro coeficiente de Average_Pulse seja zero.

A interceptação é usada para ajustar a capacidade da função de regressão de prever com mais precisão. Portanto, é incomum interpretar o valor P da interceptação.