Data Science - Tabela de Regressão: P-Value
A "Estatística da Parte dos Coeficientes" na Tabela de Regressão
Agora, queremos testar se os coeficientes da função de regressão linear têm um impacto significativo na variável dependente (Calorie_Burnage).
Isso significa que queremos provar que existe uma relação entre Average_Pulse e Calorie_Burnage, usando testes estatísticos.
Existem quatro componentes que explicam as estatísticas dos coeficientes:
- std err significa erro padrão
- t é o "valor t" dos coeficientes
- P>|t| é chamado de "valor P"
- [0,025 0,975] representa o intervalo de confiança dos coeficientes
Vamos nos concentrar em entender o "P-value" neste módulo.
O valor P
O valor P é um número estatístico para concluir se existe uma relação entre Average_Pulse e Calorie_Burnage.
Testamos se o valor verdadeiro do coeficiente é igual a zero (sem relação). O teste estatístico para isso é chamado de teste de hipótese.
- Um valor P baixo (< 0,05) significa que o coeficiente provavelmente não será igual a zero.
- Um valor P alto (> 0,05) significa que não podemos concluir que a variável explicativa afeta a variável dependente (aqui: se Average_Pulse afeta Calorie_Burnage).
- Um valor P alto também é chamado de valor P insignificante.
Testando hipóteses
O teste de hipóteses é um procedimento estatístico para testar se seus resultados são válidos.
Em nosso exemplo, estamos testando se o verdadeiro coeficiente de Average_Pulse e a interceptação são iguais a zero.
O teste de hipótese tem duas afirmações. A hipótese nula e a hipótese alternativa.
- A hipótese nula pode ser brevemente escrita como H0
- A hipótese alternativa pode ser brevemente escrita como HA
Escrito matematicamente:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept =
0
HA: Intercept ≠ 0
O sinal ≠ significa "diferente de"
Teste de hipóteses e valor-P
A hipótese nula pode ser rejeitada ou não.
Se rejeitarmos a hipótese nula, concluímos que existe uma relação entre Average_Pulse e Calorie_Burnage. O valor P é usado para esta conclusão.
Um limiar comum do valor P é 0,05.
Nota: Um valor P de 0,05 significa que 5% das vezes, rejeitaremos falsamente a hipótese nula. Isso significa que aceitamos que 5% das vezes, podemos ter concluído um relacionamento falsamente.
Se o valor P for inferior a 0,05, podemos rejeitar a hipótese nula e concluir que existe uma relação entre as variáveis.
No entanto, o valor P de Average_Pulse é 0,824. Portanto, não podemos concluir uma relação entre Average_Pulse e Calorie_Burnage.
Isso significa que há uma chance de 82,4% de que o verdadeiro coeficiente de Average_Pulse seja zero.
A interceptação é usada para ajustar a capacidade da função de regressão de prever com mais precisão. Portanto, é incomum interpretar o valor P da interceptação.