Os modelos de regressão são utilizados para quantificar a relação entre uma ou mais variáveis de previsão e uma variável de resposta.
Sempre que ajustamos um modelo de regressão, queremos compreender até que ponto o modelo se "ajusta" aos dados. Por outras palavras, até que ponto o modelo é capaz de utilizar os valores das variáveis preditoras para prever o valor da variável resposta?
Duas métricas que os estatísticos utilizam frequentemente para quantificar a adequação de um modelo a um conjunto de dados são a raiz do erro quadrático médio (RMSE) e o R-quadrado (R2), que são calculados da seguinte forma:
RMSE RMSE: métrica que indica a distância média entre os valores previstos e os valores observados num conjunto de dados. Quanto mais baixo for o RMSE, melhor se ajusta um modelo a um conjunto de dados.
É calculado da seguinte forma:
RMSE = √ Σ(P i - O i )2 / n
onde:
- Σ é um símbolo que significa "soma"
- P i é o valor previsto para a i-ésima observação
- O i é o valor observado para a i-ésima observação
- n é a dimensão da amostra
R2 R2: Métrica que nos indica a proporção da variância na variável de resposta de um modelo de regressão que pode ser explicada pelas variáveis preditoras. Este valor varia entre 0 e 1. Quanto mais elevado for o valor de R2, melhor o modelo se ajusta a um conjunto de dados.
É calculado da seguinte forma:
R2 = 1 - (RSS/TSS)
onde:
- RSS representa a soma dos quadrados dos resíduos
- TSS representa a soma total dos quadrados
RMSE vs. R2: que métrica deve ser utilizada?
Ao avaliar a adequação de um modelo a um conjunto de dados, é útil calcular ambos o RMSE e o valor R2 porque cada métrica diz-nos algo diferente.
Por um lado, o RMSE indica-nos a distância típica entre o valor previsto pelo modelo de regressão e o valor real.
Por outro lado, o R2 diz-nos até que ponto as variáveis preditoras podem explicar a variação na variável de resposta.
Por exemplo, suponhamos que temos o seguinte conjunto de dados que mostra informações sobre casas numa determinada cidade:
Agora, suponhamos que gostaríamos de utilizar a metragem quadrada, o número de casas de banho e o número de quartos para prever o preço da casa.
Podemos ajustar o seguinte modelo de regressão:
Preço = β 0 + β 1 (metragem quadrada) + β 2 (# casas de banho) + β 3 (# quartos)
Agora, suponhamos que ajustamos este modelo e calculamos as seguintes métricas para avaliar a qualidade do ajuste do modelo:
- RMSE : 14,342
- R2 : 0.856
O RMSE diz-nos que o desvio médio entre a previsão do preço da casa feita pelo modelo e o preço real da casa é de 14 342 dólares.
O R2 diz-nos que as variáveis preditoras no modelo (metragem quadrada, número de casas de banho e número de quartos) são capazes de explicar 85,6% da variação nos preços das casas.
Para determinar se estes valores são "bons" ou não, podemos comparar estas métricas com modelos alternativos.
Por exemplo, suponhamos que ajustamos outro modelo de regressão que utiliza um conjunto diferente de variáveis de previsão e calculamos as seguintes métricas para esse modelo:
- RMSE : 19,355
- R2 : 0.765
Podemos ver que o valor RMSE para este modelo é maior do que o modelo anterior. Também podemos ver que o valor R2 para este modelo é menor do que o modelo anterior, o que nos diz que este modelo se ajusta pior aos dados do que o modelo anterior.
Resumo
Eis os principais pontos abordados neste artigo:
- Tanto o RMSE como o R2 quantificam a adequação de um modelo de regressão a um conjunto de dados.
- O RMSE indica-nos até que ponto um modelo de regressão consegue prever o valor da variável de resposta em termos absolutos, enquanto o R2 nos indica até que ponto um modelo consegue prever o valor da variável de resposta em termos percentuais.
- É útil calcular tanto o RMSE como o R2 para um determinado modelo porque cada métrica nos dá informações úteis.