Os modelos de regressão são utilizados para quantificar a relação entre uma ou mais variáveis de previsão e uma variável de resposta.
Sempre que ajustamos um modelo de regressão, queremos compreender até que ponto o modelo é capaz de utilizar os valores das variáveis preditoras para prever o valor da variável de resposta.
Duas métricas que utilizamos frequentemente para quantificar a adequação de um modelo a um conjunto de dados são o erro médio absoluto (MAE) e a raiz do erro médio quadrático (RMSE), que são calculados da seguinte forma:
MAE MAE: métrica que nos indica a diferença média absoluta entre os valores previstos e os valores reais num conjunto de dados. Quanto mais baixo for o MAE, melhor um modelo se ajusta a um conjunto de dados.
MAE = 1/n * Σ i - ŷ i
onde:
- Σ é um símbolo que significa "soma"
- y i é o valor observado para a i-ésima observação
- ŷ i é o valor previsto para a i-ésima observação
- n é a dimensão da amostra
RMSE RMSE: métrica que nos indica a raiz quadrada da diferença média ao quadrado entre os valores previstos e os valores reais num conjunto de dados. Quanto mais baixo for o RMSE, melhor um modelo se ajusta a um conjunto de dados.
É calculado da seguinte forma:
RMSE = √ Σ(y i - ŷ i )2 / n
onde:
- Σ é um símbolo que significa "soma"
- ŷ i é o valor previsto para a i-ésima observação
- y i é o valor observado para a i-ésima observação
- n é a dimensão da amostra
Exemplo: Cálculo de RMSE & MAE
Suponha que utilizamos um modelo de regressão para prever o número de pontos que 10 jogadores irão marcar num jogo de basquetebol.
A tabela seguinte mostra os pontos previstos pelo modelo versus os pontos reais que os jogadores marcaram:
Utilizando a Calculadora MAE, podemos calcular o MAE como sendo 3.2
Isto diz-nos que a diferença média absoluta entre os valores previstos pelo modelo e os valores reais é de 3,2.
Utilizando a calculadora RMSE, podemos calcular o RMSE como sendo 4 .
Isto diz-nos que a raiz quadrada da média das diferenças quadradas entre os pontos previstos marcados e os pontos efetivamente marcados é 4.
Repare-se que cada métrica nos dá uma ideia da diferença típica entre o valor previsto pelo modelo e o valor real no conjunto de dados, mas a interpretação de cada métrica é ligeiramente diferente.
RMSE vs. MAE: Que métrica deve ser usada?
Se quiser dar mais peso às observações que estão mais afastadas da média (ou seja, se estar "fora" por 20 é duas vezes pior do que estar fora por 10″), então é melhor utilizar o RMSE para medir o erro, porque o RMSE é mais sensível às observações que estão mais afastadas da média.
No entanto, se estar "errado" em 20 é duas vezes mais mau do que estar errado em 10, então é melhor utilizar o MAE.
Para ilustrar isto, suponhamos que temos um jogador que é claramente um outlier no seu número de pontos marcados:
Utilizando as calculadoras online mencionadas anteriormente, podemos calcular o MAE e o RMSE como sendo:
- MAE : 8
- RMSE : 16.4356
Repare-se que o RMSE aumenta muito mais do que o MAE.
Isto deve-se ao facto de o RMSE utilizar diferenças quadráticas na sua fórmula e a diferença quadrática entre o valor observado de 76 e o valor previsto de 22 é bastante grande, o que faz com que o valor do RMSE aumente significativamente.
Na prática, normalmente ajustamos vários modelos de regressão a um conjunto de dados e calculamos apenas uma destas métricas para cada modelo.
Por exemplo, podemos ajustar três modelos de regressão diferentes e calcular o RMSE para cada modelo. Em seguida, seleccionaríamos o modelo com o valor de RMSE mais baixo como o "melhor" modelo, porque é o que faz previsões mais próximas dos valores reais do conjunto de dados.
Em qualquer dos casos, certifique-se de que calcula a mesma métrica para cada modelo. Por exemplo, não calcule o MAE para um modelo e o RMSE para outro modelo e depois compare essas duas métricas.