Os modelos de regressão são utilizados para quantificar a relação entre uma ou mais variáveis de previsão e uma variável de resposta.

Sempre que ajustamos um modelo de regressão, queremos compreender até que ponto o modelo é capaz de utilizar os valores das variáveis preditoras para prever o valor da variável de resposta.

Duas métricas que utilizamos frequentemente para quantificar a adequação de um modelo a um conjunto de dados são o erro médio absoluto (MAE) e a raiz do erro médio quadrático (RMSE), que são calculados da seguinte forma:

MAE MAE: métrica que nos indica a diferença média absoluta entre os valores previstos e os valores reais num conjunto de dados. Quanto mais baixo for o MAE, melhor um modelo se ajusta a um conjunto de dados.

MAE = 1/n * Σ i - ŷ i

onde:

  • Σ é um símbolo que significa "soma"
  • y i é o valor observado para a i-ésima observação
  • ŷ i é o valor previsto para a i-ésima observação
  • n é a dimensão da amostra

RMSE RMSE: métrica que nos indica a raiz quadrada da diferença média ao quadrado entre os valores previstos e os valores reais num conjunto de dados. Quanto mais baixo for o RMSE, melhor um modelo se ajusta a um conjunto de dados.

É calculado da seguinte forma:

RMSE = √ Σ(y i - ŷ i )2 / n

onde:

  • Σ é um símbolo que significa "soma"
  • ŷ i é o valor previsto para a i-ésima observação
  • y i é o valor observado para a i-ésima observação
  • n é a dimensão da amostra

Exemplo: Cálculo de RMSE & MAE

Suponha que utilizamos um modelo de regressão para prever o número de pontos que 10 jogadores irão marcar num jogo de basquetebol.

A tabela seguinte mostra os pontos previstos pelo modelo versus os pontos reais que os jogadores marcaram:

Utilizando a Calculadora MAE, podemos calcular o MAE como sendo 3.2

Isto diz-nos que a diferença média absoluta entre os valores previstos pelo modelo e os valores reais é de 3,2.

Utilizando a calculadora RMSE, podemos calcular o RMSE como sendo 4 .

Isto diz-nos que a raiz quadrada da média das diferenças quadradas entre os pontos previstos marcados e os pontos efetivamente marcados é 4.

Repare-se que cada métrica nos dá uma ideia da diferença típica entre o valor previsto pelo modelo e o valor real no conjunto de dados, mas a interpretação de cada métrica é ligeiramente diferente.

RMSE vs. MAE: Que métrica deve ser usada?

Se quiser dar mais peso às observações que estão mais afastadas da média (ou seja, se estar "fora" por 20 é duas vezes pior do que estar fora por 10″), então é melhor utilizar o RMSE para medir o erro, porque o RMSE é mais sensível às observações que estão mais afastadas da média.

No entanto, se estar "errado" em 20 é duas vezes mais mau do que estar errado em 10, então é melhor utilizar o MAE.

Para ilustrar isto, suponhamos que temos um jogador que é claramente um outlier no seu número de pontos marcados:

Utilizando as calculadoras online mencionadas anteriormente, podemos calcular o MAE e o RMSE como sendo:

  • MAE : 8
  • RMSE : 16.4356

Repare-se que o RMSE aumenta muito mais do que o MAE.

Isto deve-se ao facto de o RMSE utilizar diferenças quadráticas na sua fórmula e a diferença quadrática entre o valor observado de 76 e o valor previsto de 22 é bastante grande, o que faz com que o valor do RMSE aumente significativamente.

Na prática, normalmente ajustamos vários modelos de regressão a um conjunto de dados e calculamos apenas uma destas métricas para cada modelo.

Por exemplo, podemos ajustar três modelos de regressão diferentes e calcular o RMSE para cada modelo. Em seguida, seleccionaríamos o modelo com o valor de RMSE mais baixo como o "melhor" modelo, porque é o que faz previsões mais próximas dos valores reais do conjunto de dados.

Em qualquer dos casos, certifique-se de que calcula a mesma métrica para cada modelo. Por exemplo, não calcule o MAE para um modelo e o RMSE para outro modelo e depois compare essas duas métricas.