O critério de informação de Akaike (AIC) é uma métrica que é utilizada para comparar o ajuste de diferentes modelos de regressão.

É calculado da seguinte forma:

AIC = 2K - 2 ln (L)

onde:

  • K: O número de parâmetros do modelo.
  • ln (L) O log-likelihood do modelo diz-nos qual é a probabilidade do modelo, tendo em conta os dados.

Depois de ter ajustado vários modelos de regressão, pode comparar o valor AIC de cada modelo. O modelo com o AIC mais baixo oferece o melhor ajuste.

Uma pergunta que os estudantes têm frequentemente sobre o AIC é: O que é considerado um bom valor AIC?

A resposta é simples: Não existe um valor para o AIC que possa ser considerado "bom" ou "mau" porque simplesmente utilizamos o AIC como uma forma de comparar modelos de regressão. O modelo com o AIC mais baixo oferece o melhor ajuste. O valor absoluto do valor AIC não é importante.

Por exemplo, se o Modelo 1 tem um valor AIC de 730,5 e o Modelo 2 tem um valor AIC de 456,3, então o Modelo 2 oferece um melhor ajuste. Os valores absolutos do AIC não são importantes.

Uma referência útil sobre este tema é Estatísticas sérias: um guia de estatísticas avançadas para as ciências do comportamento na página 402:

Tal como acontece com a verosimilhança, o valor absoluto do AIC não tem grande significado (sendo determinado pela constante arbitrária). Como esta constante depende dos dados, o AIC pode ser utilizado para comparar modelos ajustados a amostras idênticas.

O melhor modelo do conjunto de modelos plausíveis que está a ser considerado é, portanto, aquele que tem o valor AIC mais baixo (a menor perda de informação em relação ao modelo verdadeiro).

Tal como referido no manual, o valor absoluto do AIC não é importante. Utilizamos simplesmente os valores AIC para comparar o ajuste dos modelos e o modelo com o valor AIC mais baixo é o melhor.

Como determinar se um modelo se ajusta bem a um conjunto de dados

O valor AIC é uma forma útil de determinar qual o modelo de regressão que melhor se ajusta a um conjunto de dados de entre uma lista de potenciais modelos, mas não quantifica efetivamente quão bem o modelo ajusta-se aos dados.

Por exemplo, um determinado modelo de regressão pode ter o valor AIC mais baixo de uma lista de modelos potenciais, mas pode ainda assim ser um modelo pouco adequado.

Para determinar se um modelo se ajusta bem a um conjunto de dados, podemos utilizar as duas métricas seguintes:

  • Cp de Mallows: Uma métrica que quantifica a quantidade de enviesamento nos modelos de regressão.
  • R-quadrado ajustado: A proporção da variância na variável de resposta que pode ser explicada pelas variáveis de previsão no modelo, ajustada para o número de variáveis de previsão no modelo.

Uma estratégia potencial para escolher o "melhor" modelo de regressão entre vários modelos potenciais é a seguinte:

  • Em primeiro lugar, identificar o modelo com o valor AIC mais baixo.
  • Em seguida, ajuste este modelo de regressão aos dados e calcule o Cp de Mallows e o R-quadrado ajustado do modelo para quantificar até que ponto este se ajusta efetivamente aos dados.

Esta abordagem permite-lhe identificar o modelo que melhor se ajusta e quantificar a adequação efectiva do modelo aos dados.