O critério de informação de Akaike (AIC) é uma métrica que é utilizada para comparar o ajuste de diferentes modelos de regressão.
É calculado da seguinte forma:
AIC = 2K - 2 ln (L)
onde:
- K: O número de parâmetros do modelo.
- ln (L) O log-likelihood do modelo diz-nos qual é a probabilidade do modelo, tendo em conta os dados.
Depois de ter ajustado vários modelos de regressão, pode comparar o valor AIC de cada modelo. O modelo com o AIC mais baixo oferece o melhor ajuste.
Uma pergunta que os estudantes têm frequentemente sobre o AIC é: O que é considerado um bom valor AIC?
A resposta é simples: Não existe um valor para o AIC que possa ser considerado "bom" ou "mau" porque simplesmente utilizamos o AIC como uma forma de comparar modelos de regressão. O modelo com o AIC mais baixo oferece o melhor ajuste. O valor absoluto do valor AIC não é importante.
Por exemplo, se o Modelo 1 tem um valor AIC de 730,5 e o Modelo 2 tem um valor AIC de 456,3, então o Modelo 2 oferece um melhor ajuste. Os valores absolutos do AIC não são importantes.
Uma referência útil sobre este tema é Estatísticas sérias: um guia de estatísticas avançadas para as ciências do comportamento na página 402:
Tal como acontece com a verosimilhança, o valor absoluto do AIC não tem grande significado (sendo determinado pela constante arbitrária). Como esta constante depende dos dados, o AIC pode ser utilizado para comparar modelos ajustados a amostras idênticas.
O melhor modelo do conjunto de modelos plausíveis que está a ser considerado é, portanto, aquele que tem o valor AIC mais baixo (a menor perda de informação em relação ao modelo verdadeiro).
Tal como referido no manual, o valor absoluto do AIC não é importante. Utilizamos simplesmente os valores AIC para comparar o ajuste dos modelos e o modelo com o valor AIC mais baixo é o melhor.
Como determinar se um modelo se ajusta bem a um conjunto de dados
O valor AIC é uma forma útil de determinar qual o modelo de regressão que melhor se ajusta a um conjunto de dados de entre uma lista de potenciais modelos, mas não quantifica efetivamente quão bem o modelo ajusta-se aos dados.
Por exemplo, um determinado modelo de regressão pode ter o valor AIC mais baixo de uma lista de modelos potenciais, mas pode ainda assim ser um modelo pouco adequado.
Para determinar se um modelo se ajusta bem a um conjunto de dados, podemos utilizar as duas métricas seguintes:
- Cp de Mallows: Uma métrica que quantifica a quantidade de enviesamento nos modelos de regressão.
- R-quadrado ajustado: A proporção da variância na variável de resposta que pode ser explicada pelas variáveis de previsão no modelo, ajustada para o número de variáveis de previsão no modelo.
Uma estratégia potencial para escolher o "melhor" modelo de regressão entre vários modelos potenciais é a seguinte:
- Em primeiro lugar, identificar o modelo com o valor AIC mais baixo.
- Em seguida, ajuste este modelo de regressão aos dados e calcule o Cp de Mallows e o R-quadrado ajustado do modelo para quantificar até que ponto este se ajusta efetivamente aos dados.
Esta abordagem permite-lhe identificar o modelo que melhor se ajusta e quantificar a adequação efectiva do modelo aos dados.