O valor de log-verossimilhança de um modelo de regressão é uma forma de medir a qualidade do ajuste de um modelo. Quanto mais elevado for o valor da verosimilhança (log-likelihood), melhor o modelo se ajusta a um conjunto de dados.

O valor de log-verossimilhança para um determinado modelo pode variar entre infinito negativo e infinito positivo. O valor real de log-verossimilhança para um determinado modelo não tem significado, mas é útil para comparar dois ou mais modelos .

Na prática, é frequente ajustarmos vários modelos de regressão a um conjunto de dados e escolhermos o modelo com o valor de verosimilhança logarítmica mais elevado como o modelo que melhor se ajusta aos dados.

O exemplo seguinte mostra como interpretar na prática os valores de verosimilhança para diferentes modelos de regressão.

Exemplo: Interpretação de valores de log-verossimilhança

Suponhamos que temos o seguinte conjunto de dados que mostra o número de quartos, o número de casas de banho e o preço de venda de 20 casas diferentes num determinado bairro:

Suponha que gostaríamos de ajustar os dois modelos de regressão seguintes e determinar qual deles oferece um melhor ajuste aos dados:

Modelo 1 : Preço = β 0 + β 1 (número de quartos)

Modelo 2 : Preço = β 0 + β 1 (número de casas de banho)

O código seguinte mostra como ajustar cada modelo de regressão e calcular o valor da verosimilhança (log-likelihood) de cada modelo em R:

 #define data df <- data. frame (beds=c(1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5, 6), baths=c(2, 1, 4, 3, 2, 2, 3, 5, 4, 3, 4, 4, 3, 4, 2, 4, 3, 5, 6, 7), price=c(120, 133, 139, 185, 148, 160, 192, 205, 244, 213, 236, 280, 275, 273, 312, 311, 304, 415, 396, 488)) #fit models model1 <- lm(price~beds, data=df) model2 <- lm(price~baths, data=df) #calculate log-likelihood valuede cada modelo logLik(model1) 'log Lik.' -91,04219 (df=3) logLik(model2) 'log Lik.' -111,7511 (df=3) 

O primeiro modelo tem um valor de verosimilhança logarítmica mais elevado ( -91.04 ) do que o segundo modelo ( -111.75 ), o que significa que o primeiro modelo se ajusta melhor aos dados.

Cuidados na utilização de valores de log-verossimilhança

Ao calcular os valores de log-verossimilhança, é importante notar que adicionar mais variáveis preditoras a um modelo aumentará quase sempre o valor de log-verossimilhança, mesmo que as variáveis preditoras adicionais não sejam estatisticamente significativas.

Isto significa que só deve comparar os valores de verosimilhança (log-likelihood) entre dois modelos de regressão se cada modelo tiver o mesmo número de variáveis preditoras.

Para comparar modelos com diferentes números de variáveis preditoras, pode efetuar um teste de razão de verosimilhança para comparar a qualidade do ajuste de dois modelos de regressão aninhados.