A residual é a diferença entre um valor observado e um valor previsto num modelo de regressão.

É calculado da seguinte forma:

Residual = Valor observado - Valor previsto

Se traçarmos os valores observados e sobrepusermos a linha de regressão ajustada, os resíduos para cada observação seriam a distância vertical entre a observação e a linha de regressão:

Um tipo de resíduo que utilizamos frequentemente para identificar outliers num modelo de regressão é conhecido como resíduo padronizado .

É calculado da seguinte forma:

r i = e i / s(e i ) = e i / RSE√ 1-h ii

onde:

  • e i : O i-ésimo resíduo
  • RSE: O erro-padrão residual do modelo
  • h ii O efeito de alavanca da i-ésima observação

Na prática, consideramos frequentemente que qualquer resíduo padronizado com um valor absoluto superior a 3 é um valor atípico.

Este tutorial fornece um exemplo passo a passo de como calcular resíduos padronizados no Excel.

Passo 1: Introduzir os dados

Primeiro, vamos introduzir os valores de um pequeno conjunto de dados no Excel:

Passo 2: Calcular os resíduos

De seguida, vamos para o Dados na faixa de opções superior e clique em Análise de dados dentro do Análise grupo:

Se ainda não instalou este suplemento, consulte este tutorial sobre como fazê-lo. É fácil de instalar e totalmente gratuito.

Depois de ter clicado em Análise de dados, clique na opção que diz Regressão e, em seguida, clique em OK Na nova janela que aparece, preencha as seguintes informações e clique em OK :

O resíduo para cada observação aparecerá na saída:

Copie e cole estes resíduos numa nova coluna junto aos dados originais:

Passo 3: Calcular a alavancagem

De seguida, é necessário calcular o efeito de alavanca de cada observação.

A imagem seguinte mostra como o fazer:

Aqui estão as fórmulas utilizadas nas várias células:

  • B14: =COUNT(B2:B13)
  • B15: =MÉDIA(B2:B13)
  • B16: =DEVSQ(B2:B13)
  • E2: =1/$B$14+(B2-$B$15)^2/$B$16

Passo 4: Calcular os resíduos padronizados

Por último, podemos calcular os resíduos normalizados utilizando a fórmula:

r i = e i / RSE√ 1-h ii

O RSE para o modelo pode ser encontrado no resultado do modelo anterior, que é 4.44 :

Assim, podemos utilizar a seguinte fórmula para calcular o resíduo padronizado para cada observação:

A partir dos resultados, podemos ver que nenhum dos resíduos padronizados excede um valor absoluto de 3. Assim, nenhuma das observações parece ser anómala.

Nalguns casos, os investigadores consideram que as observações com resíduos normalizados que excedem um valor absoluto de 2 são consideradas anómalas.

Cabe-lhe a si decidir se utiliza um valor absoluto de 2 ou 3 como limite para os valores anómalos, dependendo do problema específico em que está a trabalhar.