Em estatística, é frequente estarmos interessados em compreender o grau de "dispersão" dos valores num conjunto de dados. Para o fazer, utilizamos frequentemente as seguintes medidas de dispersão:

  • A gama: a diferença entre o maior e o menor valor num conjunto de dados.
  • O intervalo interquartil: a diferença entre o primeiro quartil e o terceiro quartil de um conjunto de dados (os quartis são simplesmente valores que dividem um conjunto de dados em quatro partes iguais).
  • O desvio padrão: uma forma de medir a distância típica a que os valores se encontram da média.
  • A variação: o desvio padrão ao quadrado.

Destas quatro medidas, a variância Este post tem como objetivo fornecer uma explicação simples da variância.

Compreender o desvio-padrão

Antes de podermos compreender a variância, precisamos primeiro de compreender o desvio padrão normalmente denotado por σ .

A fórmula para calcular o desvio padrão é:

σ = √(Σ (x i - μ)2 / N)

em que μ é a média da população, x i é o i da população, N é o tamanho da população, e Σ é apenas um símbolo que significa "soma".

Na prática, raramente será necessário calcular o desvio padrão manualmente; em vez disso, pode ser utilizado um software estatístico ou uma calculadora.

No seu nível mais básico, o desvio padrão indica-nos a dispersão dos valores dos dados num conjunto de dados. Para ilustrar isto, considere os três conjuntos de dados seguintes, juntamente com os respectivos desvios padrão:

[5, 5, 5] desvio padrão = 0 (sem qualquer dispersão)

[3, 5, 7] desvio padrão = 1.63 (alguma dispersão)

[1, 5, 99] desvio padrão = 45.28 (muito espalhado)

O termo "desvio-padrão" pode ser compreendido através da análise das duas palavras que o compõem:

  • "desvio" - refere-se à distância em relação à média.
  • "standard" - refere-se à distância "standard" ou "típica" a que um valor se encontra da média.

Quando se compreende o desvio padrão, é muito mais fácil compreender a variância.

Compreender o desvio

A variância, normalmente designada por σ2 A fórmula para encontrar a variância de um conjunto de dados é a seguinte

σ2 = Σ (x i - μ)2 / N

em que μ é a média da população, x i é o i da população, N é o tamanho da população, e Σ é apenas um símbolo que significa "soma".

Assim, se o desvio padrão de um conjunto de dados for 8, então a variação será 82 = 64.

Ou, se o desvio padrão de um conjunto de dados for 10, então a variação será 102 = 100.

Ou, se o desvio padrão de um conjunto de dados for 3,7, então a variação será 3,72 = 13,69.

Para ilustrar este facto, considere os três conjuntos de dados seguintes, juntamente com as respectivas variâncias:

[5, 5, 5] variância = 0 (sem qualquer dispersão)

[3, 5, 7] variância = 2.67 (alguma dispersão)

[1, 5, 99] variância = 2,050.67 (muito espalhado)

Quando é que se deve utilizar a variância em vez do desvio padrão?

Depois de ler as explicações acima sobre o desvio padrão e a variância, pode estar a perguntar-se quando é que alguma vez utilizaria a variância em vez do desvio padrão para descrever um conjunto de dados.

Afinal, o desvio-padrão indica-nos a distância média a que um valor se encontra da média, enquanto a variância nos indica o quadrado desse valor. Parece que o desvio-padrão é muito mais fácil de compreender e interpretar.

Na realidade, utiliza-se quase sempre o desvio padrão para descrever a dispersão dos valores num conjunto de dados.

No entanto, a variância pode ser útil quando se utiliza uma técnica como a ANOVA ou a Regressão e se tenta explicar a variância total num modelo devido a factores específicos.

Por exemplo, pode querer compreender qual a variação nas classificações dos testes que pode ser explicada pelo QI e qual a variação que pode ser explicada pelas horas de estudo.

Se 36% da variação se deve ao QI e 64% às horas de estudo, é fácil de entender. Mas se usarmos os desvios-padrão de 6 e 8, isso é muito menos intuitivo e não faz muito sentido no contexto do problema.

Outro caso em que a variância pode ser melhor utilizada do que o desvio padrão é quando se está a fazer trabalho estatístico teórico.

Neste caso, é muito mais fácil utilizar a variância ao efetuar cálculos, uma vez que não é necessário utilizar um sinal de raiz quadrada.