- Compreender o desvio-padrão
- Compreender o desvio
- Quando é que se deve utilizar a variância em vez do desvio padrão?
Em estatística, é frequente estarmos interessados em compreender o grau de "dispersão" dos valores num conjunto de dados. Para o fazer, utilizamos frequentemente as seguintes medidas de dispersão:
- A gama: a diferença entre o maior e o menor valor num conjunto de dados.
- O intervalo interquartil: a diferença entre o primeiro quartil e o terceiro quartil de um conjunto de dados (os quartis são simplesmente valores que dividem um conjunto de dados em quatro partes iguais).
- O desvio padrão: uma forma de medir a distância típica a que os valores se encontram da média.
- A variação: o desvio padrão ao quadrado.
Destas quatro medidas, a variância Este post tem como objetivo fornecer uma explicação simples da variância.
Compreender o desvio-padrão
Antes de podermos compreender a variância, precisamos primeiro de compreender o desvio padrão normalmente denotado por σ .
A fórmula para calcular o desvio padrão é:
σ = √(Σ (x i - μ)2 / N)
em que μ é a média da população, x i é o i da população, N é o tamanho da população, e Σ é apenas um símbolo que significa "soma".
Na prática, raramente será necessário calcular o desvio padrão manualmente; em vez disso, pode ser utilizado um software estatístico ou uma calculadora.
No seu nível mais básico, o desvio padrão indica-nos a dispersão dos valores dos dados num conjunto de dados. Para ilustrar isto, considere os três conjuntos de dados seguintes, juntamente com os respectivos desvios padrão:
[5, 5, 5] desvio padrão = 0 (sem qualquer dispersão)
[3, 5, 7] desvio padrão = 1.63 (alguma dispersão)
[1, 5, 99] desvio padrão = 45.28 (muito espalhado)
O termo "desvio-padrão" pode ser compreendido através da análise das duas palavras que o compõem:
- "desvio" - refere-se à distância em relação à média.
- "standard" - refere-se à distância "standard" ou "típica" a que um valor se encontra da média.
Quando se compreende o desvio padrão, é muito mais fácil compreender a variância.
Compreender o desvio
A variância, normalmente designada por σ2 A fórmula para encontrar a variância de um conjunto de dados é a seguinte
σ2 = Σ (x i - μ)2 / N
em que μ é a média da população, x i é o i da população, N é o tamanho da população, e Σ é apenas um símbolo que significa "soma".
Assim, se o desvio padrão de um conjunto de dados for 8, então a variação será 82 = 64.
Ou, se o desvio padrão de um conjunto de dados for 10, então a variação será 102 = 100.
Ou, se o desvio padrão de um conjunto de dados for 3,7, então a variação será 3,72 = 13,69.
Para ilustrar este facto, considere os três conjuntos de dados seguintes, juntamente com as respectivas variâncias:
[5, 5, 5] variância = 0 (sem qualquer dispersão)
[3, 5, 7] variância = 2.67 (alguma dispersão)
[1, 5, 99] variância = 2,050.67 (muito espalhado)
Quando é que se deve utilizar a variância em vez do desvio padrão?
Depois de ler as explicações acima sobre o desvio padrão e a variância, pode estar a perguntar-se quando é que alguma vez utilizaria a variância em vez do desvio padrão para descrever um conjunto de dados.
Afinal, o desvio-padrão indica-nos a distância média a que um valor se encontra da média, enquanto a variância nos indica o quadrado desse valor. Parece que o desvio-padrão é muito mais fácil de compreender e interpretar.
Na realidade, utiliza-se quase sempre o desvio padrão para descrever a dispersão dos valores num conjunto de dados.
No entanto, a variância pode ser útil quando se utiliza uma técnica como a ANOVA ou a Regressão e se tenta explicar a variância total num modelo devido a factores específicos.
Por exemplo, pode querer compreender qual a variação nas classificações dos testes que pode ser explicada pelo QI e qual a variação que pode ser explicada pelas horas de estudo.
Se 36% da variação se deve ao QI e 64% às horas de estudo, é fácil de entender. Mas se usarmos os desvios-padrão de 6 e 8, isso é muito menos intuitivo e não faz muito sentido no contexto do problema.
Outro caso em que a variância pode ser melhor utilizada do que o desvio padrão é quando se está a fazer trabalho estatístico teórico.
Neste caso, é muito mais fácil utilizar a variância ao efetuar cálculos, uma vez que não é necessário utilizar um sinal de raiz quadrada.