Muitas vezes, em estatística, estamos interessados em responder a perguntas como:

  • Qual é o rendimento médio do agregado familiar numa determinada cidade?
  • Qual é o peso médio de uma determinada espécie de tartaruga?
  • Qual é a média de assistência aos jogos de futebol universitário?

Em cada cenário, estamos interessados em responder a uma pergunta sobre uma população, que representa todos os elementos individuais possíveis que estamos interessados em medir.

No entanto, em vez de recolher dados sobre todos os indivíduos de uma população, recolhemos dados sobre uma amostra da população, que representa uma parte da população total.

Por exemplo, podemos querer saber o peso médio de uma determinada espécie de tartaruga que tem uma população total de 800 tartarugas.

Uma vez que seria demasiado demorado localizar e pesar todas as tartarugas da população, em vez disso, recolhemos uma amostra aleatória simples de 30 tartarugas e medimos os seus pesos:

Poderíamos então utilizar o peso médio desta amostra de tartarugas para estimar o peso médio de todas as tartarugas da população.

Como calcular a média da amostra

A fórmula para calcular a média da amostra, frequentemente designada por x , é a seguinte

x = Σx i / n

onde:

  • Σ: Um símbolo grego que significa "soma"
  • x i : O valor da i-ésima observação no conjunto de dados
  • n: A dimensão da amostra

Por exemplo, suponhamos que recolhemos uma amostra de 10 tartarugas com os seguintes pesos (em libras):

  • 70, 80, 80, 85, 90, 95, 110, 120, 140, 150

A média da amostra seria calculada como:

  • x = (70+ 80+80+85+90+95+110+120+140+150) / 10 = 102

Porque é que a média da amostra não é enviesada

No jargão estatístico, diríamos que a média da amostra é um estatística enquanto a média da população é a parâmetro .

Eis a diferença entre os dois termos:

A estatística é um número que descreve uma caraterística de uma amostra.

A parâmetro é um número que descreve uma caraterística de uma população.

O parâmetro é o valor que estamos realmente interessados em medir, mas a estatística é o valor que utilizamos para estimar o valor do parâmetro, uma vez que a estatística é muito mais fácil de obter.

Quando utilizamos um método como a amostragem aleatória simples para obter uma amostra, dizemos que a média da amostra é uma estimador não enviesado da média da população.

Por outras palavras, não temos razões para crer que a média da amostra subestime ou sobrestime a verdadeira média da população.

A razão é que, quando utilizamos um método como a amostragem aleatória simples, todos os elementos da população têm a mesma hipótese de serem incluídos na amostra, o que significa que a amostra é provavelmente uma "versão reduzida" da população total.

Dir-se-ia que a amostra é representativa da população em geral, o que significa que a média da amostra deve ser uma boa estimativa da média da população, assumindo que a dimensão da amostra é suficientemente grande.

Sobre a utilização de intervalos de confiança com a média da amostra

Embora a média da amostra forneça uma estimativa não enviesada da média da população, é pouco provável que a média da amostra exatamente correspondem à média da população.

Por exemplo, se quisermos utilizar uma amostra de tartarugas para estimar o peso médio de uma população de tartarugas, é possível que escolhamos uma amostra cheia de tartarugas de baixo peso ou talvez uma amostra cheia de tartarugas pesadas.

Para captar esta incerteza em torno da nossa estimativa da média da população, podemos criar um intervalo de confiança.

Um intervalo de confiança é um intervalo de valores que é suscetível de conter um parâmetro populacional com um determinado nível de confiança.

Por exemplo, podemos recolher uma amostra de 30 tartarugas e descobrir que o peso médio dessa amostra é de 102 libras. Se depois construirmos um intervalo de confiança de 95%, podemos descobrir que o intervalo é o seguinte:

Intervalo de confiança de 95% = [98,5, 105,5]

Interpretaríamos isto como significando que existe uma probabilidade de 95% de que o intervalo de confiança de [98,5, 105,5] contenha o verdadeiro peso médio da população de tartarugas.

Este intervalo de confiança é mais útil do que apenas a média da amostra porque nos dá um gama de valores em que a verdadeira média populacional é suscetível de se situar.