Sempre que realizar um teste estatístico, é possível que obtenha um valor p inferior a 0,05 por mero acaso, mesmo que a hipótese nula seja verdadeira.
Por exemplo, suponha que quer saber se uma determinada planta tem uma altura média superior a 10 polegadas. As hipóteses nula e alternativa para o teste seriam:
H 0 : μ = 10 polegadas
H A : μ> 10 polegadas
Para testar esta hipótese, pode sair e recolher uma amostra aleatória de 20 plantas para medir. Mesmo que a verdadeira altura média desta espécie de planta seja de 10 polegadas, é possível que tenha selecionado uma amostra de 20 plantas que eram invulgarmente altas, o que o levará a rejeitar a hipótese nula.
Apesar de a hipótese nula ser verdadeira (a altura média desta planta era realmente de 10 polegadas), rejeitou-a. Em estatística, chamamos a isto uma "falsa descoberta". Afirmou ter feito uma descoberta - um "resultado significativo" - mas na realidade é uma descoberta falsa.
Agora imagine que realiza 100 testes estatísticos de uma só vez. Utilizando um nível alfa de 0,05, há apenas 5% de hipóteses de fazer uma falsa descoberta com qualquer teste individual, mas como está a realizar uma quantidade tão grande de testes, seria de esperar que cerca de 5 dos 100 levassem a falsas descobertas.
No mundo moderno, as falsas descobertas podem ser um problema comum, uma vez que a tecnologia permitiu aos investigadores efetuar centenas ou mesmo milhares de testes estatísticos em simultâneo.
Por exemplo, os investigadores médicos podem efetuar testes estatísticos em dezenas de milhares de genes ao mesmo tempo, o que, mesmo com uma taxa de falsas descobertas de apenas 5%, significa que centenas de testes podem resultar em falsas descobertas.
Uma forma de controlar a taxa de falsas descobertas é utilizar algo conhecido como Procedimento de Benjamini-Hochberg.
O procedimento de Benjamini-Hochberg
O Procedimento de Benjamini-Hochberg funciona da seguinte forma:
Passo 1: Efectue todos os seus testes estatísticos e encontre o valor p para cada teste.
Passo 2: Organize os valores de p por ordem do menor para o maior, atribuindo uma classificação a cada um - o valor de p mais pequeno tem uma classificação de 1, o valor mais pequeno seguinte tem uma classificação de 2, etc.
Passo 3: Calcule o valor crítico de Benjamini-Hochberg para cada valor p, utilizando a fórmula (i/m)*Q
onde:
i = classificação do valor p
m = número total de ensaios
Q = a taxa de falsa descoberta escolhida
Passo 4: Encontre o maior valor p que é inferior ao valor crítico. Designe cada valor p que é inferior a este valor p como significativo.
O exemplo seguinte ilustra como realizar este procedimento com valores concretos.
Exemplo
Suponha que os investigadores estão interessados em determinar se 20 variáveis diferentes estão ou não associadas a doenças cardíacas. Realizam 20 testes estatísticos individuais de uma só vez e recebem um valor p para cada teste. A tabela seguinte mostra os valores p para cada teste, ordenados do menor para o maior.
Suponhamos que os investigadores estão dispostos a aceitar uma taxa de descoberta falsa de 20%. Assim, para calcular o valor crítico de Benjamini-Hochberg para cada valor p, podemos utilizar a seguinte fórmula: (i/20)*0,2 onde i = classificação do valor p.
A tabela seguinte apresenta o valor crítico de Benjamini-Hochberg para cada valor p individual:
O teste com o maior valor de p que é inferior ao seu valor crítico de Benjamini-Hochberg é a Variável n.º 11, que tem um valor de p de 0,039 e um valor crítico de B-H de 0,040.
Assim, este teste e todos os testes com um valor p inferior serão considerados significativos.
Note-se que, apesar de a Variável nº 17 e a Variável nº 3 não terem valores p inferiores aos seus valores críticos B-H, continuam a ser consideradas significativas, uma vez que têm valores p inferiores aos da Variável nº 11.
Como escolher uma taxa de falsa descoberta
Um dos passos mais importantes no procedimento de Benjamini-Hochberg é a escolha de uma taxa de falsa descoberta. Deve escolher a sua taxa de falsa descoberta antes de recolher quaisquer dados ou realizar quaisquer testes estatísticos.
Normalmente, durante a fase exploratória da análise, é efectuado um grande número de testes estatísticos, que são seguidos de mais testes para investigar melhor os resultados.
Se os testes de seguimento forem de baixo custo, pode considerar definir uma taxa de falsas descobertas mais elevada porque, mesmo que tenha algumas falsas descobertas, é provável que as descubra com testes futuros.
Além disso, se o custo de perder uma descoberta importante for elevado, pode querer definir uma taxa de falsas descobertas mais elevada para não perder nada importante.
Dependendo dos custos da sua investigação e da importância de não perder nenhuma descoberta importante, a taxa de falsas descobertas variará de uma situação para outra.