Para amostras, podemos pressupor que o desvio padrão da amostra está razoavelmente próximo do desvio padrão da população (Wheelan, 2016). Isso nos permite supor que a diferença entre as médias de duas amostras suficientemente grandes deve ser próxima de 0. Dessa forma, se a nossa pesquisa identifica uma diferença substancial entre as médias de duas amostras, nós podemos aplicar as características da distribuição normal para concluir que:
- se a média da sua amostra estiver a mais de 2 desvios padrão de uma média populacional projetada com razoável segurança, você pode concluir que essa possibilidade somente ocorreria em menos de 5% dos casos, porque, como já vimos, a regra empírica diz que 95,5% dos eventos distribuídos segundo uma curva normal de distribuição, como é o caso da distribuição de amostras relativamente grandes. Nesse caso, o valor P será inferior a 0,05 (equivalente a 5/100 ou 5%)
- se as médias das duas amostras estiverem a uma distância ainda maior, diferindo 3 desvios padrão de distância da média projetada da população (levando em conta as margens de erro), você saberá que isso somente ocorre em menos 0,3% dos casos, pois 99,7% das amostras estão a menos de 3 desvios padrão da média. Nesse caso, o valor-p será menor que 0,003 (equivalente 3/100 ou 3%).
Isso faz com que o valor-p sirva como um nível de confiança na capacidade de suas amostras serem capazes de refutar a hipótese nula. Se o valor p foi de 0,05 (ou seja, 5%) ou menor, isso significa que se pode esperar que amostras como a que foram utilizadas somente serão compatíveis com a hipótese nula em menos de 5% dos casos. Em outras palavras, a amostra analisada somente seria compatível com a hipótese nula caso os valores da amostra fossem muito distantes da média, o que pode ocorrer, mas é relativamente improvável (ocorreria apenas 1 em cada 20 vezes).