Antes de calcular as incertezas, devemos entender o que elas significam

A significância estatística interpreta as incertezas. É um dos conceitos mais mal compreendidos e, ao mesmo tempo, mais importantes da ciência. Ela está por trás de praticamente todos os resultados experimentais e de simulação. Crenças (corretas ou incorretas) sobre a significância estatística orientam experimentos, pesquisas, financiamentos e políticas.

Compreender a significância estatística é pré-requisito para entender a ciência. Isso não pode ser enfatizado o suficiente, mas muitos (se não a maioria) cientistas e engenheiros não recebem treinamento formal em estatísticas. As páginas seguintes descrevem a significância estatística, surpreendentemente usando quase nenhuma matemática.

Visão Geral da Significância Estatística

O termo “significativo estatisticamente” tem um significado preciso, que é, infelizmente, diferente do significado comum da palavra “significativo”. Muitos experimentos comparam medidas quantitativas de duas populações, por exemplo, o QI de furões e esquilos. Em qualquer experimento real, as duas medidas quase certamente diferirão. Como devemos interpretar essa diferença?

Podemos usar a estatística para nos dizer o significado da diferença. Uma diferença que não é “estatisticamente significativa” em um experimento particular pode, de fato, ser muito importante. Mas só podemos determinar sua importância se fizermos outro experimento com resolução mais fina, o suficiente para satisfazer nosso julgamento subjetivo de “importância”. Para esta seção, eu uso a palavra importância para significar uma avaliação subjetiva de um resultado medido.

A afirmação “Não conseguimos medir uma diferença” é muito diferente de “Não há diferença importante”. A significância estatística é uma comparação quantitativa da magnitude de um efeito e a resolução das estatísticas usadas para medi-lo.

A significância estatística pode ser difícil, então começamos com várias afirmações gerais sobre o que ela é, e o que não é. Depois, damos declarações e exemplos mais específicos.

A significância estatística é muitas coisas:

  • A significância estatística é uma medida da capacidade de um experimento de resolver o seu próprio resultado medido.
  • Não é uma medida da importância de um resultado.
  • “Estatisticamente significativo” significa “mensurável por este experimento.” “Não estatisticamente significativo” significa que não podemos confiar totalmente no resultado deste experimento sozinho; o experimento foi muito impreciso para termos confiança no seu próprio resultado.
  • A significância estatística está intimamente relacionada com a incerteza.
  • A significância estatística é uma declaração quantitativa da probabilidade de que um resultado seja real, em vez de um erro de medição ou o resultado aleatório de uma amostragem que apenas aconteceu de ser assim (por acaso).
  • A significância estatística é uma rua de mão única: se um resultado é estatisticamente significativo, ele é (provavelmente) real. No entanto, ele pode ou não ser importante. Em contraste, se um resultado não é estatisticamente significativo, então não sabemos se é real ou não. No entanto, veremos que até um resultado não significativo pode, às vezes, fornecer informações significativas e úteis.
  • Se a diferença entre dois resultados em um experimento não é estatisticamente significativa, essa diferença ainda pode ser muito real e importante.

Detalhes da Significância Estatística

Uma medição significativa deve conter duas partes: a magnitude do resultado e os limites de confiança sobre ele, ambas as quais são declarações quantitativas. Quando dizemos: “A média do QI dos furões em nosso experimento é $102 \pm 5$ pontos,” queremos dizer que há 95% de chance de que o QI médio real esteja entre 97 e 107. Também poderíamos dizer que nossos limites de confiança de 95% são de 97 a 107. Ou, poderíamos dizer que nossa incerteza de 95% é de 5 pontos. Os limites de confiança às vezes são chamados de barras de erro, porque em um gráfico, os limites de confiança são convencionalmente desenhados como pequenas barras acima e abaixo dos valores medidos.

Suponha que testamos esquilos e encontramos que sua média de QI é $107 \pm 4$ pontos. Podemos dizer “em média, os esquilos têm QIs mais altos do que os furões?” Em outras palavras, a diferença que medimos é significativa ou aconteceu apenas por acaso? Para avaliar isso, calculamos a diferença e sua incerteza (lembre-se de que as incertezas não correlacionadas somam-se em quadratura):

$$ \Delta IQ = (107 - 102) \pm \sqrt{4^2 + 5^2} = 5 \pm 6 $$

Isso nos diz que a diferença está dentro da nossa incerteza, então não temos 95% de confiança de que os esquilos têm QIs mais altos. Portanto, ainda não sabemos se qualquer uma das populações tem QIs mais altos do que a outra. Nosso experimento não foi preciso o suficiente para medir uma diferença. Isso não significa que não haja diferença. No entanto, podemos dizer que há 95% de chance de que a diferença esteja entre -1 e 11 ($5 \pm 6$). Um dado experimento que mede uma diferença pode produzir um de dois resultados de significância estatística: (1) a diferença é estatisticamente significativa; ou (2) não é. Neste caso, a diferença não é (estatisticamente) significativa no nível de 95%.

Além disso, os limites de confiança fornecem um dos três resultados de “importância”: (1) confirmar que uma diferença é importante; ou (2) não importante; ou (3) inconclusivo. Mas o julgamento sobre o quanto é “importante” está fora do escopo do experimento. Por exemplo, podemos saber de pesquisas anteriores que uma diferença média de 10 pontos de QI torna uma população uma melhor fonte para treinar pilotos, suficientemente melhor para ser “importante.” Observe que esta é uma declaração subjetiva, e seu significado preciso está além do nosso escopo aqui.

Exemplos

Aqui estão alguns exemplos de declarações significativas e não tão significativas:

Declarações sem sentido

  • A diferença no QI entre os grupos A e B não é estatisticamente significativa. (Porque seu experimento foi ruim ou porque a diferença é pequena?)
  • Medimos uma diferença média de QI de 5 pontos. (Com que confiança?)

Declarações significativas, possivelmente subjetivas

  • Nosso experimento não teve resolução suficiente para saber se houve uma diferença importante no QI.
  • Nossos dados mostram que há 99% de chance de que a diferença de QI entre os grupos A e B seja menor que 1 ponto.