Como Fazer Análise Estatística Errada, e Como Corrigir
O exemplo a seguir contém um erro que ilustra um erro comum em análise estatística: a falha em considerar a dependência entre valores aleatórios. Em seguida, mostramos como corrigir o erro usando nossa álgebra estatística. Este exemplo reanálise um objetivo anterior: determinar um estimador não tendencioso para a variância populacional, , a partir de uma amostra de valores .
Como antes, começamos com uma suposição de que nosso estimador não tendencioso de é proporcional à soma dos quadrados das diferenças da média (semelhante à tentativa confusa que abandonamos anteriormente). Como sabemos que precisamos introduzir no cálculo, escolhemos expandir a soma adicionando e subtraindo :
Agora, tomamos as médias do conjunto e as trazemos para dentro das somas:
Todas as médias do lado direito agora são iguais às suas médias populacionais. Consideramos cada um dos três termos individualmente:
- O primeiro termo é , onde representa o desvio quadrático da média.
- O segundo termo no lado direito é zero, pois as médias de ambos os fatores, e são zero.
- O terceiro termo é igual a .
Então, temos:
Agora, vamos à equação principal:
O que está errado? Vamos tentar descobrir antes de continuar.
Erro no cálculo: O erro está no segundo ponto acima: apenas porque dois valores aleatórios têm médias iguais a zero, não significa que seu produto tenha média zero (veja a média de um produto mais cedo). De fato, a média do produto deve incluir a covariância entre os valores. Nesse caso, qualquer dado correlaciona-se (positivamente) com porque inclui cada . Como eles são negados no segundo fator, a correlação final é negativa. Então, para um valor , usando a bilinearidade da covariância ( é constante):
Agora, a única sobrevivente da operação de covariância é quando :
Portanto, a equação (2) deveria incluir o termo da soma da equação (1) que foi descartado erroneamente. A média de cada termo nesta soma é a mesma, o que acabamos de calcular. Assim, o resultado é vezes :
Agora a ordem foi restaurada ao universo.
Resumo: Este erro comum é corrigido ao considerar a covariância entre os termos, e isso corrige a fórmula para a estimativa da variância populacional.