Como Fazer Análise Estatística Errada, e Como Corrigir
O exemplo a seguir contém um erro que ilustra um erro comum em análise estatística: a falha em considerar a dependência entre valores aleatórios. Em seguida, mostramos como corrigir o erro usando nossa álgebra estatística. Este exemplo reanálise um objetivo anterior: determinar um estimador não tendencioso para a variância populacional, $\sigma^2$, a partir de uma amostra de $n$ valores ${y_i}$.
Como antes, começamos com uma suposição de que nosso estimador não tendencioso de $\sigma^2$ é proporcional à soma dos quadrados das diferenças da média (semelhante à tentativa confusa que abandonamos anteriormente). Como sabemos que precisamos introduzir $\mu$ no cálculo, escolhemos expandir a soma adicionando e subtraindo $\mu$:
$$ \sum_{i=1}^{n} (y_i - \mu)^2 = \sum_{i=1}^{n} (y_i - \mu) + \sum_{i=1}^{n} (y_i - \mu) = - \sum_{i=1}^{n} (y_i - \mu) + \sum_{i=1}^{n} (y_i - \mu) $$
Agora, tomamos as médias do conjunto e as trazemos para dentro das somas:
$$ \sum_{i=1}^{n} (y_i - \mu)^2 = \sum_{i=1}^{n} (y_i - \mu) + \sum_{i=1}^{n} (y_i - \mu) $$
Todas as médias do lado direito agora são iguais às suas médias populacionais. Consideramos cada um dos três termos individualmente:
- O primeiro termo é $\sigma^2$, onde $y_i$ representa o desvio quadrático da média.
- O segundo termo no lado direito é zero, pois as médias de ambos os fatores, $(y_i - \mu)$ e $(y_i - \mu)$ são zero.
- O terceiro termo é igual a $\frac{\sigma^2}{n}$.
Então, temos:
$$ \frac{1}{n} \sum_{i=1}^{n} (y_i - \mu) = \frac{\sigma^2}{n} $$
Agora, vamos à equação principal:
$$ \frac{1}{n} \sum_{i=1}^{n} (y_i - \mu)^2 = \frac{\sigma^2}{n} \quad (1) $$
O que está errado? Vamos tentar descobrir antes de continuar.
Erro no cálculo: O erro está no segundo ponto acima: apenas porque dois valores aleatórios têm médias iguais a zero, não significa que seu produto tenha média zero (veja a média de um produto mais cedo). De fato, a média do produto deve incluir a covariância entre os valores. Nesse caso, qualquer dado $y_i$ correlaciona-se (positivamente) com $y$ porque $y$ inclui cada $y_i$. Como eles são negados no segundo fator, a correlação final é negativa. Então, para um valor $k$, usando a bilinearidade da covariância ($\mu$ é constante):
$$ \text{cov}(y_k, y_j) = -\frac{\sigma^2}{n} $$
Agora, a única sobrevivente da operação de covariância é quando $j = k$:
$$ \text{cov}(y_k, y_k) = \frac{\sigma^2}{n} $$
Portanto, a equação (2) deveria incluir o termo da soma da equação (1) que foi descartado erroneamente. A média de cada termo nesta soma é a mesma, o que acabamos de calcular. Assim, o resultado é $n$ vezes $(-\sigma^2 / n)$:
$$ \frac{1}{n} \sum_{i=1}^{n} (y_i - \mu)^2 = \frac{\sigma^2}{n} \quad (2) $$
Agora a ordem foi restaurada ao universo.
Resumo: Este erro comum é corrigido ao considerar a covariância entre os termos, e isso corrige a fórmula para a estimativa da variância populacional.