Como Fazer Análise Estatística Errada, e Como Corrigir

O exemplo a seguir contém um erro que ilustra um erro comum em análise estatística: a falha em considerar a dependência entre valores aleatórios. Em seguida, mostramos como corrigir o erro usando nossa álgebra estatística. Este exemplo reanálise um objetivo anterior: determinar um estimador não tendencioso para a variância populacional, $\sigma^2$, a partir de uma amostra de $n$ valores ${y_i}$.

Como antes, começamos com uma suposição de que nosso estimador não tendencioso de $\sigma^2$ é proporcional à soma dos quadrados das diferenças da média (semelhante à tentativa confusa que abandonamos anteriormente). Como sabemos que precisamos introduzir $\mu$ no cálculo, escolhemos expandir a soma adicionando e subtraindo $\mu$:

$$ \sum_{i=1}^{n} (y_i - \mu)^2 = \sum_{i=1}^{n} (y_i - \mu) + \sum_{i=1}^{n} (y_i - \mu) = - \sum_{i=1}^{n} (y_i - \mu) + \sum_{i=1}^{n} (y_i - \mu) $$

Agora, tomamos as médias do conjunto e as trazemos para dentro das somas:

$$ \sum_{i=1}^{n} (y_i - \mu)^2 = \sum_{i=1}^{n} (y_i - \mu) + \sum_{i=1}^{n} (y_i - \mu) $$

Todas as médias do lado direito agora são iguais às suas médias populacionais. Consideramos cada um dos três termos individualmente:

  • O primeiro termo é $\sigma^2$, onde $y_i$ representa o desvio quadrático da média.
  • O segundo termo no lado direito é zero, pois as médias de ambos os fatores, $(y_i - \mu)$ e $(y_i - \mu)$ são zero.
  • O terceiro termo é igual a $\frac{\sigma^2}{n}$.

Então, temos:

$$ \frac{1}{n} \sum_{i=1}^{n} (y_i - \mu) = \frac{\sigma^2}{n} $$

Agora, vamos à equação principal:

$$ \frac{1}{n} \sum_{i=1}^{n} (y_i - \mu)^2 = \frac{\sigma^2}{n} \quad (1) $$

O que está errado? Vamos tentar descobrir antes de continuar.

Erro no cálculo: O erro está no segundo ponto acima: apenas porque dois valores aleatórios têm médias iguais a zero, não significa que seu produto tenha média zero (veja a média de um produto mais cedo). De fato, a média do produto deve incluir a covariância entre os valores. Nesse caso, qualquer dado $y_i$ correlaciona-se (positivamente) com $y$ porque $y$ inclui cada $y_i$. Como eles são negados no segundo fator, a correlação final é negativa. Então, para um valor $k$, usando a bilinearidade da covariância ($\mu$ é constante):

$$ \text{cov}(y_k, y_j) = -\frac{\sigma^2}{n} $$

Agora, a única sobrevivente da operação de covariância é quando $j = k$:

$$ \text{cov}(y_k, y_k) = \frac{\sigma^2}{n} $$

Portanto, a equação (2) deveria incluir o termo da soma da equação (1) que foi descartado erroneamente. A média de cada termo nesta soma é a mesma, o que acabamos de calcular. Assim, o resultado é $n$ vezes $(-\sigma^2 / n)$:

$$ \frac{1}{n} \sum_{i=1}^{n} (y_i - \mu)^2 = \frac{\sigma^2}{n} \quad (2) $$

Agora a ordem foi restaurada ao universo.


Resumo: Este erro comum é corrigido ao considerar a covariância entre os termos, e isso corrige a fórmula para a estimativa da variância populacional.