Como Fazer Análise Estatística Errada, e Como Corrigir

O exemplo a seguir contém um erro que ilustra um erro comum em análise estatística: a falha em considerar a dependência entre valores aleatórios. Em seguida, mostramos como corrigir o erro usando nossa álgebra estatística. Este exemplo reanálise um objetivo anterior: determinar um estimador não tendencioso para a variância populacional, σ2\sigma^2, a partir de uma amostra de nn valores yi{y_i}.

Como antes, começamos com uma suposição de que nosso estimador não tendencioso de σ2\sigma^2 é proporcional à soma dos quadrados das diferenças da média (semelhante à tentativa confusa que abandonamos anteriormente). Como sabemos que precisamos introduzir μ\mu no cálculo, escolhemos expandir a soma adicionando e subtraindo μ\mu:

i=1n(yiμ)2=i=1n(yiμ)+i=1n(yiμ)=i=1n(yiμ)+i=1n(yiμ) \sum_{i=1}^{n} (y_i - \mu)^2 = \sum_{i=1}^{n} (y_i - \mu) + \sum_{i=1}^{n} (y_i - \mu) = - \sum_{i=1}^{n} (y_i - \mu) + \sum_{i=1}^{n} (y_i - \mu)

Agora, tomamos as médias do conjunto e as trazemos para dentro das somas:

i=1n(yiμ)2=i=1n(yiμ)+i=1n(yiμ) \sum_{i=1}^{n} (y_i - \mu)^2 = \sum_{i=1}^{n} (y_i - \mu) + \sum_{i=1}^{n} (y_i - \mu)

Todas as médias do lado direito agora são iguais às suas médias populacionais. Consideramos cada um dos três termos individualmente:

  • O primeiro termo é σ2\sigma^2, onde yiy_i representa o desvio quadrático da média.
  • O segundo termo no lado direito é zero, pois as médias de ambos os fatores, (yiμ)(y_i - \mu) e (yiμ)(y_i - \mu) são zero.
  • O terceiro termo é igual a σ2n\frac{\sigma^2}{n}.

Então, temos:

1ni=1n(yiμ)=σ2n \frac{1}{n} \sum_{i=1}^{n} (y_i - \mu) = \frac{\sigma^2}{n}

Agora, vamos à equação principal:

1ni=1n(yiμ)2=σ2n(1) \frac{1}{n} \sum_{i=1}^{n} (y_i - \mu)^2 = \frac{\sigma^2}{n} \quad (1)

O que está errado? Vamos tentar descobrir antes de continuar.

Erro no cálculo: O erro está no segundo ponto acima: apenas porque dois valores aleatórios têm médias iguais a zero, não significa que seu produto tenha média zero (veja a média de um produto mais cedo). De fato, a média do produto deve incluir a covariância entre os valores. Nesse caso, qualquer dado yiy_i correlaciona-se (positivamente) com yy porque yy inclui cada yiy_i. Como eles são negados no segundo fator, a correlação final é negativa. Então, para um valor kk, usando a bilinearidade da covariância (μ\mu é constante):

cov(yk,yj)=σ2n \text{cov}(y_k, y_j) = -\frac{\sigma^2}{n}

Agora, a única sobrevivente da operação de covariância é quando j=kj = k:

cov(yk,yk)=σ2n \text{cov}(y_k, y_k) = \frac{\sigma^2}{n}

Portanto, a equação (2) deveria incluir o termo da soma da equação (1) que foi descartado erroneamente. A média de cada termo nesta soma é a mesma, o que acabamos de calcular. Assim, o resultado é nn vezes (σ2/n)(-\sigma^2 / n):

1ni=1n(yiμ)2=σ2n(2) \frac{1}{n} \sum_{i=1}^{n} (y_i - \mu)^2 = \frac{\sigma^2}{n} \quad (2)

Agora a ordem foi restaurada ao universo.


Resumo: Este erro comum é corrigido ao considerar a covariância entre os termos, e isso corrige a fórmula para a estimativa da variância populacional.