3 Amostra e Estimação de Parâmetros

No capítulo anterior, introduzimos os conceitos teóricos que descrevem uma população multivariada: o vetor de médias \(\boldsymbol{\mu}\) e a matriz de covariâncias \(\boldsymbol{\Sigma}\). Esses parâmetros são construções ideais que existem no nível populacional. Na prática, quase nunca temos acesso a toda a população para calculá-los diretamente.

O nosso trabalho como estatísticos e analistas de dados é fazer inferências sobre esses parâmetros desconhecidos com base em um conjunto limitado de dados. Fazemos isso através da amostragem.

3.1 Da População à Amostra

Assumimos que coletamos uma amostra aleatória de \(n\) observações da população. Cada observação, \(\mathbf{x}_i\) (com \(i=1, \ldots, n\)), é uma realização independente do vetor aleatório \(\mathbf{x}\) que definimos no capítulo anterior.

A coleção de todas essas observações forma o nosso conjunto de dados. É aqui que, finalmente, introduzimos a matriz de dados, \(\mathbf{X}\), uma estrutura central em toda a análise multivariada aplicada.

A matriz \(\mathbf{X}\) é uma matriz de dimensão \(n \times p\), onde cada linha é uma observação multivariada e cada coluna representa uma variável.

\[ \mathbf{X} = \begin{pmatrix} \mathbf{x}_1' \\ \mathbf{x}_2' \\ \vdots \\ \mathbf{x}_n' \end{pmatrix} = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{pmatrix} \tag{3.1}\]

O elemento \(x_{ij}\) representa o valor da \(j\)-ésima variável para a \(i\)-ésima observação. Com esta matriz em mãos, nosso objetivo é calcular quantidades que sirvam como boas estimativas para os parâmetros populacionais \(\boldsymbol{\mu}\) e \(\boldsymbol{\Sigma}\).

3.2 Estimadores Amostrais

As quantidades que calculamos a partir da amostra são chamadas de estatísticas amostrais ou estimadores, e são as contrapartes amostrais dos parâmetros populacionais.

Definição 3.1 O estimador de \(\boldsymbol{\mu}\) é o vetor de médias amostral, \(\bar{\mathbf{x}}\), cujos componentes \(\bar{x}_j\) são a média das observações para a \(j\)-ésima variável.

\[ \bar{x}_j = \frac{1}{n} \sum_{i=1}^n x_{ij}, \quad \text{resultando em} \quad \bar{\mathbf{x}} = \begin{pmatrix} \bar{x}_1 \\ \vdots \\ \bar{x}_p \end{pmatrix} \]

Definição 3.2 O estimador de \(\boldsymbol{\Sigma}\) é a matriz de covariâncias amostral, \(\mathbf{S}\). Seus elementos são a variância amostral (\(s_{jj}\)) e a covariância amostral (\(s_{jk}\)).

\(s_{jk} = \frac{1}{n-1} \sum_{i=1}^n (x_{ij} - \bar{x}_j)(x_{ik} - \bar{x}_k)\)

A matriz resultante é:

\[ \mathbf{S} = \begin{pmatrix} s_{11} & s_{12} & \cdots & s_{1p} \\ s_{21} & s_{22} & \cdots & s_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ s_{p1} & s_{p2} & \cdots & s_{pp} \end{pmatrix} \]

Por que dividir por \(n-1\)?

A divisão por \(n-1\) (graus de liberdade) em vez de \(n\) é feita para garantir que \(s_{jk}\) seja um estimador não-viesado de \(\sigma_{jk}\), ou seja, \(E[s_{jk}] = \sigma_{jk}\).

Definição 3.3 O estimador de \(\mathbf{P}\) é a matriz de correlações amostral, \(\mathbf{R}\), cujos elementos \(r_{jk}\) são obtidos padronizando a covariância amostral.

\(r_{jk} = \frac{s_{jk}}{\sqrt{s_{jj}} \sqrt{s_{kk}}} = \frac{\sum_{i=1}^n (x_{ij} - \bar{x}_j)(x_{ik} - \bar{x}_k)}{\sqrt{\sum_{i=1}^n (x_{ij} - \bar{x}_j)^2} \sqrt{\sum_{i=1}^n (x_{ik} - \bar{x}_k)^2}}\)

A matriz resultante é:

\[ \mathbf{R} = \begin{pmatrix} 1 & r_{12} & \cdots & r_{1p} \\ r_{21} & 1 & \cdots & r_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ r_{p1} & r_{p2} & \cdots & 1 \end{pmatrix} \]

A matriz \(\mathbf{R}\) é uma matriz simétrica com 1s na diagonal.

Em resumo: Neste capítulo, fizemos a ponte entre a teoria e a prática. - No nível populacional, temos parâmetros teóricos e não observáveis (\(\boldsymbol{\mu}\), \(\boldsymbol{\Sigma}\)). - No nível amostral, temos dados observáveis na matriz \(\mathbf{X}\), a partir da qual calculamos estatísticas (\(\bar{\mathbf{x}}\), \(\mathbf{S}\)) que estimam esses parâmetros.

A maior parte das técnicas que veremos neste livro opera sobre as matrizes \(\mathbf{S}\) ou \(\mathbf{R}\) para fazer inferências sobre a estrutura da população.