13  Exemplo manual: ACP

Neste exemplo, vamos detalhar passo a passo a aplicação da Análise de Componentes Principais (ACP) em um pequeno conjunto de dados. O objetivo é demonstrar manualmente todos os cálculos, desde a preparação dos dados até a interpretação dos resultados, seguindo a metodologia apresentada na Capítulo 7.

13.1 O Cenário

Vamos expandir o exemplo da intuição geométrica, que usava Peso e Altura. Adicionaremos uma terceira variável, Renda (em milhares de R$), para um grupo de 5 indivíduos. A ideia é que Peso e Altura sejam correlacionados, mas a Renda não tenha uma correlação forte com eles.

Nosso conjunto de dados inicial é:

Indivíduo Peso (kg) Altura (cm) Renda (R$ 1000)
1 65 170 5.5
2 72 182 4.0
3 58 165 7.0
4 81 190 3.5
5 75 178 5.0

13.2 Passo 1: Preparação dos Dados

Conforme discutido no Capítulo 3, a ACP é sensível à escala das variáveis. Portanto, o primeiro passo é padronizar os dados. Isso envolve duas etapas: centralizar (subtrair a média) e escalonar (dividir pelo desvio padrão).

13.2.1 1.1. Calcular a Média e o Desvio Padrão

Primeiro, calculamos a média e o desvio padrão para cada variável.

\[ \bar{x}_{peso} = \frac{65+72+58+81+75}{5} = 70.2 \, \text{kg} \] \[ \bar{x}_{altura} = \frac{170+182+165+190+178}{5} = 177.0 \, \text{cm} \] \[ \bar{x}_{renda} = \frac{5.5+4.0+7.0+3.5+5.0}{5} = 5.0 \, (R\$ 1000) \]

Agora, os desvios padrão (usando a fórmula com denominador \(n-1\)):

\[ s_{peso} = \sqrt{\frac{(65-70.2)^2 + ... + (75-70.2)^2}{4}} = 8.64 \, \text{kg} \] \[ s_{altura} = \sqrt{\frac{(170-177)^2 + ... + (178-177)^2}{4}} = 9.67 \, \text{cm} \] \[ s_{renda} = \sqrt{\frac{(5.5-5.0)^2 + ... + (5.0-5.0)^2}{4}} = 1.35 \, (R\$ 1000) \]

13.2.2 1.2. Padronizar os Dados

Com as médias e desvios padrão, podemos padronizar cada observação \(x_{ij}\) usando a fórmula \(z_{ij} = (x_{ij} - \bar{x}_j) / s_j\).

Por exemplo, para o Indivíduo 1: \[ z_{1, peso} = \frac{65 - 70.2}{8.64} = -0.60 \] \[ z_{1, altura} = \frac{170 - 177}{9.67} = -0.72 \] \[ z_{1, renda} = \frac{5.5 - 5.0}{1.35} = 0.37 \]

Aplicando isso a todos os dados, obtemos a matriz de dados padronizados \(\mathbf{Z}\):

\[ \mathbf{Z} = \begin{pmatrix} -0.60 & -0.72 & 0.37 \\ 0.21 & 0.52 & -0.74 \\ -1.41 & -1.24 & 1.48 \\ 1.25 & 1.34 & -1.11 \\ 0.56 & 0.10 & 0.00 \end{pmatrix} \]

13.3 Passo 2: Calcular a Matriz de Correlação

Como estamos trabalhando com dados padronizados, a ACP será realizada sobre a matriz de correlação \(\mathbf{R}\). A matriz de correlação pode ser calculada como:

\[ \mathbf{R} = \frac{1}{n-1} \mathbf{Z}' \mathbf{Z} \]

NotaPor que essa fórmula funciona?

Essa fórmula só é válida porque \(\mathbf{Z}\) contém dados padronizados (média 0 e variância 1). Para dados padronizados, a covariância amostral entre duas variáveis é igual à sua correlação. Para dados não padronizados, usaríamos \(\mathbf{S} = \frac{1}{n-1}(\mathbf{X} - \bar{\mathbf{X}})'(\mathbf{X} - \bar{\mathbf{X}})\).

Calculando \(\mathbf{Z}' \mathbf{Z}\): \[ \mathbf{Z}' \mathbf{Z} = \begin{pmatrix} 4.00 & 3.85 & -0.81 \\ 3.85 & 4.00 & -1.18 \\ -0.81 & -1.18 & 4.00 \end{pmatrix} \]

Dividindo por \(n-1 = 4\), obtemos a matriz de correlação \(\mathbf{R}\):

\[ \mathbf{R} = \begin{pmatrix} 1.00 & 0.96 & -0.20 \\ 0.96 & 1.00 & -0.29 \\ -0.20 & -0.29 & 1.00 \end{pmatrix} \]

Como esperado, a correlação entre Peso e Altura (0.96) é muito alta, enquanto a Renda tem uma correlação fraca e negativa com as outras duas variáveis.

13.4 Passo 3: Decomposição Espectral da Matriz de Correlação

O próximo passo é encontrar os autovalores (\(\lambda\)) e autovetores (\(\mathbf{e}\)) da matriz de correlação \(\mathbf{R}\). Eles são a solução da equação \(\mathbf{R}\mathbf{e} = \lambda\mathbf{e}\), que é equivalente a resolver \((\mathbf{R} - \lambda\mathbf{I})\mathbf{e} = \mathbf{0}\).

Isso requer encontrar as raízes do polinômio característico \(det(\mathbf{R} - \lambda\mathbf{I}) = 0\).

\[ det \begin{pmatrix} 1.00 - \lambda & 0.96 & -0.20 \\ 0.96 & 1.00 - \lambda & -0.29 \\ -0.20 & -0.29 & 1.00 - \lambda \end{pmatrix} = 0 \]

Resolver este determinante cúbico manualmente é trabalhoso. Usando uma calculadora ou software, encontramos os seguintes autovalores:

\[ \lambda_1 = 1.98 \quad \lambda_2 = 1.00 \quad \lambda_3 = 0.02 \]

13.4.1 Interpretação dos Autovalores

A variância total no sistema é a soma dos autovalores (que é igual ao traço da matriz \(\mathbf{R}\), ou seja, 3). - Variância Total = \(1.98 + 1.00 + 0.02 = 3.00\)

A proporção da variância explicada por cada componente é: - CP1: \(\frac{1.98}{3.00} = 66.0\%\) - CP2: \(\frac{1.00}{3.00} = 33.3\%\) - CP3: \(\frac{0.02}{3.00} = 0.7\%\)

Os dois primeiros componentes juntos explicam \(66.0\% + 33.3\% = 99.3\%\) da variância total. Isso indica que podemos reduzir a dimensionalidade de 3 para 2 com uma perda mínima de informação.

13.5 Passo 4: Calcular os Autovetores

Agora, para cada autovalor, resolvemos o sistema \((\mathbf{R} - \lambda_i\mathbf{I})\mathbf{e}_i = \mathbf{0}\) para encontrar o autovetor correspondente \(\mathbf{e}_i\).

  • Para \(\lambda_1 = 1.98\): \[ \begin{pmatrix} -0.98 & 0.96 & -0.20 \\ 0.96 & -0.98 & -0.29 \\ -0.20 & -0.29 & -0.98 \end{pmatrix} \begin{pmatrix} e_{11} \\ e_{12} \\ e_{13} \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \] A solução, após normalização (para que \(\mathbf{e}_1'\mathbf{e}_1 = 1\)), é: \[ \mathbf{e}_1 = \begin{pmatrix} 0.69 \\ 0.71 \\ -0.15 \end{pmatrix} \]

  • Para \(\lambda_2 = 1.00\): \[ \begin{pmatrix} 0.00 & 0.96 & -0.20 \\ 0.96 & 0.00 & -0.29 \\ -0.20 & -0.29 & 0.00 \end{pmatrix} \begin{pmatrix} e_{21} \\ e_{22} \\ e_{23} \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \] A solução normalizada é: \[ \mathbf{e}_2 = \begin{pmatrix} 0.18 \\ -0.22 \\ -0.96 \end{pmatrix} \]

  • Para \(\lambda_3 = 0.02\): \[ \begin{pmatrix} 0.98 & 0.96 & -0.20 \\ 0.96 & 0.98 & -0.29 \\ -0.20 & -0.29 & 0.98 \end{pmatrix} \begin{pmatrix} e_{31} \\ e_{32} \\ e_{33} \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \] A solução normalizada é: \[ \mathbf{e}_3 = \begin{pmatrix} -0.70 \\ 0.67 \\ -0.24 \end{pmatrix} \]

13.6 Passo 5: Interpretação dos Componentes

Os autovetores (ou loadings) nos dizem como as variáveis originais se combinam para formar cada componente.

  • Componente Principal 1 (\(CP_1\)): \[ Y_1 = 0.69 \cdot Z_{peso} + 0.71 \cdot Z_{altura} - 0.15 \cdot Z_{renda} \] Este componente é basicamente uma média ponderada de Peso e Altura, com uma pequena contribuição negativa da Renda. Podemos interpretá-lo como um índice de “Tamanho Corporal”. As cargas altas e positivas para Peso e Altura confirmam a alta correlação entre essas variáveis.

  • Componente Principal 2 (\(CP_2\)): \[ Y_2 = 0.18 \cdot Z_{peso} - 0.22 \cdot Z_{altura} - 0.96 \cdot Z_{renda} \] Este componente é dominado pela Renda, com uma carga muito alta e negativa. As cargas para Peso e Altura são pequenas. Podemos interpretar o \(CP_2\) como um índice de “Status Socioeconômico Inverso”, já que ele é quase que inteiramente uma representação da Renda (com sinal trocado).

13.7 Passo 6: Calcular os Scores dos Componentes

Finalmente, podemos calcular os valores (scores) dos componentes principais para cada indivíduo. Usamos a fórmula \(\mathbf{Y} = \mathbf{Z} \mathbf{E}\), onde \(\mathbf{E}\) é a matriz cujas colunas são os autovetores (seguindo a notação de Capítulo 7).

\[ \mathbf{E} = \begin{pmatrix} 0.69 & 0.18 & -0.70 \\ 0.71 & -0.22 & 0.67 \\ -0.15 & -0.96 & -0.24 \end{pmatrix} \]

Para o Indivíduo 1, com dados padronizados \((-0.60, -0.72, 0.37)\): \[ y_{11} = (-0.60)(0.69) + (-0.72)(0.71) + (0.37)(-0.15) = -0.98 \] \[ y_{12} = (-0.60)(0.18) + (-0.72)(-0.22) + (0.37)(-0.96) = -0.31 \]

Calculando para todos os indivíduos, obtemos a matriz de scores \(\mathbf{Y}\):

Indivíduo CP1 (Tamanho) CP2 (Renda Inversa)
1 -0.98 -0.31
2 0.57 0.85
3 -2.19 -1.18
4 2.09 1.35
5 0.46 0.08

13.8 Conclusão

Este exemplo demonstra o poder da ACP. Começamos com três variáveis e, através de uma derivação passo a passo, conseguimos: 1. Reduzir a dimensionalidade: Mostramos que 99.3% da informação está contida em dois componentes. 2. Criar variáveis não correlacionadas: O \(CP_1\) e o \(CP_2\) são, por construção, ortogonais. 3. Interpretar a estrutura latente: Identificamos que a principal fonte de variação nos dados é o “Tamanho Corporal” (uma combinação de Peso e Altura), seguida pelo “Status Socioeconômico” (representado pela Renda).

A análise manual, embora trabalhosa, revela a mecânica exata da técnica, solidificando a compreensão teórica apresentada no capítulo principal.