13 Exemplo manual: ACP

Neste exemplo, vamos detalhar passo a passo a aplicação da Análise de Componentes Principais (ACP) em um pequeno conjunto de dados. O objetivo é demonstrar manualmente todos os cálculos, desde a preparação dos dados até a interpretação dos resultados, seguindo a metodologia apresentada na Capítulo 7.

13.1 O Cenário

Vamos expandir o exemplo da intuição geométrica, que usava Peso e Altura. Adicionaremos uma terceira variável, Renda (em milhares de R$), para um grupo de 5 indivíduos. A ideia é que Peso e Altura sejam correlacionados, mas a Renda não tenha uma correlação forte com eles.

Nosso conjunto de dados inicial é:

Indivíduo	Peso (kg)	Altura (cm)	Renda (R$ 1000)
1	65	170	5.5
2	72	182	4.0
3	58	165	7.0
4	81	190	3.5
5	75	178	5.0

13.2 Passo 1: Preparação dos Dados

Conforme discutido no Capítulo 3, a ACP é sensível à escala das variáveis. Portanto, o primeiro passo é padronizar os dados. Isso envolve duas etapas: centralizar (subtrair a média) e escalonar (dividir pelo desvio padrão).

13.2.1 1.1. Calcular a Média e o Desvio Padrão

Primeiro, calculamos a média e o desvio padrão para cada variável.

\[ \bar{x}_{peso} = \frac{65+72+58+81+75}{5} = 70.2 \, \text{kg} \] \[ \bar{x}_{altura} = \frac{170+182+165+190+178}{5} = 177.0 \, \text{cm} \] \[ \bar{x}_{renda} = \frac{5.5+4.0+7.0+3.5+5.0}{5} = 5.0 \, (R\$ 1000) \]

Agora, os desvios padrão (usando a fórmula com denominador $n-1$):

\[ s_{peso} = \sqrt{\frac{(65-70.2)^2 + ... + (75-70.2)^2}{4}} = 8.64 \, \text{kg} \] \[ s_{altura} = \sqrt{\frac{(170-177)^2 + ... + (178-177)^2}{4}} = 9.67 \, \text{cm} \] \[ s_{renda} = \sqrt{\frac{(5.5-5.0)^2 + ... + (5.0-5.0)^2}{4}} = 1.35 \, (R\$ 1000) \]

13.2.2 1.2. Padronizar os Dados

Com as médias e desvios padrão, podemos padronizar cada observação $x_{ij}$ usando a fórmula $z_{ij} = (x_{ij} - \bar{x}_j) / s_j$.

Por exemplo, para o Indivíduo 1: \[ z_{1, peso} = \frac{65 - 70.2}{8.64} = -0.60 \] \[ z_{1, altura} = \frac{170 - 177}{9.67} = -0.72 \] \[ z_{1, renda} = \frac{5.5 - 5.0}{1.35} = 0.37 \]

Aplicando isso a todos os dados, obtemos a matriz de dados padronizados $\mathbf{Z}$:

\[ \mathbf{Z} = \begin{pmatrix} -0.60 & -0.72 & 0.37 \\ 0.21 & 0.52 & -0.74 \\ -1.41 & -1.24 & 1.48 \\ 1.25 & 1.34 & -1.11 \\ 0.56 & 0.10 & 0.00 \end{pmatrix} \]

13.3 Passo 2: Calcular a Matriz de Correlação

Como estamos trabalhando com dados padronizados, a ACP será realizada sobre a matriz de correlação $\mathbf{R}$. A matriz de correlação pode ser calculada como:

\[ \mathbf{R} = \frac{1}{n-1} \mathbf{Z}' \mathbf{Z} \]

Por que essa fórmula funciona?

Essa fórmula só é válida porque $\mathbf{Z}$ contém dados padronizados (média 0 e variância 1). Para dados padronizados, a covariância amostral entre duas variáveis é igual à sua correlação. Para dados não padronizados, usaríamos $\mathbf{S} = \frac{1}{n-1}(\mathbf{X} - \bar{\mathbf{X}})'(\mathbf{X} - \bar{\mathbf{X}})$.

Calculando $\mathbf{Z}' \mathbf{Z}$: \[ \mathbf{Z}' \mathbf{Z} = \begin{pmatrix} 4.00 & 3.85 & -0.81 \\ 3.85 & 4.00 & -1.18 \\ -0.81 & -1.18 & 4.00 \end{pmatrix} \]

Dividindo por $n-1 = 4$, obtemos a matriz de correlação $\mathbf{R}$:

\[ \mathbf{R} = \begin{pmatrix} 1.00 & 0.96 & -0.20 \\ 0.96 & 1.00 & -0.29 \\ -0.20 & -0.29 & 1.00 \end{pmatrix} \]

Como esperado, a correlação entre Peso e Altura (0.96) é muito alta, enquanto a Renda tem uma correlação fraca e negativa com as outras duas variáveis.

13.4 Passo 3: Decomposição Espectral da Matriz de Correlação

O próximo passo é encontrar os autovalores ($\lambda$) e autovetores ($\mathbf{e}$) da matriz de correlação $\mathbf{R}$. Eles são a solução da equação $\mathbf{R}\mathbf{e} = \lambda\mathbf{e}$, que é equivalente a resolver $(\mathbf{R} - \lambda\mathbf{I})\mathbf{e} = \mathbf{0}$.

Isso requer encontrar as raízes do polinômio característico $det(\mathbf{R} - \lambda\mathbf{I}) = 0$.

\[ det \begin{pmatrix} 1.00 - \lambda & 0.96 & -0.20 \\ 0.96 & 1.00 - \lambda & -0.29 \\ -0.20 & -0.29 & 1.00 - \lambda \end{pmatrix} = 0 \]

Resolver este determinante cúbico manualmente é trabalhoso. Usando uma calculadora ou software, encontramos os seguintes autovalores:

\[ \lambda_1 = 1.98 \quad \lambda_2 = 1.00 \quad \lambda_3 = 0.02 \]

13.4.1 Interpretação dos Autovalores

A variância total no sistema é a soma dos autovalores (que é igual ao traço da matriz $\mathbf{R}$, ou seja, 3). - Variância Total = $1.98 + 1.00 + 0.02 = 3.00$

A proporção da variância explicada por cada componente é: - CP1: $\frac{1.98}{3.00} = 66.0\%$ - CP2: $\frac{1.00}{3.00} = 33.3\%$ - CP3: $\frac{0.02}{3.00} = 0.7\%$

Os dois primeiros componentes juntos explicam $66.0\% + 33.3\% = 99.3\%$ da variância total. Isso indica que podemos reduzir a dimensionalidade de 3 para 2 com uma perda mínima de informação.

13.5 Passo 4: Calcular os Autovetores

Agora, para cada autovalor, resolvemos o sistema $(\mathbf{R} - \lambda_i\mathbf{I})\mathbf{e}_i = \mathbf{0}$ para encontrar o autovetor correspondente $\mathbf{e}_i$.

Para $\lambda_1 = 1.98$: \[ \begin{pmatrix} -0.98 & 0.96 & -0.20 \\ 0.96 & -0.98 & -0.29 \\ -0.20 & -0.29 & -0.98 \end{pmatrix} \begin{pmatrix} e_{11} \\ e_{12} \\ e_{13} \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \] A solução, após normalização (para que $\mathbf{e}_1'\mathbf{e}_1 = 1$), é: \[ \mathbf{e}_1 = \begin{pmatrix} 0.69 \\ 0.71 \\ -0.15 \end{pmatrix} \]
Para $\lambda_2 = 1.00$: \[ \begin{pmatrix} 0.00 & 0.96 & -0.20 \\ 0.96 & 0.00 & -0.29 \\ -0.20 & -0.29 & 0.00 \end{pmatrix} \begin{pmatrix} e_{21} \\ e_{22} \\ e_{23} \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \] A solução normalizada é: \[ \mathbf{e}_2 = \begin{pmatrix} 0.18 \\ -0.22 \\ -0.96 \end{pmatrix} \]
Para $\lambda_3 = 0.02$: \[ \begin{pmatrix} 0.98 & 0.96 & -0.20 \\ 0.96 & 0.98 & -0.29 \\ -0.20 & -0.29 & 0.98 \end{pmatrix} \begin{pmatrix} e_{31} \\ e_{32} \\ e_{33} \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \] A solução normalizada é: \[ \mathbf{e}_3 = \begin{pmatrix} -0.70 \\ 0.67 \\ -0.24 \end{pmatrix} \]

13.6 Passo 5: Interpretação dos Componentes

Os autovetores (ou loadings) nos dizem como as variáveis originais se combinam para formar cada componente.

Componente Principal 1 ($CP_1$): \[ Y_1 = 0.69 \cdot Z_{peso} + 0.71 \cdot Z_{altura} - 0.15 \cdot Z_{renda} \] Este componente é basicamente uma média ponderada de Peso e Altura, com uma pequena contribuição negativa da Renda. Podemos interpretá-lo como um índice de “Tamanho Corporal”. As cargas altas e positivas para Peso e Altura confirmam a alta correlação entre essas variáveis.
Componente Principal 2 ($CP_2$): \[ Y_2 = 0.18 \cdot Z_{peso} - 0.22 \cdot Z_{altura} - 0.96 \cdot Z_{renda} \] Este componente é dominado pela Renda, com uma carga muito alta e negativa. As cargas para Peso e Altura são pequenas. Podemos interpretar o $CP_2$ como um índice de “Status Socioeconômico Inverso”, já que ele é quase que inteiramente uma representação da Renda (com sinal trocado).

13.7 Passo 6: Calcular os Scores dos Componentes

Finalmente, podemos calcular os valores (scores) dos componentes principais para cada indivíduo. Usamos a fórmula $\mathbf{Y} = \mathbf{Z} \mathbf{E}$, onde $\mathbf{E}$ é a matriz cujas colunas são os autovetores (seguindo a notação de Capítulo 7).

\[ \mathbf{E} = \begin{pmatrix} 0.69 & 0.18 & -0.70 \\ 0.71 & -0.22 & 0.67 \\ -0.15 & -0.96 & -0.24 \end{pmatrix} \]

Para o Indivíduo 1, com dados padronizados $(-0.60, -0.72, 0.37)$: \[ y_{11} = (-0.60)(0.69) + (-0.72)(0.71) + (0.37)(-0.15) = -0.98 \] \[ y_{12} = (-0.60)(0.18) + (-0.72)(-0.22) + (0.37)(-0.96) = -0.31 \]

Calculando para todos os indivíduos, obtemos a matriz de scores $\mathbf{Y}$:

Indivíduo	CP1 (Tamanho)	CP2 (Renda Inversa)
1	-0.98	-0.31
2	0.57	0.85
3	-2.19	-1.18
4	2.09	1.35
5	0.46	0.08

13.8 Conclusão

Este exemplo demonstra o poder da ACP. Começamos com três variáveis e, através de uma derivação passo a passo, conseguimos: 1. Reduzir a dimensionalidade: Mostramos que 99.3% da informação está contida em dois componentes. 2. Criar variáveis não correlacionadas: O $CP_1$ e o $CP_2$ são, por construção, ortogonais. 3. Interpretar a estrutura latente: Identificamos que a principal fonte de variação nos dados é o “Tamanho Corporal” (uma combinação de Peso e Altura), seguida pelo “Status Socioeconômico” (representado pela Renda).

A análise manual, embora trabalhosa, revela a mecânica exata da técnica, solidificando a compreensão teórica apresentada no capítulo principal.