5  Fundamentos Matemáticos: Álgebra Matricial

Com os conceitos estatísticos fundamentais estabelecidos, voltamos nossa atenção para as ferramentas matemáticas necessárias para manipular esses objetos. A linguagem da análise multivariada é a álgebra linear.

Neste capítulo, revisaremos conceitos-chave — formas quadráticas, matrizes positiva-definidas e a decomposição espectral — que são a base para muitas das técnicas que veremos, como a Análise de Componentes Principais (PCA).

5.1 Formas Quadráticas

Uma forma quadrática é uma função polinomial de várias variáveis que contém apenas termos de grau dois. Para um vetor \(\mathbf{x}\) de dimensão \(p \times 1\) e uma matriz simétrica \(\mathbf{A}\) de dimensão \(p \times p\), a forma quadrática é expressa como:

\[ Q(\mathbf{x}) = \mathbf{x}' \mathbf{A} \mathbf{x} = \sum_{i=1}^p \sum_{j=1}^p a_{ij} x_i x_j \]

Um exemplo fundamental que já encontramos é a distância de Mahalanobis ao quadrado, \((\mathbf{x} - \boldsymbol{\mu})' \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})\), que aparece no expoente da distribuição normal multivariada. Esta forma quadrática define as elipses de contorno de densidade constante da distribuição.

5.2 Matrizes Positiva-Definidas

O conceito de positividade para um número escalar é estendido para matrizes através das formas quadráticas. Uma matriz simétrica \(\mathbf{A}\) é dita:

  • positiva-definida se \(\mathbf{x}' \mathbf{A} \mathbf{x} > 0\) para todos os vetores não-nulos \(\mathbf{x}\).
  • positiva-semidefinida se \(\mathbf{x}' \mathbf{A} \mathbf{x} \geq 0\) para todos os vetores não-nulos \(\mathbf{x}\).

Propriedades de uma matriz positiva-definida: - Todos os seus autovalores são estritamente positivos (\(\lambda_i > 0\)). - A matriz é invertível (não-singular). - Seu determinante é positivo.

Matrizes de covariância (\(\boldsymbol{\Sigma}\)) e correlação (\(\mathbf{R}\)) são, por natureza, positiva-semidefinidas. Para que a função de densidade da normal multivariada seja bem definida e a matriz \(\boldsymbol{\Sigma}\) seja invertível, exigimos que ela seja positiva-definida. Isso implica que nenhuma variável no vetor aleatório é uma combinação linear perfeita de outras (ou seja, não há redundância linear total nos dados).

5.3 Decomposição Espectral

A decomposição espectral (ou de autovalores) é uma fatoração de uma matriz simétrica em seus autovalores e autovetores. Ela revela a estrutura fundamental da transformação linear representada pela matriz.

Toda matriz simétrica \(\mathbf{A}\) de dimensão \(p \times p\) pode ser reescrita como:

\[ \mathbf{A} = \mathbf{E}\Lambda\mathbf{E}' \]

Onde:

  • \(\lambda_1, \dots, \lambda_p\) são os autovalores de \(\mathbf{A}\).
  • \(\mathbf{e}_1, \dots, \mathbf{e}_p\) são os autovetores ortonormais correspondentes.
  • \(\Lambda\) é a matriz diagonal com os autovalores \(\lambda_i\) na diagonal.
  • \(\mathbf{E}\) é a matriz ortogonal cujas colunas são os autovetores \(\mathbf{e}_i\).

Exemplo 5.1 Vamos decompor a seguinte matriz de covariâncias \(\mathbf{S}\):

\[ \mathbf{S} = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} \]

  1. Autovalores: Resolvendo a equação característica \(\det(\mathbf{S} - \lambda\mathbf{I}) = 0\), encontramos \(\lambda_1 = 3\) e \(\lambda_2 = 1\).

  2. Autovetores:

    • Para \(\lambda_1 = 3\): O autovetor correspondente é \(\mathbf{e}_1 = \begin{pmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{pmatrix}\).
    • Para \(\lambda_2 = 1\): O autovetor correspondente é \(\mathbf{e}_2 = \begin{pmatrix} 1/\sqrt{2} \\ -1/\sqrt{2} \end{pmatrix}\).

A decomposição é \(\mathbf{S} = \mathbf{E}\Lambda\mathbf{E}'\), com: \[ \mathbf{E} = \begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ 1/\sqrt{2} & -1/\sqrt{2} \end{pmatrix}, \quad \Lambda = \begin{pmatrix} 3 & 0 \\ 0 & 1 \end{pmatrix} \]

Isso nos diz que a maior variância dos dados (igual a 3) está na direção do vetor \((1, 1)\), enquanto a variância na direção ortogonal \((1, -1)\) é menor (igual a 1).

5.4 Decomposição em Valores Singulares (SVD)

Enquanto a decomposição espectral é uma ferramenta poderosa para matrizes simétricas, a Decomposição em Valores Singulares (SVD) a generaliza para qualquer matriz \(\mathbf{A}\) de dimensão \(I \times J\). A SVD é uma das fatorações de matrizes mais importantes da álgebra linear, com aplicações vastas em estatística e aprendizado de máquina, incluindo a Análise de Componentes Principais e a Análise de Correspondência.

A SVD decompõe qualquer matriz \(\mathbf{A}\) na forma:

\[ \mathbf{A} = \mathbf{U} \mathbf{\Lambda} \mathbf{V}' \]

Onde:

  • \(\mathbf{U}\) é uma matriz ortogonal \(I \times I\) cujas colunas são chamadas de vetores singulares à esquerda.
  • \(\mathbf{V}\) é uma matriz ortogonal \(J \times J\) cujas colunas são chamadas de vetores singulares à direita.
  • \(\mathbf{\Lambda}\) é uma matriz retangular \(I \times J\) contendo os valores singulares \(\sigma_k\) em sua diagonal principal, em ordem decrescente (\(\sigma_1 \geq \sigma_2 \geq \dots \geq 0\)). Todos os outros elementos de \(\mathbf{\Lambda}\) são zero.

Os valores singulares são as raízes quadradas dos autovalores não-nulos das matrizes \(\mathbf{A}'\mathbf{A}\) e \(\mathbf{A}\mathbf{A}'\).

5.4.1 Relação com a Decomposição Espectral

Para uma matriz simétrica e positiva-semidefinida \(\mathbf{A}\) (como uma matriz de covariância), a SVD e a decomposição espectral são essencialmente a mesma coisa. Seus valores singulares são seus autovalores, e seus vetores singulares à esquerda e à direita são seus autovetores (\(\mathbf{U} = \mathbf{V} = \mathbf{E}\)).

5.4.2 Importância para Redução de Dimensionalidade

A grande utilidade da SVD vem do fato de que ela fornece a melhor aproximação de baixo posto de uma matriz. O Teorema de Eckart-Young afirma que, se truncarmos a decomposição para usar apenas os \(M\) maiores valores singulares, a matriz resultante \(\mathbf{A}_M\) é a melhor aproximação de posto \(M\) da matriz original \(\mathbf{A}\).

\[ \mathbf{A} \approx \mathbf{A}_M = \mathbf{U}_M \mathbf{\Lambda}_M \mathbf{V}_M' = \sum_{k=1}^M \sigma_k \mathbf{u}_k \mathbf{v}_k' \]

Isso significa que podemos capturar a estrutura mais importante de uma matriz usando um número menor de dimensões.