6  Medidas de Distância e Similaridade

Um conceito fundamental que permeia quase todas as técnicas de análise multivariada é a medição da “proximidade” ou “distância” entre observações. Seja para agrupar dados semelhantes, classificar uma nova observação ou entender a estrutura de um conjunto de dados, essas medidas determinam uma forma quantitativa para expressar o quão perto ou longe duas observações estão uma da outra no espaço p-dimensional.

6.1 Distâncias vs. Dissimilaridades

Formalmente, uma função \(d(\cdot, \cdot)\) é considerada uma métrica de distância se satisfaz as seguintes propriedades para quaisquer pontos \(\mathbf{x}, \mathbf{y}, \mathbf{z}\):

  1. Não-negatividade: \(d(\mathbf{x}, \mathbf{y}) \ge 0\)
  2. Identidade: \(d(\mathbf{x}, \mathbf{y}) = 0 \iff \mathbf{x} = \mathbf{y}\)
  3. Simetria: \(d(\mathbf{x}, \mathbf{y}) = d(\mathbf{y}, \mathbf{x})\)
  4. Desigualdade Triangular: \(d(\mathbf{x}, \mathbf{z}) \le d(\mathbf{x}, \mathbf{y}) + d(\mathbf{y}, \mathbf{z})\)

No entanto, em muitos contextos práticos, utilizamos medidas que não satisfazem todas essas propriedades, mas que ainda são extremamente úteis para quantificar o quão diferentes dois objetos são. Usamos o termo mais geral medida de dissimilaridade para nos referirmos a qualquer função que indique o grau de diferença entre dois pontos, onde valores pequenos indicam semelhança e valores grandes indicam diferença.

Um exemplo clássico de uma medida de dissimilaridade que não é uma métrica de distância estrita é a distância Euclidiana quadrática, \(d^2(\mathbf{x}, \mathbf{y}) = (\mathbf{x} - \mathbf{y})'(\mathbf{x} - \mathbf{y})\). Ela viola a propriedade da desigualdade triangular, mas pode ser usada em algoritmos como o K-médias e o método de Ward por suas convenientes propriedades computacionais (evitar o cálculo da raiz quadrada economiza tempo).

Nas seções a seguir, apresentamos algumas das medidas de dissimilaridade e distância mais populares. A escolha da medida ideal é um campo vasto e depende fundamentalmente da natureza dos dados e do objetivo da análise.

6.2 Medidas para Dados Contínuos

Definição 6.1 A Distância Euclidiana é a métrica de distância mais comum e corresponde à noção intuitiva de distância em linha reta entre dois pontos.

\[ d(\mathbf{x}_i, \mathbf{x}_j) = \sqrt{\sum_{k=1}^{p} (x_{ik} - x_{jk})^2} = \sqrt{(\mathbf{x}_i - \mathbf{x}_j)'(\mathbf{x}_i - \mathbf{x}_j)} \]

Definição 6.2 A Distância de Manhattan (ou City-Block) calcula a distância como a soma das diferenças absolutas entre as coordenadas dos pontos. É como se deslocar entre dois pontos em uma cidade, movendo-se apenas ao longo das ruas (horizontais e verticais).

\[ d(\mathbf{x}_i, \mathbf{x}_j) = \sum_{k=1}^{p} |x_{ik} - x_{jk}| \]

Esta medida é, em geral, mais robusta a outliers do que a distância Euclidiana.

Definição 6.3 A Distância de Minkowski é uma generalização tanto da Euclidiana quanto da de Manhattan.

\[ d(\mathbf{x}_i, \mathbf{x}_j) = \left( \sum_{k=1}^{p} |x_{ik} - x_{jk}|^m \right)^{1/m} \]

  • Se \(m=2\), temos a distância Euclidiana.
  • Se \(m=1\), temos a distância de Manhattan.

Quanto maior o valor de \(m\), mais peso é dado às maiores diferenças entre as coordenadas.

AvisoLimitação das Distâncias Comuns

As distâncias Euclidiana, de Manhattan e de Minkowski são sensíveis às escalas das variáveis. Se uma variável tiver uma magnitude muito maior que as outras, ela dominará o cálculo da distância. Por isso, é prática comum padronizar as variáveis (subtrair a média e dividir pelo desvio padrão) antes de calcular a matriz de distâncias.

Definição 6.4 A Distância de Mahalanobis é uma medida de distância estatística que leva em conta a correlação entre as variáveis e é invariante à escala.

\[ d(\mathbf{x}_i, \mathbf{x}_j) = \sqrt{(\mathbf{x}_i - \mathbf{x}_j)' \mathbf{S}^{-1} (\mathbf{x}_i - \mathbf{x}_j)} \]

Onde \(\mathbf{S}^{-1}\) é a inversa da matriz de covariâncias amostral. Ela mede a distância entre os pontos em unidades de desvio padrão, ajustando a contribuição de cada variável pela estrutura de covariância dos dados. Já encontramos essa forma quadrática no expoente da distribuição Normal Multivariada (Capítulo 4).

6.3 Medidas para Variáveis Binárias

Quando os dados são binários (0 ou 1), a interpretação da distância muda. A distância Euclidiana quadrática, por exemplo, simplesmente conta o número de posições em que os dois vetores discordam.

\[ (x_{ij} - x_{kj})^2 = \begin{cases} 0, & \text{se } x_{ij} = x_{kj} \\ 1, & \text{se } x_{ij} \neq x_{kj} \end{cases} \]

O problema é que essa abordagem dá o mesmo peso para uma concordância de 1-1 e uma concordância de 0-0. Em muitos contextos, a ausência conjunta de uma característica (concordância 0-0) é menos informativa do que a presença conjunta (concordância 1-1).

Para lidar com isso, podemos construir uma tabela de contingência para duas observações \(\mathbf{x}_i\) e \(\mathbf{x}_j\):

Observação j = 1 Observação j = 0 Total
Obs i = 1 a b a+b
Obs i = 0 c d c+d
Total a+c b+d p

Onde: - a: número de variáveis onde \(x_{ik}=1\) e \(x_{jk}=1\). - d: número de variáveis onde \(x_{ik}=0\) e \(x_{jk}=0\). - b e c: número de variáveis onde há discordância.

A distância Euclidiana quadrática corresponde a \(b+c\).

Definição 6.5 O Coeficiente de Jaccard é uma medida de similaridade para dados binários que ignora as concordâncias 0-0.

\[ J(\mathbf{x}_i, \mathbf{x}_j) = \frac{a}{a+b+c} \]

A Distância de Jaccard é a sua contraparte de dissimilaridade, definida como \(1 - J(\mathbf{x}_i, \mathbf{x}_j)\).

Definição 6.6 O Coeficiente de Correspondência Simples (Simple Matching Coefficient, SMC) considera tanto as presenças (1-1) quanto as ausências (0-0) como concordâncias. É útil quando a ausência de uma característica é tão informativa quanto a sua presença.

\[ SMC = \frac{a+d}{a+b+c+d} \]

Definição 6.7 O Coeficiente de Dice (ou Sørensen-Dice) é outra medida de similaridade que, assim como Jaccard, ignora as concordâncias 0-0. No entanto, ele dá um peso maior às concordâncias 1-1.

\[ Dice = \frac{2a}{2a+b+c} \]

Definição 6.8 O Coeficiente de Russell-Rao é uma medida mais simples que calcula a proporção de presenças conjuntas em relação ao total de variáveis.

\[ RR = \frac{a}{a+b+c+d} \]

6.4 Matriz de Distâncias

Uma vez escolhida a medida de dissimilaridade, é comum pré-calcular todas as distâncias entre os pares de observações e organizá-las em uma matriz de distâncias \(\mathbf{D}\), de dimensão \(n \times n\).

\[ \mathbf{D} = \begin{pmatrix} 0 & d(\mathbf{x}_1, \mathbf{x}_2) & \cdots & d(\mathbf{x}_1, \mathbf{x}_n) \\ d(\mathbf{x}_2, \mathbf{x}_1) & 0 & \cdots & d(\mathbf{x}_2, \mathbf{x}_n) \\ \vdots & \vdots & \ddots & \vdots \\ d(\mathbf{x}_n, \mathbf{x}_1) & d(\mathbf{x}_n, \mathbf{x}_2) & \cdots & 0 \end{pmatrix} \]

Esta matriz é simétrica, ou seja \(d(\mathbf{x}_i, \mathbf{x}_j) = d(\mathbf{x}_j, \mathbf{x}_i)\), e possui zeros na diagonal principal. Ela serve como a entrada para muitos algoritmos de agrupamento, especialmente os hierárquicos.