k-means 聚类中使用余弦距离 cos distance

本文在知乎发布

k-means 聚类算法中使用欧氏距离作为判别标准，本文讨论使用余弦距离作为判别的方法和理论基础。

先说结论：使用欧氏距离聚类结果等价于使用余弦距离聚类结果。

首先看余弦的计算 $\forall x_{j}, x_{k} \in R^{m}$ ,

$c o s θ = \frac{x _{j}}{∣ ∣ x _{j} ∣ ∣} \cdot \frac{x _{k}}{∣ ∣ x _{k} ∣ ∣}$

可以看做两个归一化后的单位向量的内积，同时理解对样本向量进行归一化并不改变余弦距离的计算。

而在欧氏距离的计算中，

$∣ ∣ x_{j} - x_{k} ∣ ∣^{2} = x_{j}^{T} x_{j} - 2 x_{j}^{T} x_{k} + x_{k}^{T} x_{k}$

如果向量已经是单位向量，那么

$∣ ∣ x_{j} - x_{k} ∣ ∣^{2} = 2 (1 - x_{j}^{T} x_{k})$

也即使用余弦距离和使用欧氏距离进行判别的聚类结果是等价。

所以使用余弦距离进行聚类的方式是先将样本进行归一化，然后使用常规方法和工具（如 scikit-learn）进行计算。

余下的问题则是余弦聚类的中心和距离怎么计算？

对于维度为 m 的 n 个样本

$x_{1}, x_{2}, \dots x_{n} \in R^{m}$

求样本余弦中心 $\overset{x}{^} \in R^{m}$ 使得

$m i n k = 1 \sum n ∣ c o s θ_{k} ∣$

其中

$c o s θ_{k} = \frac{x _{k} \cdot x ^}{∣ ∣ x _{k} ∣ ∣ \cdot ∣ ∣ x ^ ∣ ∣} .$

把问题等价重写为目标

$m i n - k = 1 \sum n \frac{x _{k} \cdot x ^}{∣ ∣ x _{k} ∣ ∣ \cdot ∣ ∣ x ^ ∣ ∣} = m i n - \frac{1}{c} k = 1 \sum n \frac{1}{∣ ∣ x _{k} ∣ ∣} (l = 1 \sum m x_{k l} \cdot \overset{x}{^}_{l})$

和约束

$l = 1 \sum m (\overset{x}{^}_{l})^{2} = c^{2}, c \in R, c > 0 .$

则使用 Lagrange multiplier 方法有，

$L (\overset{x}{^}_{1}, \overset{x}{^}_{2}, \dots, \overset{x}{^}_{m}, λ) = - \frac{1}{c} k = 1 \sum n \frac{1}{∣ ∣ x _{k} ∣ ∣} (l = 1 \sum m x_{k l} \cdot \overset{x}{^}_{l}) + λ (l = 1 \sum m (\overset{x}{^}_{l})^{2} - c^{2})$

于是 $\forall \overset{x}{^}_{l}$ ，令

$\frac{\partial L ( x ^ _{1} , x ^ _{2} , \dots , x ^ _{m} , λ )}{\partial x ^ _{l}} = = - \frac{1}{c} k = 1 \sum n \frac{x _{k l}}{∣ ∣ x _{k} ∣ ∣} + 2 λ \overset{x}{^}_{l} = 0$

推出

$\overset{x}{^}_{l} = \frac{1}{2 λ c} k = 1 \sum n \frac{x _{k l}}{∣ ∣ x _{k} ∣ ∣}$

带回约束条件中，由

$l = 1 \sum m (\frac{1}{2 λ c} k = 1 \sum n \frac{x _{k l}}{∣ ∣ x _{k} ∣ ∣})^{2} = c^{2}$

得到

$2 λ c = \frac{1}{c} ⎝ ⎛ l = 1 \sum m (k = 1 \sum n \frac{x _{k l}}{∣ ∣ x _{k} ∣ ∣})^{2} ⎠ ⎞^{1 / 2}$

于是

$\overset{x}{^}_{l} = c \cdot (k = 1 \sum n \frac{x _{k l}}{∣ ∣ x _{k} ∣ ∣}) ⎝ ⎛ l = 1 \sum m (k = 1 \sum n \frac{x _{k l}}{∣ ∣ x _{k} ∣ ∣})^{2} ⎠ ⎞^{- 1 / 2}$

至此，就得到了余弦中心的计算方法。

注意到这个余弦中心向量的方向和模长并没有关系，这也和余弦距离的特性相符合。

当对样本进行归一化，同时假定余弦中心向量归一化后,

$\overset{x}{^}_{l} = (k = 1 \sum n x_{k l}) ⎝ ⎛ l = 1 \sum m (k = 1 \sum n x_{k l})^{2} ⎠ ⎞^{- 1 / 2} = \overset{x}{ˉ}_{l} (l = 1 \sum m \overset{x}{ˉ}_{l}^{2})^{- 1 / 2} = \frac{x ˉ _{l}}{∣ ∣ x ˉ ∣ ∣}$

即余弦中心为欧氏中心归一化后的结果

$\overset{x}{^} = \frac{x ˉ}{∣ ∣ x ˉ ∣ ∣}$

附：使用 scikit-learn 进行计算的代码

# 归一化
nm = np.sqrt((X**2).sum(axis=1))[:,None]
X = X / nm

kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

# 其实也是在计算归一化
mm = np.sqrt(np.square(kmeans.cluster_centers_).sum(axis=1)[:,None])
cos_centers = kmeans.cluster_centers_ / mm

distance = 1 - np.dot(cos_centers, X.T)

Artway

k-means 聚类中使用余弦距离 cos distance