[機械学習] クラスタリングにおけるコサイン類似度に関する性質の証明
bayonやCLUTOが爆速な理由 - download_takeshi’s diaryを読んで、すぐには成り立つかどうか分からなかったので証明してみた。
上の記事で述べられていることはクラスタ中のベクトルとその中心ベクトルのコサイン類似度の和と、クラスタ中のベクトルを全て足したベクトルのノルムが一致するというである。
ただしここでクラスタ中の要素ベクトルはすべて大きさ1の規格化されたベクトルであるとする。
証明
今クラスタ内に含まれるベクトルを とする。
このとき全ベクトルを足しこんだ複合ベクトルを
とする。またこのクラスタのセントロイドは
となる。このときセントロイドと各ベクトルとのコサイン類似度は
[tex: s_i = \frac{
となる。ここでと正規化されていることを用いた。この類似度の合計は
[tex: S = \sum_i s_i = \frac{1}{||C||} \sum_i
となり、ここでの定義より
[tex: S = \frac{1}{||C||}
となり、複合ベクトルのノルムがコサイン類似度の合計に等しいことが示せた (Q.E.D.)。