創屋ぷれす

コサイン類似度

コサイン類似度は2つのベクトルの角度から,類似度を計算する手法です.
ベクトルから類似度を計算する手法はいくつかありますが,コサイン類似度は代表的なものです.

計算としては,2つのベクトルのノルムを内積で割る,というシンプルなものです.
(NumPy等で自分で処理を書くのも簡単なので,N対Nのコサイン類似度を計算することも簡単です)

コサイン類似度は-1~1の範囲を取り,-1が最も遠く,1が同じであるということになります.
類似度を人間が見やすいようにするために,+1して2で割って0~1の範囲にすることもよく行います.

ベクトルになっていれば何でも比較できるので(ただし次元数は同じである必要がある),
使える分野は広いです.
データが画像でも自然言語でも(BERTを使ってベクトル化するなど)数値データでも.

データを扱う上では必須知識になるかと思います.

参考:Wikipedia

創屋のホームページはこちらから

Comments are closed.