龙空技术网

余弦相似度与 欧几里得度量的区别

软件测试开发技术栈 285

前言:

此刻各位老铁们对“余弦相似度计算公式”大概比较关注,朋友们都需要剖析一些“余弦相似度计算公式”的相关文章。那么小编也在网上搜集了一些关于“余弦相似度计算公式””的相关内容,希望朋友们能喜欢,大家一起来了解一下吧!

两者都是评定个体间差异大小。欧几里得距离度量会受指标不同单位刻度(如秒、毫秒)的影响,所以一般需要先进行标准化。空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值区间位[-1,1]。

定义上的区别

欧式距离(Euclidean Distance)

欧氏距离就是我们平常所说的两点直线距离,即n维空间中两个点之间的实际距离,欧式距离越小相似度越大。

余弦相似度

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。更加注重两个向量在方向上的差异,而非距离或长度上。两个向量越相似夹角越小,余弦值越大。

从下面三维坐标系图可以看出,欧氏距离dis(A,B)衡量的是空间各点的绝对距离,跟各个点的绝对坐标相关,体现的是距离上的差异。而余弦距离(Cosθ)衡量的是空间向量的夹角,体现在方向(维度)上的差异,而不是距离或数值。

应用上的区别

如某A股票(400,800)从400块涨到了800块,某B股票(4,8)从4块涨到了8块B(4,8),同样都是涨了50%,如果想要衡量股票的涨势,则可以通过余弦相似度度量,发现A/B股票涨势相似度高(相同)。如果想要衡量股票价值,显然需要使用欧氏距离来衡量,发现A股票价值明显高于B股票,A/B股票相似度低。

标签: #余弦相似度计算公式