1.欧氏距离
在欧几里得空间中,欧式距离其实就是向量空间中两点之间的距离。点 x = (x_{1}, …, x_{n}) 和 y = (y_{1}, …, y_{n}) 之间得欧氏距离计算公式如下:
d(x,y) = sqrt {((x_{1}-y_{1})^{2} + (x_{2}-y_{2})^{2} + … + (x_{n}-y_{n})^{2})}
2.余弦相似度
通过对两个文本分词,`TF-IDF` 算法向量化,利用空间中两个向量的夹角,来判断这两个向量的相似程度:(`计算夹角的余弦,取值 0-1`)
+ 当两个向量夹角越大,距离越远,最大距离就是两个向量夹角 180°;
+ 夹角越小,距离越近,最小距离就是两个向量夹角 0°,完全重合。
+ 夹角越小相似度越高,但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大不适合大数据量的计算。
3.余弦相似度和欧氏距离的区别
+ 欧式距离和余弦相似度都能度量 `2` 个向量之间的相似度
+
原文链接:https://blog.csdn.net/ccsss22/article/details/126560134?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171851498716800184179110%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171851498716800184179110&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-7-126560134-null-null.nonecase&utm_term=AI%E9%9D%A2%E8%AF%95