Distance
거리distance measures
-
유클리드 거리 L2-Norm 제곱
-
맨하탄 거리 L1-Norm 절대값
도시의 구획이 직각으로 나뉘어 있을 때 이 도시의 두 지점 사이의 거리를 측정하는 것과 같다. (핸즈온 머신러닝, 2017)
- 자카드 거리
-
자카드 유사도jaccard index, jaccard similarity coefficient:
-
자카드 거리jaccard distance:
1 - 자카드 유사도
-
- 코사인 거리 코사인 유사도의 의미
코사인 유사도 = 1 - 코사인 거리 - 편집 거리edit distance, levenshtein distance
- LD is measure of the similarity between two strings. The distance is the number of deletions, insertions, or substitutions required to transform s into t.
- 편집 거리edit distance를 정의하고 추정하는 또 다른 방법은 x와 y의 최장 공통 부분열LCS, longest common subsequence을 계산하는 것이다. x와 y의 LCS는 x와 y에 공통으로 포함되지 않는 문자를 삭제해가면서 만들어지는 문자열로서, 이 방식으로 구성될 수 있는 문자열 중 가장 긴 문자열이다. 편집 거리 d(x,y)는 x의 길이와 y의 길이의 합에서 그들의 LCS 길이의 두 배를 뺀 값으로 계산된다. (빅데이터 마이닝, 2011)
유클리드 공간 거리에 따른 점수
- 데이터: 700차원 \(\mathbb{R}^{700}\) Sent2Vec
- Distance in Euclidean space
- scipy Compute distance
거리 | TOP 1 | TOP 3 | TOP 5 |
---|---|---|---|
cosine | 4099(0.8316) | 4583(0.9298) | 4702(0.9539) |
correlation | 4094(0.8306) | 4586(0.9304) | 4702(0.9539) |
minkowski | 3866(0.7842) | 4321(0.8765) | 4443(0.9012) |
cityblock | 3851(0.7811) | 4311(0.8744) | 4447(0.902) |
seuclidean | 3883(0.7876) | 4334(0.8791) | 4461(0.9049) |
sqeuclidean | 3866(0.7842) | 4321(0.8765) | 4443(0.9012) |
hamming | - | ||
jaccard | - | ||
chebyshev | 3363(0.6822) | 3883(0.7876) | 4045(0.8205) |
canberra | 3934(0.798) | 4492(0.9112) | 4613(0.9357) |
braycurtis | 3986(0.8085) | 4532(0.9193) | 4669(0.9471) |
mahalanobis | - | ||
yule | - | ||
dice | - | ||
kulsinski | - | ||
rogerstanimoto | - | ||
russellrao | - | ||
sokalmichener | - | ||
sokalsneath | - | ||
wminkowski | - |
Last Modified: 2021/06/08 13:03:45