거리

거리distance measures

  • 유클리드 거리 L2-Norm 제곱

  • 맨하탄 거리 L1-Norm 절대값

도시의 구획이 직각으로 나뉘어 있을 때 이 도시의 두 지점 사이의 거리를 측정하는 것과 같다. (핸즈온 머신러닝, 2017)

  • 자카드 거리
    • 자카드 유사도jaccard index, jaccard similarity coefficient:

    • 자카드 거리jaccard distance: 1 - 자카드 유사도

  • 코사인 거리 코사인 유사도의 의미
    코사인 유사도 = 1 - 코사인 거리
  • 편집 거리edit distance, levenshtein distance
    • LD is measure of the similarity between two strings. The distance is the number of deletions, insertions, or substitutions required to transform s into t.
    • 편집 거리edit distance를 정의하고 추정하는 또 다른 방법은 x와 y의 최장 공통 부분열LCS, longest common subsequence을 계산하는 것이다. x와 y의 LCS는 x와 y에 공통으로 포함되지 않는 문자를 삭제해가면서 만들어지는 문자열로서, 이 방식으로 구성될 수 있는 문자열 중 가장 긴 문자열이다. 편집 거리 d(x,y)는 x의 길이와 y의 길이의 합에서 그들의 LCS 길이의 두 배를 뺀 값으로 계산된다. (빅데이터 마이닝, 2011)

유클리드 공간 거리에 따른 점수

거리 TOP 1 TOP 3 TOP 5
cosine 4099(0.8316) 4583(0.9298) 4702(0.9539)
correlation 4094(0.8306) 4586(0.9304) 4702(0.9539)
minkowski 3866(0.7842) 4321(0.8765) 4443(0.9012)
cityblock 3851(0.7811) 4311(0.8744) 4447(0.902)
seuclidean 3883(0.7876) 4334(0.8791) 4461(0.9049)
sqeuclidean 3866(0.7842) 4321(0.8765) 4443(0.9012)
hamming -    
jaccard -    
chebyshev 3363(0.6822) 3883(0.7876) 4045(0.8205)
canberra 3934(0.798) 4492(0.9112) 4613(0.9357)
braycurtis 3986(0.8085) 4532(0.9193) 4669(0.9471)
mahalanobis -    
yule -    
dice -    
kulsinski -    
rogerstanimoto -    
russellrao -    
sokalmichener -    
sokalsneath -    
wminkowski -    

2017 Book Reports · 2018 Book Reports · 2019 Book Reports · AWS · Activation, Cost Functions · CNN, RNN · C++ · Decision Tree · Docker · Go · HTML, CSS, JavaScript · Hadoop, Spark · Information Retrieval · Java · Jupyter Notebooks · Keras · LeetCode · LifeHacks · MySQL · NLP 가이드 · NLP 실험 · NLP · Naive Bayes · OAuth 2.0 · OOP · Project Management · Python Data Structure Cheatsheet · Python · RSA · Software Deployment · Support Vector Machine · TensorRT · Word Embedding · XGBoost · Scikit Learn · 거리 · 데이터 마이닝 · 데이터 사이언스 · 딥러닝 · 머신러닝 분류기 · 머신러닝 · 미래학 · 비지니스 · 사회심리학 · 수학 · 알고리즘 · 영어 · 운영체제 · 이산수학 · 인공지능 · 자료구조 · 진화생물학 · 컴파일러 · 컴퓨터시스템구조 · 통계학 응용 · 통계학 ·
is a collection of Papers I have written.
© 2000 - Sang-Kil Park Except where otherwise noted, content on this site is licensed under a CC BY-NC 4.0.
This site design was brought from Distill.