clustering, k means algorithm
TRANSCRIPT
Clustering
Preprocess Training Score Evaluate
“클러스터링은주어진 데이터를 가장 잘 설명하는클러스터를 찾아내는 것이 목적 (Optimization)”
K-Means Algorithm
K - 평균 알고리즘 이슈
1. 거리 (유사도) 측정 방법?
2. 초기 클러스터의 중심점을 설정하는 방식? (K-Means의 약점)
3. K의 개수를 몇으로 설정해야 하는가?
4. 클러스터링이 얼마나 잘 되었는지 평가를 어떻게?
“K-Means++ Algorithm”
2. 클러스터의중심점
1. Random initial centroid
2. Calculate distance, D(x)
3. Choose next centroid from D(x)2
“2007. k-means++: The Advantages of Careful Seeding” 논문 참조
4. 클러스터링검증방법
1. 내부 평가 (Internal Evaluation)
Davies-Bouldin Index, Dunn Index
2. 외부 평가 (External Evaluation)
Rand Measure, F-Measure, Jaccard Index