-
Notifications
You must be signed in to change notification settings - Fork 5
Clustering
Park Jae Hyun edited this page Nov 18, 2020
·
5 revisions
K-Means Clustering
장점:
아주 빠름.
계산량은 O(n)
단점:
클래스/그룹 수(K)를 내가 정해야 한다.
처음에 point를 랜덤하게 고르기 때문에 돌릴 때마다 다른 결과가 나온다.
=> 같은 결과가 별로 반복되지 않으며 지속성이 떨어진다(다른 알고리즘은 이보단 낫다).
Mean-Shift Clustering
장점:
K-Means와 대조적으로 이 알고리즘은 클래스 혹은 그룹의 개수를 정할 필요가 없다. Mean-Shift가 자동적으로 발견한다.
단점:
kernel = 반지름 r 사이즈를 선택해야 한다.
Agglomerative Hierarchical Clustering
장점:
우리에게 클래스 혹은 그룹의 개수를 정하게 하지 않는다.
오히려 우리가 원하는 개수의 클러스터를 언제든지 얻을 수 있다.
거리에 민감하지 않다.
특히 좋은 점은 갖고 있는 데이터가 계층적인 구조를 갖고 있을 때이다. 다른 알고리즘은 이런 상황에서는 별 소용이 없다.
단점:
K-Means나 GMM과 다르게 높은 계산량을 갖는다. O(n^3)
https://michigusa-nlp.tistory.com/27
쿼드트리
대량의 좌표 데이터를 메모리 안에 압축해 저장하기 위해 사용하는 여러 기법 중 쿼드 트리(quad tree)란 것이 있습니다.
https://medium.com/@waleoyediran/spatial-indexing-with-quadtrees-b998ae49336
https://www.geeksforgeeks.org/quad-tree/?ref=lbp