파이썬406 [데이터 사이언스 스쿨] 계층적 군집화 hierarchical clustering ○ 계층적 군집화(hierachical clustering)는 여러개의 군집 중에서 가장 유사도가 높은 혹은 거리가 가까운 군집 두 개를 선택하여 하나로 합치면서 군집 개수를 줄여 가는 방법을 말한다. 합체 군집화(agglomerative clustering)라고도 한다. ○ 계측정 군집화를 하려면 우선 모든 군집 간에 거리를 측정해야 한다. - 비계층적 거리 측정법 중심(centroid)거리 단일(single)거리 완전(complete)거리 평균(average)거리 - 계층적 거리 측정법 중앙값(median)거리 가중(weighted)거리 와드(ward) 거리 - 출처 : [데이터 사이언스 스쿨] 계층적 군집화 hierarchical clustering 2021. 5. 14. [데이터 사이언스 스쿨] 디비스캔 군집화 ○ 디비스캔(DBSCAN: Density-Based Spatial Clustering of Applications with Noise) 군집화 방법은 데이터가 밀집한 정도 즉 밀도를 이용한다. 디비스캔 군집화는 군집의 형태에 구애받지 않으며 군집의 갯수를 사용자가 지정할 필요가 없다. 디비스캔 군집화 방법에서는 초기 데이터로부터 근접한 데이터를 찾아나가는 방법으로 군집을 확장한다. 이 때 다음 사용자 인수를 사용한다. 최소 거리 ε: 이웃(neighborhood)을 정의하기 위한 거리 최소 데이터 갯수(minimum points): 밀집지역을 정의하기 위해 필요한 이웃의 갯수 - 출처 : [데이터 사이언스 스쿨] 디비스캔 군집화 2021. 5. 14. [데이터 사이언스 스쿨] K-평균 군집화 clustering ○ K-평균 군집화 방법은 가장 단순하고 빠른 군집화 방법의 하나이다. 다음과 같은 목적함수 값이 최소화될 때까지 군집의 중심위치와 각 데이터가 소속될 군집를 반복해서 찾는다. 이 값을 관성(inertia)이라 한다. ○ K-평균 군집화란 명칭은 각 군집의 중심위치를 구할 때 해당 군집에 속하는 데이터의 평균(mean)값을 사용하는데서 유래하였다. 만약 평균 대신 중앙값(median)을 사용하면 K-중앙값(K-Median) 군집화라 한다. - 출처 : [데이터 사이언스 스쿨] K-평균 군집화 clustering 2021. 5. 14. [데이터 사이언스 스쿨] 군집화 clustering ○ 주어진 데이터 집합을 유사한 데이터들의 그룹으로 나누는 것을 군집화(clustering)라 한다. ○ 군집화 방법 K-평균 군집화(K-means Clustering) 디비스캔 군집화(DBSCAN Clustering) 유사도 전파 군집화(Affinity Propagation Clustering) 계층적 군집화(Hierarchical Clustering) 스펙트럴 군집화(Spectral Clustering) ○ 군집화 성능기준 조정 랜드지수(Adjusted Rand Index) 조정 상호정보량 (Adjusted Mutual Information) 실루엣계수 (Silhouette Coefficient) - 출처 : [데이터 사이언스 스쿨] 군집화 clustering 2021. 5. 14. 이전 1 ··· 25 26 27 28 29 30 31 ··· 102 다음