Calinski-Harabasz Index는 Variance Ration Criterion (VRC) 라고도 알려져 있으며 직역하자면 분산 비율 기준이다, 데이터에서 최적의 클러스터 수를 결정하기 위한 평가 지표로. 1974년 칼린스키와 하라바츠가 제안했다. 평가 지표는 Internal Validation 기법과 External Validation 기법이 있는데 데이터에 label이 없을 시 Internal Validaiton 기법을 사용할 수 있으며 여기에는 Calinski-Harabasz Index 외에 Silhoutte Score, Davies-Bouldin Index 등이 있다. 이 지표는 클러스터 간 분산 합계와 클러스터 내 분산 합계의 비율을 기반으로 한다. 직관적으로, 이 비율은 클러스터 내..
오라클은 K-means clustering algorithms 다음과 같이 소개하고 있다. : K-means clustering은 unsupervised learning(자율 학습)의 하나로, 레이블 되지 않은 데이터를 갖고 있을 때 사용한다(예를 들어, 카테고리나 그룹이 정의되지 않은 데이터). 이 알고리즘의 목적은 데이터를 K개의 그룹으로 나누는 것이다. 이 알고리즘은 각 데이터를 데이터의 특징(features)에 따라 반복적으로 K개의 그룹 중 하나에 할당하는 것이다. 데이터는 특징의 유사성에 따라 무리지어진다(clustered). K-means clustering algorithm의 결과물은 아래와 같다: 1. 새로운 데이터를 레이블 할 수 있는 각 K개의 clusters의 중심들(centroid..
- Total
- Today
- Yesterday
- 파이썬
- 오블완
- C++
- 안드로이드
- leetcode
- defaultdict
- 티스토리챌린지
- tf-idf
- 이코노미스트 에스프레소
- machine learning
- Python
- The Economist
- ml
- vertex shader
- java
- 리트코드
- Hash Map
- 이코노미스트
- 투 포인터
- DICTIONARY
- I2C
- socket programming
- The Economist Espresso
- join
- Computer Graphics
- Android
- 소켓 프로그래밍
- 머신 러닝
- 딕셔너리
- min heap
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |