Nasıl k-ortalamalar kümeleme kullanırken k belirleyebilirim?
k-means clustering, üzerine araştırma yapıyorum ve net olmayan bir şey k) değerini seçin. Sadece deneme yanılma meselesi mi, yoksa daha fazla mı?
CEVAP
Bayesian Bilgi Kriteri (BIC) en üst düzeye çıkarmak
BIC(C | X) = L(X | C) - (p / 2) * log n
nerede L(X | C)
log-olabilirlik veri X
göre model C
, p
parametre sayısı model C
n
sayı noktaların kümesi.
İCML 2000 yılında Dan Pelleg tarafından "X-means: extending K-means with efficient estimation of the number of clusters" ve Andrew Moore bakın.
Başka bir yaklaşım k
için büyük bir değer ile başlar ve artık açıklama uzunluğu azaltır kadar sentroidler (k) azaltma) kaldırma tutmaktır. Horst Bisküvi, Ales Leonardis, "MDL principle for robust vector quantisation" ve Alexander Selb bakınDesen Analizi ve Uygulamalarıvol. 2, p. 59-72, 1999.
Son olarak, bir küme ile Başlangıç noktaları her bir küme için atanmış bir Gauss dağılımı kadar bölme kümeleri devam edebilirsiniz. "Learning the k in k-means" (NİPS 2003), Greg Hamerly ve Charles Elkan bu BIC daha iyi çalışır, ve BIC modelin karmaşıklığı yeterince güçlü bir şekilde cezalandırmak değil, delil gösterin.
Nasıl yerel bir git repo aslen klonlan...
Python, nasıl bir iterable nesne ise b...
Nasıl C benim dizinin boyutu belirleye...
Nasıl çözüleceği "Hata: kötü Ende...
Nasıl Python nesne boyutunu belirleyeb...