Seçim yaparken hangi makine öğrenme sınıflandırıcı?

SORU

7 NİSAN 2010, ÇARŞAMBA

Seçim yaparken hangi makine öğrenme sınıflandırıcı?

Bazı sınıflandırma problemi üzerinde çalışıyorum sanırım. (Sahtekarlık algılama ve yorum spam çalışıyorum şimdi iki sorun var, ama genel olarak herhangi bir sınıflandırma görev merak ediyorum.)

Nasıl kullanmam gerektiğini biliyor muyum? (Karar ağacı, SVM, Bayes, lojistik regresyon, vb.) Ne gibi durumlarda onlardan biri de "ilk tercih, bir seçme ilkeleri nelerdir?" doğal.

Aradığım cevap bu tür örnekler (Manning et al.'"Bilgi Erişim kitap Tanıtımı": http://nlp.stanford.edu/IR-book/html/htmledition/choosing-what-kind-of-classifier-to-use-1.html): . s

bir. Verilerinizi etiketli, ama sadece sınırlı bir miktarda varsa, yüksek önyargı ile bir sınıflandırıcı (örneğin, Naive Bayes) kullanmalısınız. [Yüksek önyargı bir sınıflandırıcı veri küçük bir miktar yüzünden iyi olan daha düşük sapma var, çünkü bu olduğunu tahmin ediyorum.]

b. Eğer veri bir ton varsa, o zaman sınıflandırıcı gerçekten çok önemli değil, muhtemelen güvenilir veri ile bir sınıflandırıcı seçmelisiniz.

Başka ne kuralları? Hatta bazı üst yönetim kişi için model açıklamak Zorundasınız "eğer, o zaman belki de kurallar oldukça şeffaf kararın" iyi. beri bir karar ağacı kullanmanız gerekir gibi cevaplar Daha az uygulama/kütüphane sorunları olsa da umurumda.
Ayrıca, biraz ayrı bir soru, standart Bayes sınıflandırıcılar ayrıca, orada 'standart state-of-the-art' yorum yöntemleri algılama e-posta spam (karşıt olarak) spam?

[Eğer stackoverflow gerçek programlama daha fazla makine öğrenme beri bu soruyu sormak için en iyi yer olup olmadığından emin değilse, başka nerede için herhangi bir öneriniz--?]

CEVAP

8 NİSAN 2010, PERŞEMBE

Model seçimi Çapraz Doğrulama kullanarak ihtiyacınız olan şey olabilir.

http://en.wikipedia.org/wiki/Cross-validation_(statistics)

http://en.wikipedia.org/wiki/Model_selection

Çapraz Doğrulama

Sadece bölme K sizin veri kümesi örtüşmeyen alt kümeleri (katlanır), bir model K-1 ile tren kıvrımlar ve performansını kullanarak tahmin ne bıraktığını kat. Bu kıvrımlar (ilk 1 katlanır bırakın, sonra 2.,.., sonra kalan kıvrımları ile hazırlanmasında, tren) olası her kombinasyon için yapmak. Sen bitirdikten sonra tüm kıvrımlar performans ortalaması (belki performans varyans/standart sapma da tahmin ediyoruz.

Nasıl K var zamana bağlı parametre seçin. Her zamanki Ks 3.5 ve 10. dakikalarda ya N veri boyutu (muhtemelen-Bir-Dışarıda Bırak Çapraz Doğrulama olarak) nerede olduğunu bile N. 5 ya da 10 tercih ederim.

Model Seçimi

Hadi her yöntem için 5 yöntem (ANN, KNN vb SVM) ve 10 parametre kombinasyonları (yönteme bağlı) olduğunu varsayalım. Sadece her yöntem için Çapraz Doğrulama çalıştırın ve kombinasyon (5x10 = 50) parametresi ve en iyi model, yöntem ve parametrelerini seçmek zorunda. O zaman sana en iyi yöntemi ile yeniden eğitmek ve tüm verileri parametreleri ve son model!

Bir şey söylemek için biraz daha fazla şeyler vardır. Örneğin her yöntem ve parametre kombinasyonları çok kullanırsanız overfit olacak çok büyük ihtimal. Bu gibi durumlarda iç içe geçmiş Çapraz Doğrulama kullanmak zorunda.

İç İçe Geçmiş Çapraz Doğrulama

İç içe geçmiş Çapraz Doğrulama Model Seçimi algoritması üzerinde Çapraz Doğrulama gerçekleştirmek. Yine ilk K kıvrımları içine veri bölme. Her adımdan sonra eğitim veri olarak K-1 ve test verileri olarak kalan bir seçim. Sonra o K kıvrımlar olası her kombinasyon için Model Seçimi (yukarıda açıkladım prosedürü) çalıştırın. Bu bittikten sonra K modelleri, kıvrımlar her birleşimi için bir tane olacak. Bundan sonra size kalan test verileri ile her model test ve en iyi olanı seçin. Yine, son model ettikten sonra aynı yöntem ile yeni bir tane ve tüm verileri parametreleri tren. Thats Son model.

Tabii ki bu yöntem bir çok çeşidi ve söylemediğim başka şeyler de var. Eğer ihtiyacınız olursa bu konuda daha fazla bilgi bu konular hakkında bazı yayınlar için bak.

Bunu Paylaş: