SORU
22 NİSAN 2011, Cuma


Yüksek boyutlu olarak en yakın komşu veri?

question birkaç gün önce verilen bir vektör için en yakın komşular bulmak için nasıl sordum. Benim vektör şimdi 21 boyutlar ve Makine öğrenmesi ne de Matematiğin etki alanından değilim çünkü daha fazla devam ediyorum, önce kendimi bazı temel sorular sormaya başlıyorum:

  • Öklid başta yakın komşular bulmak için iyi bir ölçü, mesafe mi? Seçeneklerim nelerdir?
  • Buna ek olarak, nasıl bir k-komşular belirlemek için eşik karar? Yapılabilecek bazı analizler bu değeri anlamaya var mı?
  • Daha önce, kd-Ağaçlar kullanılması tavsiye ettim ama Wikipedia sayfası yüksek Boyutlar için, kd-Tree kaba kuvvet arama için neredeyse eşdeğer olduğunu açıkça söylüyor. Bu durumda, en yakın komşuların bir milyon nokta kümesi içinde verimli bir şekilde bulmak için en iyi yolu nedir?

Birini (veya tamamını) yukarıda bazı sorular açıklığa misiniz?

CEVAP
24 NİSAN 2011, Pazar


Ben şu anda bu tür sorunlar -- sınıflandırma, en yakın komşu müzik bilgi erişim için aramaya çalışma.

İlginizi çekebilirYaklaşık En Yakın Komşu(ANN) algoritmaları. Fikri algoritması yeterince dönmek için izin verirkomşular yakın(belki de en yakın komşu); bunu yaparken, karmaşıklığı azaltmak. Bahsettinizkd-tree; bu bir örnektir. Ama senin de dediğin gibikd-treekötü yüksek boyutlarda çalışır. Aslındatümgeçerli dizin oluşturma teknikleri (uzay bölümleme dayalı) doğrusal aşağılamak için yeterince yüksek Boyutlar için[1]Arama[2][3].

ArasındaANNalgoritmalar son zamanlarda, en popüler belki de önerilmiştirKonum-Hassas Karma(LSHkutuları bir dizi içine Yüksek boyutlu bir uzay, yani, karma Tablo [1][3] puan kümesi eşleştirir.), Ama geleneksel karma aksine, biryöredeki duyarlıkarma yerleştiriryakındakiaynı çöp kutusuna işaret eder.

LSHbazı büyük avantajları vardır. Öncelikle basit. Sadece veritabanındaki tüm noktaları için karma hesaplamak, onlardan karma bir tablo yapın. Sorgu için sorgu noktasının karma bilgi işlem, karma tablo aynı kutuya tüm puan almak.

İkincisi, performansı destekleyen titiz bir teori var. Sorgu zaman olduğu gösterilebilirsublinearveritabanının boyutu, yani, daha hızlı doğrusal arama daha. Daha hızlı nasıl tahammül edebiliriz ne kadar bağlıdır.

Son olarakLSHherhangi bir Lp ile uyumlu 0 < p <= 2 norm. Bu nedenle, ilk soruyu cevaplamak için kullanabilirsinizLSHÖklid uzaklık ölçüsü ile, veya (R1) Manhattan uzaklık ölçüsü ile kullanabilirsiniz. Ayrıca mesafe ve kosinüs benzerlik Hamming için çeşitleri vardır.

İyi bir bakış Slaney ve Michael Casey, 2008 yılında Anadolu Psikiyatri Dergisi için Malcolm [4] tarafından yazılmıştır.

LSHgörünüşte her yerde uygulanmış. Bir denemek isteyebilirsiniz.


[1] Düz, İndyk, İmmorlica, Mirrokni, "Yerellik Duyarlı Düzeni Sağlama p-Kararlı Dağılımlar," 2004. Temel

[2] Weber, Schek, Blotlama, benzerlik arama Yüksek boyutlu uzaylarda yöntemleri," 1998. "nicel Bir analiz çalışması ve performans

[3] Gionis, İndyk, Motwani, "Benzerlik arama karma), yüksek Boyutlar," 1999.

[4] Slaney, Casey, "Yerellik duyarlı komşular en yakın bulmak için karma", 2008.

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • majesticdubstep

    majesticdubs

    3 Kasım 2011
  • Ryan Billy

    Ryan Billy

    30 EKİM 2006
  • Virtual Riot

    Virtual Riot

    19 Mayıs 2011