SORU
29 EKİM 2008, ÇARŞAMBA


Algoritması metin ile benzer makaleleri bulmak için

Ben birçok makale veritabanı (başlık,metin), benim aradığım bir algoritma bulmak için X en benzer makaleleri, bir şey gibi Yığın Taşması "ile İlgili Soru" ne zaman bir soru soruyorsun.

Bunun için googling denedim ama sadece diğer "metin" sorunlar, diğerleri ile her madde karşılaştırılması ve bir yerde bir benzerlik saklamak gibi bir şey. benzer ilgili sayfaları buldum YANİ bu "zaman sadece yazılı metin". gerçek mi

Nasıl?

CEVAP
30 EKİM 2008, PERŞEMBE


Edit distance değil, olası bir aday gibi olurdu imla/kelime-sipariş bağımlı ve çok daha fazla hesaplama açısından daha pahalı Olacak lider sana inanıyorum, çok kalın ve çok sayıda belge istiyorum aslında ilgilenir aranıyor.

Lucene gibi bir şey gitmek için bir yoldur. Tüm belgeleri dizin ve belgeler belirli bir belge için benzer bulmak istediğinizde, bir sorgu içine verilen bir belge açın ve dizin arama. İçten Lucene kullanıyor olacak tf-idf inverted index yapmak tüm süreç bir miktar süre ile doğru orantılı numarası belgeleri bu olabilir muhtemelen maç, toplam sayının belgeler koleksiyonu.

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • Gigawipf

    Gigawipf

    18 ŞUBAT 2010
  • segtlim

    segtlim

    21 EKİM 2008
  • soyacincautv

    soyacincautv

    14 NİSAN 2010