SORU
6 EYLÜL 2010, PAZARTESİ


Ne algoritması Okunabilirlik lerini metin ayıklamak için kullanır?

Bir süre için, akıllıca "" metin reklamlar ve diğer tüm karmaşası ile ilgili ortadan kaldırarak.bir URL metin ilgili çıkarmanın bir yolunu bulmaya çalışıyorum Araştırma birkaç ay sonra, doğru olarak tespit edilemeyen bir sorun olarak verdim. (Değişik yolları denedim ama hiçbiri güvenilirdi)

Bir hafta boyunca Readability - okunabilir metin içine herhangi bir URL dönüştüren bir eklenti buldum. Bana oldukça doğru görünüyor. Benim tahminim bir şekilde ilgili metin ayıklamak için akıllı bir algoritma var.

Herkes nasıl biliyor? Ya da güvenilir bir şekilde nasıl yapabileceğim?

CEVAP
21 Kasım 2010, Pazar


Okunabilirlik özellikle "bir şekilde" birçok durumda. iş bu sezgisel oluşur

Yazdım biraz araştırma kağıtları hakkında bu konu ve ben gibi arka planını açıklar neden bu kadar kolay ama bir çözüm bu iyi çalışıyor ve zaman alır zor kapatmak için 0 doğruluk.

Yok öyle bir dil hukukun temel insan dili olduğunu da (Ama yaLnızca değil) apaçık Web sayfası içeriği, hangi zaten oldukça açık bir şekilde ayıran iki tür metin (tam metin vs olmayan tam metin ya da, kabaca, "ana içerik" yerine, "demirbaş").

Almak için ana içerik, HTML, birçok durumda yeterli tutmak için sadece HTML metin öğeleri (örneğin metin bloklarını olmayan kesintiye tarafından işaretleme) hangi fazla 10 kelime. İnsanlar metin iki tür seçim gibi görünüyor ("" ve "", kelime sayısı ile ölçülen, dalga boyu uzun metin yazma iki farklı motivasyon için. kısa Onları "" "bilgilendirme" yaptırma. ve seyir derim

Eğer bir yazar olmak istiyorsahızlı bir şekildeyazılmış olanı alıp kullanır "", yani metin birkaç kelime ("", "şunu Oku","") buraya Tıklayın. STOP gibi seyir Bu gezinti öğeleri metin (menüler vs.) çoğunlukla tanınmış türüdür

Eğer bir yazar demek istiyor o ne derinden anlamak istiyorsa, birçok kelime kullanır. Bu şekilde, belirsizlik fazlalık artış pahasına kaldırılır. Makale gibi içerikleri genellikle sadece birkaç kelimeden fazla olduğu gibi bu sınıfa girer.

Bu ayrılık davaları bir bolluk içinde çalışmak gibi görünüyor olsa da, başlıklar, kısa cümleler, uyarılar, vb telif altbilgi ile zor oluyor.

Daha karmaşık stratejiler ve demirbaş ana içeriği ayıran yardımcı özellikleri vardır. Örneğin, bağlantı yoğunluğu (sayısı bir deyişle, bir blok bağlı karşı genel sayısının bir deyişle blok), özellikleri önceki/sonraki blok, frekansın belirli bir blok metinde "bütün" Web, DOM yapısı HTML belgesi, görsel resim, sayfa vb.

""Teorik bir bakış açısı. bazı fikir almak içinBoilerplate Detection using Shallow Text Features Madde benim en son okuyabilirsiniz Ayrıca videolectures.net kağıt sunum videosunu izleyebilirsiniz.

"Okunabilirlik" bu özelliklerin bir kısmını kullanır. Eğer dikkatle SVN changelog izle, stratejileri zaman içinde çeşitli ve çok sayıda Okunabilirlik ayıklama, kalite yaptığını göreceksiniz. Örneğin, Aralık 2009'da bağlantı yoğunluğu giriş çok geliştirmeye yardımcı oldu.

Benim görüşüme göre, bu nedenle demenin bir anlamı yok", tam sürüm numarasını belirtmeye gerek. "gibi mi Okunabilirlik sağlar

İçerik çıkarma kütüphane birkaç farklı çıkarma stratejileri sağlar boilerpipe adı verilen HTML Açık Kaynak yayımladım. Kullanımı durumda bağlı olarak, bir veya diğer çıkarıcı daha iyi çalışır. Seçtiğiniz sayfalarında arkadaşı boilerpipe-web Google AppEngine üzerinde uygulama kullanarak bu presi deneyebilirsiniz.

Sayılar konuşsun "Benchmarks" bazı çıkarma stratejileri, boilerpipe dahil olmak üzere, Okunabilirlik karşılaştıran boilerpipe wiki ve Apple Safari sayfasında.

Bu algoritmaların ana içeriği aslında tam metin olduğunu varsayalım bahsetmeliyiz. "Ana içeriği" başka bir şey, örneğin bir resim, bir tablo, bir video vb. durumlar vardır Algoritmalar bu tür durumlarda işe yaramaz.

Şerefe

Hıristiyan

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • engineerguy

    engineerguy

    10 Ocak 2010
  • jpmkm1

    jpmkm1

    4 NİSAN 2008
  • thenewboston

    thenewboston

    4 ŞUBAT 2008