SORU
30 Kasım 2008, Pazar


HTML dosyası Python kullanarak açılan metin

Bir HTML dosyası Python kullanarak metin ayıklamak istiyorum. Eğer tarayıcı metin ve Not Defteri içine yapıştırdım kopyaladım eğer alırdım aslında aynı çıkış istiyorum.

Bir şeyler kötü oluşturulmuş HTML başarısız olabilir normal ifadeler kullanarak daha sağlam istiyorum. Birçok insan Güzel bir Çorba tavsiye gördüm ama birkaç sorun kullanmadan geçirdim. Biri için, istenmeyen metin, JavaScript kaynağı olarak seçti. Ayrıca, HTML varlıkları yorumlamak değil. Örneğin, eğer Not Defteri içine tarayıcı içeriğini kopyaladım diye ' metin kesme işareti dönüştürmek için HTML kaynak, beklerdim.

Güncellemehtml2text umut verici görünüyor. HTML varlıkları düzgün işlediği ve JavaScript yok sayıyor. Ancak, tam olarak düz metin üretmek değildir; düz metin haline getirilmek üzere fiyat indirimi sağlar. Hiçbir örnek ya da belgeler ile birlikte geliyor, ama bu kod temiz görünüyor.

< / ^ hr .

İlgili sorular:

CEVAP
20 Kasım 2011, Pazar


NOT:NTLK artık clean_html fonksiyonu destekler

Aşağıda orijinal cevap.


NLTK kullanın

4-5 saat html2text ile sorunları düzeltmeye harcadım. Neyse ki NLTK karşılaşma olabilir.
Sihirli bir şekilde çalışıyor.

import nltk   
from urllib import urlopen

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"    
html = urlopen(url).read()    
raw = nltk.clean_html(html)  
print(raw)

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • Ludique

    Ludique

    21 NİSAN 2009
  • MikeyMacintosh

    MikeyM

    28 Aralık 2009
  • ODN

    ODN

    26 Kasım 2006