HTML dosyası Python kullanarak açılan metin

SORU

30 Kasım 2008, Pazar

HTML dosyası Python kullanarak açılan metin

Bir HTML dosyası Python kullanarak metin ayıklamak istiyorum. Eğer tarayıcı metin ve Not Defteri içine yapıştırdım kopyaladım eğer alırdım aslında aynı çıkış istiyorum.

Bir şeyler kötü oluşturulmuş HTML başarısız olabilir normal ifadeler kullanarak daha sağlam istiyorum. Birçok insan Güzel bir Çorba tavsiye gördüm ama birkaç sorun kullanmadan geçirdim. Biri için, istenmeyen metin, JavaScript kaynağı olarak seçti. Ayrıca, HTML varlıkları yorumlamak değil. Örneğin, eğer Not Defteri içine tarayıcı içeriğini kopyaladım diye ' metin kesme işareti dönüştürmek için HTML kaynak, beklerdim.

Güncellemehtml2text umut verici görünüyor. HTML varlıkları düzgün işlediği ve JavaScript yok sayıyor. Ancak, tam olarak düz metin üretmek değildir; düz metin haline getirilmek üzere fiyat indirimi sağlar. Hiçbir örnek ya da belgeler ile birlikte geliyor, ama bu kod temiz görünüyor.

< / ^ hr .

İlgili sorular:

CEVAP

20 Kasım 2011, Pazar

NOT:NTLK artık clean_html fonksiyonu destekler

Aşağıda orijinal cevap.

NLTK kullanın

4-5 saat html2text ile sorunları düzeltmeye harcadım. Neyse ki NLTK karşılaşma olabilir.
Sihirli bir şekilde çalışıyor.

import nltk   
from urllib import urlopen

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"    
html = urlopen(url).read()    
raw = nltk.clean_html(html)  
print(raw)

Bunu Paylaş: