SORU
12 HAZİRAN 2012, Salı


Python: string \xa0?Kaldırma

Şu anda Güzel bir Çorba, bir HTML dosyası ve get_text(), arama ayrıştırmak için kullanıyorum ama \xa0 Unicode boşluk temsil eden birçok sol davranıyorum gibi görünüyor. Verimli bir şekilde 2.7 ve boşluk haline Python hepsini kaldırmak var mı? Daha genel bir soru olurdu sanırım, Unicode biçimlendirme kaldırmak için bir yolu var mı?

Ben kullanarak çalıştı: başka bir iş parçacığı tarafından önerilen, ama u \xa0 bu yüzden bende artık bu değişti line = line.replace(u'\xa0',' '), "u"yerine her yerde. ):

EDİT: sorun str.replace(u'\xa0', ' ').encode('utf-8') ama sadece replace() daha da garip karakterler tükürmek için neden gibi görünüyor olmadan .encode('utf-8') yaparak, \xc2 mesela çözülmüş görünüyor. Biri bunu açıklayabilir mi?

CEVAP
19 Temmuz 2012, PERŞEMBE


\xa0 aslında olmayan sonu alanı içinde Latin1 (ISO 8859-1) de > > (160). Bir boşluk ile değiştirmelisiniz.

string.replace(u'\xa0', u' ')

Ne zaman .('utf-8'), utf-8, unicode kodlama olacak her unicode 1 4 bayt ile temsil edilmesi anlamına gelir. kodlamak Bu durumda, \xa0 2 bayt ile temsil edilir xc2\xa0\.

http://docs.python.org/howto/unicode.html kadar okuyun.

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • Alfredo Garcia

    Alfredo Garc

    25 Mayıs 2007
  • Lupe Fiasco

    Lupe Fiasco

    23 ŞUBAT 2006
  • Tek Syndicate

    Tek Syndicat

    23 Temmuz 2008