SORU
12 HAZİRAN 2012, Salı


Python: string \xa0?Kaldırma

Şu anda Güzel bir Çorba, bir HTML dosyası ve get_text(), arama ayrıştırmak için kullanıyorum ama \xa0 Unicode boşluk temsil eden birçok sol davranıyorum gibi görünüyor. Verimli bir şekilde 2.7 ve boşluk haline Python hepsini kaldırmak var mı? Daha genel bir soru olurdu sanırım, Unicode biçimlendirme kaldırmak için bir yolu var mı?

Ben kullanarak çalıştı: başka bir iş parçacığı tarafından önerilen, ama u \xa0 bu yüzden bende artık bu değişti line = line.replace(u'\xa0',' '), "u"yerine her yerde. ):

EDİT: sorun str.replace(u'\xa0', ' ').encode('utf-8') ama sadece replace() daha da garip karakterler tükürmek için neden gibi görünüyor olmadan .encode('utf-8') yaparak, \xc2 mesela çözülmüş görünüyor. Biri bunu açıklayabilir mi?

CEVAP
19 Temmuz 2012, PERŞEMBE


\xa0 aslında olmayan sonu alanı içinde Latin1 (ISO 8859-1) de > > (160). Bir boşluk ile değiştirmelisiniz.

string.replace(u'\xa0', u' ')

Ne zaman .('utf-8'), utf-8, unicode kodlama olacak her unicode 1 4 bayt ile temsil edilmesi anlamına gelir. kodlamak Bu durumda, \xa0 2 bayt ile temsil edilir xc2\xa0\.

http://docs.python.org/howto/unicode.html kadar okuyun.

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • Amazon Web Services

    Amazon Web S

    8 NİSAN 2009
  • Excel Video Tutorials

    Excel Video

    6 Aralık 2012
  • MisterBrightside

    MisterBright

    24 Mart 2006