HTML kodlama sorunları "A" karakteri yerine " gösteriliyor; "

SORU

22 EYLÜL 2009, Salı

HTML kodlama sorunları "A" karakteri yerine " gösteriliyor; "

Eski bir uygulama sadece yaramazlık başlıyor, emin değilim ne için var. ActivePDF ile PDF raporları evine döndü HTML bir grup oluşturur.

İşlem şu şekilde çalışır:

Bir HTML içinde belirteçleri ile bir DB değiştirilmesi şablon çekme ("", "", vb.) ~Müşteriadı~ ~Adı~ ör
Gerçek veri ile simgeleri değiştirin
Derli toplu, basit bir düzenli ifade ile mülkiyet biçimleri HTML etiketi öznitelik değerleri (ActivePDF işleme motoru bir şey ama tek tırnak sevmiyor çünkü tırnak işaretleri sağlar, öznitelik değerleri etrafında etc) HTML işlev
PDF oluşturan bir web hizmetine HTML gönderin.

Bir yerde bu karmaşa, olmayan sonu boşluk HTML şablonu ( s) kodlama olarak ISO-8859-1, böylece onlar ortaya yanlış olarak bir "A" karakteri görüntülerken belgenin bir tarayıcı (FireFox). ActivePDF non-UTF8 bu karakterler üzerine kusmuş.

Benim sorum: beri bilmiyorum nerde sorun kaynaklanıyor ve vaktimiz yok araştırmak, kolay bir yolu var yeniden kodlamak veya Bul ve değiştir kötü karakterler? Bu küçük işlevi ile birlikte, ama attım göndermeye çalıştımtüm bu gobbledegook dönüşürbir şey değiştirmez.

Private Shared Function ConvertToUTF8(ByVal html As String) As String
    Dim isoEncoding As Encoding = Encoding.GetEncoding("iso-8859-1")
    Dim source As Byte() = isoEncoding.GetBytes(html)
    Return Encoding.UTF8.GetString(Encoding.Convert(isoEncoding, Encoding.UTF8, source))
End Function

Herhangi bir fikir?

DÜZENLEME:

Pek iyi bir çözüm gibi görünse de şimdilik bu işi, ben

Private Shared Function ReplaceNonASCIIChars(ByVal html As String) As String
    Return Regex.Replace(html, "[^\u0000-\u007F]", " ")
End Function

CEVAP

22 EYLÜL 2009, Salı

Bu karmaşa içinde bir yerlerde, HTML şablonu (ler) bölünemez boşluk kadar yanlış bir "" karakter . A olarak göstermek için bu ISO-8859-1 kodlama vardır

Bu UTF-8 kodlaması o zaman,-8859-1, ISO değil. Olmayan sonu boşluk karakteri bayt 0xA0 ISO-8859-1; zaman kodlanmış UTF-8 olacak 0xC2,0xA0, eğer (yanlış) görünüm olarak ISO-8859-1 çıkıyor "Â ". Bunun farkında olmayabilir hangi sondaki nbsp içerir; eğer bu byte değil eğer doğru değilse, o zaman başka bir şey belgenizi parçalanmış ve ne olduğunu öğrenmek için daha fazla görmek istiyoruz.

Regexp nedir, nasıl şablon çalışır? Eğer dizeleri (doğru) U 00A0 bölünemez BOŞLUK karakteri dönüştürülüyor eğer uygun bir HTML ayrıştırıcı bir yere dahil olacak. Eğer öyleyse, sadece şablon DOM doğal süreç ve ASCII kodlaması ASCII olmayan karakterler karakter referans olarak tutmak için kullanarak serialise için sorabilirsiniz. O da her zaman son derece tehlikeli bir iş olan HTML kendisini post-processing düzenli yapmak zorunda bırakır.

Her neyse, şimdi eklemek için:

<meta http-equiv="Content-Type" content="text/html;charset=utf-8" />

belgenizi baş ve eğer o doğru bak tarayıcıda hale bakın. Eğer öyleyse o zaman kalan herhangi bir sorun ActivePDF suçu.

Bunu Paylaş:

Facebook
Twitter
Google+
E-Posta

Etiketler:

ÖNCEKİ

ruby'de bir nesnenin...

SONRAKİ

Eclipse yeni bir çal...

AYNI ETİKETTEKİ VİDEOLAR

Film ve Animasyon

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

campos9896

24 Mart 2012
DeAdPiXel666

2 Ocak 2010
Ownage Prank

13 AĞUSTOS 2007

İLGİLİ SORU / CEVAPLAR

1

HTML: Tab boşluk yerine birden fazla b...

15 EKİM 2009
2

Test karakter kodlama sorunları için "...

8 ŞUBAT 2012
3

Nasıl geri "git --değiştirme"...

22 EYLÜL 2009
4

HTML/CSS konumlandırma "kaydır: a...

8 ŞUBAT 2009
5

Bu ne anlama geliyor? &;'NSUnknow...

21 HAZİRAN 2010

SORU