SORU
5 Temmuz 2011, Salı


Hangi kodlama doğru CSV dosyaları hem Mac hem de Windows Excel ile açılır?

CSV dosyaları UTF-8, BOM ile yabancı karakterler içeren ihraç eden bir web uygulaması var. Windows hem de Mac kullanıcıları Excel anlamsız karakterler olsun. UTF-8 BOM ile dönüştürme çalıştım; Excel/Win ile konuştum, Excel/Mac anlamsız gösterir. Excel 2003/, 2011 Win/Mac Excel kullanıyorum. İşte çalıştım tüm kodlamalar:

Encoding  BOM      Win                            Mac
--------  ---      ----------------------------   ------------
utf-8     --       scrambled                      scrambled
utf-8     BOM      WORKS                          scrambled
utf-16    --       file not recognized            file not recognized
utf-16    BOM      file not recognized            Chinese gibberish
utf-16LE  --       file not recognized            file not recognized
utf-16LE  BOM      characters OK,                 same as Win
                   row data all in first field

İyi bir BOM ile UTF-16LE, ama CSV olarak tanınmıyor. Alan ayırıcı virgül, noktalı virgül ama bazı şeyleri değiştirmiyor.

Her iki dünyada da işe yarayan bir kodlama var mı?

CEVAP
25 Kasım 2013, PAZARTESİ


Excel Kodlamalar

Excel ile ilgili en sinir bozucu olmak WINDOWS-1252 kodlama buldum. Temelde Microsoft'un kendi özel karakter kümesi beri tek Mac ve MS-Excel Windows sürümü üzerinde çalışacak varsayabiliriz. En azından her iki sürümü "Dosya kaynağı" veya "Dosya kodlama doğru verileri okur." seçici bir karşılık vardır

Bağlı sistem ve araçları kullanın, Bu kodlama da adlandırılır CP1252, ANSI, Windows (ANSI), MS-ANSI ya da sadece Windows, arasında diğer farklılıklar.

Bu kodlama ISO-8859-1 (LATIN1 ve diğerleri aka) kümesidir, eğer herhangi bir nedenle WINDOWS-1252 kullanırsanız geri dönüş 12 ** için. ISO-8859-1 aşağıda gösterildiği gibi WINDOWS-1252 bazı karakterler eksik olduğunu hatırlatırız:

| Char | ANSI | Unicode | ANSI Hex | Unicode Hex | HTML entity | Unicode Name                               | Unicode Range            |
| €    | 128  | 8364    | 0x80     | U 20AC      | €      | euro sign                                  | Currency Symbols         |
| ‚    | 130  | 8218    | 0x82     | U 201A      | ‚     | single low-9 quotation mark                | General Punctuation      |
| ƒ    | 131  | 402     | 0x83     | U 0192      | ƒ      | Latin small letter f with hook             | Latin Extended-B         |
| „    | 132  | 8222    | 0x84     | U 201E      | „     | double low-9 quotation mark                | General Punctuation      |
| …    | 133  | 8230    | 0x85     | U 2026      | …    | horizontal ellipsis                        | General Punctuation      |
| †    | 134  | 8224    | 0x86     | U 2020      | †    | dagger                                     | General Punctuation      |
| ‡    | 135  | 8225    | 0x87     | U 2021      | ‡    | double dagger                              | General Punctuation      |
| ˆ    | 136  | 710     | 0x88     | U 02C6      | ˆ      | modifier letter circumflex accent          | Spacing Modifier Letters |
| ‰    | 137  | 8240    | 0x89     | U 2030      | ‰    | per mille sign                             | General Punctuation      |
| Š    | 138  | 352     | 0x8A     | U 0160      | Š    | Latin capital letter S with caron          | Latin Extended-A         |
| ‹    | 139  | 8249    | 0x8B     | U 2039      | ‹    | single left-pointing angle quotation mark  | General Punctuation      |
| Π   | 140  | 338     | 0x8C     | U 0152      | Π    | Latin capital ligature OE                  | Latin Extended-A         |
| Ž    | 142  | 381     | 0x8E     | U 017D      |             | Latin capital letter Z with caron          | Latin Extended-A         |
| ‘    | 145  | 8216    | 0x91     | U 2018      | ‘     | left single quotation mark                 | General Punctuation      |
| ’    | 146  | 8217    | 0x92     | U 2019      | ’     | right single quotation mark                | General Punctuation      |
| “    | 147  | 8220    | 0x93     | U 201C      | “     | left double quotation mark                 | General Punctuation      |
| ”    | 148  | 8221    | 0x94     | U 201D      | ”     | right double quotation mark                | General Punctuation      |
| •    | 149  | 8226    | 0x95     | U 2022      | •      | bullet                                     | General Punctuation      |
| –    | 150  | 8211    | 0x96     | U 2013      | –     | en dash                                    | General Punctuation      |
| —    | 151  | 8212    | 0x97     | U 2014      | —     | em dash                                    | General Punctuation      |
| ˜    | 152  | 732     | 0x98     | U 02DC      | ˜     | small tilde                                | Spacing Modifier Letters |
| ™    | 153  | 8482    | 0x99     | U 2122      | ™     | trade mark sign                            | Letterlike Symbols       |
| š    | 154  | 353     | 0x9A     | U 0161      | š    | Latin small letter s with caron            | Latin Extended-A         |
| ›    | 155  | 8250    | 0x9B     | U 203A      | ›    | single right-pointing angle quotation mark | General Punctuation      |
| œ    | 156  | 339     | 0x9C     | U 0153      | œ     | Latin small ligature oe                    | Latin Extended-A         |
| ž    | 158  | 382     | 0x9E     | U 017E      |             | Latin small letter z with caron            | Latin Extended-A         |
| Ÿ    | 159  | 376     | 0x9F     | U 0178      | Ÿ      | Latin capital letter Y with diaeresis      | Latin Extended-A         |

Bu notueuro işareti eksik. Bu tablo Alan Wood bulunabilir.

Dönüşüm

Dönüşüm farklı her aracı ve dil olarak yapılır. Ancak, bir dosya UTF-8 biliyorsun query_result.csv kodlanmış olduğunu varsayalım. WINDOWS-1252 iconv kullanarak dönüştürmek:

iconv -f UTF-8 -t WINDOWS-1252 query_result.csv > query_result-win.csv

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • CorridorDigital

    CorridorDigi

    17 Mayıs 2010
  • The Onion

    The Onion

    14 Mart 2006
  • YouChewBu

    YouChewBu

    26 Ocak 2009