編碼
要存儲(chǔ),編碼的概念當(dāng)然就被引入進(jìn)來。
Unicode最早的編碼想法,就是把每一個(gè)碼點(diǎn)(code point)都存儲(chǔ)在兩個(gè)字節(jié)中,這也就導(dǎo)致了大多數(shù)人的誤解。于是Hello就變成了:
00 48 00 65 00 6C 00 6C 00 6F
這樣對(duì)嗎?如下如何?
48 00 65 00 6C 00 6C 00 6F 00
技術(shù)上說,我相信這樣是可以的。事實(shí)上,早期的實(shí)現(xiàn)者們的確想把Unicode的碼點(diǎn)(code point)按照大端或小端兩種方式存儲(chǔ),這樣至少已經(jīng)有兩種存儲(chǔ)Unicode的方法了。于是人們就必須使用FE FF作為每一個(gè)Unicode字符串的開頭,我們稱這個(gè)為Unicode Byte Order Mark。如果你互換了你的高位與低位,就變成了FF FE,這樣讀取這個(gè)字符串的程序就知道后面字節(jié)也需要互換了?上В皇敲恳粋(gè)Unicode字符串都有字節(jié)序標(biāo)記。
現(xiàn)在,看起來好像問題已經(jīng)解決了,可是這幫程序員仍在抱怨。"看看這些零!"他們會(huì)這樣說,因?yàn)樗麄兪敲绹,他們只看不?huì)碼點(diǎn)不會(huì)超過U+00FF的英文字母。同時(shí)他們也是California的嬉皮士,他們想節(jié)省一點(diǎn)。如果他們是得克薩斯人,可能他們就不會(huì)介意兩倍的字節(jié)數(shù)。但是這樣California節(jié)儉的人卻無法忍受字符串所占空間翻倍。而且現(xiàn)在大堆的文檔使用的是ANSI和DBCS字符集,誰去轉(zhuǎn)換它們?于是這幫人選擇忽略Unicode,繼續(xù)自己的路,這顯然讓事情變得更糟。
于是非常聰明的UTF-8的概念被引入了。UTF-8是另一個(gè)系統(tǒng),用來存儲(chǔ)字符串所對(duì)應(yīng)的Unicode的碼點(diǎn) (code points)-即那些神奇的U+數(shù)字組合,在內(nèi)存中,而且存儲(chǔ)的最小單元是8比特的字節(jié)。在UTF-8中,0-127之間的碼字都使用一個(gè)字節(jié)來存儲(chǔ),超過128的碼字使用2,3甚至6個(gè)字節(jié)來存儲(chǔ)。
這顯然有非常好的效果,因?yàn)橛⑽牡奈谋臼褂肬TF-8存儲(chǔ)的形式完全與ASCII一樣了,所以美國人壓根不會(huì)注意到發(fā)生了什么變化。舉個(gè)例子,Hello -- U+0048 U+0065 U+006C U+006C U+006C U+006F,將會(huì)被存儲(chǔ)為48 65 6C 6C 6F,這與ASCII、與ANSI標(biāo)準(zhǔn)、與所有這個(gè)星球上的OEM字符集顯然都是一樣的,F(xiàn)在,如果你需要使用希臘字母,你可以用幾個(gè)字節(jié)來存儲(chǔ)一個(gè)碼字,美國人永遠(yuǎn)都不會(huì)注意到。(干嗎得美國人注意,無語,美國人寫的文章...)
到現(xiàn)在我已經(jīng)告訴了你三種Unicode的編碼方式,傳統(tǒng)的使用兩個(gè)字節(jié)存儲(chǔ)的稱之為UCS-2或者UTF-16,而且你必須判斷空間是大端的UCS-2還是小端的UCS-2。新的UTF-8標(biāo)準(zhǔn)顯然更流行,如果你恰巧有專門面向英文的程序,顯然這些程序不需要知道UTF-8的存在依然可以工作地很好。
事實(shí)上,還有其它若干對(duì)Unicode編碼的方法。比如有個(gè)叫UTF-7,和UTF-8差不多,但是保證字節(jié)的最高位總是0,這樣如果你的字符不得不經(jīng)過一些嚴(yán)格的郵件系統(tǒng)時(shí)(這些系統(tǒng)認(rèn)為7個(gè)比特完全夠用了),就不會(huì)有信息丟失。還有一個(gè)UCS-4,使用4個(gè)字節(jié)來存儲(chǔ)每個(gè)碼點(diǎn)(code point),好處是每個(gè)碼點(diǎn)都使用相同的字節(jié)數(shù)來存儲(chǔ),可惜這次就算是得克薩斯人也不愿意了,因?yàn)檫@個(gè)方法實(shí)在太浪費(fèi)了。
現(xiàn)在的情況變成了你思考事情時(shí)所使用的基本單元--柏拉圖式的字母已經(jīng)被Unicode的碼點(diǎn)完全表示了。這些碼點(diǎn)也可以完全使用其它舊的編碼體系。比如,你可以把 Hello對(duì)應(yīng)的Unicode碼點(diǎn)串(U+0048 U+0065 U+006C U+006C U+006F)用ASCII、OEM Greek、Hebrew ANSI或其它上百個(gè)編碼體系來編碼,不過需要注意一點(diǎn),有些字母會(huì)無法顯示。如果你要表示的Unicode碼點(diǎn)在你使用的編碼體系中壓根沒有對(duì)應(yīng)的字符,那么你可能會(huì)得到一個(gè)小問號(hào)"?",或者得到一個(gè)"�"。
許多傳統(tǒng)的編碼體系僅僅能編碼Unicode碼點(diǎn)中的一部分,其余全部會(huì)被顯示為問號(hào)。比較流行的英文編碼體系有Windows-1252(Windows 9x中的西歐語言標(biāo)準(zhǔn))和ISO-8859-1,還有aka Latin-1。但是如果想用這些編碼體系來編碼俄語或者希伯來語就只能得到一串問號(hào)了。UTF 7,8,16,和32都可以完全正確編碼Unicode中的所有碼點(diǎn)。
出處:
責(zé)任編輯:bluehearts
上一頁 關(guān)于字符集和Unicode的相關(guān)知識(shí) [3] 下一頁 關(guān)于字符集和Unicode的相關(guān)知識(shí) [5]
◎進(jìn)入論壇網(wǎng)絡(luò)編程版塊參加討論
|