一级人伦电影欧美女优操逼,亂倫近親相姦中文字幕av,超碰97人人密牙

　關(guān)于字符集和Unicode的相關(guān)知識(shí)

作者：Joel Spolsky　時(shí)間： 2010-03-12　文檔類型：翻譯　來自：

第 1 頁關(guān)于字符集和Unicode的相關(guān)知識(shí) [1]
第 2 頁關(guān)于字符集和Unicode的相關(guān)知識(shí) [2]
第 3 頁關(guān)于字符集和Unicode的相關(guān)知識(shí) [3]
第 4 頁關(guān)于字符集和Unicode的相關(guān)知識(shí) [4]
第 5 頁關(guān)于字符集和Unicode的相關(guān)知識(shí) [5]

編碼

要存儲(chǔ)，編碼的概念當(dāng)然就被引入進(jìn)來。

Unicode最早的編碼想法，就是把每一個(gè)碼點(diǎn)(code point)都存儲(chǔ)在兩個(gè)字節(jié)中，這也就導(dǎo)致了大多數(shù)人的誤解。于是Hello就變成了：

00 48 00 65 00 6C 00 6C 00 6F

這樣對(duì)嗎？如下如何？

48 00 65 00 6C 00 6C 00 6F 00

技術(shù)上說，我相信這樣是可以的。事實(shí)上，早期的實(shí)現(xiàn)者們的確想把Unicode的碼點(diǎn)(code point)按照大端或小端兩種方式存儲(chǔ)，這樣至少已經(jīng)有兩種存儲(chǔ)Unicode的方法了。于是人們就必須使用FE FF作為每一個(gè)Unicode字符串的開頭，我們稱這個(gè)為Unicode Byte Order Mark。如果你互換了你的高位與低位，就變成了FF FE，這樣讀取這個(gè)字符串的程序就知道后面字節(jié)也需要互換了�？上В皇敲恳粋€(gè)Unicode字符串都有字節(jié)序標(biāo)記。

現(xiàn)在，看起來好像問題已經(jīng)解決了，可是這幫程序員仍在抱怨。"看看這些零！"他們會(huì)這樣說，因?yàn)樗麄兪敲绹�，他們只看不�?huì)碼點(diǎn)不會(huì)超過U+00FF的英文字母。同時(shí)他們也是California的嬉皮士，他們想節(jié)省一點(diǎn)。如果他們是得克薩斯人，可能他們就不會(huì)介意兩倍的字節(jié)數(shù)。但是這樣California節(jié)儉的人卻無法忍受字符串所占空間翻倍。而且現(xiàn)在大堆的文檔使用的是ANSI和DBCS字符集，誰去轉(zhuǎn)換它們？于是這幫人選擇忽略Unicode，繼續(xù)自己的路，這顯然讓事情變得更糟。

于是非常聰明的UTF-8的概念被引入了。UTF-8是另一個(gè)系統(tǒng)，用來存儲(chǔ)字符串所對(duì)應(yīng)的Unicode的碼點(diǎn) (code points)-即那些神奇的U+數(shù)字組合，在內(nèi)存中，而且存儲(chǔ)的最小單元是8比特的字節(jié)。在UTF-8中，0-127之間的碼字都使用一個(gè)字節(jié)來存儲(chǔ)，超過128的碼字使用2,3甚至6個(gè)字節(jié)來存儲(chǔ)。

這顯然有非常好的效果，因?yàn)橛⑽牡奈谋臼褂肬TF-8存儲(chǔ)的形式完全與ASCII一樣了，所以美國人壓根不會(huì)注意到發(fā)生了什么變化。舉個(gè)例子，Hello -- U+0048 U+0065 U+006C U+006C U+006C U+006F，將會(huì)被存儲(chǔ)為48 65 6C 6C 6F，這與ASCII、與ANSI標(biāo)準(zhǔn)、與所有這個(gè)星球上的OEM字符集顯然都是一樣的�，F(xiàn)在，如果你需要使用希臘字母，你可以用幾個(gè)字節(jié)來存儲(chǔ)一個(gè)碼字，美國人永遠(yuǎn)都不會(huì)注意到。（干嗎得美國人注意，無語，美國人寫的文章...）

到現(xiàn)在我已經(jīng)告訴了你三種Unicode的編碼方式，傳統(tǒng)的使用兩個(gè)字節(jié)存儲(chǔ)的稱之為UCS-2或者UTF-16，而且你必須判斷空間是大端的UCS-2還是小端的UCS-2。新的UTF-8標(biāo)準(zhǔn)顯然更流行，如果你恰巧有專門面向英文的程序，顯然這些程序不需要知道UTF-8的存在依然可以工作地很好。

事實(shí)上，還有其它若干對(duì)Unicode編碼的方法。比如有個(gè)叫UTF-7，和UTF-8差不多，但是保證字節(jié)的最高位總是0,這樣如果你的字符不得不經(jīng)過一些嚴(yán)格的郵件系統(tǒng)時(shí)（這些系統(tǒng)認(rèn)為7個(gè)比特完全夠用了），就不會(huì)有信息丟失。還有一個(gè)UCS-4，使用4個(gè)字節(jié)來存儲(chǔ)每個(gè)碼點(diǎn)(code point)，好處是每個(gè)碼點(diǎn)都使用相同的字節(jié)數(shù)來存儲(chǔ)，可惜這次就算是得克薩斯人也不愿意了，因?yàn)檫@個(gè)方法實(shí)在太浪費(fèi)了。

現(xiàn)在的情況變成了你思考事情時(shí)所使用的基本單元--柏拉圖式的字母已經(jīng)被Unicode的碼點(diǎn)完全表示了。這些碼點(diǎn)也可以完全使用其它舊的編碼體系。比如，你可以把 Hello對(duì)應(yīng)的Unicode碼點(diǎn)串(U+0048 U+0065 U+006C U+006C U+006F)用ASCII、OEM Greek、Hebrew ANSI或其它上百個(gè)編碼體系來編碼，不過需要注意一點(diǎn)，有些字母會(huì)無法顯示。如果你要表示的Unicode碼點(diǎn)在你使用的編碼體系中壓根沒有對(duì)應(yīng)的字符，那么你可能會(huì)得到一個(gè)小問號(hào)"?"，或者得到一個(gè)"�"。

許多傳統(tǒng)的編碼體系僅僅能編碼Unicode碼點(diǎn)中的一部分，其余全部會(huì)被顯示為問號(hào)。比較流行的英文編碼體系有Windows-1252（Windows 9x中的西歐語言標(biāo)準(zhǔn)）和ISO-8859-1，還有aka Latin-1。但是如果想用這些編碼體系來編碼俄語或者希伯來語就只能得到一串問號(hào)了。UTF 7，8，16，和32都可以完全正確編碼Unicode中的所有碼點(diǎn)。

出處：
責(zé)任編輯：bluehearts

上一頁關(guān)于字符集和Unicode的相關(guān)知識(shí) [3] 下一頁關(guān)于字符集和Unicode的相關(guān)知識(shí) [5]

◎進(jìn)入論壇網(wǎng)絡(luò)編程版塊參加討論

相關(guān)文章

任意字符集下正常顯示網(wǎng)頁

Flash與后臺(tái)編碼問題解決新方案


關(guān)鍵字搜索	常規(guī)搜索	推薦文檔
熱門搜索：CSS Fireworks 設(shè)計(jì)比賽網(wǎng)頁制作 web標(biāo)準(zhǔn) 用戶體驗(yàn) UE photoshop Dreamweaver Studio8 Flash 手繪 CG

站點(diǎn)最新

站點(diǎn)最新列表

周大�！熬�•自然”設(shè)計(jì)大賽開啟

國際體驗(yàn)設(shè)計(jì)大會(huì)7月將在京舉行

中國國防科技信息中心標(biāo)志征集

云計(jì)算如何讓安全問題可控

云計(jì)算是多數(shù)企業(yè)唯一擁抱互聯(lián)網(wǎng)的機(jī)會(huì)

阿里行云

云手機(jī)年終巨獻(xiàn)，送禮標(biāo)配299起

阿里巴巴CTO王堅(jiān)的"云和互聯(lián)網(wǎng)觀"

1499元買真八核云OS雙蛋大促

首屆COCO桌面手機(jī)主題設(shè)計(jì)大賽

欄目最新

欄目最新列表

淺談JavaScript編程語言的編碼規(guī)范

如何在illustrator中繪制臺(tái)歷

Ps簡(jiǎn)單繪制一個(gè)可愛的鉛筆圖標(biāo)

數(shù)據(jù)同步算法研究

用ps作簡(jiǎn)單的作品展示頁面

CSS定位機(jī)制之一:普通流

25個(gè)最佳最閃亮的Eclipse開發(fā)項(xiàng)目

Illustrator中制作針線縫制文字效果

Photoshop制作印刷凹凸字體

VS2010中創(chuàng)建自定義SQL Rule

中文字幕二区_国产精品免费在线观看_黄色网站观看_人人草人人澡_日本真实娇小xxxx

編碼