通常情況下,我們的網(wǎng)頁要指定一個編碼字符集,如 GB2312、UTF-8、ISO-8859-1 等,這樣我們就可以在網(wǎng)頁上顯示我們指定編碼的文字了。但是我們很可能會遇到這種情況,那就是我們可能希望在 ISO-8859-1 編碼的網(wǎng)頁上顯示漢字,或者在 GB2312 編碼的網(wǎng)頁上顯示韓文等。當然一種解決辦法就是我們不用 ISO-8859-1 或者 GB2312 編碼,而統(tǒng)統(tǒng)都采用 UTF-8 編碼,這樣我們只要在這種編碼下,就可以混合顯示各國文字了,這是現(xiàn)在很多網(wǎng)站采用的方法。
而我這里所說的并非上面這種方法,因為上面這種方法必須要指定字符集為 UTF-8 才可以,一旦用戶手工指定為其他字符集,或者可能因為某些原因,那個字符集設置沒起作用,而瀏覽器又沒有正確自動識別的話,我們看到的網(wǎng)頁還是亂碼,尤其是在某些用框架作的網(wǎng)頁中,某個框架中的頁面如果字符集設置沒起作用,在 firefox 中顯示亂碼而且還沒法改變(我是說在不裝RightEncode插件的情況下)。
而我這里介紹的方法即使是把網(wǎng)頁指定為 ISO-8859-1 字符集,也能夠正確顯示漢字、日文等。原理很簡單,就是把除了 ISO-8859-1 編碼中前128個字符以外的所有其他的編碼都用 NCR(Numeric character reference) 來表示。比如“漢字”這兩個字,如果我們寫成“汉字”這種形式,那么它在任意字符集下都可以正確顯示。根據(jù)這個原理,我寫了下面這個程序,它可以把現(xiàn)有的網(wǎng)頁轉(zhuǎn)化為在任意字符集下都能顯示的網(wǎng)頁。你只需要指定源網(wǎng)頁的字符集和源網(wǎng)頁,點提交按鈕,就可以得到目標網(wǎng)頁了。你也可以只轉(zhuǎn)化某些文字,只需要把文字填寫到文本框中,并指定這些文字原來的字符集,點提交按鈕,就會在頁面上面顯示編碼后的文字了。另外我還編寫了 WordPress 的插件,現(xiàn)在我的 Blog 已經(jīng)可以在任意字符集下都能正確顯示了。
實現(xiàn)方法:
首先第一步是要把源字符集的字符串轉(zhuǎn)化為UTF-16字符集,做這一步是因為UTF-16字符集中的每個字符都是兩個字節(jié),后面處理起來很容易,而如果在源字符集上直接做處理則很復雜。源字符集可以從原網(wǎng)頁中的meta標簽中獲得,也可以單獨指定,我的程序是讓用戶在表單中指定源字符集,因為我不能保證用戶提交的文件就一定是HTML文件(其他文件也是可以的,比如這個WordPress的漢化包源文件是個po文件,它里面的內(nèi)容也可以這樣處理),而且即使是HTML文件,里面也不一定就有用于指定字符集的meta標簽,所以通過表單單獨指定字符集比較保險。你可能會覺得將一種字符集轉(zhuǎn)化為另一種字符集很復雜,確實如此,如果自己來實現(xiàn)的話,確實非常麻煩,但是用PHP來做卻很容易,因為它里面已經(jīng)包含這樣的函數(shù)了,你可以通過iconv函數(shù)很容易的來實現(xiàn)各種字符集之間的轉(zhuǎn)化,如果你的機器上沒有安裝iconv擴展,你也可以使用mb_convert_encoding函數(shù),如果Multibyte String擴展也沒有安裝,那就沒辦法了,因為你要自己實現(xiàn)那么多種編碼的轉(zhuǎn)化基本上是不可能的,除非你是頂級大牛!推薦使用iconv,因為這個效率高,支持的字符集也更多。
做完上面那一步之后,接下來是以每兩個字節(jié)為單位對字符串進行處理。這兩個字節(jié)直接轉(zhuǎn)化為數(shù)字就是&#xxxxx;中的xxxxx,如果這個數(shù)字小于128就直接使用這個字符(注意這里就變成單字節(jié)了),否則就使用&#xxxxx;的形式。這里有一點要注意,就是當這個數(shù)字是65279(16進制的0xFEFF)時,請把它忽略掉,因為這個是Unicode編碼中的傳輸控制字符,而我們現(xiàn)在的字符串已經(jīng)只有iso-8859-1編碼中的前128個字符了,所以我們不需要它了。
好了,基本思路就是這樣,下面是實現(xiàn)的程序:
- <?php
- function nochaoscode($encode, $str) {
- $str = iconv($encode, "UTF-16BE", $str);
- for ($i = 0; $i < strlen($str); $i++,$i++) {
- $code = ord($str{$i}) * 256 + ord($str{$i + 1});
- if ($code < 128) {
- $output .= chr($code);
- } else if ($code != 65279) {
- $output .= "&#".$code.";";
- }
- }
- return $output;
- }
- ?>
函數(shù)的參數(shù)中,$encode是源字符集,$str是需要進行轉(zhuǎn)化的字符串。返回結果是轉(zhuǎn)化以后字符串。
出處:CoolCode.CN
責任編輯:moby
◎進入論壇網(wǎng)絡編程版塊參加討論
|