java字符集編碼亂碼詳解.doc

ID：61459196

大小：1021.50 KB

頁數：38頁

時間：2021-02-01

資源描述：

《java字符集編碼亂碼詳解.doc》由會員上傳分享，免費在線閱讀，更多相關內容在應用文檔-天天文庫。

1、一．編碼與亂碼(01)---編碼基礎Unicode中文“藝”字：827A二進制的“藝”字編碼：1000001001111010UTF-8的中文編碼規(guī)則：1110xxxx10xxxxxx10xxxxxxUTF-8的“藝”字編碼：1110【1000】10【0010】【01】10【11】【1010】UTF-8的轉碼過程解析：8對應的1000被填入第一字節(jié)剩余的4位。2對應的0010被填入第2字節(jié)剩余的前4位。7對應的0111被拆開，前2位01被填入第2字節(jié)的后兩位，后2位1被填入第3字節(jié)的前2位。A對應的1010被填入第3字節(jié)的后4位。UTF-8的最終編碼結果：---對應E8；---對應8

2、9；---對應BA。所以最終的UTF-8編碼就是%E8%89%BAUnicode到UTF-8的轉換：Unicode的16進制編碼<-->對應的2進制編碼<-->UTF-8規(guī)范的2進制編碼<-->UTF-8規(guī)范的16進制編碼也就是說假如在Java的底層JVM，由于采用的是Unicode編碼字符集，對“藝”字的編碼是827A。那么在網絡傳輸的過程中，我們當然不能直接傳輸827A這個字符過去代表藝”這個漢字，而必須要轉換成0，1這樣的字節(jié)流，才能在網絡中傳輸。所以說UTF-8是一種為了方便網路傳輸，節(jié)省傳輸數量，而對Unicode的字符集的字符編號進行轉換，從定長的2個字節(jié)(16進制)轉換

3、成1~3個的變長字節(jié)(2進制)表示的轉換格式。由于Unicode采用的是2個字節(jié)的編碼方式，而UTF-8轉換后可能是1~3個字節(jié)，所以同一個漢字，在Unicode中的編碼和經UTF-8轉換后的編碼值肯定是不同的。就好像藝字的Unicode編碼是827A，經轉換后的3個字節(jié)是E889BA。所以說對于英文字符來說，采用UTF-8對Unicode編碼轉換后節(jié)省了一倍的傳輸成本(由定長的2個字節(jié)變長1個字節(jié))，但對于原本雙字節(jié)的東亞字符來說，反而增加了成本，是原來的1.5倍。小結：①ASCII、GB2312、GBK、GB18030、Big5、Unicode都是字符集的名稱。它們定義了采用1~

4、2個字節(jié)的編碼規(guī)范，為每個字符賦予了一個獨一無二的編號。這個編號就是我們所說的“字符編碼”。②Unicode字符集定義的字符編碼并不適合直接通過網絡傳輸表達，因為它們必須轉換成像0101這樣的二進制字節(jié)流傳輸。所以就出現(xiàn)了不同的轉換規(guī)范實現(xiàn)方式：UTF-8，TF-16等。這些不同的轉換規(guī)范轉換后的編碼值和Unicode是不同的。對于UTF-8來說，它采用變長字節(jié)表示所有Unicode字符，對于英文來說和ASCII兼容，對于東亞字符來說，是原來傳輸成本的1.5倍。所以采用UTF-8編碼轉換方式雖然有利于統(tǒng)一，但增加了中文等雙字節(jié)字符的傳輸成本。UTF-8采用首字節(jié)的高位"1"的個數表示

5、字符的編碼長度。例如在Unicode的編碼規(guī)范中：漢字的表示區(qū)間為U-至U-0000FFFF對應的UTF-8的轉換規(guī)則為：1110xxxx10xxxxxx10xxxxxx首字節(jié)3個1代表這個字符的編碼長度為3個字節(jié)。如果是2個1則表示2個字節(jié)③在底層的平臺中如JVM，采用的是Unicode字符集，當要把這些字符通過網絡傳輸時，可以選擇通過UTF-8或其他(例如GB2312)編碼轉換方式對要傳輸的字符編碼進行轉換。如果目的端也是采用Unicode字符集，那么UTF-8轉換后的編碼可以被正常識別并解碼成最終對應的Unicode字符集編號。如果是非Unicode字符集平臺則可能出現(xiàn)亂碼(U

6、TF-8中漢字的3個連續(xù)字節(jié)被解析成GB2312的2個連續(xù)字節(jié)，出現(xiàn)丟失)。所以推薦在傳輸的兩端采用Unicode字符集編碼，在傳輸方式上采用UTF-8轉換方式。javac命令是以系統(tǒng)默認編碼讀入源文件，然后按Unicode進行編碼的。(備注：每個文件都有自己的編碼，javac命令按照默認的文件編碼讀入，但是在將.java文件轉換成.class的過程中，javac會將所有的字符轉化成unicode的格式保存。)在運行時JVM也是采用unicode編碼的，并且默認輸入和輸出使用的都是操作系統(tǒng)的默認編碼。也就是說在newString(bytes[,encode])中，系統(tǒng)認為輸入的byt

7、es是編碼為encode的字節(jié)流(如果不指定encode，那么就是默認使用系統(tǒng)的編碼方式)，換句話說，如果按encode來翻譯bytes才能得到正確的原始字符，這個字符最后要在java中保存，它還是要從這個encode轉換成Unicode的。也就是說，假如我們需要從磁盤文件、數據庫記錄、網絡傳輸一些字符，保存到Java的變量中，要經歷由bytes-->encode字符-->Unicode字符的轉換(例如newString(bytes,encode))；而要

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 3 4 5 / 38



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容，確認文檔內容符合您的需求后進行下載，若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

java字符集編碼亂碼詳解.doc

java字符集編碼亂碼詳解.doc

相關文章

相關標簽