Java字符編碼知識簡介(zt)

發布時間：2020-08-08 11:07:13 來源：ITPUB博客閱讀：239 作者：tolywang 欄目：編程語言

新一篇: orcle ibatis 中文字符問題
1 基本信息
摘要：在Java應用程序特別是Web應用中，經常遇到字符的編碼問題。為了防止出現亂碼，首先需要了解字符編碼的基本概念以及Java是如何處理字符編碼的，這樣就可以有目的地在輸入/輸出環節中增加必要的轉碼。本文將分以下幾部分介紹：
1. 什么是字符集？什么是編碼？
2. 常用字符集有哪些？
3. 為什么會有亂碼？
4. Java字符編碼
5. JSP編碼
6. 有沒有萬金油？
7. 參考資料和推薦參閱

[@more@]

作者：賈繼東創建于2007-9-17

2 什么是字符集?什么是編碼?

l 字符(Character)：是文字與符號的總稱，包括文字、圖形符號、數學符號等。

l 字符集(Charset)：就是一組抽象字符的集合。

字符集常常和一種具體的語言文字對應起來，該文字中的所有字符或者大部分常用字符就構成了該文字的字符集，比如英文字符集。

一組有共同特征的字符也可以組成字符集，比如繁體漢字字符集、日文漢字字符集。

字符集的子集也是字符集。

計算機要處理各種字符，就需要將字符和二進制內碼對應起來，這種對應關系就是字符

l 編碼(Encoding)：

制定編碼首先要確定字符集，并將字符集內的字符排序，然后和二進制數字對應起來。根據字符集內字符的多少，會確定用幾個字節來編碼。

每種編碼都限定了一個明確的字符集合，叫做被編碼過的字符集(Coded Character Set)，這是字符集的另外一個含義。通常所說的字符集大多是這個含義。

3 常用字符集有哪些?

ASCII：

American Standard Code for Information Interchange，美國信息交換標準碼。

目前計算機中用得最廣泛的字符集及其編碼，由美國國家標準局(ANSI)制定。它已被國際標準化組織(ISO)定為國際標準，稱為ISO 646標準。 ASCII字符集由控制字符和圖形字符組成。在計算機的存儲單元中，一個ASCII碼值占一個字節(8個二進制位)，其最高位(b7)用作奇偶校驗位。所謂奇偶校驗，是指在代碼傳送過程中用來檢驗是否出現錯誤的一種方法，一般分奇校驗和偶校驗兩種。奇校驗規定：正確的代碼一個字節中1的個數必須是奇數，若非奇數，則在最高位b7添1。偶校驗規定：正確的代碼一個字節中1的個數必須是偶數，若非偶數，則在最高位b7添1。

ISO 8859-1：

全稱ISO/IEC 8859，是國際標準化組織(ISO)及國際電工委員會(IEC)聯合制定的一系列8位字符集的標準，現時定義了15個字符集。

ASCII收錄了空格及94個“可印刷字符”，足以給英語使用。但是，其他使用拉丁字母的語言(主要是歐洲國家的語言)，都有一定數量的變音字母，故可以使用ASCII及控制字符以外的區域來儲存及表示。除了使用拉丁字母的語言外，使用西里爾字母的東歐語言、希臘語、泰語、現代阿拉伯語、希伯來語等，都可以使用這個形式來儲存及表示。

² ISO 8859-1 (Latin-1) - 西歐語言

² ISO 8859-2 (Latin-2) - 中歐語言

² ISO 8859-3 (Latin-3) - 南歐語言。世界語也可用此字符集顯示。

² ISO 8859-4 (Latin-4) - 北歐語言

² ISO 8859-5 (Cyrillic) - 斯拉夫語言

² ISO 8859-6 (Arabic) - 阿拉伯語

² ISO 8859-7 (Greek) - 希臘語

² ISO 8859-8 (Hebrew) - 希伯來語(視覺順序)

² ISO 8859-8-I - 希伯來語(邏輯順序)

² ISO 8859-9 (Latin-5 或 Turkish) - 它把Latin-1的冰島語字母換走，加入土耳其語字母。

² ISO 8859-10 (Latin-6 或 Nordic) - 北日耳曼語支，用來代替Latin-4。

² ISO 8859-11 (Thai) - 泰語，從泰國的 TIS620 標準字集演化而來。

² ISO 8859-13 (Latin-7 或 Baltic Rim) - 波羅的語族

² ISO 8859-14 (Latin-8 或 Celtic) - 凱爾特語族

² ISO 8859-15 (Latin-9) - 西歐語言，加入Latin-1欠缺的法語及芬蘭語重音字母，以及歐元符號。

² ISO 8859-16 (Latin-10) - 東南歐語言。主要供羅馬尼亞語使用，并加入歐元符號。

很明顯，iso8859-1編碼表示的字符范圍很窄，無法表示中文字符。但是，由于是單字節編碼，和計算機最基礎的表示單位一致，所以很多時候，仍舊使用iso8859-1編碼來表示。而且在很多協議上，默認使用該編碼。

UCS：

通用字符集(Universal Character Set，UCS)是由ISO制定的ISO 10646(或稱ISO/IEC 10646)標準所定義的字符編碼方式，采用4字節編碼。

UCS包含了已知語言的所有字符。除了拉丁語、希臘語、斯拉夫語、希伯來語、阿拉伯語、亞美尼亞語、格魯吉亞語，還包括中文、日文、韓文這樣的象形文字，UCS還包括大量的圖形、印刷、數學、科學符號。

² UCS-2：與unicode的2byte編碼基本一樣。

² UCS-4： 4byte編碼, 目前是在UCS-2前加上2個全零的byte。

Unicode：

Unicode(統一碼、萬國碼、單一碼)是一種在計算機上使用的字符編碼。

Unicode是http：//www.unicode.org制定的編碼機制，要將全世界常用文字都函括進去。它為每種語言中的每個字符設定了統一并且唯一的二進制編碼，以滿足跨語言、跨平臺進行文本轉換、處理的要求。 1990年開始研發，1994年正式公布。隨著計算機工作能力的增強，Unicode也在面世以來的十多年里得到普及。但自從unicode2.0開始，unicode采用了與ISO 10646-1相同的字庫和字碼，ISO也承諾ISO10646將不會給超出0x10FFFF的UCS-4編碼賦值，使得兩者保持一致。

Unicode的編碼方式與ISO 10646的通用字符集(Universal Character Set，UCS)概念相對應，目前的用于實用的Unicode版本對應于UCS-2，使用16位的編碼空間。也就是每個字符占用2個字節，基本滿足各種語言的使用。實際上目前版本的Unicode尚未填充滿這16位編碼，保留了大量空間作為特殊使用或將來擴展。

UTF： Unicode 的實現方式不同于編碼方式。

一個字符的Unicode編碼是確定的，但是在實際傳輸過程中，由于不同系統平臺的設計不一定一致，以及出于節省空間的目的，對Unicode編碼的實現方式有所不同。Unicode的實現方式稱為Unicode轉換格式(Unicode Translation Format，簡稱為 UTF)。

² UTF-8： 8bit變長編碼，對于大多數常用字符集(ASCII中0~127字符)它只使用單字節，而對其它常用字符(特別是朝鮮和漢語會意文字)，它使用3字節。

² UTF-16： 16bit編碼，是變長碼，大致相當于20位編碼，值在0到0x10FFFF之間，基本上就是unicode編碼的實現，與CPU字序有關。

漢字編碼：

² GB2312字集是簡體字集，全稱為GB2312(80)字集，共包括國標簡體漢字6763個。

² BIG5字集是臺灣繁體字集，共包括國標繁體漢字13053個。

² GBK字集是簡繁字集，包括了GB字集、BIG5字集和一些符號，共包括21003個字符。

² GB18030是國家制定的一個強制性大字集標準，全稱為GB18030-2000，它的推出使漢字集有了一個“大一統”的標準。

ANSI和Unicode big endia：

我們在Windows系統中保存文本文件時通常可以選擇編碼為ANSI、Unicode、Unicode big endian和UTF-8，這里的ANSI和Unicode big endia是什么編碼呢?

² ANSI：使用2個字節來代表一個字符的各種漢字延伸編碼方式，稱為ANSI編碼。在簡體中文系統下，ANSI編碼代表GB2312編碼，在日文操作系統下，ANSI編碼代表JIS編碼。

² Unicode big endia： UTF-8以字節為編碼單元，沒有字節序的問題。UTF-16以兩個字節為編碼單元，在解釋一個UTF-16文本前，首先要弄清楚每個編碼單元的字節序。 Unicode規范中推薦的標記字節順序的方法是BOM(即Byte Order Mark)。在UCS編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的編碼是FEFF。而FFFE在UCS中是不存在的字符，所以不應該出現在實際傳輸中。 UCS規范建議我們在傳輸字節流前，先傳輸字符"ZERO WIDTH NO-BREAK SPACE"。這樣如果接收者收到FEFF，就表明這個字節流是Big-Endian的；如果收到FFFE，就表明這個字節流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。 Windows就是使用BOM來標記文本文件的編碼方式的。

4 為什么會亂碼?

亂碼是個老問題，字符在保存時的編碼格式如果和要顯示的編碼格式不一樣的話，就會出現亂碼問題。在我們的Web應用中，從底層數據庫編碼、Web應用程序編碼到HTML頁面編碼，如果有一項不一致的話，就會出現亂碼。所以，解決亂碼問題說難也難說簡單也簡單，關鍵是讓交互系統之間編碼一致。

5 Java字符編碼

Java在運行期一律以unicode來存儲字符,這樣有利的支持了多語言環境。

Java在讀取文件的時候默認是按照系統默認語言（字符集）編碼來解碼文件，讀取和保存時候的編碼不一致也導致程序中參數值錯誤，用FileInputStream類讀取文件可以指定編碼讀取。

Java在輸出到系統顯示時，會把內存中變量字符再通過系統默認語言（字符集）編碼去轉換，所以在輸出過程中也會碰到一系列的編碼問題。

6 編碼JSP

這里我們主要是介紹JSP頁面的兩個重要屬性：pageEncoding、contentType、charset

pageEncoding是jsp文件本身的編碼

contentType的charset是指服務器發送給客戶端時的內容編碼

charset有兩個作用：一是JSP文件的編碼方式：在讀取JSP文件、生成JAVA類時，源JSP文件中漢字的編碼；二是JSP輸出流的編碼方式：在執行JSP時，往response流里面寫入數據的編碼方式

當應用服務器將JSP編譯成.java文件時，會根據pageEncoding的設定讀取jsp，結果是由指定的編碼方案翻譯成統一的UTF-8 JAVA源碼（即.java），如果pageEncoding設定錯了，或沒有設定，出來的就是中文亂碼。

當應用服務器利用已經編譯為二進制的JSP(.class)輸出頁面時，contentType這時則決定了輸出頁面的編碼。

jsp文件不像.java，.java在被編譯器讀入的時候默認采用的是操作系統所設定的locale所對應的編碼，比如中國大陸就是GBK，臺灣就是BIG5或者MS950。而一般我們不管是在記事本還是在ue中寫代碼，如果沒有經過特別轉碼的話，寫出來的都是本地編碼格式的內容。所以編譯器采用的方法剛好可以讓虛擬機得到正確的資料。

但是jsp文件不是這樣，它沒有這個默認轉碼過程，但是指定了pageEncoding就可以實現正確轉碼了。

舉個例子：

<%@ page contentType="text/html;charset=utf-8" %>

大都會打印出亂碼，因為我輸入的“你好嗎”是gbk的，但是服務器是否正確抓到“你好嗎”不得而知。

但是如果更改為

<%@ page contentType="text/html;charset=utf-8" pageEncoding="GBK"%>

這樣就服務器一定會是正確抓到“你好嗎”了。

7 有沒有萬金油?

J2EE應用程序是運行在J2EE容器中。在這個系統中，輸入途徑有很多種：一種是通過頁面表單打包成請求（request）發往服務器的；第二種是通過數據庫讀入；還有第3種輸入比較復雜，JSP在第一次運行時總是被編譯成Servlet，JSP中常常包含中文字符，那么編譯使用javac時，Java將根據默認的操作系統編碼作為初始編碼。除非特別指定，如在Jbuilder/eclipse中可以指定默認的字符集。

輸出途徑也有幾種：第一種是JSP頁面的輸出。由于JSP頁面已經被編譯成Servlet，那么在輸出時，也將根據操作系統的默認編碼來選擇輸出編碼，除非指定輸出編碼方式；還有輸出途徑是數據庫，將字符串輸出到數據庫。

由此看來，一個J2EE系統的輸入輸出是非常復雜，而且是動態變化的，而Java是跨平臺運行的，在實際編譯和運行中，都可能涉及到不同的操作系統，如果任由Java自由根據操作系統來決定輸入輸出的編碼字符集，這將不可控制地出現亂碼。

正是由于Java的跨平臺特性，使得字符集問題必須由具體系統來統一解決，所以在一個Java應用系統中，解決中文亂碼的根本辦法是明確指定整個應用系統統一字符集。

指定統一字符集時，到底是指定ISO8859_1 、GBK還是UTF-8呢？

1）如統一指定為ISO8859_1，因為目前大多數軟件都是西方人編制的，他們默認的字符集就是ISO8859_1，包括操作系統Linux和數據庫MySQL等。這樣，如果指定Jive統一編碼為ISO8859_1，那么就有下面3個環節必須把握：

開發和編譯代碼時指定字符集為ISO8859_1。

運行操作系統的默認編碼必須是ISO8859_1，如Linux。

在JSP頭部聲明。

2）如果統一指定為GBK中文字符集，上述3個環節同樣需要做到，不同的是只能運行在默認編碼為GBK的操作系統，如中文Windows。

統一編碼為ISO8859_1和GBK雖然帶來編制代碼的方便，但是各自只能在相應的操作系統上運行。但是也破壞了Java跨平臺運行的優越性，只在一定范圍內行得通。例如，為了使得GBK編碼在linux上運行，設置Linux編碼為GBK。

那么有沒有一種除了應用系統以外不需要進行任何附加設置的中文編碼根本解決方案呢？

將Java/J2EE系統的統一編碼定義為UTF-8。UTF-8編碼是一種兼容所有語言的編碼方式，惟一比較麻煩的就是要找到應用系統的所有出入口，然后使用UTF-8去“結扎”它。

一個J2EE應用系統需要做下列幾步工作：

開發和編譯代碼時指定字符集為UTF-8。JBuilder和Eclipse都可以在項目屬性中設置。

使用過濾器，如果所有請求都經過一個Servlet控制分配器，那么使用Servlet的filter執行語句，將所有來自瀏覽器的請求（request）轉換為UTF-8，因為瀏覽器發過來的請求包根據瀏覽器所在的操作系統編碼，可能是各種形式編碼。關鍵一句：

request.setCharacterEncoding("UTF-8")

在JSP頭部聲明：

＜%@ page contentType="text/html;charset= UTF-8" %＞

在Jsp的html代碼中，聲明UTF-8：

＜ＭＥＴＡ http-equiv="Content-Type" ＣＯＮＴＥＴ="text/html; charset=utf-8"＞

設定數據庫連接方式是UTF-8。例如連接MYSQL時配置URL如下：

jdbc：mysql：//localhost：3306/test?useUnicode=true&characterEncoding=UTF-8

一般數據庫都可以通過管理設置設定UTF-8。其他和外界交互時能夠設定編碼時就設定UTF-8，例如讀取文件，操作XML等。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Java字符編碼知識簡介(zt)

作者：賈繼東創建于2007-9-17

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Java字符編碼知識簡介(zt)

作者：賈繼東 創建于2007-9-17

猜你喜歡

最新資訊

相關推薦

相關標簽

作者：賈繼東創建于2007-9-17