Hadoop中mapreduce程序如何處理GBK編碼數據并輸出GBK編碼數據

發布時間：2021-12-01 14:54:16 來源：億速云閱讀：243 作者：柒染欄目：云計算

這期內容當中小編將會給大家帶來有關Hadoop中mapreduce程序如何處理GBK編碼數據并輸出GBK編碼數據，文章內容豐富且以專業的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

Hadoop 中文編碼相關問題 -- mapreduce程序處理GBK編碼數據并輸出GBK編碼數據

輸入是GBK文件, 輸出也是 GBK 文件的示例代碼:

Hadoop處理GBK文本時,發現輸出出現了亂碼,原來HADOOP在涉及編碼時都是寫死的UTF-8，如果文件編碼格式是其它類型（如GBK)，則會出現亂碼。

此時只需在mapper或reducer程序中讀取Text時，使用transformTextToUTF8(text, "GBK");進行一下轉碼，以確保都是以UTF-8的編碼方式在運行。

public static Text transformTextToUTF8(Text text, String encoding) {
String value = null;
try {
value = new String(text.getBytes(), 0, text.getLength(), encoding);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return new Text(value);
}

這里核心代碼是: String line=new String(text.getBytes(),0,text.getLength(),"GBK"); //這里的value是Text類型

若直接使用 String line=value.toString(); 會輸出亂碼, 這是由Text這個Writable類型造成的。初學時，一直認為和LongWritable對long的封裝一樣，Text類型是String的Writable封裝。但其實Text和String還是有些區別，它是一種UTF-8格式的Writable，而Java中的String是Unicode字符。所以直接使用value.toString()方法，會默認其中的字符都是UTF-8編碼過的，因而原本GBK編碼的數據使用Text讀入后直接使用該方法就會變成亂碼。

正確的方法是將輸入的Text類型的value轉換為字節數組（value.getBytes()），使用String的構造器String(byte[] bytes, int offset, int length, Charset charset)，通過使用指定的charset解碼指定的byte子數組，構造一個新的String。

如果需要map/reduce輸出其它編碼格式的數據，需要自己實現OutputFormat，在其中指定編碼方式，而不能使用默認的TextOutputFormat。

上述就是小編為大家分享的Hadoop中mapreduce程序如何處理GBK編碼數據并輸出GBK編碼數據了，如果剛好有類似的疑惑，不妨參照上述分析進行理解。如果想知道更多相關知識，歡迎關注億速云行業資訊頻道。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Hadoop中mapreduce程序如何處理GBK編碼數據并輸出GBK編碼數據

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Hadoop中mapreduce程序如何處理GBK編碼數據并輸出GBK編碼數據

猜你喜歡

最新資訊

相關推薦

相關標簽