您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關Python中出現文本亂碼如何解決,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。
在處理utf8文本格式的時候,由于這些文本是含BOM(byte order mark)的utf8文本,編譯時產生一個Error,”UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\ufeff’ in position 0: illegal multibyte sequence”
原來,某些軟件,如notepad,在保存一個以UTF-8編碼的文件時,會在文件開始的地方插入三個不可見的字符(0xEF 0xBB 0xBF,即BOM)。 因此我們在讀取時需要自己去掉這些字符,Python中的codecs module定義了這個常量:
查看源代碼打印幫助
import codecs data = open("Test.txt").read() if data[:3] == codecs.BOM_UTF8: datadata = data[3:] print data.decode("utf-8")
看完上述內容,你們對Python中出現文本亂碼如何解決有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。