您好,登錄后才能下訂單哦!
這篇文章主要介紹python xml解析中文亂碼的解決方法,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
用python解析xml文件,出現異常信息如下:
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 13, column 31
解決方式:
將文件重新編碼成utf-8格式就可以了。
在linux下一種取巧的解決方式:
對于中文,這里選了一種取巧的方法。即先通過iconv命令將xml文件變成utf-8格式,然后將xml中指定編碼格式的內容去掉即可。
可參考如下代碼:
cmd = "iconv " + filename + " -t \"utf-8\" >utf.tmp" os.system(cmd) utf_filename = "utf.tmp" f = open(utf_filename) data = f.read() f.close() os.system("rm -f utf.tmp") #----delete the encode type in xml file----- #result = re.sub(regex, newstring, subject) data = data.replace('encoding="GB2312"', '') data = data.replace('encoding="gb2312"', '') #self.dom.unlink self.dom = xml.dom.minidom.parseString( data )
以上是python xml解析中文亂碼的解決方法的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。