解決Python網頁爬蟲之中文亂碼問題

發布時間：2020-09-02 05:18:20 來源：腳本之家閱讀：306 作者：ToringZZZ 欄目：開發技術

Python是個好工具，但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題，中文網站爬取下來的內容往往中文顯示亂碼。看過我之前博客的同學可能知道，之前爬取的一個學校網頁就出現了這個問題，但是當時并沒有解決，這著實成了我一個心病。這不，剛剛一解決就將這個方法公布與眾，大家一同分享。

首先，我說一下Python中文亂碼的原因，Python中文亂碼是由于Python在解析網頁時默認用Unicode去解析，而大多數網站是utf-8格式的，并且解析出來之后，python竟然再以Unicode字符格式輸出，會與系統編碼格式不同，導致中文輸出亂碼，知道原因后我們就好解決了。下面上代碼，實驗對象仍是被人上了無數遍的百度主頁~

# -*- coding: utf-8 -*-

import urllib2
import re
import requests
import sys

import urllib
#設置編碼
reload(sys)
sys.setdefaultencoding('utf-8')
#獲得系統編碼格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#將網頁以utf-8格式解析然后轉換為系統默認格式
a = r.read().decode('utf-8').encode(type)
print a

最后輸出效果，中文完美輸出

解決Python網頁爬蟲之中文亂碼問題

以上這篇解決Python網頁爬蟲之中文亂碼問題就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持億速云。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

解決Python網頁爬蟲之中文亂碼問題

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

解決Python網頁爬蟲之中文亂碼問題

猜你喜歡

最新資訊

相關推薦

相關標簽