您好,登錄后才能下訂單哦!
小編給大家分享一下python爬蟲Urllib庫的使用方法,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!
一、扒取一個網頁
怎樣扒網頁呢?其實就是根據 URL 來獲取它的網頁信息,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段 HTML 代碼,加 JS、CSS,如果把網頁比作一個人,那么 HTML 便是他的骨架,JS 便是他的肌肉,CSS 便是它的衣服。所以最重要的部分是存在于 HTML 中的,下面我們就寫個例子來扒一個網頁下來。
import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read()
是的你沒看錯,真正的程序就兩行,把它保存成 demo.py,進入該文件的目錄,執行如下命令。
python demo.py
二、構造 Request
其實上面的 urlopen 參數可以傳入一個 request 請求,它其實就是一個 Request 類的實例,構造時需要傳入 Url,Data 等等的內容。比如上面的兩行代碼,我們可以這么改寫
import urllib2 request = urllib2.Request("http://www.baidu.com") response = urllib2.urlopen(request) print response.read()
運行結果是完全一樣的,只不過中間多了一個 request 對象,推薦大家這么寫,因為在構建請求時還需要加入好多內容,通過構建一個 request,服務器響應請求得到應答,這樣顯得邏輯上清晰明確。
三、POST 和 GET 數據傳送
1. POST 方式:
上面我們說了 data 參數是干嘛的?對了,它就是用在這里的,我們傳送的數據就是這個參數 data,下面演示一下 POST 方式。
import urllib import urllib2 values = {"username":"1016903103@qq.com","password":"XXXX"} data = urllib.urlencode(values) url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn" request = urllib2.Request(url,data) response = urllib2.urlopen(request) print response.read()
我們引入了 urllib 庫,現在我們模擬登陸 CSDN,當然上述代碼可能登陸不進去,因為 CSDN 還有個流水號的字段,沒有設置全,比較復雜在這里就不寫上去了,在此只是說明登錄的原理。一般的登錄網站一般是這種寫法。 我們需要定義一個字典,名字為 values,參數我設置了 username 和 password,下面利用 urllib 的 urlencode 方法將字典編碼,命名為 data,構建 request 時傳入兩個參數,url 和 data,運行程序,返回的便是 POST 后呈現的頁面內容。 注意上面字典的定義方式還有一種,下面的寫法是等價的
import urllib import urllib2 values = {} values['username'] = "1016903103@qq.com" values['password'] = "XXXX" data = urllib.urlencode(values) url = "http://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn" request = urllib2.Request(url,data) response = urllib2.urlopen(request) print response.read()
2. GET 方式:
至于 GET 方式我們可以直接把參數寫到網址上面,直接構建一個帶參數的 URL 出來即可。
import urllib import urllib2 values={} values['username'] = "1016903103@qq.com" values['password']="XXXX" data = urllib.urlencode(values) url = "http://passport.csdn.net/account/login" geturl = url + "?"+data request = urllib2.Request(geturl) response = urllib2.urlopen(request) print response.read()
你可以 print geturl,打印輸出一下 url,發現其實就是原來的 url 加?然后加編碼后的參數
http://passport.csdn.net/account/login?username=1016903103%40qq.com&password=XXXX
看完了這篇文章,相信你對python爬蟲Urllib庫的使用方法有了一定的了解,想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。