中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python爬蟲Urllib庫的使用方法

發布時間:2020-11-12 09:49:09 來源:億速云 閱讀:133 作者:小新 欄目:編程語言

小編給大家分享一下python爬蟲Urllib庫的使用方法,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

一、扒取一個網頁

怎樣扒網頁呢?其實就是根據 URL 來獲取它的網頁信息,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段 HTML 代碼,加 JS、CSS,如果把網頁比作一個人,那么 HTML 便是他的骨架,JS 便是他的肌肉,CSS 便是它的衣服。所以最重要的部分是存在于 HTML 中的,下面我們就寫個例子來扒一個網頁下來。

import urllib2
 
response = urllib2.urlopen("http://www.baidu.com")
print response.read()

是的你沒看錯,真正的程序就兩行,把它保存成 demo.py,進入該文件的目錄,執行如下命令

python demo.py

二、構造 Request

其實上面的 urlopen 參數可以傳入一個 request 請求,它其實就是一個 Request 類的實例,構造時需要傳入 Url,Data 等等的內容。比如上面的兩行代碼,我們可以這么改寫

import urllib2
 
request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

運行結果是完全一樣的,只不過中間多了一個 request 對象,推薦大家這么寫,因為在構建請求時還需要加入好多內容,通過構建一個 request服務器響應請求得到應答,這樣顯得邏輯上清晰明確。

 

三、POST 和 GET 數據傳送

1. POST 方式:

上面我們說了 data 參數是干嘛的?對了,它就是用在這里的,我們傳送的數據就是這個參數 data,下面演示一下 POST 方式。

import urllib
import urllib2
 
values = {"username":"1016903103@qq.com","password":"XXXX"}
data = urllib.urlencode(values)
url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

我們引入了 urllib 庫,現在我們模擬登陸 CSDN,當然上述代碼可能登陸不進去,因為 CSDN 還有個流水號的字段,沒有設置全,比較復雜在這里就不寫上去了,在此只是說明登錄的原理。一般的登錄網站一般是這種寫法。 我們需要定義一個字典,名字為 values,參數我設置了 username 和 password,下面利用 urllib 的 urlencode 方法將字典編碼,命名為 data,構建 request 時傳入兩個參數,url 和 data,運行程序,返回的便是 POST 后呈現的頁面內容。 注意上面字典的定義方式還有一種,下面的寫法是等價的

import urllib
import urllib2
 
values = {}
values['username'] = "1016903103@qq.com"
values['password'] = "XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

2. GET 方式:

至于 GET 方式我們可以直接把參數寫到網址上面,直接構建一個帶參數的 URL 出來即可。

import urllib
import urllib2
 
values={}
values['username'] = "1016903103@qq.com"
values['password']="XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

你可以 print geturl,打印輸出一下 url,發現其實就是原來的 url 加?然后加編碼后的參數

http://passport.csdn.net/account/login?username=1016903103%40qq.com&password=XXXX

看完了這篇文章,相信你對python爬蟲Urllib庫的使用方法有了一定的了解,想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

雷波县| 大连市| 旅游| 甘孜| 南投县| 巩义市| 万载县| 青浦区| 广宗县| 永平县| 遂昌县| 清水县| 峨眉山市| 昌都县| 怀宁县| 阳江市| 玉山县| 绥芬河市| 宾阳县| 增城市| 屯昌县| 昌乐县| 宜阳县| 两当县| 凉山| 石景山区| 博白县| 瓮安县| 临夏市| 双流县| 巴青县| 内江市| 广河县| 奉贤区| 交城县| 中江县| 金溪县| 淮滨县| 大宁县| 岳阳县| 志丹县|