中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python爬動態網站的方法

發布時間:2020-07-31 11:45:58 來源:億速云 閱讀:177 作者:清晨 欄目:編程語言

小編給大家分享一下python爬動態網站的方法,相信大部分人都還不怎么了解,因此分享這邊文章給大家學習,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去學習方法吧!

python有許多庫可以讓我們很方便地編寫網絡爬蟲,爬取某些頁面,獲得有價值的信息!但許多時候,爬蟲取到的頁面僅僅是一個靜態的頁面,即網頁 的源代碼,就像在瀏覽器上的“查看網頁源代碼”一樣。一些動態的東西如javascript腳本執行后所產生的信息,是抓取不到的,這里暫且先給出這么一 些方案,可用于python爬取js執行后輸出的信息。

1、兩種基本的解決方案

1.1 用dryscrape庫動態抓取頁面

js腳本是通過瀏覽器來執行并返回信息的,所以,抓取js執行后的頁面,一個最直接的方式就是用python模擬瀏覽器的行為。WebKit 是一個開源的瀏覽器引擎,python提供了許多庫可以調用這個引擎,dryscrape便是其中之一,它調用webkit引擎來處理包含js等的網頁!

import dryscrape
# 使用dryscrape庫 動態抓取頁面
def get_url_dynamic(url):
    session_req=dryscrape.Session()
    session_req.visit(url) #請求頁面
    response=session_req.body() #網頁的文本
    #print(response)
    return response
get_text_line(get_url_dynamic(url)) #將輸出一條文本

這里對于其余包含js的網頁也是適用的!雖然可以滿足抓取動態頁面的要求,但缺點還是很明顯的:慢!太慢了,其實想一想也合理,python調用 webkit請求頁面,而且等頁面加載完,載入js文件,讓js執行,將執行后的頁面返回,慢一點也是應該的!除外還有很多庫可以調用 webkit:PythonWebkit,PyWebKitGit,Pygt(可以用它寫個瀏覽器),pyjamas等等,聽說它們也可以實現相同的功能!

1.2 selenium web測試框架

selenium是一個web測試框架,它允許調用本地的瀏覽器引擎發送網頁請求,所以,它同樣可以實現抓取頁面的要求。

# 使用 selenium webdriver 可行,但會實時打開瀏覽器窗口

def get_url_dynamic2(url):
    driver=webdriver.Firefox() #調用本地的火狐瀏覽器,Chrom 甚至 Ie 也可以的
    driver.get(url) #請求頁面,會打開一個瀏覽器窗口
    html_text=driver.page_source
    driver.quit()
    #print html_text
    return html_text
get_text_line(get_url_dynamic2(url)) #將輸出一條文本

這也不失為一條臨時的解決方案!與selenium類似的框架還有一個windmill,感覺稍復雜一些,就不再贅述!

2、selenium的安裝與使用

2.1 selenium的安裝

在Ubuntu上安裝可以直接使用pip install selenium。由于以下原因:

1. selenium 3.x開始,webdriver/firefox/webdriver.py的__init__中,executable_path="geckodriver";而2.x是executable_path="wires"

2. firefox 47以上版本,需要下載第三方driver,即geckodriver

還需要一些特殊操作:

1. 下載 geckodriverckod 地址: 

mozilla/geckodriver

2. 解壓后將geckodriverckod 存放至 /usr/local/bin/ 路徑下即可:

sudo mv ~/Downloads/geckodriver /usr/local/bin/

2.2 selenium的使用

1. 運行報錯:

driver = webdriver.chrome()
TypeError: 'module' object is not callable

解決方案:瀏覽器的名稱需要大寫Chrome和Firefox,Ie

2. 通過

content = driver.find_element_by_class_name('content')

來定位元素時,該方法返回的是FirefoxWebElement,想要獲取包含的值時,可以通過

value = content.text

以上是python爬動態網站的方法的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

兰西县| 龙山县| 娱乐| 平山县| 运城市| 合水县| 阜阳市| 苗栗县| 保康县| 诸暨市| 金沙县| 遂川县| 资中县| 乡宁县| 剑阁县| 广南县| 清原| 平凉市| 邳州市| 格尔木市| 凤阳县| 东辽县| 灵丘县| 屏山县| 乐业县| 颍上县| 大洼县| 布尔津县| 康乐县| 芒康县| 宜春市| 江山市| 台湾省| 蓬溪县| 敦化市| 乐清市| 璧山县| 巢湖市| 淅川县| 长汀县| 舞钢市|