中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python爬蟲新手教程:手機APP數據抓取 pyspider

發布時間:2020-07-06 13:40:39 來源:網絡 閱讀:315 作者:學Python派森 欄目:編程語言

1. 手機APP數據----寫在前面

繼續練習pyspider的使用,最近搜索了一些這個框架的一些使用技巧,發現文檔竟然挺難理解的,不過使用起來暫時沒有障礙,估摸著,要在寫個5篇左右關于這個框架的教程。今天教程中增加了圖片的處理,你可以重點學習一下。

2. 手機APP數據----頁面分析

咱要爬取的網站是 http://www.liqucn.com/rj/new/ 這個網站我看了一下,有大概20000頁,每頁數據是9個,數據量大概在180000左右,可以抓取下來,后面做數據分析使用,也可以練習優化數據庫。

Python爬蟲新手教程:手機APP數據抓取 pyspider

網站基本沒有反爬措施,上去爬就可以,略微控制一下并發,畢竟不要給別人服務器太大的壓力。

頁面經過分析之后,可以看到它是基于URL進行的分頁,這就簡單了,我們先通過首頁獲取總頁碼,然后批量生成所有頁碼即可

http://www.liqucn.com/rj/new/?page=1
http://www.liqucn.com/rj/new/?page=2
http://www.liqucn.com/rj/new/?page=3
http://www.liqucn.com/rj/new/?page=4

獲取總頁碼的代碼

class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://www.liqucn.com/rj/new/?page=1', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        # 獲取最后一頁的頁碼
        totle = int(response.doc(".current").text())
        for page in range(1,totle+1):
            self.crawl('http://www.liqucn.com/rj/new/?page={}'.format(page), callback=self.detail_page)
Python資源分享qun 784758214 ,內有安裝包,PDF,學習視頻,這里是Python學習者的聚集地,零基礎,進階,都歡迎

然后copy一段官方中文翻譯,過來,時刻提醒自己

代碼簡單分析:

def on_start(self) 方法是入口代碼。當在web控制臺點擊run按鈕時會執行此方法。

self.crawl(url, callback=self.index_page)這個方法是調用API生成一個新的爬取任務,
            這個任務被添加到待抓取隊列。
def index_page(self, response) 這個方法獲取一個Response對象。 
            response.doc是pyquery對象的一個擴展方法。pyquery是一個類似于jQuery的對象選擇器。

def detail_page(self, response)返回一個結果集對象。
            這個結果默認會被添加到resultdb數據庫(如果啟動時沒有指定數據庫默認調用sqlite數據庫)。你也可以重寫
            on_result(self,result)方法來指定保存位置。

更多知識:
@every(minutes=24*60, seconds=0) 這個設置是告訴scheduler(調度器)on_start方法每天執行一次。
@config(age=10 * 24 * 60 * 60) 這個設置告訴scheduler(調度器)這個request(請求)過期時間是10天,
    10天內再遇到這個請求直接忽略。這個參數也可以在self.crawl(url, age=10*24*60*60) 和 crawl_config中設置。
@config(priority=2) 這個是優先級設置。數字越大越先執行。

分頁數據已經添加到待爬取隊列中去了,下面開始分析爬取到的數據,這個在detail_page函數實現

    @config(priority=2)
    def detail_page(self, response):
        docs = response.doc(".tip_blist li").items()
        dicts = []
        for item in docs:
            title = item(".tip_list>span>a").text()
            pubdate = item(".tip_list>i:eq(0)").text()
            info = item(".tip_list>i:eq(1)").text()
            # 手機類型
            category = info.split(":")[1]
            size = info.split("/")
            if len(size) == 2:
                size = size[1]
            else:
                size = "0MB"
            app_type = item("p").text()
            mobile_type = item("h4>a").text()
            # 保存數據

            # 建立圖片下載渠道

            img_url = item(".tip_list>a>img").attr("src")
            # 獲取文件名字
            filename = img_url[img_url.rindex("/")+1:]
            # 添加軟件logo圖片下載地址
            self.crawl(img_url,callback=self.save_img,save={"filename":filename},validate_cert=False)
            dicts.append({
                "title":title,
                "pubdate":pubdate,
                "category":category,
                "size":size,
                "app_type":app_type,
                "mobile_type":mobile_type

                })
        return dicts
Python資源分享qun 784758214 ,內有安裝包,PDF,學習視頻,這里是Python學習者的聚集地,零基礎,進階,都歡迎

數據已經集中返回,我們重寫on_result來保存數據到mongodb中,在編寫以前,先把鏈接mongodb的相關內容編寫完畢

import os

import pymongo
import pandas as pd
import numpy as np
import time
import json

DATABASE_IP = '127.0.0.1'
DATABASE_PORT = 27017
DATABASE_NAME = 'sun'
client = pymongo.MongoClient(DATABASE_IP,DATABASE_PORT)
db = client.sun
db.authenticate("dba", "dba")
collection = db.liqu  # 準備插入數據

數據存儲

    def on_result(self,result):
        if result:
            self.save_to_mongo(result)            

    def save_to_mongo(self,result):
        df = pd.DataFrame(result)
        #print(df)
        content = json.loads(df.T.to_json()).values()
        if collection.insert_many(content):
            print('存儲到 mongondb 成功')

獲取到的數據,如下表所示。到此為止,咱已經完成大部分的工作了,最后把圖片下載完善一下,就收工啦!

Python爬蟲新手教程:手機APP數據抓取 pyspider

Python爬蟲新手教程:手機APP數據抓取 pyspider

3. 手機APP數據----圖片存儲

圖片下載,其實就是保存網絡圖片到一個地址即可

    def save_img(self,response):
        content = response.content
        file_name = response.save["filename"]
        #創建文件夾(如果不存在)
        if not os.path.exists(DIR_PATH):                         
            os.makedirs(DIR_PATH) 

        file_path = DIR_PATH + "/" + file_name

        with open(file_path,"wb" ) as f:
            f.write(content)
Python資源分享qun 784758214 ,內有安裝包,PDF,學習視頻,這里是Python學習者的聚集地,零基礎,進階,都歡迎

到此為止,任務完成,保存之后,調整爬蟲的抓取速度,點擊run,數據跑起來~~~~

Python爬蟲新手教程:手機APP數據抓取 pyspider

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

敦煌市| 简阳市| 济阳县| 江源县| 鹰潭市| 调兵山市| 香格里拉县| 西贡区| 桑日县| 新龙县| 冷水江市| 科技| 都昌县| 库车县| 辽宁省| 云林县| 茌平县| 东安县| 西昌市| 大港区| 红桥区| 武穴市| 南江县| 成都市| 长顺县| 合江县| 定陶县| 汤原县| 呼玛县| 湘西| 乐山市| 崇阳县| 嫩江县| 澳门| 安岳县| 驻马店市| 宜黄县| 静海县| 衡南县| 林甸县| 鄱阳县|