怎么用Scrapy構建一個網絡爬蟲

發布時間：2021-09-15 15:32:58 來源：億速云閱讀：127 作者：chen 欄目：云計算

這篇文章主要講解了“怎么用Scrapy構建一個網絡爬蟲”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“怎么用Scrapy構建一個網絡爬蟲”吧！

我們來看下Scrapy怎么做到這些功能的。首先準備Scrapy環境，你需要安裝Python（本文使用v2.7）和pip，然后用pip來安裝lxml和scrapy。個人強烈建議使用virtualenv來安裝環境，這樣不同的項目之間不會沖突。詳細步驟這里就不贅述了。對于Mac用戶要注意，當使用pip安裝lxml時，會出現類似于的下面錯誤：

Error: #include “xml/xmlversion.h” not found

解決這個問題，你需要先安裝Xcode的command line tools，具體的方法是在命令行執行下面的命令即可。

$ xcode-select --install

環境安裝好之后，我們來用Scrapy實現一個簡單的爬蟲，抓取本博客網站的文章標題，地址和摘要。

設置待抓取內容的字段，本例中就是文章的標題，地址和摘要

修改”items.py”文件，在”MyCrawlerItem”類中加上如下代碼：

Python

# -*- coding: utf-8 -*-

import scrapy

class MyCrawlerItem(scrapy.Item):

title = scrapy.Field() # 文章標題

url = scrapy.Field() # 文章地址

summary = scrapy.Field() # 文章摘要

pass

對于XPath不熟悉的朋友，可以通過Chrome的debug工具獲取元素的XPath。

將結果保存到數據庫

這里我們采用MongoDB，你需要先安裝Python的MongoDB庫”pymongo”。編輯”my_crawler”目錄下的”pipelines.py”文件，在”MyCrawlerPipeline”類中加上如下代碼：

Python

# -*- coding: utf-8 -*-

import pymongo

from scrapy.conf import settings

from scrapy.exceptions import DropItem

class MyCrawlerPipeline(object):

def __init__(self):

# 設置MongoDB連接

connection = pymongo.Connection(

settings['MONGO_SERVER'],

settings['MONGO_PORT']

)

db = connection[settings['MONGO_DB']]

self.collection = db[settings['MONGO_COLLECTION']]

# 處理每個被抓取的MyCrawlerItem項

def process_item(self, item, spider):

valid = True

for data in item:

if not data: # 過濾掉存在空字段的項

valid = False

raise DropItem("Missing {0}!".format(data))

if valid:

# 也可以用self.collection.insert(dict(item))，使用upsert可以防止重復項

self.collection.update({'url': item['url']}, dict(item), upsert=True)

return item

再打開”my_crawler”目錄下的”settings.py”文件，在文件末尾加上pipeline的設置：

Python

ITEM_PIPELINES = {

'my_crawler.pipelines.MyCrawlerPipeline': 300, # 設置Pipeline，可以多個，值為執行優先級

}

# MongoDB連接信息

MONGO_SERVER = 'localhost'

MONGO_PORT = 27017

MONGO_DB = 'bjhee'

MONGO_COLLECTION = 'articles'

DOWNLOAD_DELAY=2 # 如果網絡慢，可以適當加些延遲，單位是秒

<td class="crayon-code" ">

$ scrapy crawl my_crawler

別忘了啟動MongoDB并創建”bjhee”數據庫哦。現在你可以在MongoDB里查詢到記錄了。

總結下，使用Scrapy來構建一個網絡爬蟲，你需要做的就是：廈門叉車租賃公司

“items.py”中定義爬取字段
在”spiders”目錄下創建你的爬蟲，編寫解析函數和規則
“pipelines.py”中對爬取后的結果做處理
“settings.py”設置必要的參數

感謝各位的閱讀，以上就是“怎么用Scrapy構建一個網絡爬蟲”的內容了，經過本文的學習后，相信大家對怎么用Scrapy構建一個網絡爬蟲這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關知識點的文章，歡迎關注！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

怎么用Scrapy構建一個網絡爬蟲

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

怎么用Scrapy構建一個網絡爬蟲

猜你喜歡

最新資訊

相關推薦

相關標簽