您好,登錄后才能下訂單哦!
這篇文章主要介紹Python爬蟲如何爬取網頁中所有的url,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
Python是一種編程語言,內置了許多有效的工具,Python幾乎無所不能,該語言通俗易懂、容易入門、功能強大,在許多領域中都有廣泛的應用,例如最熱門的大數據分析,人工智能,Web開發等。
在使用python爬蟲進行網絡頁面爬取的過程中,第一步肯定是要爬取url,若是面對網頁中很多url,,又該如何爬取所以url呢?本文介紹Python爬蟲爬取網頁中所有的url的三種實現方法:1、使用BeautifulSoup快速提取所有url;2、使用Scrapy框架遞歸調用parse;3、在get_next_url()函數中調用自身,遞歸循環爬取所有url。
方法一:使用BeautifulSoup快速提取所有url
BeautifulSoup是一種可以從html和xml中快速提取內容的python庫
def getAllUrl(self,url): import urllib.request from bs4 import BeautifulSoup html = urllib.request.urlopen(url).read().decode("utf-8") soup = BeautifulSoup(html, features='html.parser') tags = soup.find_all('a') for tag in tags: print(str(tag.get('href')).strip())
方法二:使用Scrapy框架遞歸調用parse
遞歸調用parse直到每個頁面爬取完
class QiubaiSpider(scrapy.Spider): name = 'qiubai' # allowed_domains = ['www.qiushibaike.com/text'] start_urls = ['https://www.qiushibaike.com/text/'] # 設計一個url模板 url = 'https://www.qiushibaike.com/text/page/%d/' pageNum = 1 def parse(self, response): div_list = response.xpath("//div[@id='content-left']/div") for div in div_list: .... # 將item提交給管道 yield item # 多url, 請求的手動發送 if self.pageNum <= 13: # 控制!否則無限遞歸了。。 self.pageNum += 1 print('爬第:%d 頁' % self.pageNum) new_url = self.url % self.pageNum # callback 回調函數,頁面進行解析 yield scrapy.Request(url=new_url, callback=self.parse)
方法三:在get_next_url()函數中調用自身,遞歸循環爬取所有url
#!/usr/bin/env python # -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup as Bs4 head_url = "http://www.xxx.com.cn" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36" } def get_first_url(): list_href = [] reaponse = requests.get(head_url, headers=headers) soup = Bs4(reaponse.text, "lxml") urls_li = soup.select("#mainmenu_top > div > div > ul > li") for url_li in urls_li: urls = url_li.select("a") for url in urls: url_href = url.get("href") list_href.append(head_url+url_href) out_url = list(set(list_href)) return out_url def get_next_url(urllist): url_list = [] for url in urllist: response = requests.get(url,headers=headers) soup = Bs4(response.text,"lxml") urls = soup.find_all("a") if urls: for url2 in urls: url2_1 = url2.get("href") if url2_1: if url2_1[0] == "/": url2_1 = head_url + url2_1 url_list.append(url2_1) if url2_1[0:24] == "http://www.xxx.com.cn": url2_1 = url2_1 url_list.append(url2_1) else: pass else: pass else: pass else: pass url_list2 = set(url_list) for url_ in url_list2: res = requests.get(url_) if res.status_code ==200: print(url_) print(len(url_list2)) get_next_url(url_list2) if __name__ == "__main__": urllist = get_first_url() get_next_url(urllist)
以上是“Python爬蟲如何爬取網頁中所有的url”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。