您好,登錄后才能下訂單哦!
#!/usr/bin/python3 #coding=UTF-8 import?requests from?bs4?import?BeautifulSoup ''' 需求:【python小項目】抓取編程網收費vip文章的非vip用戶觀看界面的url!?例如收費文章http://c.biancheng.net/view/vip_6005.html對應非收費地址是http://c.biancheng.net/view/5315.html這個網站總是有一些vip文章??但是vip文章通過百度標題是可以搜索到的,我想爬取所有這樣的文章標題和網頁的地址!后期看到一個vip文章,你可以通過檢索標題得到非vip的觀看鏈接地址 編寫日期:2019-10-18 作者:xiaoxiaohui 說明:python3程序?而且最好在linux運行?windows下有gbk那個編碼問題 ''' def?get_biaoti(url): response?=?requests.get(url) response.encoding='utf-8'?#如果不設置成utf8則中文亂碼或者報錯?參考https://www.cnblogs.com/supery007/p/8303472.html soup?=?BeautifulSoup(response.text,'html.parser') links_div?=?soup.find_all('h2') return?links_div[0].text f?=?open("a1.txt",?'a') for?yema?in?range(1,500): url?=?'http://c.biancheng.net/view/'+str(yema)+'.html' biaoti?=?get_biaoti(url) print(url,biaoti)? f.write(url+'\t'+biaoti+'\n') f.close()
運行結果、收集到的文章和url對應關系截圖:
自己學到的:
這次學到的? 原來我的爬蟲都是爬某個div的,都是links_div = soup.find_all('div',class_="listpic"), 原來也可以直接links_div = soup.find_all('h2'),也就是帶一個參數這樣的
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。