您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關python爬取免費或付費小說的示例分析,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
小說相信大家都愛看吧一章接一章具有極大的吸引力 看了還想看,當然付費小說價格也不便宜 看到一半突然收費 猝不及防!在我們程序員這里 收費是不存在的 萬物皆可爬
什么是網絡爬蟲
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
環境:Python3.6+Windows
開發工具:你喜歡用哪個就用哪個,你開心就好!
主要思路:
1 獲取主頁源代碼
2 獲取章節超鏈接
3 獲取章節超鏈接源碼
4 獲取小說內容
5 下載,文件操作
Python代碼了解一下
import urllib.request
import re
# 1 獲取主頁源代碼
# 2 獲取章節超鏈接
# 3 獲取章節超鏈接源碼
# 4 獲取小說內容
# 5 下載,文件操作
# 駝峰命名法
# 獲取小說內容
def getNovertContent():
# <http.client.HTTPResponse object at 0x000001DFD017F400>
html = urllib.request.urlopen("http://www.quanshuwang.com/book/0/269").read()
html = html.decode("gbk")
# 不加括號 不匹配
# 正則表達式 .*? 匹配所有
reg = r'<li><a href="(.*?)" title=".*?">(.*?)</a></li>'
# 增加效率的
reg = re.compile(reg)
urls = re.findall(reg,html)
# print(urls)
# 列表
# [(http://www.quanshuwang.com/book/0/269/78850.html,第一章 山邊小村),
# (http://www.quanshuwang.com/book/0/269/78854.html,第二章 青牛鎮)]
for url in urls:
# 章節的URL地址
novel_url = url[0]
# 章節標題
novel_title = url[1]
chapt = urllib.request.urlopen(novel_url).read()
chapt_html = chapt.decode("gbk")
# r 表示原生字符串 \ \\d r"\d"
reg = r'</script> (.*?)<script type="text/javascript">'
# S 代表多行匹配
reg = re.compile(reg,re.S)
chapt_content = re.findall(reg,chapt_html)
# print(chapt_content)
# 列表["  二愣子睜大著雙眼,直直望著茅草和爛泥糊成的<br />"]
# 第一個參數 要替換的字符串 替換后的字符串
chapt_content = chapt_content[0].replace(" ","")
# print(chapt_content) 字符串 二愣子睜大著雙眼,直直望著茅草和爛泥糊成的<br />
chapt_content = chapt_content.replace("<br />","")
print("正在保存 %s"%novel_title)
# w 讀寫模式 wb
# f = open("{}.txt".format(novel_title),'w')
# f.write(chapt_content)
with open("{}.txt".format(novel_title),'w') as f:
f.write(chapt_content)
# f.close()
getNovertContent()
運行結果:
以上就是python爬取免費或付費小說的示例分析,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。