中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何使用Python實現ComicReaper漫畫自動爬取腳本

發布時間:2021-04-06 10:12:17 來源:億速云 閱讀:203 作者:小新 欄目:開發技術

小編給大家分享一下如何使用Python實現ComicReaper漫畫自動爬取腳本,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!

總體流程

如何使用Python實現ComicReaper漫畫自動爬取腳本

那就開始吧

做一些準備工作

先用字符串存儲兩個鏈接, 一個是本次漫畫網站站點的域名URL, 另一個是當前我們要爬取的漫畫的主頁URL

再定義一個 header 字典, 用于存儲我們的 User-Agent 和 Referer Referrer (由于早期HTTP規范的拼寫錯誤, 為了保持向后兼容就將錯就錯了)

首部字段 User-Agent

首部字段 User-Agent 告訴服務器當前創建請求的瀏覽器是什么(有的網站會針對不同的瀏覽器提供不同的頁面, 比如如果是手機瀏覽器提出的請求, 服務器就向客戶端提供網站的手機版頁面)

比如說同樣是請求 GitHub 的主頁, 左邊是使用筆記本電腦上面的瀏覽器請求的頁面, 右邊是在安卓手機上請求的頁面

如何使用Python實現ComicReaper漫畫自動爬取腳本

首部字段 Referer

首部字段 Referer 告訴服務器當前請求的頁面是從哪個Web頁面發起的(一般情況下 Referer 字段用于防盜鏈)

有的網站不允許直接訪問網站里面的URL, 只能通過從主頁點擊某個鏈接來進行跳轉, 或者...我們在請求之前把 User-Agent 字段設置為主頁或發起頁即可

url_domainame = r'http://www.manhuadb.com'
url_host = r'http://www.manhuadb.com/manhua/2317'
header = {
  'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0',
  'Referer' : ''
  }

獲取章節目錄

首先我們對我們接下來要做的事情做一個具體流程分析

我們要獲取當前漫畫所有章節的標題與URL(標題用于后期存儲時文件夾的命名, URL用于跳轉到當前章節的開始頁面)并且存儲在列表中

如何使用Python實現ComicReaper漫畫自動爬取腳本

將會使用到Python的兩個庫, re 與 urllib

 import re         # 導入正則表達式
 import urllib.request  # 導入 urllib.request

對在瀏覽器中按下 [F12] 鍵打開開發者工具來對漫畫的章節頁面進行分析

如何使用Python實現ComicReaper漫畫自動爬取腳本

我們可以看到頁面中有很多章節, 也就是章節跳轉鏈接, 每個鏈接的<a>標簽中正好具有我們需要的標題和URL, 分別是<a>標簽的 title 屬性與 href 屬性, 我們將使用字典來存儲它

先不慌著前進, 考慮到整個HTML中有非常多的鏈接, 那么也就意味著頁面中具有大量的<a>標簽, 如果我們只是單純地從HTML中過濾出<a>標簽, 這樣我們會得到大量我們并不需要的<a>標簽, 這是不明智的, 我們必須只過濾出章節跳轉鏈接的<a>標簽, 仔細觀察, 發現章節跳轉鏈接的<a>標簽們都具有一個特點, 那就是它們都具有 class 屬性并且屬性值為 "fixed-a-es" , 這就找到了一個可以定位章節<a>標簽的依據, 把這一點加入到我們的正則表達式的匹配規則中去

現在就可以定義一個正則表達式匹配字符串了:

pat = r'<a class="fixed-a-es" href="(.*?)" rel="external nofollow" rel="external nofollow" title="(.*?)"'

為什么要這么寫 :

  • 在Python中, 在字符串常量的開頭加一個 'r' 表示本字符串中的 '\' 字符將不會用來作轉義字符使用, 保留了它原本的含義, 也就是反斜杠字符

  • 在正則表達式中, '.' 字符用于匹配任何字符(當匹配時具有 're.S' 標志時此話成立, 否則只能匹配任意但除了 '\n' 以外的字符)

  • 在正則表達式中, '*' 字符用于描述它左邊的匹配字符的出現次數為0次或若干次

  • 在正則表達式中, '(.*?)' 的組合用來表示一個貪婪匹配(并且會被捕捉到)

使用這個正則表達式, 就可以匹配到 title 屬性與 href 屬性的屬性值中的雙引號里面的內容了

具體實現是 chapterIndexReaper 函數, 主要用來"收割"當前漫畫的所有章節并存儲為字典列表

代碼如下 :

#獲取一本漫畫的所有章節的目錄
def chapterIndexReaper(url_host, header):
  # 定義一個臨時字典, 用于臨時存儲一個章節的標題與url
  dic_temp = {
    'Title' : '',
    'Url' : ''
    }
  # 章節字典列表, 存儲當前漫畫的所有章節字典
  set_dic = []
  # 構建Request對象
  req = urllib.request.Request(url = url_host, headers = header)
  # 讀取所請求的req并用utf-8編碼來進行解碼, 所得到的的字符串賦值給html
  html = urllib.request.urlopen(req).read().decode('utf-8')
  # 爬取漫畫章節標題與url的正則表達式
  pat = r'<a class="fixed-a-es" href="(.*?)" rel="external nofollow" rel="external nofollow" title="(.*?)"'
  # 使用pat在html中進行進行匹配(re.S參數是為了讓"."除了能夠匹配本身規定的字符,
  # 另外也能匹配"\n"), 返回一個結果列表res
  res = re.findall(pat, html, re.S)
  for i in res:
    dic_temp['Title'] = i[1]
    dic_temp['Url'] = url_head + i[0]
    # 向當前的章節字典列表的后面追加新的章節, 注意, 此處要使用淺拷貝
    # (因為dic_temp是一個臨時變量, 需要創建它的副本并追加到set_dic中去,
    # 否則當dic_temp刷新時set_dic中的元素會相應發生改變)
    set_dic.append(dic_temp.copy())
  return set_dic

看完了這篇文章,相信你對“如何使用Python實現ComicReaper漫畫自動爬取腳本”有了一定的了解,如果想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

行唐县| 宁南县| 洱源县| 泽库县| 保定市| 通榆县| 尤溪县| 高阳县| 彭州市| 陈巴尔虎旗| 刚察县| 绥芬河市| 泾川县| 大田县| 汉源县| 太原市| 聊城市| 肇庆市| 宣威市| 沙雅县| 连山| 定兴县| 水富县| 九龙城区| 敦化市| 金山区| 莫力| 皮山县| 贡嘎县| 康定县| 青田县| 房山区| 庄浪县| 辽宁省| 巴中市| 孝义市| 察雅县| 怀仁县| 寿光市| 凤山市| 鄂托克旗|