python起點網月票榜字體反爬的方法是什么

發布時間：2021-12-05 10:04:21 來源：億速云閱讀：178 作者：iii 欄目：開發技術

本篇內容主要講解“python起點網月票榜字體反爬的方法是什么”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“python起點網月票榜字體反爬的方法是什么”吧!

1.解析過程

老規矩哈我們先進入起點月票榜f12調試，找到書名與其對應的月票數據所在，使用xpath嘗試提取

可以看到剛剛好20條數據，接下來找月票數據：

python起點網月票榜字體反爬的方法是什么

這是什么鬼xpath檢索出來20條數據但是數據為空，element中數據顯示為未知符號，這貌似沒有數據呀，這時我們觀察源代碼，搜索關鍵字font-face可以看到這種看不懂的編碼，這就是前言中所說的字體的編碼。

我們接下來找字體文件數據包

python起點網月票榜字體反爬的方法是什么

woff文件并且請求地址與這上面看到的地址一樣，不過這里需要注意的是每次請求地址都不一樣，文件名字也不一樣，所以我們需要每爬取一次都要單獨爬取一次字體加密數據，字體加密數據可以使用第三方庫fonttools進行解析

我們現在擁有：

1.書名

2.月票數據的密文

3.月票數據密文對應的字體文件

2.開始敲代碼

首先定義獲取書名的函數get_book_name并進行測試:

import requests
from lxml import etree
 
 
def get_book_name(xml_obj):
    name_list = xml_obj.xpath("//div[@class='book-mid-info']/h5/a/text()")
    return name_list
 
 
if __name__ == '__main__':
    # 設置我們通用的請求頭，避免被反爬攔截
    headers_ = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
        'referer': 'https://www.qidian.com/rank/',
        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 請求網頁源代碼
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析書名
    xml_obj = etree.HTML(str_data)
    print(get_book_name(xml_obj))   # ['從紅月開始', '人族鎮守使', '全屬性武道', '深空彼岸', '我的云養女友', '我用閑書成圣人', '明克街13號', '星門', '東晉北府一丘八', '夜的命名術', '這個人仙太過正經', '頂級氣運，悄悄修煉千年', '不科學御獸', '我的治愈系游戲', '這游戲也太真實了', '長夜余火', '赤心巡天', '輪回樂園', '合道', '宇宙職業選手']

2.請求月票數據密文，并進行測試：

import re
 
import requests
from lxml import etree
 
# 獲取書名
def get_book_name(xml_obj):
    name_list = xml_obj.xpath("//div[@class='book-mid-info']/h5/a/text()")
    return name_list
 
# 獲取月票加密數據
def get_yuepiao(str_data):
    # 這里我們之前分析發現xpath取出來的數據是空值，我們直接對網頁源代碼使用re正則匹配獲取加密數據
    yuepiao_list=re.findall(r'''</style><span class=".*?">(.*?)</span>''',str_data)
    return yuepiao_list
 
if __name__ == '__main__':
    # 設置我們通用的請求頭，避免被反爬攔截
    headers_ = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
        'referer': 'https://www.qidian.com/rank/',
        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 請求網頁源代碼
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析書名
    xml_obj = etree.HTML(str_data)
    print(get_book_name(xml_obj))   # ['從紅月開始', '人族鎮守使', '全屬性武道', '深空彼岸', '我的云養女友', '我用閑書成圣人', '明克街13號', '星門', '東晉北府一丘八', '夜的命名術', '這個人仙太過正經', '頂級氣運，悄悄修煉千年', '不科學御獸', '我的治愈系游戲', '這游戲也太真實了', '長夜余火', '赤心巡天', '輪回樂園', '合道', '宇宙職業選手']
    print(get_yuepiao(str_data))    # ['&#100498;&#100498;&#100496;&#100489;&#100494;', '&#100492;&#100491;&#100496;&#100496;', '&#100492;&#100495;&#100492;&#100497;', '&#100497;&#100489;&#100498;&#100494;', '&#100497;&#100494;&#100491;&#100500;', '&#100497;&#100495;&#100495;&#100489;', '&#100494;&#100497;&#100496;&#100489;', '&#100494;&#100495;&#100497;&#100500;', '&#100494;&#100498;&#100489;&#100495;', '&#100495;&#100494;&#100495;&#100494;', '&#100500;&#100497;&#100497;&#100500;', '&#100500;&#100494;&#100496;&#100499;', '&#100500;&#100500;&#100497;&#100496;', '&#100500;&#100498;&#100497;&#100495;', '&#100500;&#100496;&#100498;&#100496;', '&#100498;&#100492;&#100489;&#100492;', '&#100498;&#100497;&#100492;&#100499;', '&#100498;&#100497;&#100494;&#100499;', '&#100498;&#100494;&#100499;&#100489;', '&#100498;&#100494;&#100495;&#100496;']

3.獲取字體加密文件里的對應關系：

安裝fonttools庫

python起點網月票榜字體反爬的方法是什么

由于第一次使用fonttools庫，在使用時遇到了以下錯誤查詢百度得知可能是由于字體文件名字有誤，把名稱換成url上面帶的就成功的提取出來鍵值對了

（也可能是我使用re正則提取font_url時候不規范造成url錯誤）

只是這個鍵值對怎么編碼對應英文，程序員為何為難程序員呢，不說了我們要定義一個英語與阿拉伯數字對應的字典進行對英文的替換

def get_font(xml_obj, headers_):
    # 使用xpath與re獲取字體加密數據包地址
    font_div = xml_obj.xpath("//span/style/text()")[0]
    font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
    font_name = str(font_url).rsplit('/', 1)[1]
    # 獲取font文件進行本地保存
    font_data = requests.get(font_url, headers_).content
    with open(f'{font_name}', 'wb') as f:
        f.write(font_data)
    # 加載字體文件
    font_data = TTFont(f'{font_name}')
    # font_data.saveXML('字體.xml')
    font_doct01 = font_data.getBestCmap()
    font_doct02 = {
        'period': '.',
        'zero': '0',
        'one': '1',
        'two': '2',
        'three': '3',
        'four': '4',
        'five': '5',
        'six': '6',
        'seven': '7',
        'eight': '8',
        'nine': '9'
 
    }
    for i in font_doct01:
        font_doct01[i]=font_doct02[font_doct01[i]]
    return font_doct01

程序完美運行：

python起點網月票榜字體反爬的方法是什么

總代碼如下：

import re
 
import requests
from lxml import etree
from fontTools.ttLib import TTFont
 
 
# 獲取書名
def get_book_name(xml_obj):
    name_list = xml_obj.xpath("//div[@class='book-mid-info']/h5/a/text()")
    return name_list
 
 
# 獲取月票加密數據
def get_yuepiao(str_data):
    # 這里我們之前分析發現xpath取出來的數據是空值，我們直接對網頁源代碼使用re正則匹配獲取加密數據
    yuepiao_list = re.findall(r'''</style><span class=".*?">(.*?)</span>''', str_data)
    return yuepiao_list
 
 
def get_font(xml_obj, headers_):
    # 使用xpath與re獲取字體加密數據包地址
    font_div = xml_obj.xpath("//span/style/text()")[0]
    font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
    font_name = str(font_url).rsplit('/', 1)[1]
    # 獲取font文件進行本地保存
    font_data = requests.get(font_url, headers_).content
    with open(f'{font_name}', 'wb') as f:
        f.write(font_data)
    # 加載字體文件
    font_data = TTFont(f'{font_name}')
    # font_data.saveXML('字體.xml')
    font_doct01 = font_data.getBestCmap()
    font_doct02 = {
        'period': '.',
        'zero': '0',
        'one': '1',
        'two': '2',
        'three': '3',
        'four': '4',
        'five': '5',
        'six': '6',
        'seven': '7',
        'eight': '8',
        'nine': '9'
 
    }
    for i in font_doct01:
        font_doct01[i] = font_doct02[font_doct01[i]]
    return font_doct01
 
 
def jiemi(miwen_list, font_list):
    yuepiao = []
    for i in miwen_list:
        num = ''
        mw_list=re.findall('&#(.*?);', i)
 
        for j in mw_list:
            num += font_list[int(j)]
        yuepiao.append(int(num))
    return yuepiao
 
 
if __name__ == '__main__':
    # 設置我們通用的請求頭，避免被反爬攔截
    headers_ = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
        'referer': 'https://www.qidian.com/rank/',
        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 請求網頁源代碼
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析書名
    xml_obj = etree.HTML(str_data)
    # print(get_book_name(
    #     xml_obj))  # ['從紅月開始', '人族鎮守使', '全屬性武道', '深空彼岸', '我的云養女友', '我用閑書成圣人', '明克街13號', '星門', '東晉北府一丘八', '夜的命名術', '這個人仙太過正經', '頂級氣運，悄悄修煉千年', '不科學御獸', '我的治愈系游戲', '這游戲也太真實了', '長夜余火', '赤心巡天', '輪回樂園', '合道', '宇宙職業選手']
    # print(get_yuepiao(
    #     str_data))  # ['&#100498;&#100498;&#100496;&#100489;&#100494;', '&#100492;&#100491;&#100496;&#100496;', '&#100492;&#100495;&#100492;&#100497;', '&#100497;&#100489;&#100498;&#100494;', '&#100497;&#100494;&#100491;&#100500;', '&#100497;&#100495;&#100495;&#100489;', '&#100494;&#100497;&#100496;&#100489;', '&#100494;&#100495;&#100497;&#100500;', '&#100494;&#100498;&#100489;&#100495;', '&#100495;&#100494;&#100495;&#100494;', '&#100500;&#100497;&#100497;&#100500;', '&#100500;&#100494;&#100496;&#100499;', '&#100500;&#100500;&#100497;&#100496;', '&#100500;&#100498;&#100497;&#100495;', '&#100500;&#100496;&#100498;&#100496;', '&#100498;&#100492;&#100489;&#100492;', '&#100498;&#100497;&#100492;&#100499;', '&#100498;&#100497;&#100494;&#100499;', '&#100498;&#100494;&#100499;&#100489;', '&#100498;&#100494;&#100495;&#100496;']
    # print(get_font(xml_obj, headers_))
    # 書名列表
    book_name_list = get_book_name(xml_obj)
    # 月票列表
    yuepiao_list = jiemi(get_yuepiao(str_data), get_font(xml_obj, headers_))
    for i in range(len(book_name_list)):
        print(f'{book_name_list[i]}:{yuepiao_list[i]}')

到此，相信大家對“python起點網月票榜字體反爬的方法是什么”有了更深的了解，不妨來實際操作一番吧！這里是億速云網站，更多相關內容可以進入相關頻道進行查詢，關注我們，繼續學習！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

python起點網月票榜字體反爬的方法是什么

1.解析過程

2.開始敲代碼

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

python起點網月票榜字體反爬的方法是什么

1.解析過程

2.開始敲代碼

猜你喜歡

最新資訊

相關推薦

相關標簽