中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

利用python爬蟲怎么破解加密字體

發布時間:2021-03-03 15:47:41 來源:億速云 閱讀:251 作者:Leah 欄目:開發技術

本篇文章為大家展示了利用python爬蟲怎么破解加密字體,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。

python是什么意思

Python是一種跨平臺的、具有解釋性、編譯性、互動性和面向對象的腳本語言,其最初的設計是用于編寫自動化腳本,隨著版本的不斷更新和新功能的添加,常用于用于開發獨立的項目和大型項目。

案例目的:

通過爬取起小點小說月票榜的名稱和月票數,介紹如何破解字體加密的反爬,將加密的數據轉化成明文數據。

程序功能:

輸入要爬取的頁數,得到每一頁對應的小說名稱和月票數。

案例分析: 找到目標的url:

利用python爬蟲怎么破解加密字體

(右鍵檢查)找到小說名稱所在的位置:

利用python爬蟲怎么破解加密字體

通過名稱所在的節點位置,找到小說名稱的xpath語法:

利用python爬蟲怎么破解加密字體

(右鍵檢查)找到月票數所在的位置:

利用python爬蟲怎么破解加密字體

由上圖發現,檢查月票數據的文本,得到一串加密數據。

我們通過xpathhelper進行調試發現,無法找到加密數據的語法。因此,需要通過正則表達式進行提取。

通過正則進行數據提取。

利用python爬蟲怎么破解加密字體

正則表達式如下:

利用python爬蟲怎么破解加密字體

得到的加密數據如下:

利用python爬蟲怎么破解加密字體

破解加密數據是本次案例的關鍵:

既然是加密數據,就會有加密數據所對應的加密規則的Font文件。
通過找到Font字體文件中數據加密文件的url,發送請求,獲取響應,得到加密數據的woff文件。

注:我們需要的woff文件,名稱與加密月票數前面的class屬性相同。

利用python爬蟲怎么破解加密字體

如下圖,下載woff文件:

找到16進制的數字對應的英文數字。

利用python爬蟲怎么破解加密字體

其次,我們需要通過第三方庫TTFont將文件中的16進制數轉換成10進制,將英文數字轉換成阿拉伯數字。如下圖:

利用python爬蟲怎么破解加密字體

解析出每個加密數據對應的對應的月票數的數字如下:

利用python爬蟲怎么破解加密字體

注意:

由于我們在上面通過正則表式獲得的加密數據攜帶特殊符號

利用python爬蟲怎么破解加密字體

因此解析出月票數據中的數字之后,除了將特殊符號去除,還需把每個數字進行拼接,得到最后的票數。

最后,通過對比不同頁的url,找到翻頁的規律:

利用python爬蟲怎么破解加密字體
利用python爬蟲怎么破解加密字體
利用python爬蟲怎么破解加密字體

對比三個不同url發現,翻頁的規律在于參數page

所以問題分析完畢,開始代碼:

import requests
from lxml import etree
import re
from fontTools.ttLib import TTFont
import json

if __name__ == '__main__':
  # 輸入爬取的頁數、
  pages = int(input('請輸入要爬取的頁數:')) # eg:pages=1,2
  for i in range(pages): # i=0,(0,1)
    page = i+1  # 1,(1,2)
    # 確認目標的url
    url_ = f'https://www.qidian.com/rank/yuepiao?page={page}'
    # 構造請求頭參數
    headers = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
    # 發送請求,獲取響應
    response_ = requests.get(url_,headers=headers)
    # 響應類型為html問文本
    str_data = response_.text
    # 將html文本轉換成python文件
    py_data = etree.HTML(str_data)
    # 提取文本中的目標數據
    title_list = py_data.xpath('//h5/a[@target="_blank"]/text() ')
    # 提取月票數,由于利用xpath語法無法提取,因此換用正則表達式,正則提取的目標為response_.text
    mon_list = re.findall('</style><span class=".*?">(.*?)</span></span>',str_data)
    print(mon_list)
    # 獲取字體反爬woff文件對應的url,xpath配合正則使用
    fonturl_str = py_data.xpath('//p/span/style/text()')
    font_url = re.findall(r"format\('eot'\); src: url\('(.*?)'\) format\('woff'\)",str_data)[0]
    print(font_url)
    # 獲得url之后,構造請求頭獲取響應
    headers_ = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36',
      'Referer':'https://www.qidian.com/'
    }
    # 發送請求,獲取響應
    font_response = requests.get(font_url,headers=headers_)
    # 文件類型未知,因此用使用content格式
    font_data = font_response.content
    # 保存到本地
    with open('加密font文件.woff','wb')as f:
      f.write(font_data)
    # 解析加密的font文件
    font_obj = TTFont('加密font文件.woff')
    # 將文件轉成明文的xml文件
    font_obj.saveXML('加密font文件.xml')
    # 獲取字體加密的關系映射表,將16進制轉換成10進制
    cmap_list = font_obj.getBestCmap()
    print('字體加密關系映射表:',cmap_list)
    # 創建英文轉英文的字典
    dict_e_a = {'one':'1','two':'2','three':'3','four':'4','five':'5','six':'6',
          'seven':'7','eight':'8','nine':'9','zero':'0'}
    # 將英文數據進行轉換
    for i in cmap_list:
      for j in dict_e_a:
        if j == cmap_list[i]:
          cmap_list[i] = dict_e_a[j]
    print('轉換為阿拉伯數字的映射表為:',cmap_list)
    # 去掉加密的月票數據列表中的符號
    new_mon_list = []
    for i in mon_list:
      list_ = re.findall(r'\d+',i)
      new_mon_list.append(list_)
    print('去掉符號之后的月票數據列表為:',new_mon_list)
    # 最終解析月票數據
    for i in new_mon_list:
      for j in enumerate(i):
        for k in cmap_list:
          if j[1] == str(k):
            i[j[0]] = cmap_list[k]
    print('解析之后的月票數據為:',new_mon_list)
    # 將月票數據進行拼接
    new_list = []
    for i in new_mon_list:
      j = ''.join(i)
      new_list.append(j)
    print('解析出的明文數據為:',new_list)
    # 將名稱和對應的月票數據放進字典,并轉換成json格式及進行保存
    for i in range(len(title_list)):
      dict_ = {}
      dict_[title_list[i]] = new_list[i]
      # 將字典轉換成json格式
      json_data = json.dumps(dict_,ensure_ascii=False)+',\n'
      # 將數據保存到本地
      with open('翻頁起小點月票榜數據爬取.json','a',encoding='utf-8')as f:
        f.write(json_data)

爬取了兩頁的數據,每一頁包含20個數據

執行結果如下:

利用python爬蟲怎么破解加密字體

上述內容就是利用python爬蟲怎么破解加密字體,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

普宁市| 临汾市| 民县| 九龙县| 马公市| 曲麻莱县| 库车县| 福贡县| 阿合奇县| 甘肃省| 宜兴市| 敖汉旗| SHOW| 蚌埠市| 井陉县| 华安县| 噶尔县| 保靖县| 翼城县| 巨野县| 广南县| 潜山县| 夹江县| 古浪县| 奎屯市| 榆林市| 高邑县| 西宁市| 台南市| 邢台县| 左权县| 苗栗县| 峨眉山市| 宜兰县| 盐池县| 平凉市| 雷波县| 石门县| 玉山县| 永泰县| 沈阳市|