python中如何實現反爬2021貓眼票房字體加密

發布時間：2021-05-09 09:34:40 來源：億速云閱讀：160 作者：小新欄目：編程語言

這篇文章主要介紹python中如何實現反爬2021貓眼票房字體加密，文中介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

python主要應用領域有哪些

1、云計算，典型應用OpenStack。2、WEB前端開發，眾多大型網站均為Python開發。3.人工智能應用，基于大數據分析和深度學習而發展出來的人工智能本質上已經無法離開python。4、系統運維工程項目，自動化運維的標配就是python+Django/flask。5、金融理財分析，量化交易，金融分析。6、大數據分析。

一、字體加密原理

簡單來說就是程序員在設計網站的時候使用了自己設計的字體代碼對關鍵字進行編碼，在瀏覽器加載的時會根據這個字體文件對這些字體進行編碼，從而顯示出正確的字體。

二、、爬取實例

1、得到字體斜率字典

import requestsimport urllib.request as downimport jsonfrom fontTools.ttLib 
import TTFontimport reimport MyPyClass# 
得到字體斜率列表（部分）def font_Kdict(mapstype,maps=None):
    '''
    得到字體斜率字典（部分）
    參數：
    mapstype：str->maps類型，判斷是是base/new
    maps：映射字典

    return kdict
    kdict字典關系：
    num:Klist 數字對應每條線段的斜率列表
    '''
    kdict={}

2、遍歷maps字典，找到對應的num和namecode

 for num, namecode in maps.items():
        # 跳過無用數據
        if namecode == 'x': continue
        # 判斷類型，并從.coordinates得到對應num的所有坐標
        if mapstype=='base':coordinates = namecode.coordinates        
 elif mapstype=='new':coordinates=glyf[namecode].coordinates        # 得到坐標 X列表和坐標 Y列表
        x = [i[0] for i in coordinates]
        y = [i[1] for i in coordinates]
        Klist = []
        # 遍歷X列表并切片為前10個數據進行斜率計算，即代表繪圖的前10條線段的斜率
        for index, absx in enumerate(x[:10]):
            # 當斜率為0/1時，認為斜率為1計算
            if x[index + 1] == x[index] or y[index + 1] == y[index]:
                absxy = 1
            else:
                absxy = (y[index + 1] - y[index]) / (x[index + 1] - x[index])
            # 將斜率加入到列表
            Klist.append(-absxy if absxy < 0 else absxy)
        kdict[num]=Klist        #print('base:', code, Klist, name)
    return kdict

3、對比斜率字典

def contrast_K(kbase,knew):
    '''
    對比斜率映射差距
    參數：
    kbase:基礎字體映射表的斜率字典
    knew:當前鏈接的字體映射表的斜率字典

    return:dict
    fontMaps:根據對比得出正確的字體映射關系字典

    '''
    fontMaps = {}
    # 遍歷kbase字典
    for base in kbase.items():
        n = 0 # 成功匹配的斜率個數
        # 遍歷knew字典
        for new in knew.items():
            # 遍歷kbase>knew>下的兩組斜率，進行大小匹配，
            # 如果斜率k的差值小于0.5，并且樣本數>=9時，認為兩個坐標圖形相識只是大小比例不同
            # 即k<=0.5   n>=9
            for (k1,k2) in zip(base[1],new[1]):
                # k取正數
                k=k1-k2 if k1>k2 else k2-k1                if k<=0.5:
                    n+=1
                    continue
                else:
                    break
            if n>=9:
                # 匹配正確則添加進字典中 此時的字典關系是：code:num 代碼對應數字的關系
                fontMaps[str(hex(new[0]).replace('0x','&#x'))]=str(base[0])
                break
            n=0
    #print(fontMaps)
    return fontMaps

4、爬取內容

with requests.get(url,headers={'user-agent':ua}) as response:
    # 獲取存放字典的json字段，并提取字體url
    fontStyle=json.loads(response.content)['fontStyle']
    fontStyle=re.findall('\"([\s\S]*?)\"',fontStyle[::-1])
    fonturl='http:'+fontStyle[0][::-1]# 字體url鏈接
    # 將加載的字體下載保存到本地，并對其進行分析
    down.urlretrieve(fonturl,'newfont.woff')
    # 爬取的電影數據內容
    content = json.loads(response.content)['movieList']['data']['list']# 信息字典movieNum={}#綜合票房數字典movieDayOne= {}#上映首日數量movieRate={}#票房占比movieshowCount={}#排片場次movieViewerAvg={}#場均人數movieInfos={}# 頁面內容for i in content:
    moviename=i['movieInfo']['movieName']
    movieNum[moviename]=i['boxSplitUnit']['num']
    movieDayOne[moviename]=i['sumBoxDesc']
    movieRate[moviename]=i['splitBoxRate']
    movieshowCount[moviename]=i['showCount']
    movieViewerAvg[moviename]=i['avgShowView']# 新字體對象fontnew=TTFont('newfont.woff')
# 得到當前字體的映射關系表newNumberMaps=fontnew.getBestCmap()# 獲取字形glyf=fontnew['glyf']
# 基礎字體斜率字典k_base_dict=font_Kdict(maps=baseNumberMaps,mapstype='base')
# 新字體斜率字典k_new_dict=font_Kdict(maps=fontnew.getBestCmap(),mapstype='new')
# 得到字體映射字典fontcodes=contrast_K(k_base_dict,k_new_dict)# 對加密的字體遍歷分組，并去除無用字符
for name,numbercode in movieNum.items():
    movieNum[name]=re.findall('([\S]*?);', numbercode)
# 根據得到的fontcodes映射對加密字體進行替換，得到正確數值for index,(name,numbercodelist) 
in enumerate(movieNum.items()):
    num=[]
    # 替換操作
    for code in numbercodelist:
        if '.' in code:
            code=code.replace('.','')
            num.append('.'+fontcodes[code])
        else:
            num.append(fontcodes[code])
    infos=['排行:'+str(index+1),
        '片名',name,
        '上映首日',movieDayOne[name],
        '票房',''.join(num)+'萬',
        '票房占比',movieRate[name],
        '場均人數',movieViewerAvg[name]+'人',
        '排片場次',movieshowCount[name]]
    print(infos)

以上是“python中如何實現反爬2021貓眼票房字體加密”這篇文章的所有內容，感謝各位的閱讀！希望分享的內容對大家有幫助，更多相關知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

python中如何實現反爬2021貓眼票房字體加密

python主要應用領域有哪些

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

python中如何實現反爬2021貓眼票房字體加密

python主要應用領域有哪些

猜你喜歡

最新資訊

相關推薦

相關標簽