Python如何爬取58同城租房數據并破解字體加密

發布時間：2021-10-26 09:55:17 來源：億速云閱讀：158 作者：柒染欄目：大數據

Python如何爬取58同城租房數據并破解字體加密，很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有這方面需求的人可以來學習下，希望你能有所收獲。

【1】加密字體攻克思路

F12 打開調試模板，通過頁面分析，可以觀察到，網站里面凡是涉及到有數字的地方，都是顯示為亂碼，這種情況就是字體加密了，那么是通過什么手段實現字體加密的呢？

CSS 中有一個 @font-face 規則，它允許為網頁指定在線字體，也就是說可以引入自定義字體，這個規則本意是用來消除對電腦字體的依賴，現在不少網站也利用這個規則來實現反爬

右側可以看到網站用的字體，其他的都是常見的微軟雅黑，宋體等，但是有一個特殊的：fangchan-secret ，不難看出這應該就是58同城的自定義字體了

Python如何爬取58同城租房數據并破解字體加密

要攻克加密字體，那么我們肯定要分析他的字體文件了，先想辦法得到他的加密字體文件，同樣查看源代碼，在源代碼中搜索 fangchan-secret 的字體信息

選中的藍色部分就是 base64 編碼的加密字體字符串了，我們將其解碼成二進制編碼，寫進 .woff 的字體文件，這個過程可以通過以下代碼實現：

import requests
import base64

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}

url = 'https://wh.58.com/chuzu/'

response = requests.get(url=url, headers=headers)
# 匹配 base64 編碼的加密字體字符串
base64_string = response.text.split("base64,")[1].split("'")[0].strip()
# 將 base64 編碼的字體字符串解碼成二進制編碼
bin_data = base64.decodebytes(base64_string.encode())
# 保存為字體文件
with open('58font.woff', 'wb') as f:
    f.write(bin_data)

得到字體文件后，我們可以通過 FontCreator 這個軟件來看看字體對應的編碼是什么：

Python如何爬取58同城租房數據并破解字體加密

觀察我們在網頁源代碼中看到的編碼：類似于龤、龒

對比字體文件對應的編碼：類似于 uni9FA4、nui9F92

可以看到除了前面三個字符不一樣以外，后面的字符都是一樣的，只不過英文大小寫有所差異

現在我們可能會想到，直接把編碼替換成對應的數字不就OK了？然而并沒有這么簡單

嘗試刷新一下網頁，可以觀察到 base64 編碼的加密字體字符串會改變，也就是說編碼和數字并不是一一對應的，再次獲取幾個字體文件，通過對比就可以看出來

可以看到，雖然每次數字對應的編碼都不一樣，但是編碼總是這10個，是不變的，那么編碼與數字之間肯定存在某種對應關系，，我們可以將字體文件轉換為 xml 文件來觀察其中的對應關系，改進原來的代碼即可實現轉換功能：

import requests
import base64
from fontTools.ttLib import TTFont

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}

url = 'https://wh.58.com/chuzu/'

response = requests.get(url=url, headers=headers)
# 匹配 base64 編碼的加密字體字符串
base64_string = response.text.split("base64,")[1].split("'")[0].strip()
# 將 base64 編碼的字體字符串解碼成二進制編碼
bin_data = base64.decodebytes(base64_string.encode())
# 保存為字體文件
with open('58font.woff', 'wb') as f:
    f.write(bin_data)
# 獲取字體文件，將其轉換為xml文件
font = TTFont('58font.woff')
font.saveXML('58font.xml')

打開 58font.xml 文件并分析，在<cmap>標簽內可以看到熟悉的類似于 0x9476、0x958f 的編碼，其后四位字符恰好是網頁字體的加密編碼，可以看到每一個編碼后面都對應了一個 glyph 開頭的編碼

將其與 58font.woff 文件對比，可以看到 code 為 0x958f 這個編碼對應的是數字 3，對應的 name 編碼是 glyph00004

Python如何爬取58同城租房數據并破解字體加密

我們再次獲取一個字體文件作為對比分析

Python如何爬取58同城租房數據并破解字體加密

此時，我們就知道了編碼與數字的對應關系，下一步，我們可以查找 xml 文件里，編碼對應的 name 的值，也就是以 glyph 開頭的編碼，然后返回其對應的數字，再替換掉網頁源代碼里的編碼，就能成功獲取到我們需要的信息了！

總結一下攻克加密字體的大致思路：

分析網頁，找到對應的加密字體文件
如果引用的加密字體是一個 base64 編碼的字符串，則需要轉換成二進制并保存到 woff 字體文件中
將字體文件轉換成 xml 文件
用 FontCreator 軟件觀察字體文件，結合 xml 文件，分析其編碼與真實字體的關系
搞清楚編碼與字體的關系后，想辦法將編碼替換成正常字體

【2】思維導圖

【3】加密字體處理模塊

【3.1】獲取字體文件并轉換為xml文件

def get_font(page_url, page_num):
    response = requests.get(url=page_url, headers=headers)
    # 匹配 base64 編碼的加密字體字符串
    base64_string = response.text.split("base64,")[1].split("'")[0].strip()
    # print(base64_string)
    # 將 base64 編碼的字體字符串解碼成二進制編碼
    bin_data = base64.decodebytes(base64_string.encode())
    # 保存為字體文件
    with open('58font.woff', 'wb') as f:
        f.write(bin_data)
    print('第' + str(page_num) + '次訪問網頁，字體文件保存成功！')
    # 獲取字體文件，將其轉換為xml文件
    font = TTFont('58font.woff')
    font.saveXML('58font.xml')
    print('已成功將字體文件轉換為xml文件！')
    return response.text

由主函數傳入要發送請求的 url，利用字符串的 split() 方法，匹配 base64 編碼的加密字體字符串，利用 base64 模塊的 base64.decodebytes() 方法，將 base64 編碼的字體字符串解碼成二進制編碼并保存為字體文件，利用 FontTools 庫，將字體文件轉換為 xml 文件

【3.2】將加密字體編碼與真實字體進行匹配

def find_font():
    # 以glyph開頭的編碼對應的數字
    glyph_list = {
        'glyph00001': '0',
        'glyph00002': '1',
        'glyph00003': '2',
        'glyph00004': '3',
        'glyph00005': '4',
        'glyph00006': '5',
        'glyph00007': '6',
        'glyph00008': '7',
        'glyph00009': '8',
        'glyph00010': '9'
    }
    # 十個加密字體編碼
    unicode_list = ['0x9476', '0x958f', '0x993c', '0x9a4b', '0x9e3a', '0x9ea3', '0x9f64', '0x9f92', '0x9fa4', '0x9fa5']
    num_list = []
    # 利用xpath語法匹配xml文件內容
    font_data = etree.parse('./58font.xml')
    for unicode in unicode_list:
        # 依次循環查找xml文件里code對應的name
        result = font_data.xpath("//cmap//map[@code='{}']/@name".format(unicode))[0]
        # print(result)
        # 循環字典的key，如果code對應的name與字典的key相同，則得到key對應的value
        for key in glyph_list.keys():
            if key == result:
                num_list.append(glyph_list[key])
    print('已成功找到編碼所對應的數字！')
    # print(num_list)
    # 返回value列表
    return num_list

由前面的分析，我們知道 name 的值（即以 glyph 開頭的編碼）對應的數字是固定的，glyph00001 對應數字 0、glyph00002 對應數字 1，以此類推，所以可以將其構造成為一個字典 glyph_list

同樣將十個 code（即類似于 0x9476 的加密字體編碼）構造成一個列表

循環查找這十個 code 在 xml 文件里對應的 name 的值，然后將 name 的值與字典文件的 key 值進行對比，如果兩者值相同，則獲取這個 key 的 value 值，最終得到的列表 num_list，里面的元素就是 unicode_list 列表里面每個加密字體的真實值

【3.3】替換掉網頁中所有的加密字體編碼

def replace_font(num, page_response):
    # 9476 958F 993C 9A4B 9E3A 9EA3 9F64 9F92 9FA4 9FA5
    result = page_response.replace('鑶', num[0]).replace('閏', num[1]).replace('餼', num[2]).replace('驋', num[3]).replace('鵂', num[4]).replace('麣', num[5]).replace('齤', num[6]).replace('龒', num[7]).replace('龤', num[8]).replace('龥', num[9])
    print('已成功將所有加密字體替換！')
    return result

傳入由上一步 find_font() 函數得到的真實字體的列表，利用 replace() 方法，依次將十個加密字體編碼替換掉

【4】租房信息提取模塊

def parse_pages(pages):
    num = 0
    soup = BeautifulSoup(pages, 'lxml')
    # 查找到包含所有租房的li標簽
    all_house = soup.find_all('li', class_='house-cell')
    for house in all_house:
        # 標題
        title = house.find('a', class_='strongbox').text.strip()
        # print(title)

        # 價格
        price = house.find('div', class_='money').text.strip()
        # print(price)

        # 戶型和面積
        layout = house.find('p', class_='room').text.replace(' ', '')
        # print(layout)

        # 樓盤和地址
        address = house.find('p', class_='infor').text.replace(' ', '').replace('\n', '')
        # print(address)

        # 如果存在經紀人
        if house.find('div', class_='jjr'):
            agent = house.find('div', class_='jjr').text.replace(' ', '').replace('\n', '')
        # 如果存在品牌公寓
        elif house.find('p', class_='gongyu'):
            agent = house.find('p', class_='gongyu').text.replace(' ', '').replace('\n', '')
        # 如果存在個人房源
        else:
            agent = house.find('p', class_='geren').text.replace(' ', '').replace('\n', '')
        # print(agent)

        data = [title, price, layout, address, agent]
        save_to_mysql(data)
        num += 1
        print('第' + str(num) + '條數據爬取完畢，暫停3秒！')
        time.sleep(3)

利用 BeautifulSoup 解析庫很容易提取到相關信息，這里要注意的是，租房信息來源分為三種：經紀人、品牌公寓和個人房源，這三個的元素節點也不一樣，因此匹配的時候要注意

Python如何爬取58同城租房數據并破解字體加密

【5】MySQL數據儲存模塊

【5.1】創建MySQL數據庫的表

def create_mysql_table():
    db = pymysql.connect(host='localhost', user='root', password='000000', port=3306, db='58tc_spiders')
    cursor = db.cursor()
    sql = 'CREATE TABLE IF NOT EXISTS 58tc_data (title VARCHAR(255) NOT NULL, price VARCHAR(255) NOT NULL, layout VARCHAR(255) NOT NULL, address VARCHAR(255) NOT NULL, agent VARCHAR(255) NOT NULL)'
    cursor.execute(sql)
    db.close()

首先指定數據庫為 58tc_spiders，需要事先使用 MySQL 語句創建，也可以通過 MySQL Workbench 手動創建

然后使用 SQL 語句創建一個表：58tc_data，表中包含 title、price、layout、address、agent 五個字段，類型都為 varchar

此創建表的操作也可以事先手動創建，手動創建后就不需要此函數了

【5.2】將數據儲存到MySQL數據庫

def save_to_mysql(data):
    db = pymysql.connect(host='localhost', user='root', password='000000', port=3306, db='58tc_spiders')
    cursor = db.cursor()
    sql = 'INSERT INTO 58tc_data(title, price, layout, address, agent) values(%s, %s, %s, %s, %s)'
    try:
        cursor.execute(sql, (data[0], data[1], data[2], data[3], data[4]))
        db.commit()
    except:
        db.rollback()
    db.close()

commit() 方法的作用是實現數據插入，是真正將語句提交到數據庫執行的方法，使用 try except 語句實現異常處理，如果執行失敗，則調用 rollback() 方法執行數據回滾，保證原數據不被破壞

【6】完整代碼

import requests
import time
import random
import base64
import pymysql
from lxml import etree
from bs4 import BeautifulSoup
from fontTools.ttLib import TTFont

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}


# 獲取字體文件并轉換為xml文件
def get_font(page_url, page_num):
    response = requests.get(url=page_url, headers=headers)
    # 匹配 base64 編碼的加密字體字符串
    base64_string = response.text.split("base64,")[1].split("'")[0].strip()
    # print(base64_string)
    # 將 base64 編碼的字體字符串解碼成二進制編碼
    bin_data = base64.decodebytes(base64_string.encode())
    # 保存為字體文件
    with open('58font.woff', 'wb') as f:
        f.write(bin_data)
    print('第' + str(page_num) + '次訪問網頁，字體文件保存成功！')
    # 獲取字體文件，將其轉換為xml文件
    font = TTFont('58font.woff')
    font.saveXML('58font.xml')
    print('已成功將字體文件轉換為xml文件！')
    return response.text


# 將加密字體編碼與真實字體進行匹配
def find_font():
    # 以glyph開頭的編碼對應的數字
    glyph_list = {
        'glyph00001': '0',
        'glyph00002': '1',
        'glyph00003': '2',
        'glyph00004': '3',
        'glyph00005': '4',
        'glyph00006': '5',
        'glyph00007': '6',
        'glyph00008': '7',
        'glyph00009': '8',
        'glyph00010': '9'
    }
    # 十個加密字體編碼
    unicode_list = ['0x9476', '0x958f', '0x993c', '0x9a4b', '0x9e3a', '0x9ea3', '0x9f64', '0x9f92', '0x9fa4', '0x9fa5']
    num_list = []
    # 利用xpath語法匹配xml文件內容
    font_data = etree.parse('./58font.xml')
    for unicode in unicode_list:
        # 依次循環查找xml文件里code對應的name
        result = font_data.xpath("//cmap//map[@code='{}']/@name".format(unicode))[0]
        # print(result)
        # 循環字典的key，如果code對應的name與字典的key相同，則得到key對應的value
        for key in glyph_list.keys():
            if key == result:
                num_list.append(glyph_list[key])

    print('已成功找到編碼所對應的數字！')
    # print(num_list)
    # 返回value列表
    return num_list


# 替換掉網頁中所有的加密字體編碼
def replace_font(num, page_response):
    # 9476 958F 993C 9A4B 9E3A 9EA3 9F64 9F92 9FA4 9FA5
    result = page_response.replace('鑶', num[0]).replace('閏', num[1]).replace('餼', num[2]).replace('驋', num[3]).replace('鵂', num[4]).replace('麣', num[5]).replace('齤', num[6]).replace('龒', num[7]).replace('龤', num[8]).replace('龥', num[9])
    print('已成功將所有加密字體替換！')
    return result


# 提取租房信息
def parse_pages(pages):
    num = 0
    soup = BeautifulSoup(pages, 'lxml')
    # 查找到包含所有租房的li標簽
    all_house = soup.find_all('li', class_='house-cell')
    for house in all_house:
        # 標題
        title = house.find('a', class_='strongbox').text.strip()
        # print(title)

        # 價格
        price = house.find('div', class_='money').text.strip()
        # print(price)

        # 戶型和面積
        layout = house.find('p', class_='room').text.replace(' ', '')
        # print(layout)

        # 樓盤和地址
        address = house.find('p', class_='infor').text.replace(' ', '').replace('\n', '')
        # print(address)

        # 如果存在經紀人
        if house.find('div', class_='jjr'):
            agent = house.find('div', class_='jjr').text.replace(' ', '').replace('\n', '')
        # 如果存在品牌公寓
        elif house.find('p', class_='gongyu'):
            agent = house.find('p', class_='gongyu').text.replace(' ', '').replace('\n', '')
        # 如果存在個人房源
        else:
            agent = house.find('p', class_='geren').text.replace(' ', '').replace('\n', '')
        # print(agent)

        data = [title, price, layout, address, agent]
        save_to_mysql(data)
        num += 1
        print('第' + str(num) + '條數據爬取完畢，暫停3秒！')
        time.sleep(3)


# 創建MySQL數據庫的表：58tc_data
def create_mysql_table():
    db = pymysql.connect(host='localhost', user='root', password='000000', port=3306, db='58tc_spiders')
    cursor = db.cursor()
    sql = 'CREATE TABLE IF NOT EXISTS 58tc_data (title VARCHAR(255) NOT NULL, price VARCHAR(255) NOT NULL, layout VARCHAR(255) NOT NULL, address VARCHAR(255) NOT NULL, agent VARCHAR(255) NOT NULL)'
    cursor.execute(sql)
    db.close()


# 將數據儲存到MySQL數據庫
def save_to_mysql(data):
    db = pymysql.connect(host='localhost', user='root', password='000000', port=3306, db='58tc_spiders')
    cursor = db.cursor()
    sql = 'INSERT INTO 58tc_data(title, price, layout, address, agent) values(%s, %s, %s, %s, %s)'
    try:
        cursor.execute(sql, (data[0], data[1], data[2], data[3], data[4]))
        db.commit()
    except:
        db.rollback()
    db.close()


if __name__ == '__main__':
    create_mysql_table()
    print('MySQL表58tc_data創建成功！')
    for i in range(1, 71):
        url = 'https://wh.58.com/chuzu/pn' + str(i) + '/'
        response = get_font(url, i)
        num_list = find_font()
        pro_pages = replace_font(num_list, response)
        parse_pages(pro_pages)
        print('第' + str(i) + '頁數據爬取完畢！')
        time.sleep(random.randint(3, 60))
    print('所有數據爬取完畢！')

看完上述內容是否對您有幫助呢？如果還想對相關知識有進一步的了解或閱讀更多相關文章，請關注億速云行業資訊頻道，感謝您對億速云的支持。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Python如何爬取58同城租房數據并破解字體加密

【1】加密字體攻克思路

【2】思維導圖

【3】加密字體處理模塊

【3.1】獲取字體文件并轉換為xml文件

【3.2】將加密字體編碼與真實字體進行匹配

【3.3】替換掉網頁中所有的加密字體編碼

【4】租房信息提取模塊

【5】MySQL數據儲存模塊

【5.1】創建MySQL數據庫的表

【5.2】將數據儲存到MySQL數據庫

【6】完整代碼

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Python如何爬取58同城租房數據并破解字體加密

【1】加密字體攻克思路

【2】思維導圖

【3】加密字體處理模塊

【3.1】獲取字體文件并轉換為xml文件

【3.2】將加密字體編碼與真實字體進行匹配

【3.3】替換掉網頁中所有的加密字體編碼

【4】租房信息提取模塊

【5】MySQL數據儲存模塊

【5.1】創建MySQL數據庫的表

【5.2】將數據儲存到MySQL數據庫

【6】完整代碼

猜你喜歡

最新資訊

相關推薦

相關標簽