使用Python怎么爬取某文庫文檔數據

發布時間：2021-05-09 12:28:32 來源：億速云閱讀：282 作者：Leah 欄目：開發技術

使用Python怎么爬取某文庫文檔數據？相信很多沒有經驗的人對此束手無策，為此本文總結了問題出現的原因和解決方法，通過這篇文章希望你能解決這個問題。

python是什么意思

Python是一種跨平臺的、具有解釋性、編譯性、互動性和面向對象的腳本語言，其最初的設計是用于編寫自動化腳本，隨著版本的不斷更新和新功能的添加，常用于用于開發獨立的項目和大型項目。

一、基本開發環境

Python 3.6

Pycharm

二、相關模塊的使用

import os
import requests
import time
import re
import json
from docx import Document
from docx.shared import Cm

安裝Python并添加到環境變量，pip安裝需要的相關模塊即可。

三、目標網頁分析

使用Python怎么爬取某文庫文檔數據

網站的文檔內容，都是以圖片形式存在的。它有自己的數據接口

接口鏈接：

https://openapi.book118.com/getPreview.html?&project_id=1&aid=272112230&t=f2c66902d6b63726d8e08b557fef90fb&view_token=SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1&page=1&callback=jQuery18304186406662159248_1614492889385&_=1614492889486

接口的請求參數

使用Python怎么爬取某文庫文檔數據

四、整體思路

請求網頁返回response數據（字符串）
通過re模塊匹配提取中間的數據（列表）索引取0（字符串）
通過json模塊是把提取出來的數據轉換成json模塊
通過遍歷獲取每張圖片的url地址
保存圖片到本地文件夾
把圖片保存到word文檔
爬蟲代碼實現

五、爬蟲代碼實現

def download():
    content = 0
    for page in range(1, 96, 6):
        # 給定 2秒延時
        time.sleep(2)
        # 獲取時間戳
        now_time = int(time.time() * 1000)
        url = 'https://openapi.book118.com/getPreview.html'
        # 請求參數
        params = {
            'project_id': '1',
            'aid': '272112230',
            't': 'f2c66902d6b63726d8e08b557fef90fb',
            'view_token': 'SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1',
            'page': f'{page}',
            '_': now_time,
        }
        # 請求頭
        headers = {
            'Host': 'openapi.book118.com',
            'Referer': 'https://max.book118.com/html/2020/0427/8026036013002110.shtm',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
        }
        response = requests.get(url=url, params=params, headers=headers)
        # 使用正則表達式提取內容
        result = re.findall('jsonpReturn\((.*?)\)', response.text)[0]
        # 字符串轉json數據
        json_data = json.loads(result)['data']
        # 字典值的遍歷
        for value in json_data.values():
            content += 1
            # 拼接圖片url
            img_url = 'http:' + value
            print(img_url)
            headers_1 = {
                'Host': 'view-cache.book118.com',
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
            }
            # 請求圖片url地址 獲取content二進制數據
            img_content = requests.get(url=img_url, headers=headers_1).content
            # 文件名
            img_name = str(content) + '.jpg'
            # 保存路徑
            filename = 'img\\'
            # 以二進制方式保存 （圖片、音頻、視頻等文件都是以二進制的方式保存）
            with open(filename + img_name, mode='wb') as f:
                f.write(img_content)

注意點：

1、一定要給延時，不然后面接口數據會請求不到。

2、請求圖片url的時候headers參數需要寫完整，否則保存圖片是無法打開的

3、命名最好是給定數字，1.jpg、2.jpg 這樣，方便后續保存到word

爬蟲部分的代碼還是比較簡單的，沒有什么特別的難度。

爬取這些文檔，都是需要打印或者查詢所以要把這些單張的圖片都保存到word文檔里面。

六、寫入文檔

def save_picture():
    document = Document()
    path = './img/'
    lis = os.listdir(path)
    c = []
    for li in lis:
        index = li.replace('.jpg', '')
        c.append(index)
    c_1 = sorted(list(map(int, c)))
    print(c_1)
    new_files = [(str(i) + '.jpg') for i in c_1]
    for num in new_files:
        img_path = path + num
        document.add_picture(img_path, width=Cm(17), height=Cm(24))
        document.save('tu.doc')  # 保存文檔
        os.remove(img_path)  # 刪除保存在本地的圖片

看完上述內容，你們掌握使用Python怎么爬取某文庫文檔數據的方法了嗎？如果還想學到更多技能或想了解更多相關內容，歡迎關注億速云行業資訊頻道，感謝各位的閱讀！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

使用Python怎么爬取某文庫文檔數據

python是什么意思

一、基本開發環境

二、相關模塊的使用

三、目標網頁分析

四、整體思路

五、爬蟲代碼實現

六、寫入文檔

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

使用Python怎么爬取某文庫文檔數據

python是什么意思

一、基本開發環境

二、相關模塊的使用

三、目標網頁分析

四、整體思路

五、爬蟲代碼實現

六、寫入文檔

猜你喜歡

最新資訊

相關推薦

相關標簽