您好,登錄后才能下訂單哦!
使用Python怎么爬取某文庫文檔數據?相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。
Python是一種跨平臺的、具有解釋性、編譯性、互動性和面向對象的腳本語言,其最初的設計是用于編寫自動化腳本,隨著版本的不斷更新和新功能的添加,常用于用于開發獨立的項目和大型項目。
Python 3.6
Pycharm
import os import requests import time import re import json from docx import Document from docx.shared import Cm
安裝Python并添加到環境變量,pip安裝需要的相關模塊即可。
網站的文檔內容,都是以圖片形式存在的。它有自己的數據接口
接口鏈接:
https://openapi.book118.com/getPreview.html?&project_id=1&aid=272112230&t=f2c66902d6b63726d8e08b557fef90fb&view_token=SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1&page=1&callback=jQuery18304186406662159248_1614492889385&_=1614492889486
接口的請求參數
請求網頁返回response數據(字符串)
通過re模塊匹配提取中間的數據(列表)索引取0(字符串)
通過json模塊是把提取出來的數據轉換成json模塊
通過遍歷獲取每張圖片的url地址
保存圖片到本地文件夾
把圖片保存到word文檔
爬蟲代碼實現
def download(): content = 0 for page in range(1, 96, 6): # 給定 2秒延時 time.sleep(2) # 獲取時間戳 now_time = int(time.time() * 1000) url = 'https://openapi.book118.com/getPreview.html' # 請求參數 params = { 'project_id': '1', 'aid': '272112230', 't': 'f2c66902d6b63726d8e08b557fef90fb', 'view_token': 'SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1', 'page': f'{page}', '_': now_time, } # 請求頭 headers = { 'Host': 'openapi.book118.com', 'Referer': 'https://max.book118.com/html/2020/0427/8026036013002110.shtm', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } response = requests.get(url=url, params=params, headers=headers) # 使用正則表達式提取內容 result = re.findall('jsonpReturn\((.*?)\)', response.text)[0] # 字符串轉json數據 json_data = json.loads(result)['data'] # 字典值的遍歷 for value in json_data.values(): content += 1 # 拼接圖片url img_url = 'http:' + value print(img_url) headers_1 = { 'Host': 'view-cache.book118.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } # 請求圖片url地址 獲取content二進制數據 img_content = requests.get(url=img_url, headers=headers_1).content # 文件名 img_name = str(content) + '.jpg' # 保存路徑 filename = 'img\\' # 以二進制方式保存 (圖片、音頻、視頻等文件都是以二進制的方式保存) with open(filename + img_name, mode='wb') as f: f.write(img_content)
注意點:
1、一定要給延時,不然后面接口數據會請求不到。
2、請求圖片url的時候headers參數需要寫完整,否則保存圖片是無法打開的
3、命名最好是給定數字,1.jpg、2.jpg 這樣,方便后續保存到word
爬蟲部分的代碼還是比較簡單的,沒有什么特別的難度。
爬取這些文檔,都是需要打印或者查詢所以要把這些單張的圖片都保存到word文檔里面。
def save_picture(): document = Document() path = './img/' lis = os.listdir(path) c = [] for li in lis: index = li.replace('.jpg', '') c.append(index) c_1 = sorted(list(map(int, c))) print(c_1) new_files = [(str(i) + '.jpg') for i in c_1] for num in new_files: img_path = path + num document.add_picture(img_path, width=Cm(17), height=Cm(24)) document.save('tu.doc') # 保存文檔 os.remove(img_path) # 刪除保存在本地的圖片
看完上述內容,你們掌握使用Python怎么爬取某文庫文檔數據的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。