中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python怎么爬取csnd文章并轉為PDF文件

發布時間:2022-01-04 00:30:42 來源:億速云 閱讀:166 作者:柒染 欄目:開發技術

今天就跟大家聊聊有關Python怎么爬取csnd文章并轉為PDF文件,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。

1.導入模塊

import requests # 數據請求 發送請求 第三方模塊 pip install requests
import parsel # 數據解析模塊 第三方模塊 pip install parsel
import os # 文件操作模塊
import re # 正則表達式模塊
import pdfkit # pip install pdfkit

2.創建文件夾

filename = 'pdf\\' # 文件名字
filename_1 = 'html\\'
if not os.path.exists(filename): #如果沒有這個文件夾的話
    os.mkdir(filename) # 自動創建一下這個文件夾

if not os.path.exists(filename_1): #如果沒有這個文件夾的話
    os.mkdir(filename_1) # 自動創建一下這個文件夾

3.發送請求

for page in range(1, 11):
    print(f'=================正在爬取第{page}頁數據內容=================')
    url = f'https://blog.csdn.net/qdPython/article/list/{page}'

    # python代碼對于服務器發送請求 >>> 服務器接收之后(如果沒有偽裝)被識別出來, 是爬蟲程序, >>> 不會給你返回數據
    # 客戶端(瀏覽器) 對于 服務器發送請求 >>> 服務器接收到請求之后 >>> 瀏覽器返回一個response響應數據
    # headers 請求頭 就是把python代碼偽裝成瀏覽器進行請求
    # headers參數字段 是可以在開發者工具里面進行查詢 復制
    # 并不是所有的參數字段都是需要的
    # user-agent: 瀏覽器的基本信息 (相當于披著羊皮的狼, 這樣可以混進羊群里面)
    # cookie: 用戶信息 檢測是否登錄賬號 (某些網站 是需要登錄之后才能看到數據, B站一些數據內容)
    # referer: 防盜鏈 請求你的網址 是從哪里跳轉過來的 (B站視頻內容 / 妹子圖圖片下載 / 唯品會商品數據)
    # 根據不同的網站內容 具體情況 具體分析
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
    }
    # 請求方式: get請求 post請求 通過開發者工具可以查看url請求方式是什么樣的
    # 搜索 / 登錄 /查詢 這樣是post請求
    response = requests.get(url=url, headers=headers)

4.數據解析

# 需要把獲取到的html字符串數據轉成 selector 解析對象
selector = parsel.Selector(response.text)
# getall 返回的是列表
href = selector.css('.article-list a::attr(href)').getall()

5.如果把列表里面每一個元素 都提取出來

for index in href:
    # 發送請求 對于文章詳情頁url地址發送請求
    response_1 = requests.get(url=index, headers=headers)
    selector_1 = parsel.Selector(response_1.text)
    title = selector_1.css('#articleContentId::text').get()
    new_title = change_title(title)
    content_views = selector_1.css('#content_views').get()
    html_content = html_str.format(article=content_views)
    html_path = filename_1 + new_title + '.html'
    pdf_path = filename + new_title + '.pdf'
    with open(html_path, mode='w', encoding='utf-8') as f:
        f.write(html_content)
        print('正在保存: ', title)

6.替換特殊字符

def change_title(name):
    mode = re.compile(r'[\\\/\:\*\?\"\<\>\|]')
    new_name = re.sub(mode, '_', name)
    return new_name

運行代碼,即可下載HTML文件:

Python怎么爬取csnd文章并轉為PDF文件

7.轉換成PDF文件

config = pdfkit.configuration(wkhtmltopdf=r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')
pdfkit.from_file(html_path, pdf_path, configuration=config)

Python怎么爬取csnd文章并轉為PDF文件

看完上述內容,你們對Python怎么爬取csnd文章并轉為PDF文件有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

昭平县| 教育| 海宁市| 广平县| 全南县| 柳州市| 广安市| 北海市| 黑龙江省| 阿瓦提县| 得荣县| 南汇区| 镇坪县| 桦甸市| 中江县| 乌鲁木齐县| 垦利县| 得荣县| 曲周县| 巴东县| 临沧市| 泸西县| 鄯善县| 永和县| 三门县| 获嘉县| 简阳市| 宜川县| 五指山市| 西藏| 龙里县| 神农架林区| 清新县| 商河县| 乌拉特前旗| 克东县| 长子县| 陆良县| 朔州市| 柳州市| 灵台县|