Python爬蟲某東商品評論信息采集流程分析

發布時間：2021-11-25 15:04:05 來源：億速云閱讀：213 作者：iii 欄目：大數據

這篇文章主要講解了“Python爬蟲某東商品評論信息采集流程分析”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“Python爬蟲某東商品評論信息采集流程分析”吧！

評論接口

一、接口查找

隨意點擊某一商品，跳轉詳情頁，點擊商品評價

Python爬蟲某東商品評論信息采集流程分析

繼續下翻，查看評論展示頁數，這里只顯示100頁

要查找真正的評論接口，直接刷新頁面，找起來相當麻煩。

打開調試，清空請求內容，直接點擊查看第二頁的接口信息，如下圖

Python爬蟲某東商品評論信息采集流程分析

查看response信息，根據字段comments很容易判斷這就是要找的評論接口，里面還包含了熱門評論信息。

二、參數查找

先截圖記錄下點擊第二頁的請求參數

接著繼續點擊第三頁內容，左側搜索框中直接搜索productP，過濾無用的接口信息，查看請求參數，并和前一頁的請求參數做比較。

Python爬蟲某東商品評論信息采集流程分析

分析到這里可以得到如下結論

productId代表當前商品的ID，更換商品ID，便可以采集不同商品的評論
page代表訪問的頁數，這里計算頁數從0開始，參數請求的頁數等于實際點擊的頁數減1

三、代碼測試

代碼如下，請求時需要在headers中加入ua和referer，這里翻頁只設置2

執行結果如下:

Python爬蟲某東商品評論信息采集流程分析

代碼里只提取了商品ID，評論內容，評論時間，如下圖紅框標注的數據

如果要提取其他字段信息，可在代碼中自行添加。

搜索接口

一、接口查找

搜索以食品為例，輸入食品，點擊搜索

Python爬蟲某東商品評論信息采集流程分析

繼續下翻，查看商品返回頁數，這里也是最大返回100頁信息

Python爬蟲某東商品評論信息采集流程分析

二、參數查找

同樣的，根據下滑，翻頁查看參數的變化

Python爬蟲某東商品評論信息采集流程分析

頁面上商品展示信息較多，有可能出現會臨時加載一次請求的可能，繼續下翻，恰好可以看到新增了一次請求，請求參數如下，看著參數增多了。（注意：新增的參數可以忽略）

接著點擊第三頁

Python爬蟲某東商品評論信息采集流程分析

如果無法發現規律，可繼續點擊翻頁查看變化規則。

接口參數的構造邏輯有以下幾點：

每一頁有兩次請求，page初始值為1
s的值每次請求增加25，初始值為1
其他參數值不變，部分新增參數可以忽略

三、html頁面解析

直接定位到頁面商品位置，可以看到所有商品信息都在ul標簽下的li標簽里面

Python爬蟲某東商品評論信息采集流程分析

點擊li標簽，可以看到div/div下的a標簽里面，包含商品title信息，商品鏈接信息，鏈接當中又包含我們需要提取的product_id信息，右鍵copy、copy xpath直接提取位置信息。

四、代碼測試

代碼如下，注意headers中，referer參數需要進行url編碼。

Python爬蟲某東商品評論信息采集流程分析

感謝各位的閱讀，以上就是“Python爬蟲某東商品評論信息采集流程分析”的內容了，經過本文的學習后，相信大家對Python爬蟲某東商品評論信息采集流程分析這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關知識點的文章，歡迎關注！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Python爬蟲某東商品評論信息采集流程分析

評論接口

搜索接口

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Python爬蟲某東商品評論信息采集流程分析

評論接口

搜索接口

猜你喜歡

最新資訊

相關推薦

相關標簽