您好,登錄后才能下訂單哦!
小編這次要給大家分享的是詳解python如何實現愛奇藝登陸密碼RSA加密,文章內容豐富,感興趣的小伙伴可以來了解一下,希望大家閱讀完這篇文章之后能夠有所收獲。
前言
通過Python實現對大麥網近期全國演唱會數據進行爬取,通過分析,我們發現大麥網屬于Python爬蟲策略中“中等型”難度網站,演唱會數據封裝在json文件中。因此,我們簡單的通過requests、json就可以將數據爬取出來,后期通過pandas進行數據篩選并保存至Excel文件中。
1.目標網站分析
檢查一下看xhr中有沒有我們需要的數據。
很好,就在xhr中用json封裝了數據。
2.構造相應的Request URL
request url中只有一個參數變化,那就是“Page=”這個選項變了,簡單了😄,一共6頁,直接循環構造了。
for i in range(1,7): url=f'https://search.damai.cn/searchajax.html?keyword=&cty=&ctl=%E6%BC%94%E5%94%B1%E4%BC%9A&sctl=&tsg=0&st=&et=&order=1&pageSize=30&currPage={i}&tn=' # print(url)
3.requests爬蟲走起
直接上代碼:
def crawl(url): headers={ 'cookie': 'cna=J7K2Fok5AXECARu7QWn6+cxu; isg=BCcnDiP-NfKV5bF-OctWuXuatl3xrPuOyBVJJfmQLrZn6ESqAX0y3jrhCuj2ANMG; l=eBSmWoPRQeT6Zn3iBO5whurza77O1CAf1sPzaNbMiIncC6BR1AvOCJxQLtyCvptRR8XcGLLB4nU7C5eTae7_7CDmndLHuI50MbkyCef..', 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } response=requests.get(url,headers=headers) json_text=json.loads(response.text) # print(json_text.keys()) rdata=json_text['pageData']['resultData'] # print(rdata) return(rdata)
加一個headers,簡單做一個防反爬。
4.保存至excel文件
基本思路是將每頁數據保存成pandas的DataFrame結構,然后進行拼接,拼接完后再保存到Excel文件中。
inidata=pd.DataFrame(columns=('name','actors','cityname','showtime','price_str','venue','venuecity','verticalPic')) for i in range(1,7): url=f'https://search.damai.cn/searchajax.html?keyword=&cty=&ctl=%E6%BC%94%E5%94%B1%E4%BC%9A&sctl=&tsg=0&st=&et=&order=1&pageSize=30&currPage={i}&tn=' # print(url) # print(crawl(url)) data=pd.DataFrame(crawl(url)) data1=data[['name','actors','cityname','showtime','price_str','venue','venuecity','verticalPic']] inidata=inidata.append(data1) # print(inidata) inidata.to_excel('大麥網演唱會.xlsx',index=0)
5.看看效果
看完這篇關于詳解python如何實現愛奇藝登陸密碼RSA加密的文章,如果覺得文章內容寫得不錯的話,可以把它分享出去給更多人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。