您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關python如何爬取百度貼吧圖片,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
1,目標:
爬取貼吧每一貼,樓主圖,并保存。
由于圖片大多是樓主發的,如果全部查找會浪費很多時間。
2,分析
我選擇爬取的貼吧為圖吧,你們可以選擇自己想要爬取的貼吧。
2.1,獲取頁面
我們將爬取頁面的代碼寫成一個get_html()方法,給他傳入url參數
代碼如圖:
獲取正常,沒問題。
我們用chrome的開發者模式來分析每個貼的連接,用定位定位一個帖子,這樣方便我們快速的去查找我們想要的信息。
如圖:
2.2利用正則表達式找出我們想要的連接
通過查找,我們發現每個貼都是在class=“col2_right j_threalist_li/_right”下
我們可以讓他成為一個標志位,通過它繼續往下找,他有兩個類名,我們選擇后者即可。
<div.*?j_threadlist_li_right.*?>.*?<a.*?href=\"(.*?)\".*?>(.*?)</a>
返回的是一個數組,為了好看我們以字典的方式返回,用yield我們可以理解為返回值,在python基礎里會講,我們將獲取的頁面作為參數傳進去,實現get_url方法。
如圖:
我們來打印一下,看一下獲取的是什么?
結果如圖:
很明顯,我們需要來拼接一下,獲取完整的url,我們點擊一個進入,可以發現,url是這樣的:https://tieba.baidu.com/p/5768252315,我們得到了后半部分,那就容易了,只需要拼接一下,得到的結果就變成了:
得到鏈接后,我們需要再次發送請求,獲取到每個貼的內容,即調用我們上面寫好的get_html()方法即可。
2.3找到每個帖子樓主發的圖片鏈接
同樣的方式,打開開發者模式,找的圖片,找出標志位,寫出正則,這里就不詳細說了,正則為:<img.*?BDE_Image.*?src=\"(http.*?//img.*?)\"
實現get_img_url()方法:
結果圖為:
2.4獲取到圖片地址后,自然是要下載下來實現write_to_file()方法
下載圖片,在上篇文章上已經有實例,
連接:python第二大神器requests
這里直接上代碼圖:
里面的正則是用來作為圖片名字的,time.sleep(2)是為了爬取慢點
太快會無響應或者報錯。
下面我們試一下效果:
我們來修改一下,來爬取第一頁貼種的所有貼,獲取樓主貼的總頁數
和上面同樣的方式找到總頁數,并寫出獲取總頁數的正則:<input.*?jumpPage4.*?max-page=\"(.*?)\"
實現get_ye方法,同時點擊只看樓主,url會多出see_lz=1
如圖:
2.6由于有些貼吧的貼子很多,我們就選擇獲取前十頁內容,當然你也可以寫個方法換取所有頁
這里就不實例了,在貼吧里點擊下一頁我們發現url多出pn=50,由此我們知道50為偏移量,即一頁有50個帖子pn=n 是n+1到n+50帖子
2.7整合一下代碼,我們用main()方法來調用上面的方法。
如圖:
關于“python如何爬取百度貼吧圖片”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。