您好,登錄后才能下訂單哦!
早在2016年,我用我的 阿里云ECS上運行了一個長期性質的爬蟲程序,內容是采集風云二號氣象衛星照片,現在假期終于有時間回來查看結果,簡單統計如下(附圖):
圖片總數:45869 個文件
最早文件:201609131345.jpg
最晚文件:201910091415.jpg
1,數據源:
當時意外獲得一個長期有效的數據來源,其URL參數,為時間格式,也就是說有著明顯的規律。適合爬蟲運行
2,爬蟲運行:
這個爬蟲的運行條件其實有2個:1定時下載;2不停機運行;
既然是氣象數據,當然得定時抓取,所以我寫了一個windows服務,置于后臺連續運行。雖然中間由于服務器其他問題導致中斷過幾次,不過架不住時間長久,因此還是成功連續采集了很多數據。
還有個要求就是不能關機,程序需要連續運行。我的最終方案就是使用 云服務器ECS部署運行。避免使用個人PC長期開機來運行。
3,處理存儲:
首先,這個程序既然要長期運行,那么非常避諱的一點就是所有結果都集中在一個本地文件夾里,因此我選用了阿里云對象存儲OSS,同時由于我需要不關機,所以我最終是 云服務器ECS+ 對象存儲OSS,ECS和OSS使用了同地域的,因此內網打通傳輸很快。這樣我就只在本地做一個臨時存儲,轉存OSS后不再占用本地硬盤,這樣一來我才可以放心啟動后“免維護”運行這好幾年。
4,爬蟲關停
爬蟲的關停并非我本意,是我假期期間查看日志才知道數據源已經失效了。因此本爬蟲壽終正寢。雖然我可以去尋找一下新的有效數據源,但是由于老數據我都沒用好,那么新的數據就暫時先不去尋找了。
我選用了阿里云推薦的OSS客戶端工具,由于我提前規劃好了ECS和OSS同地域,因此可以直接內網下載到我的ECS,速度還是很快的,工具顯示大于60MB/s。工具部分截圖如圖:
為了避免OSS公網下載流量的費用支出(其實是窮:直接下載6G大小文件,忙時價格為1塊5毛錢),我將OSS數據內網下載后,走ECS的出帶寬下載回我PC本地。本地查看:
原文地址:
https://www.opengps.cn/Blog/View.aspx?id=590 文章的更新編輯依此鏈接為準。歡迎關注源站原創文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。