您好,登錄后才能下訂單哦!
每一天,每一小時,每一分鐘,每一秒互聯網的數據都在不停的發生著變化,如果爬蟲想要獲取實時數據,也要跟隨網絡節奏不斷的進行更新,那么這里犀牛就為大家說說,關于網頁更新的問題,爬蟲是如何應對的?
應對方法第一條,把以往的數據作為參考
說的文雅一些就是“歷史記錄”,依據網頁頁面過去的歷史更新數據,
預測和分析網頁頁面的變動時機。通常情況下 ,是通過泊松過程進行建模進行預測。
爬蟲怎么應對網頁更新問題
應對方法第二條把用戶體驗作為參考
一般來說,搜索引擎用戶提交查詢后,相關的搜索結果可不是數的過來的,而用戶的耐心最多到前3頁的查詢結果。用戶體驗策略就是利用搜索引擎用戶的這一個特征來設計更新策略的。
這種更新策略的主導標準就是客戶的體驗,就算前3頁搜索引擎的內容已經是好久之前的了,但是再不影響客戶體驗的前提下,晚一些更新好久之前的網頁內容也是可以的。因此判斷一個網頁頁面什么時候更新好,這要取決于這些網頁頁面的內容變化而產生的搜索引擎質量的變化,影響力越大的網頁頁面,更新的越快。
客戶體驗策略保存網頁的多個歷史版本,并依據以往每次內容變化對搜索質量的影響,算出一個均值,以此作為判斷網絡爬蟲重抓該網頁頁面時機的參照依據,針對影響越厲害的網頁頁面,則越優先調度重新爬取。
應對方法第三條聚類抽樣原則
以上兩種更新原則都需要一個前提:需要試用歷史頁面的信息。那樣的前提就出現了2個問題,第一個問題系統要為每一系統儲存多個版本的歷史信息,例如網站的改動帶來的搜索引擎的重新抓取,保留原始和更新后的版本,這樣做必將增加了許多的系統負擔;第二個問題,假設是新站沒有網頁頁面的歷史信息,就沒法確定更新策略。
這類策略覺得,網頁頁面具有許多屬性,類似屬性的網頁頁面,都可以認為其更新頻率都是類似的。要測算某一個類別網頁的更新頻率,只需要對這一類網頁頁面抽樣,以它們的更新周期做為整個類別的更新周期。
上文介紹了爬蟲怎么應對網頁更新問題,有關實驗說明,聚類抽樣策略效果好于前述兩種更新策略,只是對以億計的網頁頁面開展聚類,其難度系數也是非常巨大的。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。