中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

網頁更新爬蟲如果應付

發布時間:2020-07-10 01:43:21 來源:網絡 閱讀:375 作者:犀牛代理 欄目:編程語言

每一天,每一小時,每一分鐘,每一秒互聯網的數據都在不停的發生著變化,如果爬蟲想要獲取實時數據,也要跟隨網絡節奏不斷的進行更新,那么這里犀牛就為大家說說,關于網頁更新的問題,爬蟲是如何應對的?

應對方法第一條,把以往的數據作為參考

說的文雅一些就是“歷史記錄”,依據網頁頁面過去的歷史更新數據,
預測和分析網頁頁面的變動時機。通常情況下 ,是通過泊松過程進行建模進行預測。
爬蟲怎么應對網頁更新問題

應對方法第二條把用戶體驗作為參考

一般來說,搜索引擎用戶提交查詢后,相關的搜索結果可不是數的過來的,而用戶的耐心最多到前3頁的查詢結果。用戶體驗策略就是利用搜索引擎用戶的這一個特征來設計更新策略的。

這種更新策略的主導標準就是客戶的體驗,就算前3頁搜索引擎的內容已經是好久之前的了,但是再不影響客戶體驗的前提下,晚一些更新好久之前的網頁內容也是可以的。因此判斷一個網頁頁面什么時候更新好,這要取決于這些網頁頁面的內容變化而產生的搜索引擎質量的變化,影響力越大的網頁頁面,更新的越快。

客戶體驗策略保存網頁的多個歷史版本,并依據以往每次內容變化對搜索質量的影響,算出一個均值,以此作為判斷網絡爬蟲重抓該網頁頁面時機的參照依據,針對影響越厲害的網頁頁面,則越優先調度重新爬取。
應對方法第三條聚類抽樣原則

以上兩種更新原則都需要一個前提:需要試用歷史頁面的信息。那樣的前提就出現了2個問題,第一個問題系統要為每一系統儲存多個版本的歷史信息,例如網站的改動帶來的搜索引擎的重新抓取,保留原始和更新后的版本,這樣做必將增加了許多的系統負擔;第二個問題,假設是新站沒有網頁頁面的歷史信息,就沒法確定更新策略。

這類策略覺得,網頁頁面具有許多屬性,類似屬性的網頁頁面,都可以認為其更新頻率都是類似的。要測算某一個類別網頁的更新頻率,只需要對這一類網頁頁面抽樣,以它們的更新周期做為整個類別的更新周期。

上文介紹了爬蟲怎么應對網頁更新問題,有關實驗說明,聚類抽樣策略效果好于前述兩種更新策略,只是對以億計的網頁頁面開展聚類,其難度系數也是非常巨大的。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

临城县| 绥棱县| 平乐县| 原阳县| 河北区| 高陵县| 龙门县| 徐汇区| 青神县| 江西省| 镇坪县| 辉县市| 兰州市| 恩平市| 秦皇岛市| 四会市| 大宁县| 贺州市| 广宗县| 遂川县| 鲁甸县| 满城县| 绥化市| 定陶县| 罗田县| 从化市| 济南市| 高邮市| 甘南县| 天峨县| 淄博市| 满洲里市| 乾安县| 梅河口市| 怀柔区| 秦安县| 石河子市| 冕宁县| 临沭县| 晋州市| 息烽县|