您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關如何讓百度收錄GitHub Pages個人博客,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。
基于 GitHub Pages 的個人博客, Google 收錄非常及時全面。然而,到目前為止,GitHub 還是拒絕百度爬蟲的訪問,直接返回 403。
官方給出原因是,百度爬蟲爬得太狠,影響了 Github Pages 服務的正常使用。這就導致了,但凡在 Github Pages 搭建的個人博客,都無法被百度收錄。
1、使用 coding.net 建立鏡像網站
我之前使用過 coding.net,在本地 repo 的配置文件中同時添加 GitHub 和 coding.net 遠程 repo 地址,發布時,兩邊都會部署到,加上域名智能解析,對于國內的請求,轉發到 Coding Page 即可。
但是通過 coding.net 訪問個人主頁時會先出現跳轉頁面,導致百度無法正確爬取。
2、利用 CDN
這個沒試過,理論上來說,百度在第一次爬取時,CDN 上必須要已經有相應頁面的緩存,否則,爬取的請求會被轉發到 GitHub 源站,GitHub 還是會拒絕。
3、使用 Nginx 反向代理
Nginx 做反向代理,直接代理百度爬蟲,去 GitHub Pages 請求,然后將結果返回給百度爬蟲。
這種方式可行,只不過,這些方法都需要一定的定制能力,對于個人開發者,還得買一臺 VPS 或者云服務器。
Guillermo Rauch 大神創業搞了一個靜態站 hosting 服務 zeit.co:
https://zeit.co/
可以通過 GitHub Hooks 實現自動部署,zeit 提供 存儲 + CDN + DNS 一套完整的服務。
我給個人網站配置完成后,去百度站長試了一下,發現抓取成功了,sitemap 也提交成功了,坐等百度收錄。
下面我把配置的步驟記錄下來,給有需要的朋友一個參考。
zeit 網站主要就三個步驟:
Github 賬戶登陸 zeit.io,授予 zeit repo 的 read 權限;
導入 GitHub 博客 repo;
稍等片刻,部署成功。
項目名中的 .
自動替換成 -
,生成了一個類似于 xxxx.now.sh
的鏈接,點擊可以訪問你的博客主頁,這時候靜態資源已經部署到 zeit 的邊緣 CDN 節點上了,下次你 GitHub 項目的任何更新會觸發 zeit 項目更新。
接下來的就是切換域名,通過智能 DNS 將國內流量切過去。通過 zeit.io 提供的 DNS 解析服務配置自己的域名,然后在百度站長里配置信息。
在 Domains 下為項目添加你的個人域名。
我添加后出現以下配置錯誤,原因我的域名權威 dns 是 dnspod。
一種解決方式是將直接使用 zeit 提供的 nameserver 智能 DNS,另一種方式,就是保留 dnspod 作為權威 dns 服務器,但是要添加一條 ANAME 記錄。
我使用的是第一種方式,直接在阿里云替換了 DNS 服務器,直接用 zeit 提供的 nameserver 智能 DNS。
回到 zeit,刷新下,正常是這樣,這里是給你簽發 https 證書,免費的。
過一會兒應該就好了。
看一下 DNS 解析地址,說明 zeit 域名已經配置成功了。
最后就是在百度站長里面添加個人域名了。這里注意選擇 https 協議,因為 zeit 默認都是 https 了。
網站驗證我采用的是文件驗證,下載驗證文件放在你博客本地 repo 的 source 目錄下,部署到 GitHub,當然也會及時更新到 zeit。然后完成驗證就好了,試一下鏈接診斷,看能不能正常抓取,失敗的話,看看抓取的 ip 地址是不是還是之前的緩存,等待一段時間重新抓取下,時間取決于 dns 的 ttl。
從zeit.co 官網上看,臺灣和香港都有 CDN 節點,免費賬戶可以有 20G/月,個人博客應該是夠用了。
關于如何讓百度收錄GitHub Pages個人博客就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。