中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

淺談Node.js爬蟲之網頁請求模塊

發布時間:2020-09-13 17:33:17 來源:腳本之家 閱讀:153 作者:Sirk 欄目:web開發

本文介紹了Node.js爬蟲之網頁請求模塊,分享給大家,具體如下:

注:如您下載最新的nodegrass版本,由于部分方法已經更新,本文的例子已經不再適應,詳細請查看開源地址中的例子。

一、為什么我要寫這樣一個模塊?

源于筆者想使用Node.js寫一個爬蟲,雖然Node.js官方API提供的請求遠程資源的方法已經非常簡便,具體參考

http://nodejs.org/api/http.html 其中對于Http的請求提供了,http.get(options, callback)和http.request(options, callback)兩個方法,

看方法便知,get方法用于get方式的請求,而request方法提供更多的參數,例如其它請求方式,請求主機的端口等等。對于Https的請求于Http類似。一個最簡單的例子:

var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on('data', function(d) {
  process.stdout.write(d);
 });

}).on('error', function(e) {
 console.error(e);
});

對于以上代碼,我們無非就是想請求遠程主機,得到響應信息,例如響應狀態,響應頭,響應主體內容。其中get方法的第二個參數是一個回調函數,我們異步的獲取響應信息,然后,在該回調函數中,res對象又監聽data,on方法中第二個參數又是一個回調,而你得到d(你請求到的響應信息)后,很可能在對它進行操作的時候再次引入回調,一層層下去,最后就暈了。。。對于異步方式的編程,對于一些習慣同步方式寫代碼的同學是非常糾結的,當然國內外已經對此提供了一些非常優秀的同步類庫,例如老趙的Wind.js......好像有點扯遠了。其實,我們調用get最終要得到的無非就是響應信息,而不關心res.on這樣的監聽過程,因為太懶惰。不想每次都res.on('data',func),于是誕生了今天我要介紹的nodegrass。

二、nodegrass請求資源,像Jquery的$.get(url,func)

一個最簡單的例子:

var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'gbk').on('error', function(e) {
  console.log("Got error: " + e.message);
});

咋一看,和官方原來的get沒啥區別,確實差不多=。=!只不過少了一層res.on('data',func)的事件監聽回調而已。不管你信不信,反正我看上去感覺舒服多了,第二個參數同樣是一個回調函數,其中的參數data是響應主體內容,status是響應狀態,headers是響應頭。得到響應內容,我們就可以對得到的資源提取任何我們感興趣的信息啦。當然這個例子中,只是簡單的打印的控制臺而已。第三個參數是字符編碼,目前Node.js不支持gbk,這里nodegrass內部引用了iconv-lite進行了處理,所以,如果你請求的網頁編碼是gbk的,例如百度。只需加上這個參數就行了。

那么對于https的請求呢?如果是官方api,你得引入https模塊,但是請求的get方法等和http類似,于是nodegrass順便把他們整合在一塊了。看例子:

var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'utf8').on('error', function(e) {
  console.log("Got error: " + e.message);
});

nodegrass會根據url自動識別是http還是https,當然你的url必須得有,不能只寫www.baidu.com/而需要http://www.baidu.com/。

對于post的請求,nodegrass提供了post方法,看例子:

var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth3/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,'utf8');

以上是新浪微博Auth3.0請求accessToken的一部分,其中使用nodegrass的post請求access_token的api。

post方法相比get方法多提供了headers請求頭參數,options--post的數據,它們都是對象字面量的類型:

var headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length':data.length
  };

var options = {
       client_id : 'id',
     client_secret : 'cs',
     grant_type : 'authorization_code',
     redirect_uri : 'your callback url',
     code: acode
  };

三、利用nodegrass做代理服務器?……**

看例子:

var ng = require('nodegrass'),
   http=require('http'),
   url=require('url');

   http.createServer(function(req,res){
    var pathname = url.parse(req.url).pathname;
    
    if(pathname === '/'){
      ng.get('http://www.cnblogs.com/',function(data){
        res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});
        res.write(data+"\n");
        res.end();
        },'utf8');
      }
   }).listen(8088);
   console.log('server listening 8088...');

就這么簡單,當然代理服務器還有復雜的多,這個不算是,但至少你訪問本地8088端口,看到的是不是博客園的頁面呢?

nodegrass的開源地址:https://github.com/scottkiss/nodegrass

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持億速云。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

武宣县| 白沙| 宣汉县| 汤原县| 吴川市| 建水县| 天全县| 政和县| 洞头县| 称多县| 茶陵县| 庆安县| 四川省| 开鲁县| 凤翔县| 鄂尔多斯市| 北宁市| 通江县| 台北市| 江都市| 凤山县| 潮安县| 临武县| 嵩明县| 越西县| 张掖市| 岗巴县| 和政县| 揭阳市| 瑞安市| 台州市| 准格尔旗| 濮阳市| 云和县| 海兴县| 车致| 宾阳县| 科技| 宿州市| 疏勒县| 鹰潭市|