中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

node.js如何爬取中關村的在線電瓶車信息

發布時間:2022-04-01 10:48:10 來源:億速云 閱讀:132 作者:iii 欄目:編程語言

這篇文章主要介紹“node.js如何爬取中關村的在線電瓶車信息”的相關知識,小編通過實際案例向大家展示操作過程,操作方法簡單快捷,實用性強,希望這篇“node.js如何爬取中關村的在線電瓶車信息”文章能幫助大家解決問題。

步驟

第一步,引入需要的庫

var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一個類似瀏覽器端的jQuery,用來解析HTML的
// fetch 用來發送請求

第二步,設置初始的爬取的入口(我身處杭州,所以地區選了杭州的?)

// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由于每個a標簽下是相對路徑,故需要一個根地址來拼接,如下
var urlRoot = "http://detail.zol.com.cn" 
// 存放所有url,之所以用set,是為了防止有相同的而重復爬去
var urls = new Set()
// 存儲所有數據
var data = []

思路:

  • 每次獲取當前頁48個鏈接,并點進去之后,拿到該電瓶車的名稱和價格(其他信息獲取方式一樣,自行改就好?)

  • 第一頁的全部完成之后,翻到下一頁,繼續爬,直到最后一頁結束

首先我們定義一個函數如下

// 這是得到每個頁面的48個鏈接,并開始發送請求

function ad(arg){
// 參數 arg 先不管
// 本地化一下需要爬取的鏈接
let url2 = arg || url;
// 請求第一頁該網頁,拿到數據之后,復制給 app
var app = await fetch(url2).then(res=>res.text())
// 然后假裝用jQuery解析了
var $ = cheerio.load(app)
// 獲取當前頁所有電瓶車的a標簽
var ele = $("#J_PicMode a.pic")
// 存放已經爬取過的url,防止重復爬取
var old_urls = []
var urlapp = []
//拿到所有a標簽地址之后,存在數組里面,等會兒要開始爬的
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
// 用把URL一塊丟給promise處理
urlapp = await Promise.all(old_urls)
// 處理完成之后,循環加入jQuery?
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
// 至此,一頁的數據就爬完了
// console.log(data);

// 然后開始爬取下一頁
var nextURL = $(".next").attr('href')
// 判斷當前頁是不是最后一頁
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
// 獲取下一頁的標簽,拿到地址,走你
ad(urlRoot+nextURL)
}
return data
}
ad()

完整代碼如下

var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = [] 
async function ad(arg){
let url2 = arg || url;
var app = await fetch(url2).then(res=>res.text())
var $ = cheerio.load(app)
var ele = $("#J_PicMode a.pic")
var old_urls = []
var urlapp = []
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
urlapp = await Promise.all(old_urls)
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}

var nextURL = $(".next").attr('href')
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
ad(urlRoot+nextURL)
}
return data
}
ad()

關于“node.js如何爬取中關村的在線電瓶車信息”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識,可以關注億速云行業資訊頻道,小編每天都會為大家更新不同的知識點。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

河西区| 历史| 伊春市| 弋阳县| 会宁县| 卓资县| 高台县| 子洲县| 保靖县| 安达市| 航空| 盖州市| 江川县| 乐亭县| 静海县| 忻州市| 普宁市| 灵寿县| 衡水市| 肥东县| 东乡县| 汉川市| 通山县| 信丰县| 滁州市| 泰兴市| 呼和浩特市| 佛教| 玉龙| 石嘴山市| 沙田区| 改则县| 隆回县| 恩施市| 穆棱市| 贵州省| 洛宁县| 塘沽区| 天等县| 皮山县| 舒兰市|