您好,登錄后才能下訂單哦!
Spark 是一種與 Hadoop 相似的開源集群計算環境,是專為大規模數據處理而設計的快速通用的計算引擎,現已形成一個高速發展應用廣泛的生態系統,主要應用場景如下:
1. Spark是基于內存的迭代計算框架,適用于需要多次操作特定數據集的應用場合。需要反復操作的次數越多,所需讀取的數據量越大,受益越大,數據量小但是計算密集度較大的場合,受益就相對較小;
2. 由于RDD的特性,Spark不適用那種異步細粒度更新狀態的應用,例如web服務的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應用模型不適合:
3. 數據量不是特別大,但是要求實時統計分析需求。
滿足以上條件的均可采用Spark技術進行處理,在實際應用中,目前大數據在互聯網公司主要應用在廣告、報表、推薦系統等業務上,在廣告業務方面需要大數據做應用分析、效果分析、定向優化等,在推薦系統方面則需要大數據優化相關排名、個性化推薦以及熱點點擊分析等。
這些應用場景的普遍特點是計算量大、效率要求高,Spark恰恰可以滿足這些要求,該項目一經推出便受到開源社區的廣泛關注和好評,并在近兩年內發展成為大數據處理領域炙手可熱的開源項目。
Spark使用Scala語言進行實現,它是一種面向對象、函數式編程語言,能夠像操作本地集合對象一樣輕松地操作分布式數據集,具有運行速度快、易用性好、通用性強以及隨處運行等特點,適合大多數批處理工作,并已成為大數據時代企業大數據處理優選技術,其中有代表性企業有騰訊、Yahoo、淘寶以及優酷土豆等。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。