Impala的特點有哪些

發布時間：2021-12-16 15:03:23 來源：億速云閱讀：152 作者：iii 欄目：云計算

本篇內容主要講解“Impala的特點有哪些”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“Impala的特點有哪些”吧!

Impala 是參照google 的新三篇論文Dremel(大批量數據查詢工具)的開源實現，功能類似shark（依賴于hive）和Drill（apache），impala 是clouder 公司主導開發并開源，基于hive 并使用內存進行計算，兼顧數據倉庫，具有實時，批處理，多并發等優點。是使用cdh 的首選PB 級大數據實時查詢分析引擎。（Impala 依賴cdh 是完全沒有問題的，官網說可以單獨運行，但是他單獨運行會出現好多的問題）

Impala與Shark、sparkSQL、Drill等的簡單比較
Impala的特點有哪些

Impala起步較早，目前能夠商用的為數不多的大數據查詢引擎之一；
CDH5不支持sparkSQL；
Drill起步晚，尚不成熟；
shark功能和架構上同Impala相似，該項目已經停止開發。

Impala特點

基于內存進行計算，能夠對PB級數據進行交互式實時查詢/分析；
無需轉換為MR，直接讀取HDFS數據
C++編寫，LLVM統一編譯運行
兼容HiveSQL
具有數據倉庫的特性，可對hive數據直接做數據分析
支持Data Local
支持列式存儲
支持JDBC/ODBC遠程訪問
支持sql92標準，并具有自己的解析器和優化器
Impala核心組件
對于impala 來講，是沒有主節點的，而要理解主節點，impala statestore 和catalog server兩個角色，就具備集群調節的功能，根據以上的特點，對impala 進行配置優化配置impala 內存，每一個deamon 都需要配置內存，因為真正做查詢工作的就是deamon 所在的節點，所以impala 的總內存，就是所有deamon 節點的內存之和；如果要在哪臺機器上面匯總，就需要在那一臺機器上的內存調大一些；我們了解到的，真正提供查詢的是deamon,那么我們連接哪一臺呢？Impala,你可以連接其中deamon 任何一個都行，可以根據自己的需求來，（1）當你查詢的量相對大的時候，你就連接內存大的機器，（2）當每臺機器都適合查詢的情況下也可以隨機找一臺機器，自己寫一個輪詢或者權重算法；解決高并發問題
- Statestore Daemon
- Catalog Daemon（1.2 版本之后才加入）
- Impala Daemon（主要來提供查詢）