您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關hive函數有什么用,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
首先我們要知道hive到底是做什么的。下面這幾段文字很好的描述了hive的特性:
1.hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
2.Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數據。同時,這個語言也允許熟悉 MapReduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的復雜的分析工作。
要理解hive,必須先理解hadoop和mapreduce,如果有不熟悉的童鞋,可以百度一下。
使用hive的命令行接口,感覺很像操作關系數據庫,但是hive和關系數據庫還是有很大的不同,下面我就比較下hive與關系數據庫的區別,具體如下:
1.hive和關系數據庫存儲文件的系統不同,hive使用的是hadoop的HDFS(hadoop的分布式文件系統),關系數據庫則是服務器本地的文件系統;
2.hive使用的計算模型是mapreduce,而關系數據庫則是自己設計的計算模型;
3.關系數據庫都是為實時查詢的業務進行設計的,而hive則是為海量數據做數據挖掘設計的,實時性很差;實時性的區別導致hive的應用場景和關系數據庫有很大的不同;
4.Hive很容易擴展自己的存儲能力和計算能力,這個是繼承hadoop的,而關系數據庫在這個方面要比數據庫差很多。
以上都是從宏觀的角度比較hive和關系數據庫的區別,hive和關系數據庫的異同還有很多,我在文章的后面會一一描述。
下面我來講講hive的技術架構,大家先看下面的架構圖:
由上圖可知,hadoop和mapreduce是hive架構的根基。Hive架構包括如下組件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor),這些組件我可以分為兩大類:服務端組件和客戶端組件。
首先講講服務端組件:
Driver組件:該組件包括Complier、Optimizer和Executor,它的作用是將我們寫的HiveQL(類SQL)語句進行解析、編譯優化,生成執行計劃,然后調用底層的mapreduce計算框架。
Metastore組件:元數據服務組件,這個組件存儲hive的元數據,hive的元數據存儲在關系數據庫里,hive支持的關系數據庫有derby、mysql。元數據對于hive十分重要,因此hive支持把metastore服務獨立出來,安裝到遠程的服務器集群里,從而解耦hive服務和metastore服務,保證hive運行的健壯性,這個方面的知識,我會在后面的metastore小節里做詳細的講解。
Thrift服務:thrift是facebook開發的一個軟件框架,它用來進行可擴展且跨語言的服務的開發,hive集成了該服務,能讓不同的編程語言調用hive的接口。
客戶端組件:
CLI:command line interface,命令行接口。
Thrift客戶端:上面的架構圖里沒有寫上Thrift客戶端,但是hive架構的許多客戶端接口是建立在thrift客戶端之上,包括JDBC和ODBC接口。
WEBGUI:hive客戶端提供了一種通過網頁的方式訪問hive所提供的服務。這個接口對應hive的hwi組件(hive web interface),使用前要啟動hwi服務。
下面我著重講講metastore組件,具體如下:
Hive的metastore組件是hive元數據集中存放地。Metastore組件包括兩個部分:metastore服務和后臺數據的存儲。后臺數據存儲的介質就是關系數據庫,例如hive默認的嵌入式磁盤數據庫derby,還有mysql數據庫。Metastore服務是建立在后臺數據存儲介質之上,并且可以和hive服務進行交互的服務組件,默認情況下,metastore服務和hive服務是安裝在一起的,運行在同一個進程當中。我也可以把metastore服務從hive服務里剝離出來,metastore獨立安裝在一個集群里,hive遠程調用metastore服務,這樣我們可以把元數據這一層放到防火墻之后,客戶端訪問hive服務,就可以連接到元數據這一層,從而提供了更好的管理性和安全保障。使用遠程的metastore服務,可以讓metastore服務和hive服務運行在不同的進程里,這樣也保證了hive的穩定性,提升了hive服務的效率。
Hive的執行流程如下圖所示:
圖描述的很清晰了,我這里就不在累述了。
下面我給大家展示一個簡單的例子,看看hive是怎么操作的。
首先我們創建一個普通的文本文件,里面只有一行數據,該行也只存儲一個字符串,命令如下:
echo ‘sharpxiajun' > /home/hadoop/test.txt
然后我們建一張hive的表:
hive –e “create table test (value string);
接下來加載數據:
Load data local inpath ‘home/hadoop/test.txt' overwrite into table test
最后我們查詢下表:
hive –e ‘select * from test';
大家看到了吧,hive十分簡單,很好入門,操作和sql很像,下面我就要深入分析下hive與關系數據庫的區別,這部分可能有些人看的不是很明白,但是很有必要提前提出,以后我的文章里將進一步講述hive,那時不太明白的童鞋在看看這部分,很多問題就會清晰很多,具體如下:
1.關系數據庫里,表的加載模式是在數據加載時候強制確定的(表的加載模式是指數據庫存儲數據的文件格式),如果加載數據時候發現加載的數據不符合模式,關系數據庫則會拒絕加載數據,這個就叫“寫時模式”,寫時模式會在數據加載時候對數據模式進行檢查校驗的操作。Hive在加載數據時候和關系數據庫不同,hive在加載數據時候不會對數據進行檢查,也不會更改被加載的數據文件,而檢查數據格式的操作是在查詢操作時候執行,這種模式叫“讀時模式”。在實際應用中,寫時模式在加載數據時候會對列進行索引,對數據進行壓縮,因此加載數據的速度很慢,但是當數據加載好了,我們去查詢數據的時候,速度很快。但是當我們的數據是非結構化,存儲模式也是未知時候,關系數據操作這種場景就麻煩多了,這時候hive就會發揮它的優勢。
2.關系數據庫一個重要的特點是可以對某一行或某些行的數據進行更新、刪除操作,hive不支持對某個具體行的操作,hive對數據的操作只支持覆蓋原數據和追加數據。Hive也不支持事務和索引。更新、事務和索引都是關系數據庫的特征,這些hive都不支持,也不打算支持,原因是hive的設計是海量數據進行處理,全數據的掃描時常態,針對某些具體數據進行操作的效率是很差的,對于更新操作,hive是通過查詢將原表的數據進行轉化最后存儲在新表里,這和傳統數據庫的更新操作有很大不同。
3.Hive也可以在hadoop做實時查詢上做一份自己的貢獻,那就是和hbase集成,hbase可以進行快速查詢,但是hbase不支持類SQL的語句,那么此時hive可以給hbase提供sql語法解析的外殼,可以用類sql語句操作hbase數據庫
關于“hive函數有什么用”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。