Hive中Hql語法是什么

發布時間：2021-12-10 14:02:55 來源：億速云閱讀：130 作者：小新欄目：大數據

小編給大家分享一下Hive中Hql語法是什么，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

Hive 是基于Hadoop 構建的一套數據倉庫分析系統，它提供了豐富的SQL查詢方式來分析存儲在Hadoop 分布式文件系統中的數據，可以將結構

化的數據文件映射為一張數據庫表，并提供完整的SQL查詢功能，可以將SQL語句轉換為MapReduce任務進行運行，通過自己的SQL 去查詢分析需

要的內容，這套SQL 簡稱Hive SQL，使不熟悉mapreduce 的用戶很方便的利用SQL 語言查詢，匯總，分析數據。而mapreduce開發人員可以把

己寫的mapper 和reducer 作為插件來支持Hive 做更復雜的數據分析。

它與關系型數據庫的SQL 略有不同，但支持了絕大多數的語句如DDL、DML 以及常見的聚合函數、連接查詢、條件查詢。HIVE不適合用于聯機

online)事務處理，也不提供實時查詢功能。它最適合應用在基于大量不可變數據的批處理作業。

HIVE的特點：可伸縮（在Hadoop的集群上動態的添加設備），可擴展，容錯，輸入格式的松散耦合。

Hive 的官方文檔中對查詢語言有了很詳細的描述，請參考：http://wiki.apache.org/hadoop/Hive/LanguageManual ，本文的內容大部分翻譯自該頁面，期間加入了一些在使用過程中需要注意到的事項。

1. DDL 操作

2. DML 操作:元數據存儲

hive不支持用insert語句一條一條的進行插入操作，也不支持update操作。數據是以load的方式加載到建立好的表中。數據一旦導入就不可以修改。

3. DQL 操作:數據查詢SQL

4. 從SQL到HiveQL應轉變的習慣

) a
REDUCE word, cnt USING ) a
REDUCE sessionid, tstamp, data USING GROUP BY t3.c2;

5. 實際示例

創建一個表

CREATE TABLE u_data (
userid INT,
movieid INT,
rating INT,
unixtime STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '/t'
STORED AS TEXTFILE;

下載示例數據文件，并解壓縮
wget http://www.grouplens.org/system/files/ml-data.tar__0.gz
tar xvzf ml-data.tar__0.gz

加載數據到表中:

LOAD DATA LOCAL INPATH 'ml-data/u.data'
OVERWRITE INTO TABLE u_data;

統計數據總量:

SELECT COUNT(1) FROM u_data;

現在做一些復雜的數據分析:

創建一個 weekday_mapper.py: 文件，作為數據按周進行分割
import sys
import datetime

for line in sys.stdin:
line = line.strip()
userid, movieid, rating, unixtime = line.split('/t')

生成數據的周信息

weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
print '/t'.join([userid, movieid, rating, str(weekday)])

使用映射腳本

//創建表，按分割符分割行中的字段值
CREATE TABLE u_data_new (
userid INT,
movieid INT,
rating INT,
weekday INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '/t';
//將python文件加載到系統
add FILE weekday_mapper.py;

將數據按周進行分割

INSERT OVERWRITE TABLE u_data_new
SELECT
TRANSFORM (userid, movieid, rating, unixtime)
USING 'python weekday_mapper.py'
AS (userid, movieid, rating, weekday)
FROM u_data;

SELECT weekday, COUNT(1)
FROM u_data_new
GROUP BY weekday;

處理Apache Weblog 數據

將WEB日志先用正則表達式進行組合，再按需要的條件進行組合輸入到表中
add jar ../build/contrib/hive_contrib.jar;

CREATE TABLE apachelog (
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|//[[^//]]*//]) ([^ /"]*|/"[^/"]*/") (-|[0-9]*) (-|[0-9]*)(?: ([^ /"]*|/"[^/"]*/") ([^ /"]*|/"[^/"]*/"))?",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;

以上是“Hive中Hql語法是什么”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Hive中Hql語法是什么

) a
REDUCE word, cnt USING ) a
REDUCE sessionid, tstamp, data USING GROUP BY t3.c2;

創建一個表

加載數據到表中:

統計數據總量:

現在做一些復雜的數據分析:

生成數據的周信息

使用映射腳本

將數據按周進行分割

處理Apache Weblog 數據

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Hive中Hql語法是什么

) a REDUCE word, cnt USING ) a REDUCE sessionid, tstamp, data USING GROUP BY t3.c2;

創建一個表

加載數據到表中:

統計數據總量:

現在做一些復雜的數據分析:

生成數據的周信息

使用映射腳本

將數據按周進行分割

處理Apache Weblog 數據

猜你喜歡

最新資訊

相關推薦

相關標簽

) a
REDUCE word, cnt USING ) a
REDUCE sessionid, tstamp, data USING GROUP BY t3.c2;