中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

hive常見自定義函數有哪些

發布時間:2021-12-10 14:53:52 來源:億速云 閱讀:238 作者:小新 欄目:大數據

這篇文章主要介紹了hive常見自定義函數有哪些,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

1.1 為什么需要自定義函數

hive的內置函數滿足不了所有的業務需求。hive提供很多的模塊可以自定義功能,比如:自定義函數、serde、輸入輸出格式等。

1.2 常見自定義函數有哪些

00001. UDF:用戶自定義函數,user defined function。一對一的輸入輸出。(最常用的)。

00002. UDTF:用戶自定義表生成函數。user defined table-generate function.一對多的輸入輸出。lateral view explode

00003. UDAF:用戶自定義聚合函數。user defined aggregate function。多對一的輸入輸出 count sum max。

2 自定義函數實現

2.1 UDF格式

先在工程下新建一個pom.xml,加入以下maven的依賴包 請查看code/pom.xml

定義UDF函數要注意下面幾點:

00001. 繼承org.apache.hadoop.hive.ql.exec.UDF

00002. 重寫evaluate(),這個方法不是由接口定義的,因為它可接受的參數的個數,數據類型都是不確定的。Hive會檢查UDF,看能否找到和函數調用相匹配的evaluate()方法

2.1.1 自定義函數第一個案例

public class FirstUDF extends UDF {

    public String evaluate(String str){

        String upper = null;

        //1、檢查輸入參數        if (StringUtils.isEmpty(str)){

        } else {

            upper = str.toUpperCase();

        }

        return upper;

    }

    //調試自定義函數    public static void main(String[] args){

        System.out.println(new firstUDF().evaluate("jiajingwen"));

    }}

2.2 函數加載方式

2.2.1 命令加載

這種加載只對本session有效

# 1、將編寫的udf的jar包上傳到服務器上,并且將jar包添加到hive的class path中

# 進入到hive客戶端,執行下面命令

 add jar /hivedata/udf.jar

# 2、創建一個臨時函數名,要跟上面hive在同一個session里面:

create temporary function toUP as 'com.qf.hive.FirstUDF';

3、檢查函數是否創建成功

show functions;

4. 測試功能

select toUp('abcdef');

5. 刪除函數

drop temporary function if exists tolow;

2.2.2 啟動參數加載

(也是在本session有效,臨時函數)

1、將編寫的udf的jar包上傳到服務器上

2、創建配置文件

vi ./hive-init

add jar /hivedata/udf.jar;

create temporary function toup as 'com.qf.hive.FirstUDF';

# 3、啟動hive的時候帶上初始化文件:

 hive -i ./hive-init

 select toup('abcdef')

2.2.3 配置文件加載

通過配置文件方式這種只要用hive命令行啟動都會加載函數

1、將編寫的udf的jar包上傳到服務器上

2、在hive的安裝目錄的bin目錄下創建一個配置文件,文件名:.hiverc

vi ./bin/.hiverc

add jar /hivedata/udf.jar;

create temporary function toup as 'com.qf.hive.FirstUDF';

3、啟動hive

hive

2.3 UDTF格式

UDTF是一對多的輸入輸出,實現UDTF需要完成下面步驟

00001. 繼承org.apache.hadoop.hive.ql.udf.generic.GenericUDF,

00002. 重寫initlizer()、getdisplay()、evaluate()。

執行流程如下:

UDTF首先會調用initialize方法,此方法返回UDTF的返回行的信息(返回個數,類型)。

初始化完成后,會調用process方法,真正的處理過程在process函數中,在process中,每一次forward()調用產生一行;如果產生多列可以將多個列的值放在一個數組中,然后將該數組傳入到forward()函數。

最后close()方法調用,對需要清理的方法進行清理。

2.3.1 需求:

把"k1:v1;k2:v2;k3:v3"類似的的字符串解析成每一行多行,每一行按照key:value格式輸出

2.3.2 源碼

自定義函數如下:

package com.qf.hive;

 public class ParseMapUDTF extends GenericUDTF{

     @Override

     public void close() throws HiveException {

     }

     @Override

     public StructObjectInspector initialize(ObjectInspector[] args)

             throws UDFArgumentException {

         if (args.length != 1) {

             throw new UDFArgumentLengthException(" 只能傳入一個參數");

         }

         ArrayList<String> fieldNameList = new ArrayList<String>();

         ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();

         fieldNameList.add("map");

         fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

         fieldNameList.add("key");

         fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

         return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNameList,fieldOIs);

     }

     @Override

     public void process(Object[] args) throws HiveException {

         String input = args[0].toString();

         String[] paramString = input.split(";");

         for(int i=0; i<paramString.length; i++) {

             try {

                 String[] result = paramString[i].split(":");

                 forward(result);

             } catch (Exception e) {

                 continue;

             }

         }

     }

 }

2.3.3 打包加載

對上述命令源文件打包為udf.jar,拷貝到服務器的/hivedata/目錄

在Hive客戶端把udf.jar加入到hive中,如下:

add jar /hivedata/udf.jar;

2.3.4 創建臨時函數:

在Hive客戶端創建函數:

create temporary function parseMap as 'com.qf.hive.ParseMapUDTF'; # 創建一個臨時函數parseMap# 查看函數是否加入show functions ;

2.3.5 測試臨時函數

select parseMap("name:zhang;age:30;address:shenzhen")

結果如下:

#map  key  

name    zhang

age 30

address shenzhen

2.4 UDAF格式

用戶自定義聚合函數。user defined aggregate function。多對一的輸入輸出 count sum max。定義一個UDAF需要如下步驟:

00001. UDF自定義函數必須是org.apache.hadoop.hive.ql.exec.UDAF的子類,并且包含一個火哥多個嵌套的的實現了org.apache.hadoop.hive.ql.exec.UDAFEvaluator的靜態類。

00002. 函數類需要繼承UDAF類,內部類Evaluator實UDAFEvaluator接口。

00003. Evaluator需要實現 init、iterate、terminatePartial、merge、terminate這幾個函

這幾個函數作用如下:

函數說明init實現接口UDAFEvaluator的init函數iterate每次對一個新值進行聚集計算都會調用,計算函數要根據計算的結果更新其內部狀態terminatePartial無參數,其為iterate函數輪轉結束后,返回輪轉數據merge接收terminatePartial的返回結果,進行數據merge操作,其返回類型為boolean。terminate返回最終的聚集函數結果。

2.4.1 需求

計算一組整數的最大值

2.4.2 代碼

package com.qf.hive;public class MaxValueUDAF extends UDAF {

    public static class MaximumIntUDAFEvaluator implements UDAFEvaluator {

        private IntWritable result;

        public void init() {

            result = null;

        }

        public boolean iterate(IntWritable value) {

            if (value == null) {

                return true;

            }

            if (result == null) {

                result = new IntWritable( value.get() );

            } else {

                result.set( Math.max( result.get(), value.get() ) );

            }

            return true;

        }

        public IntWritable terminatePartial() {

            return result;

        }

        public boolean merge(IntWritable other) {

            return iterate( other );

        }

        public IntWritable terminate() {

            return result;

        }

    }}

2.4.3 打包加載

對上述命令源文件打包為udf.jar,拷貝到服務器的/hivedata/目錄

在Hive客戶端把udf.jar加入到hive中,如下:

add jar /hivedata/udf.jar;

2.4.4 創建臨時函數:

在Hive客戶端創建函數:

create temporary function maxInt as 'com.qf.hive.MaxValueUDAF';# 查看函數是否加入show functions ;

2.3.5 測試臨時函數

select maxInt(mgr) from emp

結果如下:

#結果

7902

感謝你能夠認真閱讀完這篇文章,希望小編分享的“hive常見自定義函數有哪些”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,更多相關知識等著你來學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

尉犁县| 内江市| 桃园市| 耒阳市| 金昌市| 隆安县| 安阳市| 张家口市| 江达县| 饶平县| 诸暨市| 嵊泗县| 门头沟区| 莆田市| 和政县| 上蔡县| 邯郸县| 德州市| 莒南县| 沂水县| 垦利县| 南昌县| 奉新县| 双辽市| 锡林浩特市| 阿荣旗| 宣城市| 吴桥县| 五家渠市| 石河子市| 青河县| 珠海市| 漳浦县| 彰化县| 贵溪市| 延边| 鄂州市| 红桥区| 郴州市| 清河县| 仪征市|