Hive解析関数とウィンドウ関数
15767 ワード
Hive解析関数とウィンドウ関数
Hive 0.11以降でサポートされるように、複数の入力された行をスキャンして各行の結果を計算します.通常OVER、PARTION BY、ORDER BY、WINDOWINGと併用されます.従来のグループ化結果とは異なり、従来の結果は各グループに1つの結果しかありません.解析関数の結果は複数回現れ、各レコードに出力が接続されます.
構文の形式は次のとおりです.
ウィンドウ関数
関数名
説明
FIRST_VALUE
グループ内のソートを取り出し、現在の行の最初の値に切り込みます.
LAST_VALUE
グループ内のソートを取り出した後、現在の行まで、最後の値
LEAD(col, n, DEFAULT)
統計ウィンドウの下のn行目の値に使用します.1番目のパラメータはカラム名、2番目のパラメータは下のn行目(オプション、デフォルトは1)、3番目のパラメータはデフォルト値(下のn行目NULLの場合はデフォルト値)
LAG(col,n,DEFAULT)
リードとは逆に、統計ウィンドウ内の下のn番目の値に使用されます.1番目のパラメータはカラム名、2番目のパラメータは上のn行目(オプション、デフォルトは1)
MOVER従文標準的な集約関数COUNT,SUM,MIN,MAX,AVG を使用 PARTION BY文を使用し、1つまたは複数の元のデータ型の列 を使用する PARTION BYとORDER BY文を使用する、1つまたは複数のデータ型のパーティションまたはビートシーケンス を使用する.ウィンドウ仕様を使用して、ウィンドウ仕様はフォーマットをサポートします:
ORDER BYの後ろにウィンドウ従文条件がない場合、ウィンドウ仕様のデフォルトは
ORDER BYとウィンドウ従文が欠落している場合、ウィンドウ仕様のデフォルトは次のとおりです.
ぶんせきかんすう
関数#カンスウ#
説明
ROW_NUMBER()
1から順に、パケット内に記録されたシーケンスが生成され、例えば、pv降順に並び、パケット内の毎日のpv順位が生成され、ROW_NUMBER()のアプリケーションシーンは非常に多く,例えばパケット内で1番目にソートされたレコードを取得し,セッション内の1番目のreferを取得するなどである.
RANK()
グループ内のデータ項目の順位を生成し、順位が等しいと順位に空席が残ります.
DENSE_RANK()
グループ内のデータ項目の順位を生成し、順位が等しいと順位に空席が残らない
CUME_DIST()
現在の値以下の行数をグループ内の合計行数で除算します.たとえば、現在の給与に等しい人数以下の合計人数の割合を統計します.
PERCENT_RANK()
パケット内の現在のローのRANK値-1/パケット内の合計ロー数-1
NTILE(n)
グループ化されたデータを順番にnスライスに分割し、現在のスライス値を返します.スライスが不均一な場合、デフォルトでは最初のスライスの分布が増加します.NTILEでは、NTILE(2)OVER(PARTITION BY Cookieid ORDER BY createtime ROWS BETWEEN 3 PERCEDING AND CURRENT ROW)などのROWS BETWEENはサポートされていません.
Hive2.1.0以降のバージョンではdistinctがサポートされています
集約関数(sum,count,avg)ではdistinctがサポートされていますが、order byまたはウィンドウ制限ではサポートされていません.
Hive2.1.0以降のサポートOVER従文での集約関数のサポート
Hive2.2.0ではORDER BYとウィンドウ制限の使用時にdistinctをサポート
ウィンドウ関数と解析関数をインスタンスで深く理解する
COUNT、SUM、MIN、MAX、AVGケーススタディ
に注意の結果はORDER BYに関連し、デフォルトは昇順 である. ROWS BETWEENを指定しない場合、デフォルトは開始から現在の行までです. ORDER BYを指定しない場合、パケット内のすべての値が加算される. PRECEDING:前 FOLLOWING:以降 CURRENT ROW:現在の行 UNBOUNDED:境界なし(始点または終点) UNBOUNDED PRECEDING:前からの始点を示す UNBOUNDED FOLLOWING:後の終点 まで表示他のCOUNT、AVG、MIN、MAXはSUMと同じ使い方です.
FIRST_VALUEとLAST_VALUEケーススタディ
LEADとLAG
RANK、ROW_NUMBER、DENSE_RANK
NTILE
saleの前の20%のユーザーIDを取ることを求めます
CUME_DIST、PERCENT_RANK
参考博文
http://blog.csdn.net/scgaliguodong123_/article/details/60135385
Hive 0.11以降でサポートされるように、複数の入力された行をスキャンして各行の結果を計算します.通常OVER、PARTION BY、ORDER BY、WINDOWINGと併用されます.従来のグループ化結果とは異なり、従来の結果は各グループに1つの結果しかありません.解析関数の結果は複数回現れ、各レコードに出力が接続されます.
構文の形式は次のとおりです.
Function(arg1,....argn) OVER([PARTITION BY<...>] [ORDER BY<...>] [window_clause])
ウィンドウ関数
関数名
説明
FIRST_VALUE
グループ内のソートを取り出し、現在の行の最初の値に切り込みます.
LAST_VALUE
グループ内のソートを取り出した後、現在の行まで、最後の値
LEAD(col, n, DEFAULT)
統計ウィンドウの下のn行目の値に使用します.1番目のパラメータはカラム名、2番目のパラメータは下のn行目(オプション、デフォルトは1)、3番目のパラメータはデフォルト値(下のn行目NULLの場合はデフォルト値)
LAG(col,n,DEFAULT)
リードとは逆に、統計ウィンドウ内の下のn番目の値に使用されます.1番目のパラメータはカラム名、2番目のパラメータは上のn行目(オプション、デフォルトは1)
MOVER従文
(ROW | RANGE) BETWEEN (UNBOUNDED | [num]) PRECEDING AND ([num] PRECEDING | CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)
(ROW | RANGE) BETWEEN CURRENT ROW AND (CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)
(ROW | RANGE) BETWEEN [num] PRECEDING AND (UNBOUNDED | [num]) FOLLOWING
ORDER BYの後ろにウィンドウ従文条件がない場合、ウィンドウ仕様のデフォルトは
RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
ORDER BYとウィンドウ従文が欠落している場合、ウィンドウ仕様のデフォルトは次のとおりです.
ROW BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING
ぶんせきかんすう
関数#カンスウ#
説明
ROW_NUMBER()
1から順に、パケット内に記録されたシーケンスが生成され、例えば、pv降順に並び、パケット内の毎日のpv順位が生成され、ROW_NUMBER()のアプリケーションシーンは非常に多く,例えばパケット内で1番目にソートされたレコードを取得し,セッション内の1番目のreferを取得するなどである.
RANK()
グループ内のデータ項目の順位を生成し、順位が等しいと順位に空席が残ります.
DENSE_RANK()
グループ内のデータ項目の順位を生成し、順位が等しいと順位に空席が残らない
CUME_DIST()
現在の値以下の行数をグループ内の合計行数で除算します.たとえば、現在の給与に等しい人数以下の合計人数の割合を統計します.
PERCENT_RANK()
パケット内の現在のローのRANK値-1/パケット内の合計ロー数-1
NTILE(n)
グループ化されたデータを順番にnスライスに分割し、現在のスライス値を返します.スライスが不均一な場合、デフォルトでは最初のスライスの分布が増加します.NTILEでは、NTILE(2)OVER(PARTITION BY Cookieid ORDER BY createtime ROWS BETWEEN 3 PERCEDING AND CURRENT ROW)などのROWS BETWEENはサポートされていません.
Hive2.1.0以降のバージョンではdistinctがサポートされています
集約関数(sum,count,avg)ではdistinctがサポートされていますが、order byまたはウィンドウ制限ではサポートされていません.
conut(distinct a) over(partition by c)
Hive2.1.0以降のサポートOVER従文での集約関数のサポート
select rank() over(order by sum(b))
Hive2.2.0ではORDER BYとウィンドウ制限の使用時にdistinctをサポート
count(distinct a) over (partition by c order by d rows between 1 preceding and 1 following)
ウィンドウ関数と解析関数をインスタンスで深く理解する
COUNT、SUM、MIN、MAX、AVGケーススタディ
##
create table orders(
user_id string,
device_id string,
user_type string,
price float,
sales int);
## orders.txt
zhangsa test1 new 67.1 2
lisi test2 old 43.32 1
wanger test3 new 88.88 3
liliu test4 new 66.0 1
tom test5 new 54.32 1
tomas test6 old 77.77 2
tomson test7 old 88.44 3
tom1 test8 new 56.55 6
tom2 test9 new 88.88 5
tom3 test10 new 66.66 5
##
select
user_id,
user_type,
sales,
--
sum(sales) over(partition by user_type order by sales asc) as sales_1,
-- sales_1
sum(sales) over(partition by user_type order by sales asc range between unbounded preceding and current row) as sales_2,
-- , sale_1
sum(sales) over(partition by user_type order by sales asc rows between unbounded preceding and current row) as sales_3,
-- 3
sum(sales) over(partition by user_type order by sales asc rows between 3 preceding and current row) as sales_4,
-- 3
sum(sales) over(partition by user_type order by sales asc range between 3 preceding and current row) as sales_5,
-- + 3 + 1
sum(sales) over(partition by user_type order by sales asc rows between 3 preceding and 1 following) as sales_6,
--
sum(sales) over(partition by user_type order by sales asc range between 3 preceding and 1 following) as sales_7,
-- +
sum(sales) over(partition by user_type order by sales asc rows between current row and unbounded following) as sales_8,
--
sum(sales) over(partition by user_type order by sales asc range between current row and unbounded following) as sales_9,
--
sum(sales) over(partition by user_type) as sales_10
from
orders
order by
user_type,
sales,
user_id;
## :
| user_id | user_type | sales | sales_1 | sales_2 | sales_3 | sales_4 | sales_5 | sales_6 | sales_7 | sales_8 | sales_9 | sales_10 |
|----------|------------|--------|----------|----------|----------|----------|----------|----------|----------|----------|----------|-----------|
| liliu | new | 1 | 2 | 2 | 2 | 2 | 2 | 4 | 4 | 22 | 23 | 23 |
| tom | new | 1 | 2 | 2 | 1 | 1 | 2 | 2 | 4 | 23 | 23 | 23 |
| zhangsa | new | 2 | 4 | 4 | 4 | 4 | 4 | 7 | 7 | 21 | 21 | 23 |
| wanger | new | 3 | 7 | 7 | 7 | 7 | 7 | 12 | 7 | 19 | 19 | 23 |
| tom2 | new | 5 | 17 | 17 | 17 | 15 | 15 | 21 | 21 | 11 | 16 | 23 |
| tom3 | new | 5 | 17 | 17 | 12 | 11 | 15 | 16 | 21 | 16 | 16 | 23 |
| tom1 | new | 6 | 23 | 23 | 23 | 19 | 19 | 19 | 19 | 6 | 6 | 23 |
| lisi | old | 1 | 1 | 1 | 1 | 1 | 1 | 3 | 3 | 6 | 6 | 6 |
| tomas | old | 2 | 3 | 3 | 3 | 3 | 3 | 6 | 6 | 5 | 5 | 6 |
| tomson | old | 3 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 3 | 3 | 6 |
に注意
FIRST_VALUEとLAST_VALUEケーススタディ
select
user_id,
user_type,
sales,
ROW_NUMBER() OVER(PARTITION BY user_type ORDER BY sales) AS row_num,
first_value(user_id) over (partition by user_type order by sales desc) as max_sales_user,
first_value(user_id) over (partition by user_type order by sales asc) as min_sales_user,
last_value(user_id) over (partition by user_type order by sales desc) as curr_last_min_user,
last_value(user_id) over (partition by user_type order by sales asc) as curr_last_max_user
from
orders
order by
user_type,
sales;
## :
| user_id | user_type | sales | row_num | max_sales_user | min_sales_user | curr_last_min_user | curr_last_max_user |
| ------- | --------- | ----- | ------- | -------------- | -------------- | ------------------ | ------------------ |
| tom | new | 1 | 1 | tom1 | tom | tom | liliu |
| liliu | new | 1 | 2 | tom1 | tom | tom | liliu |
| zhangsa | new | 2 | 3 | tom1 | tom | zhangsa | zhangsa |
| wanger | new | 3 | 4 | tom1 | tom | wanger | wanger |
| tom3 | new | 5 | 5 | tom1 | tom | tom3 | tom2 |
| tom2 | new | 5 | 6 | tom1 | tom | tom3 | tom2 |
| tom1 | new | 6 | 7 | tom1 | tom | tom1 | tom1 |
| lisi | old | 1 | 1 | tomson | lisi | lisi | lisi |
| tomas | old | 2 | 2 | tomson | lisi | tomas | tomas |
| tomson | old | 3 | 3 | tomson | lisi | tomson | tomson |
LEADとLAG
select
user_id,
device_id,
sales,
ROW_NUMBER() OVER(ORDER BY sales) AS row_num,
lead(device_id) over (order by sales) as default_after_one_line,
lag(device_id) over (order by sales) as default_before_one_line,
lead(device_id,2) over (order by sales) as after_two_line,
lag(device_id,2,'abc') over (order by sales) as before_two_line
from
orders
order by
sales;
| user_id | device_id | sales | row_num | default_after_one_line | default_before_one_line | after_two_line | before_two_line |
|----------|------------|--------|----------|-------------------------|--------------------------|-----------------|------------------|
| lisi | test2 | 1 | 3 | test6 | test4 | test1 | test5 |
| liliu | test4 | 1 | 2 | test2 | test5 | test6 | abc |
| tom | test5 | 1 | 1 | test4 | NULL | test2 | abc |
| zhangsa | test1 | 2 | 5 | test7 | test6 | test3 | test2 |
| tomas | test6 | 2 | 4 | test1 | test2 | test7 | test4 |
| wanger | test3 | 3 | 7 | test10 | test7 | test9 | test1 |
| tomson | test7 | 3 | 6 | test3 | test1 | test10 | test6 |
| tom2 | test9 | 5 | 9 | test8 | test10 | NULL | test3 |
| tom3 | test10 | 5 | 8 | test9 | test3 | test8 | test7 |
| tom1 | test8 | 6 | 10 | NULL | test9 | NULL | test10 |
RANK、ROW_NUMBER、DENSE_RANK
select
user_id,user_type,sales,
RANK() over (partition by user_type order by sales desc) as r,
ROW_NUMBER() over (partition by user_type order by sales desc) as rn,
DENSE_RANK() over (partition by user_type order by sales desc) as dr
from
orders;
##
| user_id | user_type | sales | r | rn | dr |
| ------- | --------- | ----- | --- | --- | --- |
| tom1 | new | 6 | 1 | 1 | 1 |
| tom3 | new | 5 | 2 | 2 | 2 |
| tom2 | new | 5 | 2 | 3 | 2 |
| wanger | new | 3 | 4 | 4 | 3 |
| zhangsa | new | 2 | 5 | 5 | 4 |
| tom | new | 1 | 6 | 6 | 5 |
| liliu | new | 1 | 6 | 7 | 5 |
| tomson | old | 3 | 1 | 1 | 1 |
| tomas | old | 2 | 2 | 2 | 2 |
| lisi | old | 1 | 3 | 3 | 3 |
NTILE
select
user_type,sales,
-- 2
NTILE(2) OVER(PARTITION BY user_type ORDER BY sales) AS nt2,
-- 3
NTILE(3) OVER(PARTITION BY user_type ORDER BY sales) AS nt3,
-- 4
NTILE(4) OVER(PARTITION BY user_type ORDER BY sales) AS nt4,
-- 4
NTILE(4) OVER(ORDER BY sales) AS all_nt4
from
orders
order by
user_type,
sales;
##
| user_type | sales | nt2 | nt3 | nt4 | all_nt4 |
| --------- | ----- | --- | --- | --- | ------- |
| new | 1 | 1 | 1 | 1 | 1 |
| new | 1 | 1 | 1 | 1 | 1 |
| new | 2 | 1 | 1 | 2 | 2 |
| new | 3 | 1 | 2 | 2 | 3 |
| new | 5 | 2 | 2 | 3 | 4 |
| new | 5 | 2 | 3 | 3 | 3 |
| new | 6 | 2 | 3 | 4 | 4 |
| old | 1 | 1 | 1 | 1 | 1 |
| old | 2 | 1 | 2 | 2 | 2 |
| old | 3 | 2 | 3 | 3 | 2 |
saleの前の20%のユーザーIDを取ることを求めます
select
user_id
from
(
select
user_id,
NTILE(5) OVER(ORDER BY sales desc) AS nt
from
orders
)A
where nt=1;
##
+----------+
| user_id |
+----------+
| tom1 |
| tom3 |
+----------+
CUME_DIST、PERCENT_RANK
select
user_id,user_type,sales,
-- partition, 1
CUME_DIST() OVER(ORDER BY sales) AS cd1,
-- user_type
CUME_DIST() OVER(PARTITION BY user_type ORDER BY sales) AS cd2
from
orders;
##
+----------+------------+--------+------+----------------------+--+
| user_id | user_type | sales | cd1 | cd2 |
+----------+------------+--------+------+----------------------+--+
| liliu | new | 1 | 0.3 | 0.2857142857142857 |
| tom | new | 1 | 0.3 | 0.2857142857142857 |
| zhangsa | new | 2 | 0.5 | 0.42857142857142855 |
| wanger | new | 3 | 0.7 | 0.5714285714285714 |
| tom2 | new | 5 | 0.9 | 0.8571428571428571 |
| tom3 | new | 5 | 0.9 | 0.8571428571428571 |
| tom1 | new | 6 | 1.0 | 1.0 |
| lisi | old | 1 | 0.3 | 0.3333333333333333 |
| tomas | old | 2 | 0.5 | 0.6666666666666666 |
| tomson | old | 3 | 0.7 | 1.0 |
+----------+------------+--------+------+----------------------+--+
select
user_type,sales,
--
SUM(1) OVER(PARTITION BY user_type) AS s,
--RANK
RANK() OVER(ORDER BY sales) AS r,
PERCENT_RANK() OVER(ORDER BY sales) AS pr,
--
PERCENT_RANK() OVER(PARTITION BY user_type ORDER BY sales) AS prg
from
orders;
##
+------------+--------+----+-----+---------------------+---------------------+--+
| user_type | sales | s | r | pr | prg |
+------------+--------+----+-----+---------------------+---------------------+--+
| new | 1 | 7 | 1 | 0.0 | 0.0 |
| new | 1 | 7 | 1 | 0.0 | 0.0 |
| new | 2 | 7 | 4 | 0.3333333333333333 | 0.3333333333333333 |
| new | 3 | 7 | 6 | 0.5555555555555556 | 0.5 |
| new | 5 | 7 | 8 | 0.7777777777777778 | 0.6666666666666666 |
| new | 5 | 7 | 8 | 0.7777777777777778 | 0.6666666666666666 |
| new | 6 | 7 | 10 | 1.0 | 1.0 |
| old | 1 | 3 | 1 | 0.0 | 0.0 |
| old | 2 | 3 | 4 | 0.3333333333333333 | 0.5 |
| old | 3 | 3 | 6 | 0.5555555555555556 | 1.0 |
+------------+--------+----+-----+---------------------+---------------------+--+
参考博文
http://blog.csdn.net/scgaliguodong123_/article/details/60135385