hive row_number()の使い方
4495 ワード
1、row_number()over()ソート機能:
(1) row_number()over()パケットソート機能:
row_を使用していますnumber()over()関数の場合、over()内のパケットおよびソートの実行はwhere group by order byの実行より遅い.
partition byは、結果セットのグループ化に使用されます.指定されていない場合は、結果セット全体をグループ化します.集約関数とは異なり、1つのグループ内の複数のレコードを返すことができますが、集約関数には統計値を反映するレコードが1つしかありません.
たとえば、employeeは、部門グループに基づいてソートされます.
1 2 3 4 5 6 7 8 9 10
(2)クエリー結果のソート:(グループ化なし)
1 2 3 4 5 6 7 8 9 10 11
row_number()over()とrownumの差は多くなく、機能がより強い(各パケット内で1オン時から並べ替えることができる).
2、rank()over()はジャンプソートであり、2位の場合は4位(同様に各パケット内)となる.
1 2 3 4 5 6 7 8 9 10 11
3、dense_rank()over()は連続ソートであり,2位の場合も3位に続く.それに比べてrow_numberは重複値がない.
1 2 3 4 5 6 7 8 9 10 11 12
ROW_の使用NUMBER重複データの削除---テーブルTABにa,b,cの3列があると仮定し、以下の文を使用してa,b,cの同じ重複行を削除できます.
1 2
最後にhive文の実行中にエラーが発生し、エラーが発生しました.
FAILED: ParseException line 22:7 extraneous input '10' expecting EOF near ''
理由は次のように説明されています.
sql文にセミコロンが増えました..
スクリプトを実行する場合はsqlの後にセミコロンを追加する必要がありますが、jdbcを呼び出してsql文を実行する場合は、文をセミコロンで終了することはできません.
しかし、依然として問題を解決していない.
変換元:https://www.cnblogs.com/alsf/p/6344197.html
(1) row_number()over()パケットソート機能:
row_を使用していますnumber()over()関数の場合、over()内のパケットおよびソートの実行はwhere group by order byの実行より遅い.
partition byは、結果セットのグループ化に使用されます.指定されていない場合は、結果セット全体をグループ化します.集約関数とは異なり、1つのグループ内の複数のレコードを返すことができますが、集約関数には統計値を反映するレコードが1つしかありません.
たとえば、employeeは、部門グループに基づいてソートされます.
1 2 3 4 5 6 7 8 9 10
SELECT
empno,WORKDEPT,SALARY, Row_Number() OVER (partition
by
workdept
ORDER
BY
salary
desc
) rank
FROM
employee
--------------------------------------
A00 152750 1
A00 66500 2
A00 49250 3
A00 46500 4
A00 39250 5
B01 94250 1
C01 98250 1
C01 73800 2
(2)クエリー結果のソート:(グループ化なし)
1 2 3 4 5 6 7 8 9 10 11
SELECT
empno,WORKDEPT,SALARY, Row_Number() OVER (
ORDER
BY
salary
desc
) rank
FROM
employee
--------------------------------------
A00 152750 1
C01 98250 2
D21 96170 3
B01 94250 4
E11 89750 5
E21 86150 6
E01 80175 7
C01 73800 8
D11 72250 9
row_number()over()とrownumの差は多くなく、機能がより強い(各パケット内で1オン時から並べ替えることができる).
2、rank()over()はジャンプソートであり、2位の場合は4位(同様に各パケット内)となる.
1 2 3 4 5 6 7 8 9 10 11
select
workdept,salary,rank() over(partition
by
workdept
order
by
salary)
as
dense_rank_order
from
emp
order
by
workdept;
------------------
A00 39250 1
A00 46500 2
A00 49250 3
A00 66500 4
A00 152750 5
B01 94250 1
C01 68420 1
C01 68420 1
C01 73800 3
3、dense_rank()over()は連続ソートであり,2位の場合も3位に続く.それに比べてrow_numberは重複値がない.
1 2 3 4 5 6 7 8 9 10 11 12
select
workdept,salary,dense_rank() over(partition
by
workdept
order
by
salary)
as
dense_rank_order
from
emp
order
by
workdept;
------------------
A00 39250 1
A00 46500 2
A00 49250 3
A00 66500 4
A00 152750 5
B01 94250 1
C01 68420 1
C01 68420 1
C01 73800 2
C01 98250 3
ROW_の使用NUMBER重複データの削除---テーブルTABにa,b,cの3列があると仮定し、以下の文を使用してa,b,cの同じ重複行を削除できます.
1 2
DELETE
FROM
(
select
year
,QUARTER,RESULTS,row_number() over(partition
by
YEAR
,QUARTER,RESULTS
order
by
YEAR
,QUARTER,RESULTS)
AS
ROW_NO
FROM
SALE )
WHERE
ROW_NO>1
最後にhive文の実行中にエラーが発生し、エラーが発生しました.
FAILED: ParseException line 22:7 extraneous input '10' expecting EOF near ''
理由は次のように説明されています.
sql文にセミコロンが増えました..
スクリプトを実行する場合はsqlの後にセミコロンを追加する必要がありますが、jdbcを呼び出してsql文を実行する場合は、文をセミコロンで終了することはできません.
しかし、依然として問題を解決していない.
変換元:https://www.cnblogs.com/alsf/p/6344197.html