Hive0.13のUniquejoinの動作について
HiveにUniqueJoinなるものがある。
Documentに見当たらなかったが、Jiraによると0.5.0から入っていることがわかる。
https://issues.apache.org/jira/browse/HIVE-591
クエリ例:
SELECT a.id,b.id,c.id FROM UNIQUEJOIN
PRESERVE test_a a(a.id),
PRESERVE test_b b(b.id),
PRESERVE test_c c(c.id)
test_b:
test_c:
クエリ結果:
クエリ結果から判断すると、
PRESERVE内で指定したカラムの値の全組み合わせが出すために使える。
そのため、事前にキーをユニークにしておけば、各テーブルの歯抜けになっているキーを算出できる。
制限: test_aの部分はサブクエリにはできない(少なくともHive0.13)。
一点よくわからないのが、下のFull Outer Joinで同じ結果を出せるように思うのだけれども、これを使うメリットは他に何かあるのか・・・
select a.id, b.id, c.id
from test_a a full outer join test_b b on a.id = b.id
full outer join test_c c on a.id = c.id
Author And Source
この問題について(Hive0.13のUniquejoinの動作について), 我々は、より多くの情報をここで見つけました https://qiita.com/toru-takahashi/items/c5c9331af66af7c3846e著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .