hiveテーブルはparquet形式で格納されます
2169 ワード
Hive0.13以降のバージョン
parquetとして格納されたhiveテーブルを作成します.
テスト:
parquet形式のファイルをローカルで生成
Snappy圧縮はより良い性能を有し,Gzip圧縮はより良い圧縮比を有する.
hiveテーブルを作成し、生成されたparquetフォーマットデータをインポート
Hive Parquet構成
hiveではparquetの構成がサポートされています.主に:
Hiveで直接set:
Hiveのblockサイズを制御するパラメータ:
参照先:
Python読み書きParquetフォーマット:Reading and Writing the Apache Parquet Format;
HiveはParquetフォーマットをサポートする:Parquet;
parquetとして格納されたhiveテーブルを作成します.
CREATE TABLE parquet_test (
id int,
str string,
mp MAP,
lst ARRAY,
strct STRUCT)
PARTITIONED BY (part string)
STORED AS PARQUET;
テスト:
parquet形式のファイルをローカルで生成
>>> import numpy as np
>>> import pandas as pd
>>> import pyarrow as pa
>>> df = pd.DataFrame({'one':['test','lisi','wangwu'], 'two': ['foo', 'bar', 'baz']})
>>> table = pa.Table.from_pandas(df)
>>> import pyarrow.parquet as pq
>>> pq.write_table(table, 'example.parquet2')
#
# snappy >>> pq.write_table(table, 'example.parquet2', compression='snappy')
# >>> pq.write_table(table, 'example.parquet2', compression='gzip')
# >>> pq.write_table(table, 'example.parquet2', compression='brotli')
# >>> pq.write_table(table, 'example.parquet2', compression='none')
>>> table2 = pq.read_table('example.parquet2')
>>> table2.to_pandas()
one two
0 test foo
1 lisi bar
2 wangwu baz
Snappy圧縮はより良い性能を有し,Gzip圧縮はより良い圧縮比を有する.
hiveテーブルを作成し、生成されたparquetフォーマットデータをインポート
hive> create table parquet_example(one string, two string) STORED AS PARQUET;
hive> load data local inpath './example.parquet2' overwrite into table parquet_example;
hive> select * from parquet_example;
OK
test foo
lisi bar
wangwu baz
Time taken: 0.071 seconds, Fetched: 3 row(s)
Hive Parquet構成
hiveではparquetの構成がサポートされています.主に:
parquet.compression
parquet.block.size
parquet.page.size
Hiveで直接set:
hive> set parquet.compression=snappy
Hiveのblockサイズを制御するパラメータ:
parquet.block.size
dfs.blocksize
mapred.max.split.size
参照先:
Python読み書きParquetフォーマット:Reading and Writing the Apache Parquet Format;
HiveはParquetフォーマットをサポートする:Parquet;