[AWS] AWS Athenaの自分まとめ
AWS Athena
- Athenaとは何かを知る
- Athenaをどう使えばいいかを知る
- Athenaの制限を知る
- Athenaのベストプラクティスを知る
Athenaとは何かを知る
概要
Amazon Athena はインタラクティブなクエリサービスで、
Amazon S3 内のデータを標準 SQL を使用して簡単に分析できます。
Athena はサーバーレスなので、インフラストラクチャの管理は不要です。
実行したクエリに対してのみ料金が発生します。
- サーバーレス
- 自動拡張
- 運用不要
- S3の全てのデータを使用可能
- データ容量上限なし
- S3にデータを配置してそのデータに対して標準SQLを用いて分析できるサービス
-
Presto
ベース
- S3にあるデータを指定してスキーマの定義をしてSQLを実行
- 大規模データの多くのケースで数秒で結果が返ってくる
- 分析用データを準備するための複雑なETLは不要
- クエリが並列実行される
- データ形式には様々な形式に対応
- CSV, JSON, ORC, Avro, Parquet etc
- ODBCやJDBCでの接続が可能
-
AWS Glueと統合されている
料金
- スキャンしたデータに対してのみ支払い
- 1TBに対して5USD
- 仮に 100GB をスキャンした場合 :
0.49 USD
=> 54円
- スキャンするデータ量を減らすことでコストを削減できる
導入事例
Athenaをどう使えばいいかを知る
ユースケース
- 常時必要でではないスポット的な分析が必要なケース
- 大容量データを数秒で分析できるソリューションが必要なケース
実行まで
- S3バケットへデータを登録する
- データーベースの作成をおこなう
- テーブルの作成を行う
- クエリを発行する
- 結果取得する
アクセス
- AWSコンソール
- API
- AWS SDK
- CLI
ソースデータの使用 (S3)
- S3に保存されているデータをリアルタイムでクエリ
- パフォーマンス向上とコスト削減
- 列指向形式の使用 :
Parquet
テーブルとS3
- バージョニングされている場合は「最新」のデータのみをクエリ
- S3に対するアクセス許可が必要
- ロールやポリシー
- バケットのアクセス許可
- S3で暗号化するデータはAthenaと同一リージョンに保存する必要がある
-
Location句
で指定した同じバケットで複数のストレージクラスに保存されたオブジェクトでデータをクエリできる
- リクエスタ支払いバケットはサポート対象外
- GLACIERも対象外
- ライフサイクルポリシーでGLRACIERに移行されたオブジェクトも対象外
- テーブル削除するとメタデータのみが削除されデータはS3に残る
データのパーティション分割
- データをパーティション分割することでクエリのスキャンデータ量を制限できる
- パフォーマンス向上とコスト削減を達成できる
- パーティションには
Hive
を使用
- 全てのキーでデータをパーティションできる
- 一般的には時間に基づいてパーティション分割
- 年 / 月 / 日
-
CREATE TABLE
で PRTITIONED BY
を指定する
データがパーティション済みでS3に Hive
方式で保存されている場合
-
S3::bucket/year=2019/month=01/day=01
のようなHive方式のディレクトリ構成でS3に保存済み
-
CREATE TABLE
で PARTITIONED BY (year string, month string, day string)
を指定
- テーブル作成後
MSCK REPAIR TABLE [table]
を実行しパーティショニング
列指向ストレージ方式
-
Apache Parquet
や ORC
はデータを高速に取得できるようにした列指向ストレージ形式
特徴
- 列ごとの圧縮によりS3ストレージ領域を節約してクエリ処理時の I/O や容量を軽減できる
- Parquet および ORC での
述語プッシュダウン
により、Athena クエリで必要なブロックだけを取得できる
- Parquet および ORC でのデータの分割により、Athena がデータの読み取りを複数のリーダーに分割して、クエリ処理時の並列処理を向上させることができる
データ変換
-
CTAS
で変換を行う
-
EMR
で変換処理を行う
既存の raw データを他のストレージ形式から Parquet または ORC に変換するには、
Athena で CREATE TABLE AS SELECT (CTAS) クエリを実行し、
データストレージ形式として Parquet または ORC を指定するか、
または AWS Glue クローラを使用します。
テーブルデータのクエリ
クエリ結果
- Athenaはクエリ結果をS3へ保存
- クエリ実行毎に以下ファイルを生成
- CSV形式での結果ファイル :
*.csv
- Athenaメタデータファイル :
*.csv.metadata
- このファイルを削除するAthenaにとって重要な情報が失われる
結果保存先指定
- 個々のクエリ
- 個々のクエリ実行時に
OutputLocation API
を使用して指定
- ワークグループ内の全てのクエリ
- ワークグループの全てのクエリの保存先を指定する
- コンソールでのクエリ
- デフォルトで自動でバケットが作成され保存される
- Athenaは結果保存先を指定しないとエラーになる
クエリ履歴
- 最大45日保存されている
- コンソールやAPIで履歴一覧や結果取得が可能
- 45日以上保存したい場合は自前でデータストアへ保存する処理が必要
View
- 論理的なテーブル
- ビューを定義するクエリは1つのクエリでビューを参照されるたびに実行される
ユースケース
- データのサブネットをクエリする
- 複数のテーブルを1つのクエリに統合する
- 既存の基本クエリの複雑さを解消する
むずかし〜いクエリの結果をViewさせることでデータを使う人は簡単になる
CTAS
-
CREATE TABLE AS SELECT (CTAS)
クエリは新しいテーブルを別のクエリのSELECT結果から作成する
- S3の指定された場所にCTASによってい作成されたデータファイルを配置する
ユースケース
- raw データセットのクエリを繰り返さずに1 回のステップでクエリの結果からテーブルを作成する
- クエリ結果を他のストレージ形式
Parquet, OCR etc
に変換する
- 必要なデータのみが含まれている既存のテーブルのコピーを作成できる
考慮と制約
- CTASはS3にクエリ結果をS3にデータファイルとして書き込むがビューではデータを書き込まない
- CTASの結果を保存する先のS3は空である必要がある
- CTASはバケット先がからであるかを確認する
- データが既に存在する場合は上書きをしない
- 保存先を指定しない場合は自動でバケットを作成する
- クエリ結果の保存形式はデフォルトで
Parquet
- 他には
PARQUET, ORC, AVRO, JSON, TEXTFILE
が指定可能
- クエリ結果はデフォルトで
GZIP
で圧縮される
- Parquet および ORC では、
SNAPPY
を指定することもできる
- 1 つまたは複数の列により、CTAS クエリの結果データをパーティション化することができる
- 最大 100 個のパーティションを作成できる
- CTAS クエリの結果とバケットデータを 1 つまたは複数の列に保存するようにバケットを設定することができまる
- クエリ結果の暗号化が可能
- データ型は元のまま
バケット化とパーティショニング
- CTASクエリ結果で設定できるパーティションの数は
100個
まで
- S3に保存しているデータ側がパーティションされているとCTASの性能が向上する
- CTASクエリのバケット化はカーディナリティが高く値が均等に分散されている列によってデータをバケット化するときに上手くいく
- 大量のデータをスキャンしないようなバケット化およびパーティショニングが必要
クエリ例
バケット化とパーティショニングがある
CREATE TABLE ctas_parquet_bucketed
WITH (
format = 'Parquet',
parquet_compression = 'SNAPPY',
external_location = 's3://my_athena_results/',
partitioned_by = ARRAY['nationkey'],
bucketed_by = ARRAY['mktsegment'],
bucket_count = 3)
AS SELECT key1, name1, address1, phone1, acctbal, mktsegment, comment1, nationkey
FROM table1;
配列
- Athena では、配列の作成、連結、異なるデータ型への変換ができます。さらに、フィルタ処理、フラット化、ソートができる
スキーマの更新
- Athenaはスキーマの読み取りクエリエンジン
- Athenaでデータを作成するときにデータの読み取りにスキーマを適用する
- データ形式によりスキーマの更新で出来ること出来ないことが存在する
ワークグループ
- ワークグループを使用してユーザ・チームなどにワークロードを分離することができる
- クエリまたはワークグループ全体で処理できるデータ量に制限を設けコストを追跡できる
- アクセス制御もできる
- CloudWatchでのメトリクスも
クエリログ
- CloudTrailで実行のログを追跡可能
圧縮形式
- Athenaは複数のデータ圧縮形式をサポート
- SNAPPY
-
Parquet
のデフォルト圧縮形式
- ZLIB
-
ORC
のデフォルト圧縮形式
- LZO
- GZIP
CSV, TSV, JSON
- これらのデータ形式はAthenaがファイル拡張子から圧縮タイプを判断する
- データが圧縮されている場合はファイル名に圧縮拡張子(gzなど)が含まれていることを確認する
Kinesis Data Firehose
- AthenaはFirehoseログに対するクエリではGZIP圧縮を使用する
- Kinesis Data FirehoseとAthenaではサポートされているSNAPPYのバージョンが異なるため互換性のある形式はGZIPのみ
DDL / SQL
- Athena はDDLとANSI SQL関数および演算子をサポートする
Athenaの制限を知る
DDL
20回 / 秒
SQLクエリ
- タイムアウト :
30分
- クエリ文字列長 :
256KB (262144Byte)
-
UTF-8
でエンコードされる
- クエリ発行/停止 :
20回 / 秒
StartQueryExecution
StopQueryExecution
- クエリ実行確認 :
100回 / 秒
GetQueryExecution
- クエリ結果取得 :
100回 / 秒
GetQueryResults
ワークグループ
- 最大数 :
1000個 / リージョン
Athenaのベストプラクティスを知る
データをパーティションに分ける
CTASについてもっと詳しく知る
クエリした結果が保存されそのデータに対するテーブルが作成される
元となるクエリを作成する
そのクエリに対するCTASを作成する
トラブルシューティング
-
external_location
で指定するパスにはフォルダまで指定する必要がある
- ex)
external_location='s3://output-ctas/tables/'
バケッティングについてもっと知る
- バケッティングは指定したカラムでデータを集約してデータファイルを作成すること
- したばってカーディナリティが高いカラムを指定することでよりインデックス化された状態を作ることができてスキャンするデータ量を減らすことができる
-
CREATE TABLE
で作成するときにバケッティングされたファイル数を指定する必要がある
- 同一ファイル数で作成されていたらいいけど、、、
トラブルシューティング
コンソール
- コンソールでテーブル作成やCTASで新規作成バケット指定してるのに「バケットが無い」とか「指定バケットすでに存在する」とかエラー出た時は、右上
Setting
からデフォルトバケットを変更すると上手くいくかも
Amazon Athena はインタラクティブなクエリサービスで、
Amazon S3 内のデータを標準 SQL を使用して簡単に分析できます。
Athena はサーバーレスなので、インフラストラクチャの管理は不要です。
実行したクエリに対してのみ料金が発生します。
- 自動拡張
- 運用不要
- データ容量上限なし
-
Presto
ベース
- CSV, JSON, ORC, Avro, Parquet etc
- 仮に 100GB をスキャンした場合 :
0.49 USD
=>54円
- AWS SDK
- 列指向形式の使用 :
Parquet
- ロールやポリシー
- バケットのアクセス許可
Location句
で指定した同じバケットで複数のストレージクラスに保存されたオブジェクトでデータをクエリできる- ライフサイクルポリシーでGLRACIERに移行されたオブジェクトも対象外
Hive
を使用- 一般的には時間に基づいてパーティション分割
- 年 / 月 / 日
CREATE TABLE
で PRTITIONED BY
を指定するHive
方式で保存されている場合S3::bucket/year=2019/month=01/day=01
のようなHive方式のディレクトリ構成でS3に保存済みCREATE TABLE
で PARTITIONED BY (year string, month string, day string)
を指定MSCK REPAIR TABLE [table]
を実行しパーティショニングApache Parquet
や ORC
はデータを高速に取得できるようにした列指向ストレージ形式述語プッシュダウン
により、Athena クエリで必要なブロックだけを取得できるCTAS
で変換を行うEMR
で変換処理を行う既存の raw データを他のストレージ形式から Parquet または ORC に変換するには、
Athena で CREATE TABLE AS SELECT (CTAS) クエリを実行し、
データストレージ形式として Parquet または ORC を指定するか、
または AWS Glue クローラを使用します。
- CSV形式での結果ファイル :
*.csv
- Athenaメタデータファイル :
*.csv.metadata
- このファイルを削除するAthenaにとって重要な情報が失われる
- 個々のクエリ実行時に
OutputLocation API
を使用して指定
- ワークグループの全てのクエリの保存先を指定する
- デフォルトで自動でバケットが作成され保存される
むずかし〜いクエリの結果をViewさせることでデータを使う人は簡単になる
CREATE TABLE AS SELECT (CTAS)
クエリは新しいテーブルを別のクエリのSELECT結果から作成するParquet, OCR etc
に変換する- CTASはバケット先がからであるかを確認する
- データが既に存在する場合は上書きをしない
Parquet
- 他には
PARQUET, ORC, AVRO, JSON, TEXTFILE
が指定可能
GZIP
で圧縮される
- Parquet および ORC では、
SNAPPY
を指定することもできる
- 最大 100 個のパーティションを作成できる
100個
までCREATE TABLE ctas_parquet_bucketed
WITH (
format = 'Parquet',
parquet_compression = 'SNAPPY',
external_location = 's3://my_athena_results/',
partitioned_by = ARRAY['nationkey'],
bucketed_by = ARRAY['mktsegment'],
bucket_count = 3)
AS SELECT key1, name1, address1, phone1, acctbal, mktsegment, comment1, nationkey
FROM table1;
- Athenaでデータを作成するときにデータの読み取りにスキーマを適用する
-
Parquet
のデフォルト圧縮形式
-
ORC
のデフォルト圧縮形式
20回 / 秒
30分
256KB (262144Byte)
-
UTF-8
でエンコードされる
20回 / 秒
StartQueryExecution
StopQueryExecution
100回 / 秒
GetQueryExecution
100回 / 秒
GetQueryResults
1000個 / リージョン
クエリした結果が保存されそのデータに対するテーブルが作成される
元となるクエリを作成する
そのクエリに対するCTASを作成する
external_location
で指定するパスにはフォルダまで指定する必要がある
- ex)
external_location='s3://output-ctas/tables/'
CREATE TABLE
で作成するときにバケッティングされたファイル数を指定する必要がある
- 同一ファイル数で作成されていたらいいけど、、、
Setting
からデフォルトバケットを変更すると上手くいくかもAuthor And Source
この問題について([AWS] AWS Athenaの自分まとめ), 我々は、より多くの情報をここで見つけました https://qiita.com/qiita-kurara/items/4872d2eed6b7d0b73fd4著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .