RedshiftでCOPYコマンドを試してみた

6117 ワード

redshift AWS AWS テキストリンク

はじめに

この記事は勉強用として試したことまとめたものです。
今回はS3にCSVファイルを配置してRedshiftにCOPYを試してみました。

Redshiftとは

AWSが提供するDWHのマネージドサービスである。
PostgreSQLをベースに開発されたもの。
集約・分析に最適化されたサービスである。
クラスターを起動している間は課金が発生。現時点でRedshiftに停止機能はないため、
スナップショットを取得し利用するときにスナップショットから復元する必要あり。
自動起動停止はLambdaで実装かなと。
公式ドキュメント
https://aws.amazon.com/jp/redshift/

特徴

集約、分析に特化しているためデータの格納方式が列指向である。
MPP（Massively Parallel Processing：超並列処理）である。
S3からCOPYコマンドでデータを簡単にロードできる。
また、S3のデータを参照して分析クエリを発行するRedshift Spectrumという機能もある。

事前準備

Redshiftにデータを投入するために事前にテーブルを作成する。
SQL Workbench/J といったクライアントツールを利用してもいいが、クエリエディタが便利なのでこちらで実行する。

create table pokemon(
  no INT,
  name VARCHAR(128),
  type1 VARCHAR(32),
  type2 VARCHAR(32),
  nomal_characteristic1 VARCHAR(48),
  nomal_characteristic2 VARCHAR(48),
  dream_characteristic2 VARCHAR(48),
  hp INT,
  attack INT,
  defense INT,
  special_attack INT,
  special_defense INT,
  speed INT,
  sum INT
)

正常終了を確認。
投入データをS3に配置する。今回は以下データをS3に配置。

図鑑番号,ポケモン名,タイプ１,タイプ２,通常特性１,通常特性２,夢特性,HP,こうげき,ぼうぎょ,とくこう,とくぼう,すばやさ,合計
1,フシギダネ,くさ,どく,しんりょく,,ようりょくそ,45,49,49,65,65,45,318
2,フシギソウ,くさ,どく,しんりょく,,ようりょくそ,60,62,63,80,80,60,405
3,フシギバナ,くさ,どく,しんりょく,,ようりょくそ,80,82,83,100,100,80,525
4,ヒトカゲ,ほのお,,もうか,,サンパワー,39,52,43,60,50,65,309
5,リザード,ほのお,,もうか,,サンパワー,58,64,58,80,65,80,405
6,リザードン,ほのお,ひこう,もうか,,サンパワー,78,84,78,109,85,100,534
7,ゼニガメ,みず,,げきりゅう,,あめうけざら,44,48,65,50,64,43,314
8,カメール,みず,,げきりゅう,,あめうけざら,59,63,80,65,80,58,405
9,カメックス,みず,,げきりゅう,,あめうけざら,79,83,100,85,105,78,530

・・・（省略）・・・

データロード

バケットとIAMロールを指定してコマンドを実行する。

copy pokemon from 's3://<バケット名>/pokemon_data/' CSV
iam_role 'arn:aws:iam::111111111111:role/myRedshiftRole'
region 'ap-northeast-1'
IGNOREHEADER 1;

正常終了を確認。

データ確認

SELECTで確認してみる。

select * from public."pokemon"limit 10;

確認できた。

まとめ

COPYコマンドでデータ投入することが多かったのでメモ代わりに投稿。
型とかヘッダースキップなどを忘れると失敗する。
Check 'stl_load_errors' system table for details.と表示されたら素直にstl_load_errorsを確認。
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/r_Load_Error_Reference.html

参考

Author And Source

この問題について(RedshiftでCOPYコマンドを試してみた), 我々は、より多くの情報をここで見つけました https://qiita.com/tomokyu/items/89a470b99730f66ac4cf

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .