Pentaho DIをサクッと触ってみる

10447 ワード

pentaho ETL DI pentaho テキストリンク

はじめに

初めてPentaho DI 触ってみて、その勢いでこの記事を書いています。
ド素人なので用語とか色々間違っているかもしれません。

環境

iMac (Retina 5K, 27-inch, 2017)
macOS High Sierra

Java のインストール

ここからJavaをインストールします。

Note:
Java10では動作しないみたいなので、8をインストールしました

Pentaho DI のインストール

ここのPentaho Community Edition 8.0 > Data Integraton > All OSからZipファイルをダウンロードします。

Zipファイルのダウンロードができたら好きなところに展開します。

Pentaho DI の起動

展開したディレクトリに移動してSpoonを起動します。

$ cd deta-integration
$ ./spoon.sh

こんなのが立ち上がります。

Note:
起動にはしばらく時間がかかります

Data Integration

実際にDIしてみます。
最近、ネ申Excelぽいのと戦ったので、それに似た要件でやってみます。

入力1
- IPアドレスとその利用者名の対のリスト
- CSV形式
- IPアドレスはオクテットごとに区切られている(ネ申Excel)
- 表にすると以下のような感じ
1st_octet 2nd_octet 3rd_octet 4th_octet user_name

10 0 0 1 ikegami

10 0 0 2 obata

10 0 0 3 sakagami
入力2
- IPアドレスとそのアドレスが割り当てられている機器の情報の対のリスト
- CSV形式
- 表にすると以下のような感じ
ip_address info

10.0.0.1 aaa

10.0.0.2 bbb

1st_octet	4th_octet	user_name
10	1	ikegami
10	2	obata
10	3	sakagami

ip_address	info
10.0.0.1	aaa
10.0.0.2	bbb

この入力から、以下の出力を作ってみます。

出力
- IPアドレスをキーに入力1と入力2を結合させたリスト
- 表にすると以下のような感じ
ip_address info user_name

10.0.0.1 aaa ikegami

10.0.0.2 bbb obata

10.0.0.3 sakagami

ip_address	info	user_name
10.0.0.1	aaa	ikegami
10.0.0.2	bbb	obata
10.0.0.3		sakagami

入力ファイルのセット:E

左上の新規作成ぽいところからデータの変換を選択します。
入力 > CSV入力を右のワークスペース的なところにドラッグ＆ドロップします。(２回繰り返す)
ドラッグ＆ドロップしてできたアイコンをダブルクリックして、入力データの情報を記入します。
- 入力2の分も同様
- 念のためプレビューで確認しておくと安心
ここまでで、こんな状態になります。

フィールド結合:T

つぎに、入力1のオクテットごとに区切られたIPアドレスを１つに結合させます。

変換 > フィールド結合を右のワークスペース的なところにドラッグ＆ドロップします。
フィールド結合のアイコンにカーソルを当てて、左下の入力コネクタを選択します。
入力コネクタをinput1のアイコンに接続させて、ステップのメインインプットを選択します。
フィールド結合のアイコンをダブルクリックして結合方法を記入します。
- ターゲットフィールド名：結合して新しくできるフィールドの名前
- 区切り文字：結合する際の区切り文字（今回はIPアドレスを作りたいので.を指定）
- フィールド：結合したいフィールドを列挙
- アドバンスドタブ > 選択したフィールドを削除する：チェックを入れると結合元のフィールドたちは削除される
ここまでで、こんな状態になります。

マージ結合:T

つぎに、IPアドレスをキーに入力1と入力2を結合させます。

結合 > マージ結合を右のワークスペース的なところにドラッグ＆ドロップします。
マージ結合の入力コネクタをinput1に接続させて、Left hand side stream of the joinを選択します。
input2に対しても同様にして、Right hand side stream of the joinを選択します。
マージ結合のアイコンをダブルクリックして結合方法を記入します。
- 結合タイプ：結合タイプの指定（説明は~~めんどくさいので~~公式ドキュメントを引用）
- フィールド名：結合のキーとするフィールドの名前
FULL OUTER:
all rows from both sources will be included in the result, with empty values for non-matching keys in both data streams
LEFT OUTER:
all rows from the first source will be in the result, with empty values for non-matching keys in the second data stream
RIGHT OUTER:
all rows from the second source will be in the result, with empty values for non-matching keys in the first data stream
INNER JOIN:
only rows having the same key in both sources will be included in the result
ここまでで、こんな状態になります。

テキストファイル出力:L

最後に、結合結果を出力します。

出力 > テキストファイル出力を右のワークスペース的なところにドラッグ＆ドロップします。
テキストファイル出力の入力コネクタをマージ結合に接続させます。
テキストファイル出力のアイコンをダブルクリックして、出力方法を記入します。
- 拡張子：出力ファイルの拡張子（CSVを指定）
- 全般タブ > 区切り文字：フィールドの区切り文字(CSVにするので,)
- フィールドタブ > フィールド名：出力するフィールドの名前

Note:
フィールドタブで出力するフィールドの選択や、フィールドの順序を設定できます

ここまでで、こんな状態になります。

実行

左上の三角ボタンをクリックすると、上で定義したDIが走ります。

できたCSVファイルを確認してみます。

$ cat output.csv
10.0.0.1,ikegami,aaa
10.0.0.2,obata,bbb
10.0.0.3,sakagami,

できた！

コマンドラインからの実行

Pan でコマンドラインからも実行できました。
-file=の後ろにSpoonで作成した.ktrファイルを指定して実行します。

$ ./pan.sh -file=qiita.ktr

参考

SpoonやらPanやらKitchenやら、それぞれの説明はここをみました。

【Pentaho Lab】トレーニング１日目(Kettle:ケトル)の復習

Spoon(スプーン)…ETLをモデリングするGUIツール。Kettleの中心コンポーネント。

Pan(パン)…SpoonでモデリングしたTransformationを実行するコマンドラインツール。

Kitchen(キッチン)…SpoonでモデリングしたJobを実行するコマンドラインツール。

Carte(カルテ)…Webサーバーとして動作し、リモート(サーバー側)でTransformationやJobを実行します。

Author And Source

この問題について(Pentaho DIをサクッと触ってみる), 我々は、より多くの情報をここで見つけました https://qiita.com/otuhs_d/items/84092b1ba3ca5f0ede8f

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .