S3上の分析データをLookerで可視化する最速タイムアタックやってみた
概要
皆さんはLookerのようなBIツールを利用する際、表示する分析データをどの様に収集していますか?
「サービス利用」「OSS活用」「スクラッチ開発」など様々だと思いますが、今回はどれだけ速くLookerで可視化出来るかという点にこだわって検証していきます。
私の考える限り最速のLooker可視化手順をご覧ください。
↓広告・CRMツール・DBなど、S3以外のLooker可視化事例もまとめていますので、宜しければ併せて御覧ください。
https://qiita.com/hiro_koba_jp/items/2b2caa040804e402bda7
構成
データの流れやシステムの構成は以下のとおりです。ETLツールにはtrocco(トロッコ)を、DWHにはBigQueryを利用しました。
S3 -> trocco(トロッコ) -> BigQuery -> Looker
S3上に置いてあるデータは↓のようなアクセスログで、500万行(350MB)位です。
$ head -n 5 access_log.csv
uid url_path time
b8a11206-473c-4397-8524-c61c77697b70 /landing_page/1 2020-12-08 21:33:09 +0900
b8a11206-473c-4397-8524-c61c77697b70 /speakers/24 2020-12-08 21:40:09 +0900
b8a11206-473c-4397-8524-c61c77697b70 /displays/45 2020-12-08 21:49:09 +0900
b8a11206-473c-4397-8524-c61c77697b70 /cart 2020-12-08 21:55:09 +0900
タイムアタックの前提
- AWSやGCPのアカウントは事前に作成済みです
- S3へアクセスする際の認証情報とかは予めメモしてあります
- BigQueryへアクセスする際の認証情報は予め登録済みのものを使いまわしています
- Looker上のconnectionは予め作成済みのものを利用しています
Let's タイムアタック!
タイムアタックの様子をスクリーンショットでお届けしていきます!
1. troccoでETLパイプライン構築 (1分15秒)
入力しなければいけないのはこれだけです!わずか1分15秒でETLパイプラインが構築できました。
「保存して自動データ設定・プレビューへ」を押して次のステップに進みましょう。
2. troccoで構築したETLパイプラインの動作確認 (35秒)
続いて作成したETLパイプラインが正しく動くかどうか、動作確認していきます。
プレビュー生成画面に遷移したので、しばらく待ちます
約30秒ほどでプレビュー結果が返ってきました。合わせてカラムの定義(カラム名・データ型等)が正しいかも確認します
問題なさそうなので「保存して設定を完了」を押します
3. trocco ETLパイプラインを実行 (2分52秒)
trocco(トロッコ)でのETLはこれでおわりです。おおよそ5分弱でS3の分析データをBigQueryに保存出来た計算になります
4. LookerでProject作成 (40秒)
続いてLookerでの作業に移っていきます。
Projectを作成し、先程BigQuery上に転送したデータをLookerから扱えるようにします。Connectionを選択肢、データセット名などを入力するだけです
データセット内のテーブルがLookMLとして出力されるので、内容を確認します。特に問題なさそうです
5. Lookerでダッシュボードを作成 (1分40秒)
すると以下のようなグラフが出てきますので、右上の「保存」を押します
同じ要領でURL毎のアクセスカウントを集計し、最終的に以下のようなダッシュボードを作成しました
結果発表
7分ジャストでダッシュボードの構築が終わりました\(^o^)/
まとめ
いかがでしたでしょうか?私が考える限り最も速いLookerでの可視化方法のご紹介でした。
データを今すぐに分析しなければならない・・・そんな日々に追われている方、是非trocco(トロッコ)を利用してETLパイプラインを構築し、楽にLookerで可視化・分析を行われてはいかがでしょうか。
↓広告・CRMツール・DBなど、S3以外のLooker可視化事例もまとめていますので、宜しければ併せて御覧ください。
https://qiita.com/hiro_koba_jp/items/2b2caa040804e402bda7
trocco(トロッコ)は100種以上の分析データに対応しており、ETL&ワークフローが簡単に作れるサービスです。
無料トライアルを随時行っていますので、Lookerをご利用中の方は、是非ご自身のデータソースでお試し下さい。
https://trocco.io/lp/index.html
Author And Source
この問題について(S3上の分析データをLookerで可視化する最速タイムアタックやってみた), 我々は、より多くの情報をここで見つけました https://qiita.com/hiro_koba_jp/items/1e125302b1dec937387d著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .