S3上の分析データをLookerで可視化する最速タイムアタックやってみた


概要

皆さんはLookerのようなBIツールを利用する際、表示する分析データをどの様に収集していますか?
「サービス利用」「OSS活用」「スクラッチ開発」など様々だと思いますが、今回はどれだけ速くLookerで可視化出来るかという点にこだわって検証していきます。
私の考える限り最速のLooker可視化手順をご覧ください。

↓広告・CRMツール・DBなど、S3以外のLooker可視化事例もまとめていますので、宜しければ併せて御覧ください。
https://qiita.com/hiro_koba_jp/items/2b2caa040804e402bda7

構成

データの流れやシステムの構成は以下のとおりです。ETLツールにはtrocco(トロッコ)を、DWHにはBigQueryを利用しました。

S3 -> trocco(トロッコ) -> BigQuery -> Looker

S3上に置いてあるデータは↓のようなアクセスログで、500万行(350MB)位です。

$ head -n 5 access_log.csv
uid     url_path        time
b8a11206-473c-4397-8524-c61c77697b70    /landing_page/1 2020-12-08 21:33:09 +0900
b8a11206-473c-4397-8524-c61c77697b70    /speakers/24    2020-12-08 21:40:09 +0900
b8a11206-473c-4397-8524-c61c77697b70    /displays/45    2020-12-08 21:49:09 +0900
b8a11206-473c-4397-8524-c61c77697b70    /cart   2020-12-08 21:55:09 +0900

タイムアタックの前提

  • AWSやGCPのアカウントは事前に作成済みです
  • S3へアクセスする際の認証情報とかは予めメモしてあります
  • BigQueryへアクセスする際の認証情報は予め登録済みのものを使いまわしています
  • Looker上のconnectionは予め作成済みのものを利用しています

Let's タイムアタック!

タイムアタックの様子をスクリーンショットでお届けしていきます!

1. troccoでETLパイプライン構築 (1分15秒)

トップ画面から「転送設定を作成」をクリック

転送元・転送先を選択

設定画面に入り、S3の設定をしていきます

続いてBigQueryの設定です

入力しなければいけないのはこれだけです!わずか1分15秒でETLパイプラインが構築できました。
「保存して自動データ設定・プレビューへ」を押して次のステップに進みましょう。

2. troccoで構築したETLパイプラインの動作確認 (35秒)

続いて作成したETLパイプラインが正しく動くかどうか、動作確認していきます。
プレビュー生成画面に遷移したので、しばらく待ちます

約30秒ほどでプレビュー結果が返ってきました。合わせてカラムの定義(カラム名・データ型等)が正しいかも確認します

問題なさそうなので「保存して設定を完了」を押します

3. trocco ETLパイプラインを実行 (2分52秒)

保存後の画面右上に「実行」ボタンがあるので、これを押します

するとすぐにETLの実行が開始します。しばらく待ちます

ETLジョブの実行が完了しました。約2分46秒かかりました

trocco(トロッコ)でのETLはこれでおわりです。おおよそ5分弱でS3の分析データをBigQueryに保存出来た計算になります

4. LookerでProject作成 (40秒)

続いてLookerでの作業に移っていきます。

Projectを作成し、先程BigQuery上に転送したデータをLookerから扱えるようにします。Connectionを選択肢、データセット名などを入力するだけです

データセット内のテーブルがLookMLとして出力されるので、内容を確認します。特に問題なさそうです

5. Lookerでダッシュボードを作成 (1分40秒)

空のダッシュボードを作り、タイルを追加していきます

先程作成したProjectのExploreを選択します

グラフ作成画面が出てくるので、下の様に操作していきます

すると以下のようなグラフが出てきますので、右上の「保存」を押します

グラフの1つ目が出来ました

同じ要領でURL毎のアクセスカウントを集計し、最終的に以下のようなダッシュボードを作成しました

結果発表

7分ジャストでダッシュボードの構築が終わりました\(^o^)/

まとめ

いかがでしたでしょうか?私が考える限り最も速いLookerでの可視化方法のご紹介でした。
データを今すぐに分析しなければならない・・・そんな日々に追われている方、是非trocco(トロッコ)を利用してETLパイプラインを構築し、楽にLookerで可視化・分析を行われてはいかがでしょうか。

↓広告・CRMツール・DBなど、S3以外のLooker可視化事例もまとめていますので、宜しければ併せて御覧ください。
https://qiita.com/hiro_koba_jp/items/2b2caa040804e402bda7

trocco(トロッコ)は100種以上の分析データに対応しており、ETL&ワークフローが簡単に作れるサービスです。
無料トライアルを随時行っていますので、Lookerをご利用中の方は、是非ご自身のデータソースでお試し下さい。
https://trocco.io/lp/index.html