BigQuery + Data Portalのチュートリアルを勝手に作ってみた


まえがき

本編は以降の章からなので、ここは気が向いた人だけ読んでください。

私、再来週からデータサイエンティストになります。とりかかりとして、ダッシュボードを使った全社のデータ可視化から始めることになりました。

「開発チームがBigQueryにすでにデータを載せているので、そこにあわせる感じになるかなぁ」
「可視化はツール選定からだけど、まずはData Portalでどこまでできるか見てから決めたいね」

・・・うーん、ド素人すぎてどんなことするか全くイメージ湧かん\(^o^)/
まぁいっか、とりあえずキーワードとして出てきた「BigQuery」と「Data Portal」触ってみよう!
チュートリアルぐぐってみて・・・あれ?なんかいまのとUI違うぞ?どれ参考にするのがいいんだ?参考になるのもあるけど最初はもっとカンタンなやつがいい・・・

ということで、自作でBigQuery + Data Portalのチュートリアルを作ってみました。

本記事のターゲットと前提条件

  • ターゲット: BigQuery初心者とData Portal初心者
  • 前提条件
    • Google Cloud Platformのアカウント作成済
    • BigQueryとDataPortalについてググり済(触ったことはないけどどんなものなのかはなんとなくわかっている)

完成品

アメリカで赤ちゃんによくつけられていた名前をData Portalで可視化します。完成品はこんなかんじ↓

フィルタで性別ごとにデータ表示したりできるようになっています。
なんとなくイケてる可視化になってる気がしますね!(なにがイケてるかはわかっていない)

1. データセット作成

データセットはPopular Baby Namesからダウンロードして解凍します。(データセットの詳細はNationalReadMe.pdf参照)

今回はとにかく簡単にするために2018年のデータだけ使います。
年毎にテキストファイルとして分割されていますが、中身はちゃんとカンマ区切りになっているので拡張子だけ.csvに変えてあげます。もちろん、普通にGUIでコピペして拡張子変えるだけでもよいです。

$ cd 解凍したフォルダ
$ cp yob2018.txt yob2018.csv

これでデータセット作成完了。簡単。

2. BigQueryでデータセット・テーブルの作成

(参考)データセット・テーブルの概念: BigQueryで知っておくべき用語

  1. GCPでプロジェクト作成

  2. メニューバーから「BigQuery」を選択

  3. データセット作成
    こんなかんじ↓ データセットIDは区別できればなんでもOK。

  4. テーブル作成
    こんなかんじ↓ テーブル名は適当でOK。スキーマは手動で入力してあげてください。

  5. Data Portalにデータをもっていく
    こんなかんじ↓ 念のため、プレビューでちゃんとデータがアップロードできていることを確認しておく。
    ※ Data Portal使うのがはじめてだと、「データポータルで調べる」をクリックした後に色々と出てくるかもです

3. Data Portalで可視化

最初は表がドーンと出てきているだけなので、これをいい感じに加工して、横にグラフを並べてあげます。
「無題のエクスプローラー〜〜」と書いているところはなんかいい感じの名前に変えておきましょう。

  1. 表のパラメーターの加工

    • データ(下記以外はそのまま)
      • 指標: Number
        • 指標スライダー: ON(スライドさせることで、表示させる下限と上限の閾値を決めることができる)
      • サブの並べ替え: Name、昇順(これでNumberが同数のときはアルファベット順にデータが並ぶ)
  2. 表がデカすぎるのでスリムにする

  3. 「グラフを追加」から積み上げ縦棒グラフを横に追加

  4. グラフを加工する

    • データ(下記以外はそのまま)
      • ディメンション: ドリルダウン: なし(使わないので)
      • 指標: Number
        • 指標スライダー: ON
    • スタイル(下記以外はそのまま)
      • 棒グラフ: 横
      • 棒の数: 20
      • 下X軸: 軸タイトルを表示
      • Y軸: 軸タイトルを表示
      • 背景と枠線: 枠線に影をつける
  5. フィルタにSexを設定する

  6. 完成!(完成品と同じものができあがり)

あとは自分でフィルタ設定してみたり、指標スライダーいじってみて遊んでみてください。

あとがき

初心者による初心者のための自作チュートリアルなので、ベストプラクティス的なの無視してたりするかもですが、とりあえずアウトプットは出たので自己満足。
プロのみなさん、コメントあればぜひぜひください!

(ぼやき)Data Portalでのグラフで数値が「1万」みたいな日本語表記になるのあんまり好きじゃない。これってどこかで変えられないのでしょうか…