tweetの流量をDiamond+Graphite+Grafanaで可視化する


はじめに

前回に引き続き、Diamondを使ったネタを書きます。今回は、tweetの流量を収集する機能をもったDiamond collectorを自作し、Graphite+Grafanaで可視化してみます。

Diamond, Graphite, Grafanaのことを知らない方は、以下のページを参考にしてみてください。
metrics収集ツール、Diamondで遊んでみた

collectorを自作する

準備

まず、diamond.conf にcollectorを置くディレクトリを記述します。

diamond.conf
# Directory to load collector modules from
collectors_path = /usr/share/diamond/collectors/

例えばubuntuで普通にインストールすると、上記のようになってると思います。この場合、/usr/share/diamond/collectors にあるcollectorが参照されます。今回紹介する例では、collectorをhomeに移動させて以下のようにパスを設定しました。

diamond.conf
# Directory to load collector modules from
collectors_path = /home/risuo/local/projects/risuo-diamond-collecter/collectors

collectorのディレクトリが決まったら、"twitter"というディレクトリと"twitter.py"というファイルを作成します。treeは以下のとおり。

-[9432]% pwd
/home/risuo/local/projects/risuo-diamond-collecter/collectors
-[9433]% tree twitter
twitter
├── twitter.py
└── twitter.pyc

やりたいこと

今回、以下のような機能をもつcollectorを作成しました

  • 指定したリストのtimelineを取得し、1分ごとのツイート数をhandlerに渡す

前回と同様Graphiteを使ったので、TwitterCollector -> GraphiteHandler -> Graphite なデータの流れです。

実装

こんな感じで書いてみました。
https://gist.github.com/risuoku/324ba24a8f5ed8de1ff8

基本的には、metricsを収集してpublish(handlerにmetricsを渡すメソッド)するcollectメソッドを実装することになります。
また、上記実装ではtweepyをラップしてAPI制限の上限を疑似的に拡張するための自作ツール(stapi)を使ってます。
stapi: https://github.com/risuoku/stapi

できたもの

7つの公開リストを収集対象にしています。

Grafanaで見る

  • 緑の線だけ見える7つのグラフが、各リストのデータ、右下は7つ全部重ねたもの
  • 軸の見方
    • 7つのグラフ:縦軸が1分あたりのツイート数、横軸が時刻
    • 右下のグラフ:縦軸が1分あたりのツイート数*100/そのリストの人数、横軸が時刻

見えづらいので例えば左下を拡大します。

1日のスパンで見るとこんな感じ

whisperファイルを見る

直接、Graphiteのwhisperファイルを見てみます。

-[21466]% whisper-fetch.py total6.wsp --until=1406654580 | tail -20
1406653440      2.000000
1406653500      3.000000
1406653560      6.000000
1406653620      3.000000
1406653680      2.000000
1406653740      5.000000
1406653800      4.000000
1406653860      3.000000
1406653920      3.000000
1406653980      4.000000
1406654040      0.000000
1406654100      5.000000
1406654160      2.000000
1406654220      2.000000
1406654280      3.000000
1406654340      3.000000
1406654400      4.000000
1406654460      5.000000
1406654520      3.000000
1406654580      4.000000

左カラムがunix時間、右カラムがツイート数です。60秒おきにとれているのがわかります。

分析っぽいことをしてみる

時間帯によるツイート量の違いを調べる


先に見せた1日単位のグラフと同じですが、もう一度貼ります。

  • 深夜-早朝にかけてはツイート量がかなり減少する
  • 20時-24時くらいでツイート量が多い
  • ピーク時は12[tweets/min] くらい

みたいなことがわかります。ごく普通の結果が得られました。

土日も入れて平日とのツイート量の比較をしてみます。

  • 7/26->土曜日、7/27->日曜日
  • あまり、平日と変わらないように見える

  • 全体的に、平日と土日でそれほど差がない

ツイート量が特殊なポイントを見つける

以下のグラフを見て、何か気付くところはないでしょうか。

よく見ると、普通は流量がかなり小さいはずの朝4時頃に一気にはねています。
実は、このリストはプログラミングコンテストに興味ある人を集めています。調べてみると、28日の2:00-4:30(JST) でMemSQL announces the start[c]upというイベントがあったようです。開催時刻はこちらを見るのがわかりやすいです。
プログラミングコンテストが終わった後は色々と感想を書きたくなって、早朝にもかかわらずツイートの流量が増えた、といったところでしょうか。

  • 4:30あたりで一気に増えている

ただし、この例のようにサンプル数が少ないと、特別な理由もなく急激に変化する可能性があるので注意が必要です。

似たような話

InfluxDBとGrafanaとfluentdで、twitterデータのリアルタイム集計・可視化
twitterのstreaming apiからひたすらサンプリングするためのfluentdプラグインであるfluent-plugin-twitterとInfluxDB,Grafanaを組み合わせるなどしています。

まとめ・感想

リストのtimelineの流量を測定するDiamond collectorを作成し、データ収集・可視化などしてみました。今回はプロトタイプとして単純なものを紹介しましたが、時系列データなら基本的に何でも収集できるので色々と試して遊んでみようと思います。