ElixirでIoT#1.3.1:ベンチマークのパラメータを振って性能評価してみた


はじめに

どうもこんにちは.
fukuoka.exという技術コミュティにて,ElixirをIoTボードで動かしたらどうなんの?というIoT芸を披露しております.

これまでの連載記事では,IoTボード上でElixirが実行できる環境を構築し,それぞれの性能をベンチマークアプリで評価してきました.
 |> ElixirでIoT#1.0:IoTボードへのLinux環境の準備
 |> ElixirでIoT#1.1:IoTボードへのElixir環境の構築とEEloTツールキットの紹介
 |> ElixirでIoT#1.2:いろいろ分かるベンチマークを整備してみる
 |> ElixirでIoT#1.3:IoTボードで動いた!Phoenixが立った!性能評価と考察

これまでの性能評価を,下記のようにまとめました.

  • IoTボードでもElixirは動く!Phoenixだって立つ!!
  • Elixir並列処理はすごい!マイクロアーキよりコア数!!
    • IoTボードでも高性能なものをドンと置くよりもコアをズラッと並べるほうが有利!
    • XU3/A15は最大2.0GHzなのも効いている?
  • サーバ性能はネットワーク接続方法も大事なのかも?
    • Ethernet接続で対決させたら違う傾向になるかも
  • ZYBOは健闘はしたものの,,,FPGA活用に期待しましょう
  • なお消費電力は??
    • ZYBO << XU3 < RPi3 <<<(超えられない壁)<<< Mac
  • EEloTを使えば性能の比較評価もお手のもの

今回(と次回)は,連載記事#1.3で実施した評価実験をさらに深掘りしてます.各種ベンチマークのパラメータを振ってみて性能評価してみたいと思います.

用意した評価環境

IoTボード環境

下記3ボード4種類を用意しました.

詳細なスペックは連載記事#1.0をご参照ください.

ベンチマークアプリ

下記の3種類を用意しました.

  • leibniz_formula.ex
    • ライプニッツ級数による円周率の計算
    • 浮動小数点演算の性能を評価
  • fibonacci_simple.ex
    • フィボナッチ数列の単一プロセス版
    • 整数演算および再帰によるスタック消費時の性能を評価
  • fibonacci_process.ex
    • フィボナッチ数列のマルチプロセス版
    • 並列処理時の性能を評価

詳細な説明は連載記事#1.2をご参照ください.

ベンチマーク用のソース

性能評価を楽にするために,下記のソースを用意しました.
まぁパラメータを配列にして引数で順に渡してるだけです^^;
なお,最初のパラメータ値が連続しているのは,評価時にキャッシュの影響を除去するためです.まぁまぁ無視できない挙動の誤差がありました.

measure.ex
defmodule Measure do

  @lf_arg [10, 10, 100, 1_000, 10_000, 100_000, 1_000_000, 10_000_000, 100_000_000]
  def leibniz do
    IO.puts "Measurement of LeibnizFormula start.\n"
    IO.puts "arg,time[us]"
    Enum.each(@lf_arg, fn(i) ->
      {time, _} = :timer.tc(LeibnizFormula, :calc, [i])
      IO.puts "#{i},#{time}"
    end)
  end

  @fs_arg [10, 10, 100, 200, 500, 1_000, 2_000, 5_000, 10_000, 20_000, 50_000, 100_000]
  def fibsimple do
    IO.puts "Measurement of FibonacciSimple start.\n"
    IO.puts "arg,time[us]"
    Enum.each(@fs_arg, fn(i) ->
      {time, _} = :timer.tc(FibonacciSimple, :fib, [i])
      IO.puts "#{i},#{time}"
    end)
  end

  @fm_arg [1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16]
  @fm_process [37,37,37,37,37,37,37,37,37,37]
  def fibmulti do
    IO.puts "Measurement of FibSolver start.\n"
    IO.puts "arg,time[us]"
    Enum.each(@fm_arg, fn(i) ->
      {time, _} = :timer.tc(Scheduler, :run, [i, FibSolver, :fib, @fm_process])
      IO.puts "#{i},#{time}"
    end)
  end
end

評価結果

さて今回の評価結果です.

leibniz.ex

和の上限を[10, 100, 200, 500, 1_000, 2_000, 5_000, 10_000, 20_000, 50_000, 100_000]で振ってみました.

おぉ見事な線形関係!でもまぁ他に言うことはありません
なおグラフの縦軸・横軸は対数表記にしています.

fibonacci_simple.ex

数列の項数を[10, 100, 200, 500, 1_000, 2_000, 5_000, 10_000, 20_000, 50_000, 100_000]で振ってみました.

こちらはちょっとばらつきがありますが,やはりお見事な相関関係です.なおこれも縦軸・横軸は対数表記です.
項数が小さいときはODROID-XU3のほうがRP3Bより優れていますが,大きくなると優位性が逆転しました.つっても誤差の範囲内です.再帰処理なのでカーネルによるメモリ管理がこの傾向に影響してくるのかもしれません.
ちなみにZYBOでは100_000の時にheapメモリ不足による実行エラーが発生しています.

fibonacci_process.ex

37までの数列を10個同時に求める設定として,並列プロセス数を1から16まで順に振ってみました.

RP3BとZYBOについては,それぞれの物理コア数である4と2までは,プロセス数に比例して性能向上していることが分かります.Elixir/Erlangの並列性能をうまく発揮できていますね.

8コアのODROID-XU3についてはちょっと気になります.他のIoTボードよりも優れた性能を示していますが,甘めに見ても6プロセス辺りまでで並列性能の効果が頭打ちになっています.
ODROID-XU3に搭載されているExynos 5 Octa 5422では,4コアのCortex-15と4コアのCortex-A7は別々のクラスタで構成されていて,それらがL2キャッシュを介して密結合されています.このSoCアーキテクチャの特性のために,全コア数ほどの並列性能を発揮できなかったのかもしれません.

まとめ

  • EEloTベンチマークアプリのパラメータを振って性能評価してみました
    • パラメータにうまく比例した性能を発揮!
    • コア数についての並列性能もお見事!でもSoCアーキには要注意!?

よろしければ「いいね!」いただけるととっても嬉しいです.
「ElixirでIoT芸」に需要あるのか露頭に迷っている書き手の励みになります