Nginx+Expressパフォーマンス計測



この記事は リンク情報システム の「2020新春アドベントカレンダー TechConnect!」のリレー記事です。
TechConnect! は勝手に始めるアドベントカレンダーとして、engineer.hanzomon という勝手に作ったグループによってリレーされます。
(リンク情報システムのFacebookはこちらから)


はじめに

弊社で多く扱う業務系システムではミドルウェアは知名度と実績のある構成が好まれます。(多分)
WebサーバでいうとApacheの方が扱いが多くなりがちです。(多分)
Nginxを採用したいんですが、調べても説得に使えるような詳細な情報が意外と見つからない

「Nginxは速いらしいです!C10K問題にも対応可能らしいです!」
これだけで採用OKされると、さすがに別の面で心配になってしまいます。

「NginxはApacheと比較すると実測でスループットが約50%高いです!最大同時接続数もApacheの1k程度に対してNginxなら10Kいけます!」
せめてこれくらいの話はできないといかんですよね。

というわけで実際に測ってみました。

やったこと

  • NginxとApacheの性能を比較した。
  • Nginxでのチューニングによる性能の変化を確認した。
  • ついでにNginxをリバースプロキシとしてExpressに接続する構成における性能を調査した。

結果だけ知りたい人はまとめに飛んでください。

計測条件

環境

サーバ機とクライアント機をスイッチを介してギガビットイーサで接続。(実測で110MB/s)
通信帯域がボトルネックにならないように、性能計測は小さめのファイル(特に記載がなければ1KB)をダウンロードするようにしている。

サーバ機にApacheとNginxをインストールし、どちらか片方が起動するようにして計測する。
Arch Linuxにpacmanでインストールを行い、設定ファイルは性能比較に必要な箇所のみ修正している。

Apacheはmpmをpreforkに変更し、起動プロセス数を固定したときの性能を測っている。
Apacheのevent mpmは別件でこの問題が起きたので採用していない。

クライアント機(Windowsマシン)はWSLでUbuntuを導入して負荷生成用の端末としている。
計測にはnghttp2に含まれるh2loadを利用した。
ab(Apache Bench)ではHTTP/1.1の通信ができないことと、途中で無通信の時間が発生するなど結果が何故か安定しないため採用をやめた。
同時接続数やサーバの設定を変更しつつパフォーマンスを計測している。

計測コマンドは以下の通りで、100万リクエストの六回計測。
あまりにばらつきが大きいときは再実行し、結果の平均をとっている。

 for i in 1 2 3 4 5 6; do h2load -n 1000000 --clients=100 --h1 --header="Accept-Encoding: gzip,deflate" -T 60s -N 60s -t 4 http://server/test1k.txt ; done;

Expressはサイズが1KBのJSONを非圧縮固定で返すだけの簡単なプログラムを作成し、利用している。

ソフトウェアバージョン

名称 バージョン
Apache HTTP Server 2.4.41
Nginx 1.16.1

計測マシン

名称 OS CPU メモリ 
サーバ機 Arch Linux Core i5-4590S (4core) 16GB
クライアント機 WSL(Ubuntu) on Windows 10 Professional Core i5-6500 (4core) 16GB

測定結果

Apache vs Nginx

同時接続数を変えたときのApacheとNginxの性能を比較している。
どちらも性能の向上が期待できるgzipの設定を有効化。
同時接続数を増やしていき、エラーが発生しだした時点で「エラー」の表記として計測を終了する。

結果

対象 c100 c500 c1000 c5000 c10000
Nginx 64,050 63,556 61,421 54,867 44,350
Apache(500) 34,659 34,429 エラー - -
Apache(1000) 34,504 31,149 28,140 エラー -
Apache(3000) 34,570 30,769 28,364 エラー -
Apache(5000) 32,829 30,705 エラー - -

※パフォーマンスは秒間に処理できるリクエスト数(requests per second)で表記する。
※同時接続数100であればc100と表記する。
※Apache(N)はpreforkでプロセス数を常時N個を立ち上げる設定を表す。

考察

Apacheのpreforkはプロセスを増やしすぎると性能が落ちる。
同時接続数がプロセス数を上回るとエラーが出始めるので設定のバランスを取るのが難しい。
評判通り、Nginxの方が同時接続に対する耐性があるし、処理性能も高い。
性能が必要であればNginxを採用すべき。

gzip設定

圧縮の有無による性能を比較。

結果

設定 同時接続 性能(rps) CPU使用率
圧縮無効 100 44,829 10%
圧縮有効 100 61,616 70%

考察

圧縮により性能は向上する。
静的ファイルを返すだけの場合はCPUが余剰リソースとなっているため、圧縮することで伝送効率が改善して性能が向上していると思われる。
ちなみに、上記のテストでは圧縮比率が1.25であった。
CPUリソースに余裕があれば圧縮設定を入れるべき。

worker_connection設定

worker_connectionはworker_processとは無関係にNginx全体としての接続数上限の設定になっている。
worker_connectionの値を変更したときの性能を比較。

結果

設定 同時接続 性能(rps)
worker_connection=64 c1000 エラー
worker_connection=256 c1000 エラー
worker_connection=512 c1000 エラー
worker_connection=1024 c1000 38,552
worker_connection=4096 c1000 38,557
worker_connection=8192 c1000 38,194
worker_connection=65536 c1000 37,791

考察

別の性能測定でworker_connection=8192に対して同時接続10,000で負荷をかけてもエラーが起きなかったので必須というわけではないが、worker_connectionを同時接続数より同程度以上の数値にしないとエラーが起きる。
Apacheのpreforkと違い大きい値を設定しても性能劣化が少ない。
worker_connectionはシステムで想定する最大同時接続数より大きく設定すべき。

worker_process設定

worker_processの値を変更したときの性能を比較。

結果

設定 同時接続 性能(rps)
圧縮無効, worker_process=1 c1000 42,547
圧縮無効, worker_process=4 c1000 44,183
圧縮無効, worker_process=16 c1000 51,488
圧縮有効, worker_process=1 c1000 エラー
圧縮有効, worker_process=4 c1000 64,114
圧縮有効, worker_process=16 c1000 64,033

考察

圧縮無効時はプロセス数をコア数よりも多くすると性能が良くなる傾向があるが、圧縮が有効であればそうでもない。
CPUリソースが余っているとそうなるのだろうか。
圧縮を有効化したときにプロセス数が少なすぎると圧縮処理がネックとなりレスポンスを返せなくなりエラーが起きてる。
worker_processの設定はautoにするのが基本。ただし、大きめの値を設定することで性能が向上するケースがあるので要検討。

Express vs Express+PM2

素で立ち上げたExpressとPM2でクラスタ化したExpressの性能を比較。
クラスタのプロセス数は自動設定にしており、今回の測定環境ではコ4多重になっている。

※クラスタ化については https://www.yoheim.net/blog.php?q=20170706 を参照

結果

対象 同時接続 性能(rps)
Express c100 14,477
Express+PM2 c100 46,179

考察

PM2経由でクラスタすることでExpressの性能向上が見込める。
他のクラスタ化手段もあるが、PM2はソースに手を入れなくても動作する点で扱いやすい。
応答性能が必要な場合はExpressのクラスタ化は行うべき。

Nginx+Express応答性能

実験で気付いた問題点として、Nginxをリバースプロキシとして設定しただけでは、高負荷時にTIME_WAIT過多となりエラーが頻発する。
解消方法として、OSに対するtcp_tw_reuse=1の設定を行ってTIME_WAITを使い回すか、NginxとExpress間にKeepaliveを設定してTIME_WAITを減らすという二つの対策ができる。
また、そもそもネットワークを利用せず、Unix Domain Socket経由で通信を行うこともできる。
それぞれのケースでの速度を比較した。

※TIME_WAITに関しては https://www.slideshare.net/takanorisejima/timewait を参照
※Keepaliveに関しては http://blog.nomadscafe.jp/2012/02/nginx-11x-httpupstreamkeepalive.html を参照
※Unix Domain Socketの利用については https://yukidarake.hateblo.jp/entry/2015/07/29/203538 を参照

結果

設定 同時接続 性能(rps)
追加設定なし c100 1,748*
tcp_tw_reuse=1 c100 10,180
Keepalive c100 30,373
Unix Domain Socket c100 36,129

*エラーあり

考察

ネットワーク的にはソケットの使い回しを行うtcp_tw_reuseより、そもそも接続自体を再利用するKeepaliveの方が性能的に有利。
しかしそれよりも、Unix Domain Socketの方が速度が早くなる。
利用可能なときはUnix Domain Socketを採用し、利用しないときはKeepaliveを検討すべき。安全のため少なくともtcp_tw_reuseの設定は入れておく。

プロキシキャッシュ

プロキシの結果をNginxにキャッシュさせる。
Keepaliveの場合と5秒キャッシュを比較した。

結果

設定 同時接続 性能(rps)
Keepalive c100 30,373
キャッシュ c100 46,979

考察

当たり前ではあるが、転送の頻度が大幅に下がるため高負荷時は速度の向上が見込める。
システム要件で問題が無ければプロキシの結果をキャッシュすべき。

その他速度の向上しそうな設定

Nginxのチューニング情報を調べて設定の効果を試した。
sendfileはデフォルトで有効だったので確認していない。
圧縮設定は有効にした状態での計測。

結果

設定 同時接続 性能(rps)
設定なし c1000 60,604
multi_accept c1000 60,156
open_file_cache c1000 59,132
tcp_nopush, tcp_nodelay c1000 59,134
アクセスログ無効 c1000 60,307

考察

今回の測定では各設定は効果がないように見える。
もちろん測定条件によって結果が変わってくるため、それらの設定が無意味であるとは言えない。
一応入れて置く方がいいのではないかと思う。

まとめ

今回の調査で以下の情報が得られました。

  • 性能を求めるならApacheではなくNginxを採用する。
  • CPUリソースに余裕があればgzipの圧縮設定を行う。
  • worker_connectionは想定される最大同時接続数より大きめの値とする。
  • worker_processはautoが基本だが、大きい値を設定した方が性能が向上することがある。
  • Expressの性能向上にはクラスタ化が有効。
  • Nginxをリバースプロキシとして動かすときは、tcp_tw_reuseを設定する。
  • 上記に加えて、keepaliveあるいはUnix Domain Socketの利用を検討する。
  • 上記に加えて、可能であればキャッシュの利用を検討する。
  • Nginxの一般的なチューニング設定は、ベンチマークでは効果を確認できなかった。

環境によって異なる結果が出ることも当然ありますので、むやみに信じず十分確認の上で採用するようにしてください。