何もしなくても運が悪いとApacheは落ちる


TL;DR

Apache2.4.26より前のauth_digest_moduleにはバグがあり、低確率でApacheが死ぬことがある。

経緯

ほぼ自分専用で他所からは誰も来ないWebサーバを数年運用しています。

運用というか放置ですが。
開設当初にある程度の設定を行いましたが、その後は何年も更新せずに、それどころかSSH接続することすらほとんどなくほったらかしでした。
私は環境構築マニアではないので、現在動いているサーバには何もしたくないのです。
セキュリティ?知らんな。

そんなでもこれまで数年間何の問題もなく動いていたのですが、なにやら先日突然Apacheが止まりました。

調査

とりあえずApacheのステータスを確認。

● httpd.service - The Apache HTTP Server
   Loaded: loaded (/usr/lib/systemd/system/httpd.service; enabled; vendor preset: disabled)
   Active: failed (Result: exit-code) 
     Docs: man:httpd(8)
           man:apachectl(8)
  Process: 123708 ExecStop=/bin/kill -WINCH ${MAINPID} (code=exited, status=1/FAILURE)
  Process: 123702 ExecReload=/usr/sbin/httpd $OPTIONS -k graceful (code=exited, status=0/SUCCESS)
  Process: 32974 ExecStart=/usr/sbin/httpd $OPTIONS -DFOREGROUND (code=exited, status=1/FAILURE)
 Main PID: 32974 (code=exited, status=1/FAILURE)
   Status: "Total requests: 0; Current requests/sec: 0; Current traffic:   0 B/sec" 
 systemd[1]: Reloaded The Apache HTTP Server.
 systemd[1]: Reloaded The Apache HTTP Server.
 systemd[1]: Reloaded The Apache HTTP Server.
 systemd[1]: Reloaded The Apache HTTP Server.
 systemd[1]: Reloaded The Apache HTTP Server.
 systemd[1]: httpd.service: main process exited, code=exited, status=1/FAILURE
 kill[123456]: kill: cannot find process "" 
 systemd[1]: httpd.service: control process exited, code=exited status=1
 systemd[1]: Unit httpd.service entered failed state.
 systemd[1]: httpd.service failed.

止まってますね。
つぎにエラーログを確認。

# tail /var/log/httpd/error_log
[auth_digest:notice] [pid 32768] AH01757: generating secret for digest authentication ...
[auth_digest:error] [pid 32768] (17)File exists: AH01762: Failed to create shared memory segment on file /run/httpd/authdigest_shm.32768
[auth_digest:error] [pid 32768] (17)File exists: AH01760: failed to initialize shm - all nonce-count checking, one-time nonces, and MD5-sess algorithm disabled
[:emerg] [pid 32974] AH00020: Configuration Failed, exiting

なんだこれは?
調べてみると、どうやらmod_auth_digestが共有メモリを作りに行ったけど、ファイルが既に存在していたのでエラーになりました、ということらしい。
そもそもダイジェスト認証なんて使ってないんだけど、LoadModuleで呼ばれているせいかな。
わざわざコンフィグファイルのシェイプアップなんてしてなかったと思うから、そのせいでしょう。

ipcsコマンドで共有メモリファイルを確認できます。

# ipcs

------ Shared Memory Segments --------
key        shmid      owner      perms      bytes      nattch     status
0x00000000 0          root       600        327680     6          dest
0x01234567 16777214   root       600        1000       0
…

ファイルが100個くらい並んでいました。
逆に言うと、たった100個程度でファイル名が被ってApacheが落ちるなんてのは明らかにおかしいでしょう。

というわけで調べてみたら8153365579e603ec0c50c7f2c27f4a06f927edddで修正されていました。
修正自体は2015/06/10に行われたみたいですが、それがマージされたのが何故か2年も経った2017/02/08で、そしてリリースされたのは2017/06/19のApache2.4.26のようです。

すなわち、それ以前のApacheには、低確率で脈絡なく突如Apacheが落ちる潜在的バグが潜んでいるということです。

原因

auth_digest_moduleは、apr_shm_createという関数を使って共有メモリファイルを生成しています。
このときに第三引数で対象のファイル名を与えているのですが、そのファイル名の生成方法がこれ。

    client_shm_filename = ap_runtime_dir_relative(ctx, "authdigest_shm");
    client_shm_filename = ap_append_pid(ctx, client_shm_filename, ".");

ap_append_pidは、テキストの後ろにpidをくっつけるという関数です。
pidはps -efとかで出てくるやつで、ランダム性など微塵もない概ね連番になってる数桁の数字です。
たとえば、PIDが32768であれば共有メモリファイル名はauthdigest_shm.32768になります。

まとめると、たまたま前回と同じPIDでmod_auth_digestが起動するとApacheが死にます。

おそらくはauth_digest_moduleの終了時に共有メモリファイルも削除するみたいな処理が入っていると思うのですが(確認してない)、何かの拍子にファイルが残ったままになってしまうことがあり、そのときに次のauth_digest_moduleが同じPIDで起動すると死ぬということのようです。

バグ修正

ファイル名にランダム要素を加えたりするのかと思いきやそうでもなく、単に共有メモリファイルを削除してから同じファイルを作り直すという原始的対応をやってました。
そんなんでいいのかよと思ったのですが、mod_luaやらutil_ldap_cacheやらも概ね同じ作りになっていて、どうやれこれで正しいみたいです。

対応

設定ファイルからLoadModule auth_digest_moduleを削除した。

アプデしろ?
知らんな。

感想

世界でもっとも有名なソフトウェアのひとつに、わりと最近までこんな致命的なバグが潜んでいたことにびっくりだよ。
しかもそのこのバグの存在自体がネット上にほぼ存在せず、それが修正されたという情報も全く見当たらないことに再度びっくりだよ。

日本語情報はほぼ見当たらず、わずかに存在する情報もせいぜい共有ファイルを削除したまでしか実施しておらず、根本的な解決まではしていないものばかりでした。
まあ英語でも質問に回答が全くついてないとか解決策が見当違いとかばっかりで、きちんと原因まで辿り着いてる資料はほとんどなかったのですが。

ところでApache2.5αに入ってるmod_nolorisにも今回とほぼ同じバグが入っているように見えるのですが、これは大丈夫なのだろうか?

その他

ipcrm -aでApacheを即座に落とせるぞ。

特に意味はないが。