一回のDNS重大な運営事故の教訓

1349 ワード

長い間SAをしないので、以前ほど敏感ではないことがあります.昨日はついに事故があったが、幸いにも商業システムではなかったので、もしそうなら、絶対に重大な事故に足りると思います.一筆書き,教訓を残す.
簡単に言えば、私自身のメールサービスのあるドメイン名は、GoDaddyのシステムを通じてライセンスドメイン名サーバーを変更する際に問題が発生しました.この問題はGoDaddyのバグによるはずですが、結果は深刻で、そのドメイン名のglueレコードはすべてクリアされました.事後検査whois記録で見た状態はこうです.

Domain ID:D104XXXXXX-LROR
Domain Name:XXXXXXXXXX
Created On:XX-XX-XXXX XX:XX:XX UTC
Last Updated On:07-Jul-2011 XX:XX:XX UTC
Expiration Date:XX-XXX-XXXX XX:XX:XX UTC
Sponsoring Registrar:GoDaddy.com, Inc. (R91-LROR)
Status:CLIENT DELETE PROHIBITED
Status:CLIENT RENEW PROHIBITED
Status:CLIENT TRANSFER PROHIBITED
Status:CLIENT UPDATE PROHIBITED
Registrant ID:CR29XXXXX
Registrant Name:Xin LI
[...]
Tech FAX:
Tech FAX Ext.:
Tech Email:XXXXXXXXXXXXXXXXXXX
Name Server:
Name Server:
Name Server:
Name Server:
Name Server:
Name Server:
Name Server:
Name Server:
Name Server:
Name Server:
Name Server:
Name Server:
Name Server:
DNSSEC:Unsigned

メールシステムにとって、このような状況が発生した結果は極めて深刻です.RFC 5321によれば、メールシステムのダウンタイム問題に対する許容時間は少なくとも数時間であるが、ドメイン名解析に問題が発生した場合、通常、システムは、メールキューに入っていないメールを直ちに4 yzで応答して拒否する理由がある.幸いなことに、この問題は長く続かず、このドメイン名は代替のメールドメイン名にすぎません.
いくつかの教訓:
  • ドメイン名の構成を変更した後、その結果をよく確認しなければならない.この問題については、ルートzoneの更新を確認した後、ドメイン名のglueレコードが正常かどうかを確認しなければならない.
  • 登録者のドメイン名構成を変更する場合は、前の操作が完了したことを確認してから次の操作を行う必要があります.
  • ドメイン名サービスを監視する必要があります.