Amazon S3へのデータバックアップと世代管理設定


「重要なデータはクラウドバックアップ!」的なことが当たり前になりつつあるご時世ですが、バックアップデータのバージョン管理(世代管理)やライフサイクル設定の記事は意外と少ないです。今回はクラウドバックアップしているデータを復旧させるときにどの時点まで戻せるか(RPO)を考慮して、Amazon S3 へデータバックアップを行う場合の設定をお試ししたいと思います。

今回のゴール

毎日定時にサーバ内のデータをAmazon S3へバックアップし、5世代前まで保存する環境を構築する。(古い世代のデータは古い順に自動的に削除していく)

完成イメージ

前提条件

  • 定期的にAmazon S3へデータバックアップできるサーバもしくはNAS がある ※今回はEC2を使います
  • バックアップ先として利用するのはAmazon S3(Standard)

設定概要

[1] Amazon S3 のバケットの作成および世代管理、ライフサイクルの設定
[2] EC2 にS3へのアクセス権を持つIAMロールのアタッチ
[3] サーバ側のタスクスケジューラーにバックアップジョブの設定

やってみた

まず[1]の設定ですが以下のように設定します。
該当のバケットを選択し、「プロパティ」をクリックする

①設定したいバケットのバージョニングを有効にする

「編集する」をクリックし、「有効にする」へ変更

②設定したいバケットで以下のライフサイクルルールを設定する

バケット内の特定のフォルダにルールを適用させたい場合は「1つ以上のフィルターを~」の方を選択してください。

  • アクションで「オブジェクトの現行バージョニングの有効期限が切れる」を設定し、オブジェクト作成後の日数を"1" に設定

  • アクションで「オブジェクトが以前のバージョンを完全に削除する」を設定し、オブジェクトが以前のバージョンになってからの日数を”5”に設定

上記の設定により、アップロード後1日で、有効期限切れというフラグが立ち、5日後に有効期限切れのデータを削除するというライフサイクルを設定することができます。
これでS3バケット側の設定は完了です。

続いて[2]の設定を行います。
EC2へのIAMロールのアタッチは以前別の記事で書きましたのでご参考までに。
Amazon EC2(Amazon linux)から直接S3へのファイルコピー

最後にAWS CLI のコマンドでS3バケットへデータをバックアップするバッチをサーバのタスクスケジューラーに登録して、自動更新してくれるようにします。
今回はEC2のCドライブ直下に「Xフォルダ」を作成し、その中のデータをS3へアップロードする設定にしたいと思います。
 ※タスクスケジューラー設定前に事前にXフォルダの作成とデータの格納は手動で行っておいてください。

バッチファイルの中身は以下のような感じです。

# Cドライブ直下のXフォルダに移動
pushd C:\X
# Xフォルダの中身をフォルダごとS3バケットに同期
aws s3 sync . s3://{S3バケット名}/ --delete

コマンド構文は
aws s3 sync {同期元} {同期先}/ {オプション}という形です。
ちなみに"--delete" は同期元にないデータは同期先から削除するオプションです。

このバッチファイルをこんな感じでサーバのタスクスケジューラーに登録して、毎日定時で動作するようにします。

サーバ側ではフォルダの中はこんな感じです。

上手くコマンドが動作して、同期できるとS3側だと以下のように見えます。

指定した日数が経過するとこんな感じで削除マーカがついて、古いデータが消されたようになります。

注意点

バケットへのデータを差分バックアップにしていると一定時間更新されていないファイルはS3バケットから削除される?

これはライフサイクルの「オブジェクトの現行バージョニングの有効期限が切れる」という設定が影響しています。初回にバックアップデータとしてアップロードされてからそれ以降の更新がないデータの場合、1世代目がアップロードされてから指定した期間で現行バージョンの有効期限が切れて、指定期間後に「以前のバージョンを削除する」設定により、削除するという動きになるようです。
更新するフォルダとしないフォルダがある場合はライフサイクル適応のオプションでプレフィックス(フォルダパス)を指定してやりましょう。
差分バックアップではなく、更新しないデータもそのまま上書きされるのであれば、全部のデータがごっそり更新されていくので問題ないと思われます。

aws cli でフォルダごとバックアップときはcp ではなく、sync を利用する

cpは特定のファイルをコピーする場合で、フォルダ(ディレクトリ構造)はコピーできません。代わりにsyncを利用すればフォルダごとコピー可能です。※--recursiveオプションを使う方法もあるようですが上手くいきませんでした...

時間設定について

○○日後などのタイムスケジュールを登録する際にその時間はUTCなのか、日本時間なのかをよく確認しておきましょう。日本時間の0:00に動作すると思っていたら9:00(日本時間はUTC+9時間)に動作するようになっていたということにならないように...

おわりに

需要がありそうな機能なのに、検索してもあまり設定内容紹介の記事が出てこないので、書いてみました。
AWSのBusinessSupportに問い合わせて「それでいいと思う」的な回答はもらいましたが間違っていたら、あしからずm(_ _)m そしてご指摘頂けると幸いです。