HDFSまとめ


                                                  HDFS 

一.HDfs全体の運行メカニズム:
  • クライアントは1つのファイルをHDFSに格納するが、実はHDFSはファイルをブロックに切って格納し、N台Linuxシステムに分散して格納する(ファイルブロックを格納する役割は:datanode)(重要なのはブロックを切る行為がクライアントによって決定される)
  • .
  • ファイルがブロックされて格納されると、HDFSには必ずメカニズムがあり、各ファイルのブロック情報と各ブロックの具体的な記憶機器を記録する必要がある.(ブロック情報を記録するのはnamenode)
  • はデータのセキュリティを保証する必要があり、HDFSは各ブロックをクラスタに複数のコピーを格納する(コピー数は記憶時のクライアントによって決定される).
  • まとめ:HDFSシステムは、namenodeを実行したサーバと、datanodeを実行したN台のサーバから構成されています.

  • 二.知識点:
  • メタデータはnamenodeによって管理される
  • メタデータ:HDFSのディレクトリ構造および各ファイルのブロック情報(ブロックのid,コピー数,格納場所など)
  • .
    三.namenodeメタデータの記録場所:
  • namenodeリアルタイムの完全なメタデータをメモリに保存する
  • namenodeはまた、メモリメタデータのある時間のミラーファイルfsimage
  • もディスクに格納する.
  • namenodeは、メタデータを変化させるクライアント操作をeditsログファイルに記録(類似追加)します.

  • 四.secondarynamenode責任:
  • secondarynamenodeは、定期的にnamenodeからfsimageミラーと新しく生成されたeditsログをダウンロードし、fsimageミラーをメモリにロードし、editsファイルを順次解析し、メモリ内のメタデータオブジェクトの修正(統合)統合が完了した後、内蔵メタデータを新しいfsimageにシーケンス化し、このfsimageミラーファイルをnamenodeにアップロードします.このプロセスはcheckpoint
  • と呼ばれています
  • secondary namenode checkpoint操作をするたびに、初めてcheckpointはfsimageをダウンロードする必要があります.これからダウンロードする必要はありません.自分のマシンにすでにあるからです.
  • まとめ:secondarynamenodeはfsimageとeditsを自分のマシンにダウンロードし、メタデータをシーケンス化してnamenodeに伝え、単一の障害処理を記憶することができます.だからsecondarynamenodeも配置したほうがいいです.