RAC Rebootless Restart

4965 ワード

よく知られているように、CRSは、クラスタに問題が発生した場合、ノードがネットワークハートビートを失ったり、採決盤にアクセスできなかったり、ノードに深刻なパフォーマンスの問題が発生したりした場合、クラスタの一貫性を保証するために、ノードのOSを再起動することを選択します.もちろん、ほとんどの再起動はCRSのコアプロセスocssdによって行われます.binが発起した.しかし、CRSがノード上のアプリケーションの1つにすぎないか、プライベートネットワークやストレージの問題が短時間で発生するだけであれば、ノードを再起動する動作はノード上のすべてのアプリケーションを停止させ、多くのシステムでは望ましくありません.
したがって、バージョン11.2.0.2からoracleの新しい特性rebootless restartが紹介されます.以下の場合、ノードを再起動するのではなく、クラスタデバイス(GI)がクラスタ管理ソフトウェアを再起動します.
  • あるノードが連続的にネットワーク心拍数を失ってmisscountを超えると.
  • ノードが多数の採決盤(VF)にアクセスできない場合.
  • member killがnode killにアップグレードされたとき.

  • ただし、1と2の両方を満たすと、再起動操作が発生します.以前のバージョンでは、クラスタ管理ソフトウェア(CRS)がノードを直接再起動していました.その後、上記のいくつかの状況をいくつかの例で理解します.
    1.あるノードが連続的にネットワーク心拍数を失ってmisscountを超える場合
    2010-08-13 17:00:26.213: [    CSSD][4073040800]clssnmPollingThread: node  (1) at 50% heartbeat fatal, removal in 14.540 seconds
    ……
    2010-08-13 17:00:33.227: [    CSSD][4073040800]clssnmPollingThread: node  (1) at 75% heartbeat fatal, removal in 7.470 seconds
    ……
    2010-08-13 17:00:38.236: [    CSSD][4073040800]clssnmPollingThread: node  (1) at 90% heartbeat fatal, removal in 2.460 seconds, seedhbimpd 1 ?    report           
    ……
    2010-08-13 17:00:40.707: [    CSSD][4052061088](:CSSNM00008: )clssnmCheckDskInfo: Aborting local node to avoid splitbrain. Cohort of 1 nodes with leader 2, , is smaller than cohort of 1 nodes led by node 1, , based on map type 2 ?     split-brain ,        GI。
    2010-08-13 17:00:40.707: [    CSSD][4052061088]###################################
    2010-08-13 17:00:40.707: [    CSSD][4052061088]clssscExit: CSSD aborting from thread clssnmRcfgMgrThread 
    2010-08-13 17:00:40.707: [    CSSD][4052061088]###################################
    

    2.あるノードが大多数の採決盤(VF)にアクセスできない場合
    2010-08-13 18:31:23.782: [    CSSD][150477728]clssnmvDiskOpen: Opening /dev/sdb8
    2010-08-13 18:31:23.782: [   SKGFD][150477728]Handle 0xf43fc6c8 from lib :UFS:: for disk :/dev/sdb8:
    
    2010-08-13 18:31:23.782: [    CLSF][150477728]Opened hdl:0xf4365708 for dev:/dev/sdb8:
    2010-08-13 18:31:23.787: [   SKGFD][150477728]ERROR: -9(Error 27072, OS Error (Linux Error: 5: Input/output error ?        。
    Additional information: 4
    Additional information: 720913
    Additional information: -1)
    )
    2010-08-13 18:31:23.787: [    CSSD][150477728](:CSSNM00060: )clssnmvReadBlocks: read failed at offset 17 of /dev/sdb8
    ……
    2010-08-13 18:34:38.206: [    CSSD][4110736288](:CSSNM00018: )clssnmvDiskCheck: Aborting, 0 of 1 configured voting disks available, need 1 ?   long disk timeout    ,GI     。
    2010-08-13 18:34:38.206: [    CSSD][4110736288]###################################
    2010-08-13 18:34:38.206: [    CSSD][4110736288]clssscExit: CSSD aborting from thread clssnmvDiskPingMonitorThread 
    2010-08-13 18:34:38.206: [    CSSD][4110736288]###################################
    

    3.member killがnode killにアップグレードされた場合.
    2013-01-14 23:49:52.093: [    CSSD][45]clssgmmkLocalKillThread: Time up. Timeout 30500 Start time 130388522 End time 130419022 Current time 130419087 ?member kill     
    2013-01-14 23:49:52.093: [    CSSD][45]clssgmmkLocalKillResults: Replying to kill request from remote node 1 kill id 1 Success map 0x00000000 Fail map 0x00000000
    ……
    2013-01-14 23:49:52.235: [    CSSD][31](:CSSNM00005: )clssnmvDiskKillCheck: Aborting, evicted by node , number 1, sync 239654498, stamp 130416886 ?         ,     GI
    2013-01-14 23:49:52.235: [    CSSD][31]###################################
    2013-01-14 23:49:52.235: [    CSSD][31]clssscExit: CSSD aborting from thread clssnmvKillBlockThread
    2013-01-14 23:49:52.235: [    CSSD][31]###################################
    2013-01-14 23:49:52.235: [    CSSD][31](:CSSSC00012: )clssscExit: A fatal error occurred and the CSS daemon is terminating abnormally
    

    上の出力から3つのケースでocssd.binプロセスは正常に動作し、問題が発生した場合、正しい決定を下すことができます.したがって、rebootless restartはocssdによって保証することができる.binがアクティブに開始した再起動.しかしocssdのためならbinで問題が発生したり(例えば、保留中)、オペレーティングシステムのパフォーマンスによる再起動が発生したりすると、rebootless restartは機能しません.なぜなら、ocssd.binは正常に動作せず、ノードの再起動は依然として避けられない.ノード再起動の診断方法については、前述の「11 gR 2ノード再起動の診断方法」を参照してください.
    GIはクラスタを再起動する前に,まずクラスタに対してgraceful shutdownを行い,基本的な手順は以下の通りである.
  • ローカルノードのすべてのハートビート(ネットワークハートビート、ディスクハートビート、ローカルハートビート)を停止します.
  • cssd agent,ocssd.ビンは止まる
  • は、cssに登録されたi/o能力を有するすべてのプロセス、例えばlmonを停止する.
  • cssdはcrsdにすべてのリソースを停止するように通知し、crsdがすべてのリソースを正常に停止できない場合、ノードの再起動は依然として発生します.
  • Cssdは、すべてのi/o能力を持つプロセスが終了するのを待っています.これらのプロセスがshort i/o timeout時間内にすべて遅延できない場合、ノードの再起動は依然として発生します.
  • はcssd agentにi/o能力のあるすべてのプロセスがすべて終了することを通知する.
  • Ohasdはクラスタを再起動します.
  • ローカルノードは、他のノードにクラスタ再構成を通知する.

  • 以上のように、11.2.0.2以降のクラスタでノードの再起動が見つかった場合、ocssd.binの停止またはオペレーティングシステムのパフォーマンスの問題は、まずチェックする内容であるべきです.もちろん、rebootless restartのgracefull shutdownが指定した時間内に完了しない場合、ノードの再起動は依然として発生します.ocssdを表示する必要があります.logで診断を行います.