原文:《數據中心基礎設施運維管理——應急管理》

應急管理,是對數據中心運維過程中所發生的緊急的非常態運行狀況的措施部署與管理,數據中心基礎設施的運行可能會遇到緊急狀況的發生,而緊急狀況是數據中心基礎設可靠性和業務連續性的最大挑戰,辨識和處理緊急狀況是衡量運維能力的重要指標。運維要時刻準備好面對緊急狀況的發生,實際中,由于緊急狀況難以提前判斷,所以對于應急工作的管理,更多體現在各類應急場景的應急預案準備和演練的機制及措施上。

一、應急管理的定義

  1.應急的定義

    應急是對超出一般運行狀態的工況立即采取必要的應對措施,以降低突發狀況給系統可用性和連續性帶來的威脅和影響。

  2.應急管理的定義

    應急管理是根據數據中心實際運行情況為緊急和突發的非正常運行工況而設定的一系列流程、制度、預案等應對措施的管理工作。

二、應急管理的目的

    應急管理的目的是能夠及時和正確地處理突發緊急狀況,達到預期處理效果,降低或消除影響,恢復數據中心基礎設施系統的可用性。具體表現在:

    1)使運維人員有采取應急措施的依據,且能正確高效處理應急狀況。

    2)對應急狀況控制和監控,降低損失,保障運行現場的人員安全和設施安全。

    3)盡快恢復系統運行和盡可能恢復服務等級。

三、應急管理的范圍

    應急管理的范圍包括基礎設施運維過程中產生的所有應急狀況。應急狀況一般分為兩類:一類是常規的緊急事件,不可預估,需設置一般性應急處理流程,另一類是可預估應急狀況,需要制定完善的應急預案,定期實施應急演練。

四、應急管理的流程

  1.主要流程

    應急管理的流程應當是針對數據中心實際運行情況,從風險分析開始到正確處理應急事件的全過程,主要包括:

    1) 風險分析。

    2)場景梳理。

    3)體系建立。

    4)應急演練。

    5)優化配置。

    6) 循環改進。

  2.應急響應

    突發或緊急事件發生時,應按照分級負責、快速反應的原則響應,數據中心應急預案及響應等級劃分可參照國家應急預案標準,結合數據中心的屬性和等級制定。應急預案應按照風險發生的可能性以及發生后果的嚴重性制定,并應確保對應應急場景下的可接受的服務目標的實現,應急預案不僅包括 EOP,還應包括以下內容:

    1) 應急預案的使用原則和適用場景。

    2) 應急人員的組織架構及職責。

    3) 警報等級的劃分及啟動應急響應的策略.

    4) 應急狀況下的通報制度。

    5) 應急狀況下的關鍵可用資源。

    6) 應急狀況所造成直接后果的詳細說明。

    7)在預定的時間里繼續或恢復數據中心運行的具體措施。

    8) 應急結束后的退出過程及善后工作。

    9) 應急處理信息的存檔。

  3.與其他流程的關系

    應急狀況發生時,可能會觸發其他流程,此時就要與其他流程共同完成應急處理。例如,事件管理流程、問題管理流程、變更管理流程等。

  4.管理策略

    應急管理應遵循以下策略:

    1) 應急處理有章可循,有法可依。

    2) 遵守國家相關法律法規,遵守數據中心所在地區的行政法律法規。

    3) 在保障運維人員生命安全的前提下,最大限度保障生產,降低損失和減小影響。

    4) 應急處理要做到統一領導,分級指揮,充分利用已備資源,突出保障重點。

    5) 應急處理的信息發布應當及時、準確、客觀、全面。

    6) 對應急處理工作進行復盤和總結。