容錯 (Fault Tolerance):指在計算機系統的軟件、硬件發生故障時,保證計算機系統中仍能工作的能力。
區別 :容錯可以通過硬件冗余、錯誤檢查和熱交換 再加上特殊的軟件來實現,而容災必須通過系統冗余、災難檢測和系統遷移等技術來實現。當設備故障不能通過容錯機制解決而導致系統宕機時,這種故障的解決就屬于容災的范疇。
什么是災難恢復 (Disaster Recovery):指的是在災難發生后,將系統恢復到正常運作的能力。
區別 :容災強調的是在災難發生時,保證系統業務持續不 間斷地運行的能力,而災難恢復強調的災難之后,系統的恢復能力。現在的容災系統都包含著災難恢復的功能,所以本文的討論除了包括容災方面的內容,還包括了 災難恢復的部分內容。
容災系統在企業中給與數據安全系數相當高的保障,但是容災系統倒是是什么,他們是什么意思?恐怕連正在使用容災備份的網絡管理人員都不能解釋。本文用最淺顯的語言給大家解釋容災備份到底是什么。
2.容災和備份的目的不同
容災系統的目的在于保證系統數據和服務的“在線性”,即當系統發生故障時,仍然能夠正常地向網絡系統提供數據和服務,以使系統不致停頓。
而容災備份技術的目的與此并不相同,備份是“將在線數據轉移成離線數據的過程”,其目的在于應付系統數據中的邏輯錯誤和歷史數據保存。
所以,在各種容錯技術非常豐富的今天,備份系統仍然是不可替代的。
3.備份是基石
備份是指為防止系統出現操作失誤或系統故障導致數據丟失,而將全系統或部分數據集合從應用主機的硬盤或陣列復制到其它的存儲介質的過程。
備份是數據高可用的最后一道防線,其目的是為了系統數據崩潰時能夠恢復數據。
4.容災不可少
那么建設了備份系統,是否就不需要容災備份系統?這還要看業務部門對RTO(恢復所需的時間指標)/RPO(能夠恢復到的最新狀態)指標的 期望值,如果允許1TB的數據庫RTO=8小時,RPO=1天,那備份系統就能滿足要求。同時,備份的目的在于應付系統數據中的邏輯錯誤和歷史數據保存。只能夠滿足數據丟失、數據破壞時的數據恢復目的,而不能提供實時的業務接管功能。
因此容災系統對于某些關鍵業務而言也是必不可少的。人們談及容災備份往往是針對當生產系統,不能正常工作時,其業務可由容災系統接替這些業務,繼續進行正常的工作。
能夠提供很好的RTO和RPO指標。同時遠程容災系統具備應付各種災難,特別是區域性與毀滅性災難的能力,具備較為完善的數據保護與災難恢復功能,保證災難降臨時數據的完整性及業務的連續性,并在最短時間內恢復業務系統的正常運行,將損失降到最小。
5.容災不能替換備份
容災系統會完整地把生產系統的任何變化復制到容災端去,包括不想讓它復制的工作,比如不小心把計費系統內的用戶信息表刪除了,同時容災端的 用戶信息表也會被完整地刪除。如果是同步容災,那容災端同時就刪除了;如果是異步容災,那容災端在數據異步復制的間隔內就會被刪除。這時就需要從備份系統 中取出最新備份,來恢復被錯誤刪除的信息。因此容災系統的建設不能替代備份系統的建設。
6.規劃企業安全保障體系考慮的因素
對于企業而言到底應該如何建設自己的災備系統,是只建設備份系統、還是只建設容災系統、還是需要二者同時建設、或者是分步驟的建設,誰先誰后等問題,主要根據業務的需求而定:
(1)需要防范的災難類型:
企業信息系統可能遇到的災難類型及其發生的比例如下:
對于“人為錯誤”、“軟件損壞和程序錯誤”加上“病毒”等這些都稱為邏輯錯誤,占總故障的 56%,這些錯誤只能通過備份系統才能防范;
對于“硬件和系統故障”以及“自然災難”等故障可以通過在容災系統(或者異地備份)來防范,占總故障率的44%。
(2)允許的RTO和RPO指標
從技術上看,衡量容災系統有兩個主要指標:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了當災難發生時允許丟失的數據量;而RTO則代表了系統恢復的時間。
一般而言:容災系統能夠提供較好的RTO和RPO指標。
(3)系統投資
總的說來,建設備份系統的投資遠比建設標準意義的容災系統的投資小得多:
備份系統的投資規模一般在幾百萬;
而最節省的一套容災系統投資都將上千萬;
災難恢復與投資關系:
7.常用的災備組合方式
基于以上原因,業界在災備系統的建設上一般按照以下幾種方式:
建設機房內的本地備份系統
建設異地的備份系統
該方式可以備份系統的價格滿足備份和異地容災功能,能夠避免主生產中心由于地震、火災或其他災害造成的數據丟失。
備份系統+異地容災系統
這是一個較為理想化的容災系統一體化解決方案,能夠在很大程度上避免各種可能的錯誤。