原文:《自動化運維》

一、傳統運維方式簡介

傳統的IT運維仍然是等到IT故障出現后再由運維人員采取相應的補救措施。這種被動、孤立、半自動式的IT運維管理模式經常讓IT部門疲憊不堪,主要表現在以下三個方面。

1)運維人員被動、效率低。

2)缺乏一套高效的IT運維機制

3)缺乏高效的IT運維技術工具。 

二、自動化運維簡介

IT運維已經在風風雨雨中走過了十幾個春秋,如今它正以一種全新的姿態擺在我們面前,運維自動化是IT技術發展的必然結果,現在IT系統的復雜性已經客觀上要求IT運維必須能夠實現數字化、自動化維護。

運維自動化是指將IT運維中日常的、大量的重復性工作自動化,把過去的手工執行轉為自動化操作。自動化是IT運維工作的升華,IT運維自動化不單純是一個維護過程,更是一個管理的提升過程,是IT運維的最高層次,也是未來的發展趨勢。 

三、運維自動化的具體內容

日常IT運維中大量的重復性工作(小到簡單的日常檢查、配置變更和軟件安裝,大到整個變更流程的組織調度)由過去的手工執行轉為自動化操作,從而減少乃至消除運維中的延遲,實現“零延時”的IT運維。

簡單地說,IT運維自動化是指基于流程化的框架,將事件與IT流程相關聯,一旦被監控系統發現性能超標或宕機,會觸發相關事件以及事先定義好的流程,可自動啟動故障響應和恢復機制。

3.1、建立高效的IT自動化運維管理

建立高效的IT自動化運維管理的步驟主要包括以下幾點。

1)建立自動化運維管理平臺。

IT運維自動化管理建設的第一步是要先建立IT運維的自動化監控和管理平臺。通過監控工具實現對用戶操作規范的約束和對IT資源進行實時監控,包括服務器、數據庫、中間件、存儲備份、網絡、安全、機房、業務應用和客戶端等內容,通過自動監控管理平臺實現故障或問題綜合處理和集中管理。

2)建立故障事件自動觸發流程,提高故障處理效率。

所有IT設備在遇到問題時要會自動報警,無論是系統自動報警還是使用人員報的故障,應以紅色標識顯示在運維屏幕上。然后IT運維人員只需要按照相關知識庫的數據,一步一步操作就可以。

3)建立規范的事件跟蹤流程,強化運維執行力度。

需要建立故障和事件處理跟蹤流程,利用表格工具等記錄故障及其處理情況,以建立運維日志,并定期回顧從中辨識和發現問題的線索和根源。

4)設立IT運維關鍵流程,引入優先處理原則。

設置自動化流程時還需要引入優先處理原則,例行的事按常規處理,特別事件要按優先級次序處理,也就是把事件細分為例行事件和例外關鍵事件。

3.2、IT自動化運維工具

對于企業來說,要特別關注兩類自動化工具:一是IT運維監控和診斷優化工具;二是運維流程自動化工具。這兩類工具主要應用于如下場景:

1)監控自動化:是指對重要的IT設備實施主動式監控,如路由器、交換機、防火墻等。

2)配置變更檢測自動化:是指IT設備配置參數一旦發生變化,將觸發變更流程轉給相關技術人員進行確認,通過自動檢測協助IT運維人員發現和維護配置。

3)維護事件提醒自動化:是指通過對IT設備和應用活動的實時監控,當發生異常事件時系統自動啟動報警和響應機制,第一時間通知相關責任人。

4)系統健康檢測自動化:是指定期自動地對IT設備硬件和應用系統進行健康巡檢,配合IT運維團隊實施對系統的健康檢查和監控。

5)維護報告生成自動化:是指定期自動地對系統做日志的收集分析,記錄系統運行狀況,并通過階段性的監控、分析和總結,定時提供IT運維的可用性、性能、系統資源利用狀況分析報告。