IT運維中的不良習(xí)慣
(1).治標(biāo)不治本。IT設(shè)施故障往往是突發(fā)的、隨機(jī)的、不可預(yù)測、不可控制的.也很難自動提醒和警告。運維和管理人員成天處于高度緊張狀況,節(jié)假日也提心吊膽。一旦發(fā)生故障,往往手忙腳亂來不及仔細(xì)多方面觀察、分析原因,也無法很快準(zhǔn)確定位。為了盡快恢復(fù)業(yè)務(wù),只能采取重啟、清除等不可回朔操作。這種治標(biāo)不治本的維護(hù)措施,不能根本解決問題,類似現(xiàn)象仍然可能再發(fā)生。
(2).沒有排錯記錄。我們的很多IT人員沒有排錯記錄的習(xí)慣,這樣當(dāng)事后查找原因缺乏當(dāng)時記錄,就算找到點痕跡也缺乏進(jìn)一步分析數(shù)據(jù)。因為故障不能再現(xiàn),很難有準(zhǔn)備地捕捉有效信息。而要在生產(chǎn)環(huán)境模擬故障業(yè)務(wù)幾乎不允許。開發(fā)環(huán)境又很難模擬和再現(xiàn)。少量片面的系統(tǒng)日志很難看出問題癥結(jié),缺乏自動實時捕捉問題關(guān)鍵點并忠實記錄工具。造成問題發(fā)生后無法回朔,問題解決無法找到頭緒。
(3).缺乏統(tǒng)一的規(guī)范要求。出現(xiàn)同題時解決辦法因人而異,缺乏方法和工具,無法制定統(tǒng)一的規(guī)范要求。在專家解決問題的經(jīng)驗缺乏記錄、整理、積累和繼承。從保障穩(wěn)定看,必須高價保持足夠?qū)I(yè)運維人員。工作安排松了不利于人員發(fā)展和穩(wěn)定,但安排太緊又無法保證及時響應(yīng)和解決問題。
(4).應(yīng)對危機(jī)太被動。對反映的問題和解決狀況缺乏統(tǒng)一管理和跟蹤,全靠個人素質(zhì)和責(zé)任感。無法衡量、統(tǒng)計員工的業(yè)績貢獻(xiàn),也無法發(fā)現(xiàn)哪些問題最影響系統(tǒng)穩(wěn)定.造成問題的因素是在積累還是在減弱,更缺少預(yù)警提醒機(jī)制.只能被動無序地等問題發(fā)生甚至很嚴(yán)重了才意識到。
IT運維管理的內(nèi)容
IT運維管理是指單位IT部門采用相關(guān)的方法、手段、技術(shù)、制度、流程和文檔等,對IT運行環(huán)境(如硬軟件環(huán)境、網(wǎng)絡(luò)環(huán)境等)、IT業(yè)務(wù)系統(tǒng)和IT運維人員進(jìn)行的綜合管理。如果進(jìn)行細(xì)分的話,應(yīng)該包括以下幾個方面:
(1).設(shè)備管理:對網(wǎng)絡(luò)設(shè)備、服務(wù)器設(shè)備、操作系統(tǒng)運行狀況進(jìn)行監(jiān)控和管理;
(2).應(yīng)用/服務(wù)管理:對各種應(yīng)用支持軟件如數(shù)據(jù)庫、中間件、群件以及各種通用或特定服務(wù)的監(jiān)控管理。如郵件系統(tǒng)、DNS、Web等的監(jiān)控與管理;
(3).數(shù)據(jù)/存儲/容災(zāi)管理:對系統(tǒng)和業(yè)務(wù)數(shù)據(jù)進(jìn)行統(tǒng)一存儲、備份和恢復(fù);
(4).業(yè)務(wù)管理:包含對企業(yè)自身核心業(yè)務(wù)系統(tǒng)運行情況的監(jiān)控與管理和對于業(yè)務(wù)的管理;
(5).目錄/內(nèi)容管理:該部分主要對于企業(yè)需要統(tǒng)一發(fā)布或因人定制的內(nèi)容管理和對公共信息的管理:
(6).資源資產(chǎn)管理:管理企業(yè)中各IT系統(tǒng)的資源資產(chǎn)情況;
(7).信息安全管理:企業(yè)安全組織方式、資產(chǎn)分類與控制、人員安全、物理與環(huán)境安全、通信與運營安全、訪問控制、業(yè)務(wù)連續(xù)性管理等;
(8).日常工作管理:該部分主要用于規(guī)范和明確運維人員的崗位職責(zé)和工作安排、提供績效考核量化依據(jù)、提供解決經(jīng)驗與知識的積累與共享手段。
IT運維管理方案
(1).建立IT運維管理服務(wù)平臺
IT運維管理服務(wù)平臺幫助IT部門內(nèi)部各專業(yè)部門以單點聯(lián)系窗口的形式對外服務(wù),業(yè)務(wù)部門不必了解IT部門內(nèi)部的運作流程。只需將故障報告給IT部門服務(wù)窗口的一線服務(wù)臺人員即可。由一線支持人員對故障進(jìn)行分類以電子工單方式派發(fā)到相關(guān)的專業(yè)部門或相關(guān)人員處進(jìn)行及時處理和響應(yīng),并向用戶及時進(jìn)行反饋。用戶對不同專業(yè)部分的咨詢、問題和投訴都通過該窗口進(jìn)行,以避免用戶與各級支持人員直接聯(lián)系帶來的種種弊病。如出現(xiàn)不同問題找不同支持人員、找不到人、問題得不到及時反饋和解決等等現(xiàn)象。
(2).實現(xiàn)IT監(jiān)控和統(tǒng)一展現(xiàn)
面向業(yè)務(wù)監(jiān)控和統(tǒng)一展現(xiàn)能夠評估各種IT基礎(chǔ)設(shè)施和服務(wù)在設(shè)定的某個時段是否發(fā)揮其應(yīng)有的功能,同時實現(xiàn)對網(wǎng)絡(luò)、系統(tǒng)及應(yīng)用服務(wù)等全方位監(jiān)控的統(tǒng)一呈現(xiàn)。統(tǒng)一告警平臺匯總、壓縮和關(guān)聯(lián)各種設(shè)備或服務(wù)的告警信息,實現(xiàn)統(tǒng)一監(jiān)控和展現(xiàn)。這樣,各專業(yè)部門可以協(xié)同作戰(zhàn)發(fā)揮更大的作用。
(3).構(gòu)建科學(xué)、規(guī)范的服務(wù)流程管理
根據(jù)企業(yè)的實際組織架構(gòu),把故障支持劃分不同的類型和等級,形成梯隊化的故障處理流程,避免出現(xiàn)資源浪費。并且在每個級別的故障事件處理中,通過自動跟蹤機(jī)制實現(xiàn)故障的自動跳轉(zhuǎn)和升級,從而確保不同緊急程度的故障得到及時的響應(yīng)和處理,幫助企業(yè)建立起一套科學(xué)規(guī)范的1T服務(wù)管理流程。企業(yè)環(huán)境下首次或者突發(fā)出現(xiàn)的事件、告警或故障通過事件工單進(jìn)行處理;而對于多次出現(xiàn)、深層次、臨時恢復(fù)的告警事件,可通過問題管理進(jìn)行解決,以便于協(xié)調(diào)優(yōu)勢資源攻關(guān)和徹底解決。通過層次化、標(biāo)準(zhǔn)化、科學(xué)化的管理,量化的評估每個技術(shù)人員的工作能力,減少了故障對業(yè)務(wù)的影響,避免出現(xiàn)責(zé)任不明晰,響應(yīng)不及時的問題,提高客戶和用資源的使用更加合理。
(4).實施嚴(yán)謹(jǐn)、高效的變更審批流程
為基礎(chǔ)設(shè)施的變更提供快速的電子通道,減少變更過程中出現(xiàn)管理失控的風(fēng)險和不必要的人為干擾,縮短審批時間,提高變更實施的效率。嚴(yán)謹(jǐn)?shù)淖兏芾泶_保在變更實施過程中使用標(biāo)準(zhǔn)化的方法和流程,盡快和有效地實施變更,從而把由于變更所導(dǎo)致的事件對IT服務(wù)的影響減小到最低,同時改善了公司的日常運作。它包括一套完整的變更管理功能,包括變更的發(fā)起、審批、影響評估、派發(fā)實施等功能。以工單的形式在各部門和責(zé)任人之間流轉(zhuǎn)。
(5).IT資產(chǎn)配置完善管理
為企業(yè)建立完善的配置基線,為企業(yè)建立一套詳實的配置管理數(shù)據(jù)庫,小到主機(jī)內(nèi)存、設(shè)備端口,大到網(wǎng)絡(luò)結(jié)構(gòu)、部門或公司的建制,從有形的資產(chǎn)到無形的應(yīng)用系統(tǒng)、人力資源等都能以電子方式準(zhǔn)確記錄并長期保存。同時,資產(chǎn)配置管理與服務(wù)的事件、問題和變更流程相關(guān)聯(lián)。如變更流程審批完成之后增減的資產(chǎn)配置信息,將自動在資產(chǎn)配置管理數(shù)據(jù)庫中實現(xiàn)同步更新。
對IT運維實施有效管理,不僅能夠解放IT人員提高其工作效率,而且也是對企業(yè)業(yè)務(wù)部門的有力支持。