ITSM/ITIL有一個(gè)非常重要而且和日常運(yùn)維關(guān)系非常非常密切,但是在我們實(shí)踐中往往用不好就是問題管理。從我這么多年的實(shí)踐中確實(shí)是這樣,發(fā)現(xiàn)用的好的,往往是和應(yīng)用運(yùn)維和開發(fā)關(guān)系結(jié)合的非常密切。在桌面服務(wù)、應(yīng)用運(yùn)維、基礎(chǔ)架構(gòu)和基礎(chǔ)設(shè)施運(yùn)維幾塊運(yùn)維工作來看,應(yīng)用運(yùn)維在用好問題管理,是有很多工作可以做的,也是最容易發(fā)揮價(jià)值的一塊,也是實(shí)施ITSM的難點(diǎn)之一,做好了應(yīng)用運(yùn)維的問題管理也就做好了問題管理,會(huì)是項(xiàng)目的亮點(diǎn)之一,因?yàn)樗兴膫€(gè)非常重要的價(jià)值。
問題管理流程是確定某一事件或具有相同癥狀的一組事件的根本原因,制定和實(shí)施解決方案,從而防止事件再次發(fā)生的管理流程。其目的是找出事件根本原因,盡可能的給出解決方案或者臨時(shí)應(yīng)對(duì)措施。目標(biāo)是降低生產(chǎn)環(huán)境中事件發(fā)生的數(shù)量和嚴(yán)重程度,從而為企業(yè)建立一個(gè)穩(wěn)定的 IT 環(huán)境,提高 IT 服務(wù)的可用性。這里涉及到二個(gè)核心的概念:?jiǎn)栴}和已知錯(cuò)誤。
問題(Problem):多個(gè)有相同現(xiàn)象的事件或一個(gè)重大的事件,并且存在某個(gè)未知原因的錯(cuò)誤的情況。
已知錯(cuò)誤(Known Error):已經(jīng)成功診斷問題的根源,找到解決方案的情況。
一個(gè)問題有幾個(gè)觸發(fā)條件,或者說有哪幾個(gè)應(yīng)用場(chǎng)景呢?有以下幾個(gè):
(1)同一個(gè)事件反復(fù)發(fā)生。這就意味著之前的事件的解決可能只是臨時(shí)解決,沒有找到根本原因、解決方案。
(2)同一個(gè)現(xiàn)象多次發(fā)生。這類就是可能是同一個(gè)系統(tǒng)、同一類設(shè)備,其現(xiàn)象相同或者相似。
(3)重大事件發(fā)生。這類往往對(duì)業(yè)務(wù)產(chǎn)生了重大影響,這類事件可能在事件中已經(jīng)臨時(shí)、應(yīng)急處理了,需要通過問題管理追查發(fā)生的根本原因和解決方案。也有可能從根本上從技術(shù)層面根本上解決了,但是要從流程、制度、管理上去找原因,為什么不可以避免。
(4)一切由臨時(shí)解決方案解決的事件。比如說“萬能的重啟”解決的事件、直接修改異常數(shù)據(jù)解決的事件等等。
(5)因?yàn)檠矙z等發(fā)現(xiàn)的未知根本原因的潛在問題和重大風(fēng)險(xiǎn)。這類可以直接觸發(fā)問題去解決,已經(jīng)發(fā)生的故障的,應(yīng)該通過事件首先處理。
運(yùn)維服務(wù)的工作,大致上可以分為桌面服務(wù)、應(yīng)用運(yùn)維、基礎(chǔ)架構(gòu)運(yùn)維和基礎(chǔ)設(shè)施運(yùn)維等。這幾塊容易把問題用好的是桌面服務(wù)和應(yīng)用運(yùn)維。對(duì)于基礎(chǔ)架構(gòu)和基礎(chǔ)設(shè)施,我的建議是一個(gè)重大事件、一個(gè)是巡檢做好,作為問題的兩個(gè)輸入即可,這個(gè)其實(shí)比較好落地,但是在問題管理中應(yīng)用不是主流。如果是就太麻煩了,比如數(shù)據(jù)中心基礎(chǔ)設(shè)施和IT基礎(chǔ)設(shè)施總是出問題不可想象,一般不太會(huì)。
桌面運(yùn)維的事件其實(shí)比較多的,但是往往容易應(yīng)急,處于救火的模式,往往是服務(wù)請(qǐng)求和簡(jiǎn)單的支持居多。另外,也主要集中在服務(wù)臺(tái)和一線運(yùn)維少數(shù)人,所以把事件升級(jí)為問題來處理的動(dòng)力和意愿不不太強(qiáng)烈。所以我建議是,更多的由服務(wù)臺(tái)主管和事件經(jīng)理盡可能多的做一些趨勢(shì)分析,主動(dòng)的問題管理。把第一類(同一事件)和第二類(同一類現(xiàn)象的事件)做實(shí),并在周報(bào)和運(yùn)維報(bào)告中體現(xiàn)出來。
對(duì)于應(yīng)用運(yùn)維,其重要性不言而喻,因?yàn)槎际菢I(yè)務(wù)系統(tǒng)。我經(jīng)常開玩笑說,花幾千萬幾個(gè)億做ERP,花幾十萬一兩百萬上一套永服科技的ITSM把SAP/ERP、CRM這些核心系統(tǒng)運(yùn)維好支持好還是非常值得的。應(yīng)用系統(tǒng)的問題,除了日常的服務(wù)請(qǐng)求之外,真正意義的故障,還是很難快速解決的。所以我的一個(gè)建議是,除了把IT部門的開發(fā)部門給服務(wù)臺(tái)做好足夠的賦能做好日常的支持之外,可以把開發(fā)部門的支持團(tuán)隊(duì)作為事件管理的三線的基礎(chǔ)上,把開發(fā)納入到問題管理。前面是在組織層面上,在技術(shù)層面同時(shí)把ITSM的問題管理和開發(fā)的相關(guān)系統(tǒng)對(duì)接,比如說和開發(fā)的缺陷系統(tǒng)、需求管理系統(tǒng)對(duì)接,永服科技這這方面的實(shí)踐非常多,比如我們CQ平臺(tái),和JIRA、禪道都對(duì)接過,也有一些只記錄缺陷號(hào)的。
所有的應(yīng)用系統(tǒng)的缺陷,都納入問題管理,并實(shí)現(xiàn)和開發(fā)系統(tǒng)聯(lián)動(dòng)。這樣其實(shí)有四個(gè)好處:
這樣把開發(fā)和運(yùn)維兩個(gè)部門拉通。避免大部分的開發(fā)游離在IT服務(wù)管理的大的框架之外,做好開發(fā)和運(yùn)維的融合,這樣更多的好處就不用多說了,例如在客觀上會(huì)提升應(yīng)用的可用性。
流程拉通和事件的閉環(huán),變更管理也有了一個(gè)好的輸入。缺陷解決了,在問題管理管理,直接發(fā)生RFC就很自然了。這樣也就實(shí)現(xiàn)了從事件到問題,從問題到變更的有機(jī)銜接,做好了應(yīng)用系統(tǒng)的事件的閉環(huán)。
提升了業(yè)務(wù)部門的滿意度。從永服科技的在眾多大型組織的IT服務(wù)管理咨詢和ITSM項(xiàng)目落地的實(shí)踐中,也確實(shí)看到研發(fā)人員的IT服務(wù)意識(shí)的是不夠的,與服務(wù)臺(tái)和運(yùn)維部門的差距挺大的。
有利于ITSM項(xiàng)目在整個(gè)組織推廣。傳統(tǒng)的上,研發(fā)往往認(rèn)為IT服務(wù)管理系統(tǒng)是運(yùn)維部門的事情,參與感和參與的意愿不強(qiáng)。
我曾見過一個(gè)電商和供應(yīng)鏈領(lǐng)域的客戶的CEO對(duì)問題和SLA非常關(guān)注,每周四下午固定的問題分析會(huì),就是組織相關(guān)人分析應(yīng)用系統(tǒng)的問題,每個(gè)問題都要找根本原因和解決方案,都有SLA。讓我非常感動(dòng),覺得這個(gè)客戶應(yīng)也應(yīng)該非常有前途,永服科技的ServiceJet-ITSM也能幫到他們。
從我在多年的實(shí)踐中,看問題管理用的好,都有上述特點(diǎn),也就是把研發(fā)納入了問題管理,客觀上也做好了應(yīng)用運(yùn)維,不管是銀行客戶還是大型的企業(yè)客戶,都是如此。
問題管理的KPI見下表:
————————————————