從國際到國內(nèi),從500強企業(yè)到普通公司,“災(zāi)備演練”一詞相信大家并不陌生,但是如何進行災(zāi)備演練?災(zāi)備演練的方法有哪些?很多人都難做出清晰明確的回答。來自美國飛康軟件的工程師JACK,帶來最新的見解。
JACK表示:“災(zāi)備系統(tǒng)建設(shè)完成后,面臨的災(zāi)難不外乎數(shù)據(jù)級別、應(yīng)用系統(tǒng)級別和災(zāi)備中心級別這三種,所有的演練,都是基于這三種級別中某一特定的場景,每一次災(zāi)難場景不同,演練的技術(shù)過程也不相同。”
在飛康看來,幾乎所有的災(zāi)備系統(tǒng)的災(zāi)難恢復(fù)預(yù)案的最初版本都是根據(jù)建設(shè)目標假設(shè)的場景提出的,這樣的災(zāi)難恢復(fù)預(yù)案的有效性以及流程是否符合企業(yè)IT部門應(yīng)對災(zāi)難的需求,企業(yè)IT部門人員技術(shù)儲備、各種資源協(xié)調(diào),災(zāi)難恢復(fù)過程組織等等都需要企業(yè)IT部門進行多次多場景的演練驗證來確認。
演練的目的決定演練的方法,通常演練方法分為三種:沙盤推演、模擬演練、實際業(yè)務(wù)接管演練。
第一種:沙盤推演
沙盤推演也叫“桌面演練”,是在“模擬演練”前進行的,沙盤推演是對初始災(zāi)難恢復(fù)預(yù)案的一個理論驗證,所有參加演練的人員和部門以會議方式,按照預(yù)先準備的災(zāi)難場景的災(zāi)難恢復(fù)預(yù)案,由參加演練的人員描述自己負責的任務(wù)模塊的響應(yīng)和處理過程。
沙盤推演可以檢驗災(zāi)難恢復(fù)預(yù)案和時間安排是否合理、人員組織是否有效、參演人員職責分工,技術(shù)儲備及處理過程是否達到預(yù)案要求。推演的結(jié)果與恢復(fù)預(yù)案的差距,進而完善恢復(fù)預(yù)案。
第二種:模擬演練
模擬演練以沙盤推演結(jié)果(優(yōu)化后的災(zāi)難恢復(fù)預(yù)案)為基礎(chǔ),模擬演練由IT部門與相關(guān)業(yè)務(wù)部門參加。它是對可能發(fā)生的災(zāi)難的處理過程的虛擬操作,通過模擬演練來驗證災(zāi)難恢復(fù)預(yù)案是否可以達到預(yù)期的目標。
模擬演練啟用實際的災(zāi)備系統(tǒng)來實現(xiàn)系統(tǒng)和業(yè)務(wù)恢復(fù),采用模擬數(shù)據(jù)和模擬業(yè)務(wù)系統(tǒng)運行來驗證演習(xí)預(yù)案。目前許多災(zāi)備技術(shù)可以完全提供不影響現(xiàn)有生產(chǎn)系統(tǒng)和容災(zāi)系統(tǒng)的災(zāi)備中心啟動功能,因此可以在災(zāi)備中心隨時獲得真實的災(zāi)備系統(tǒng)啟動環(huán)境并且可以在這個環(huán)境中施加應(yīng)用系統(tǒng)的各個模塊。演練的處理過程是高度接近真實災(zāi)難發(fā)生時的處理過程,通過演練可以檢驗災(zāi)備系統(tǒng)的可用性、災(zāi)難恢復(fù)預(yù)案的可行性以及增加參演人員對災(zāi)難處理過程的感知度,參演人員對整個災(zāi)難處理流程的熟悉程度和各自負責任務(wù)的熟練程度,增加災(zāi)難處理過程中各環(huán)節(jié)參加人員配合的默契程度。
通過模擬演練來進一步完善沙盤推演階段形成的災(zāi)難恢復(fù)預(yù)案,發(fā)現(xiàn)演練流程中存在的問題,總結(jié)演練中指揮,控制,通信等的有效性,時間安排的合理性以及資源調(diào)用,調(diào)配是否滿足演練的需求。
模擬演練是一種對現(xiàn)有生產(chǎn)環(huán)境沒有影響的演練方式,但是可以實現(xiàn)災(zāi)難恢復(fù)預(yù)案的比較完整的驗證。
第三種:實際業(yè)務(wù)接管演練
實際業(yè)務(wù)接管演練與災(zāi)難發(fā)生時處理的結(jié)果一樣,需要災(zāi)備中心真正接替生產(chǎn)運行一段時間。
實際業(yè)務(wù)接管演練可以最大限度的檢驗災(zāi)備系統(tǒng)的災(zāi)難恢復(fù)能力和災(zāi)難恢復(fù)預(yù)案。驗證災(zāi)備中心在災(zāi)難發(fā)生時的實際業(yè)務(wù)處理能力。
在實際業(yè)務(wù)接管演練中,數(shù)據(jù)回切是一個比較復(fù)雜的環(huán)節(jié)。對于數(shù)據(jù)回切,有以下兩種方式處理:
1、災(zāi)備中心運行階段驗證正確之后,放棄驗證的數(shù)據(jù),直接啟動生產(chǎn)中心系統(tǒng)恢復(fù)生產(chǎn)。
2、將災(zāi)備中心運行的數(shù)據(jù),以增量方式恢復(fù)到生產(chǎn)中心,在生產(chǎn)中心啟動生產(chǎn)。這種方式具有較大風(fēng)險,如果設(shè)定的災(zāi)難場景是大型災(zāi)難(如地震等),數(shù)據(jù)的回切則可能以全量方式進行。
絕大多數(shù)企業(yè)的災(zāi)備系統(tǒng)演練都需要按照目標和風(fēng)險度來設(shè)計。災(zāi)備演練的三種方法,以遞進的方式從紙面理論到實際操作,從業(yè)務(wù)模擬到業(yè)務(wù)實際參與等不同層面,不同深度來驗證已建成災(zāi)備系統(tǒng)的可用性,有效性,通過演練結(jié)果來修正、補充、完善災(zāi)備恢復(fù)預(yù)案并為災(zāi)備系統(tǒng)的升級建設(shè)提供理論依據(jù)及數(shù)據(jù)指標,從而使企業(yè)在信息系統(tǒng)災(zāi)備建設(shè)中有據(jù)可依,從而保證建成的災(zāi)備系統(tǒng)能充分實現(xiàn)建設(shè)的目的、達到建設(shè)的目標。
JACK最后表示,達到災(zāi)備演練的目標和完善預(yù)案是災(zāi)備演練的設(shè)計宗旨,對企業(yè)而言,切忌貪大造成不必要的生產(chǎn)風(fēng)險和浪費。