根據〔iThome 2010-12-28 〕報導:「富邦金控內湖資訊總部機房於12月27日 晚上發生火災,導致證劵電子下單服務停擺,金控fubon.com網站、部分產險網站、投信網路交易也受到影響。臺北市消防局初步鑑定,起火點為5樓機房內的配電盤,起火面積約1坪 。富邦金控表示,相關系統都有備援系統,受波及的下單系統暫時改為人工下單,預計12月29日 可以完全恢復正常運作。…消防人員一到現場時就發現,機房內的自動氣體滅火系統FM 200已經啟動發揮作用,對整個機房釋放滅火氣體,所以,起火範圍在1坪 大小之內。初步鑑定,5樓機房內的配電盤插座過於老舊導致電流超過負載而引發火災,但進一步起火原因的鑑定,還需要等消防電機專家進一步鑑識才能得知。不過,因為火災現場還是處於高溫狀態,為了徹底撲滅火勢,消防人員必須拉水線對火點周邊進行灑水降溫,雖採最小放水量,但可能會造成水滲入機房高架樓板的後遺症。…此次機房失火事件,富邦金控第一時間也在網站以及公開資訊觀測站公告,包括富邦金控網站fubon.com,以及富邦證券期貨相關的下單服務系統,富邦產險的B 2C 客戶服務專區和企業投保網站,以及富邦投信eTrade網路交易和通路服務系統都受到波及而暫停服務,其他富邦銀行系統,包括網路銀行和富邦商務網,富邦人壽的保戶線上服務、業務員網站、通路服務網和投資型商品網站則不受影響。富邦金控表示,目前相關系統都有備援系統,預計在12月29日 就可以完全恢復正常運作。而12月28日 受到機房起火事故波及的各種下單系統都暫時改由人工下單,手續費比照原本電子單收費。」…See more,See more,See more。
富邦金控此次電腦機房火災事件真是令人驚訝,這麼大的一家公司在業務連續性管理(BCM, Business Continuity Management)和ICT服務連續性管理(ICTSCM, ICT Service Continuity Management)方面的表現真是令人失望,從規劃到執行似乎都有問題,簡單討論如下:
1. 富邦金控表示預計在12月29日 就可以完全恢復正常運作,這令人覺得似乎在富邦金控的規劃中,遇到這樣的災難事件,就是需要24小時以上才能回復,也就是說其採取的回復方案是中速回復(也稱為暖備援),但對金融業而言,一般的要求是採取立即回復/熱備援的回復方案。雖然在ICT系統無法運作的期間改成人工作業,但恐怕只能服務某些大戶,無法滿足所有顧客的服務要求。
2. 如果富邦金控所採取的回復方案是立即回復/熱備援方案而機房起火面積約1坪 就可以讓備援系統停擺的話,那麼原因可能是其備援系統僅聊備一格,無法有效發揮作用,或是它把備援系統放在同一個機房裡,導致發生火災時,所有系統一併損毀。備援系統無法有效發揮作用的原因通常是回復方案的實行和操作管理出了問題,而把備援系統放在同一個機房裡則是輕忽火災發生的風險。在金融業,有一句名言:「不要把所有的雞蛋放在同一個籃子裡。」在這裡,我要為ICT管理提出另一句名言:「不要把所有的系統放在同一個機房裡。」把某些設施分別放在不同的地理位置,可以降低因為地震、水災、火災、戰爭、恐怖活動等所帶來的所有系統一併損毀的風險。如果我們看維基解密所爆料的台灣6條海底電纜登岸地點的內容的話,就可以發現這6條海底電纜的地理分布是台灣南、北各3條。這不是無意義的,而是有意的選擇,目的是降低所有海底電纜同時損毀的風險。金融業講求的是風險控管,富邦金控應該把其在金融風險控管方面的能力,應用在其ICT基礎建設的風險評估和管理上。
3. 從目前的報導中,看不到富邦金控提到任何供應商的責任,因此這應該是富邦金控本身的問題。但如果是由於供應商的緣故而延遲回復時間的話,那麼富邦金控就應該重新審查其與供應商的合約和關係。這次的事件是單純富邦金控本身發生火災而造成的,如果連這樣的事件都無法處理,更不用提發生大規模災難(例如:地震)的情況了。
4. 這次事件所牽涉到的不僅是ICT方面,也牽涉到消防安全方面。如果起火原因真的是因為配電盤插座過於老舊導致電流超過負載而引發火災的話,那麼富邦金控也必須提出並實行矯正措施,以防止這樣的事件再發生。
《《《《《《《《《《《《《《《《》》》》》》》》》》》》》》》》》
龍山顧問是ICT管理專業服務公司,服務項目包含ICT管理的出版、訓練、診斷和輔導,詳情請參考龍山顧問公司網站:http://www.longshine.tw/。
沒有留言:
張貼留言