據〔iThome 2015-03-12〕報導:「DNS錯誤引發蘋果iTunes、App Store等商店服務停擺近12小時。…多項蘋果商店服務斷線,影響所有用戶,使得使用者無法在App Store、iTunes Store、iBooks Store或Mac App Store下單購買。而iCloud帳號及登入服務也受到影響…」…see more, see more。
由於DNS錯誤,引發服務停擺近12小時!這在一般的公司或許會發生,但Apple發生這樣的事,實在令人感到驚訝。
DNS技術規範有幾+年的歷史,相關的技術已經相當成熟,Apple發生了這樣的事,我只能猜想,Apple的DNS架構一定非常複雜,而且在管理上有問題。
為了資訊安全,如果公司的ICT系統發生問題,對外通常不會提及詳細的原因,而僅做簡單的說明。這樣做是對的。因為ICT系統發生問題,通常也表示ICT系統有弱點,如果敘述得太詳細,被有心人(例如駭客)得知、加以利用,就會提高公司的風險。
因此,根據Apple的說明,我們無從得知DNS錯誤的真正原因,或甚至Apple線上服務斷線的真正原因(例如駭客攻擊)。但很明顯地,這是管理上出問題,而不只是技術上的失敗。
因為,Apple的這些服務都是已經在商業上運轉很久的系統,所有技術上的問題應該都已經獲得解決。商轉中的系統如果出了大問題,例如Apple這次長達12小時、大規模的服務斷線,大概都是因為管理不當所致。
這次事件的發生,可能涉及多個管理流程的失敗,而我認為需為這次事件負最大責任的,應該是「異動管理(change management)」流程。也就是說,Apple的此次事件,係因為異動管理失敗而導致。
因為,Apple的這些系統運轉得好好的,如果只是因為某個元件發生故障,應該不至於導致長達12小時、大規模的服務斷線,會產生這樣的結果,應該是進行重大的異動並且因為管理不當而導致。
在異動管理,基本上,異動應先經過風險評估,然後進行異動的建造、測試和實行,這包含「撤回計畫(backout plan)」的擬訂。
Apple可能低估此次異動的風險,因而在異動的建造、測試和實行上掉以輕心,這包含撤回計畫的擬訂和測試,導致在異動實行失敗後,無法立即撤回到原先的狀態。
這個的結果,就是長達12小時的大規模服務斷線以及數千萬美元的營業損失,而這還未包含商譽損失在內,真慘!
《《《《《《《《《《《《《《《《》》》》》》》》》》》》》》》》》
l 如果你是高階經理人,你如何讓企業和ICT(資訊和通訊科技)的策略和目標結盟,以提升企業的競爭優勢?你應該作成哪些與ICT相關的決策,而不會讓ICT花費大筆的預算,卻達不到你想要的結果?
l 如果你是資訊長,你如何擬定ICT的策略和目標,與事業單位溝通,建立ICT組織,扮演好ICT的角色,以提升企業的競爭優勢,而不會被批評為只是花錢的單位,毫無貢獻?
l 如果你是資訊部門經理,你如何根據企業的ICT策略和目標,建立相關的流程和組織,例如:服務要求管理流程、意外事件管理流程、異動管理流程、資訊安全管理流程等等,並且據以實行,以達成ICT目標?
l 如果你是系統、網路、應用軟體管理、設計、開發、操作人員,你如何將自己從技術人員提升到管理人員,對企業整體的ICT基礎建設及其管理有一個全面的了解,從而提升自己在公司的地位?
l 如果你從事於資訊服務業,你如何管理本身和顧客的ICT基礎建設、如何擬定合理的價格、如何與顧客談判服務水準並且擬定服務水準協定(SLA)?
龍山顧問所出版的《資訊和通訊科技基礎建設管理系統(Information and Communications Technology Infrastructure Management System, ICTIMS)》書籍和相關服務,能夠提供上述問題的解答、滿足你的需求,詳情請參考龍山顧問公司網站http://www.longshine.tw/。