據〔聯合新聞網 2011/04/22 〕報導:「亞馬遜公司的「雲端運算」伺服器21日發生故障,使幾十個網站為之停擺或功能大減,包括Foursquare和Quora等風行的社群網站。專家說,這次證明企業不宜完全依賴雲端服務來代勞重要功能。…Foursquare、Quora、Reddit、Moby、和Hootsuite等網站都受波及,只能發布道歉訊息並等待亞馬遜修復。」…See more…See more。
Amazon號稱其可利用性服務水準為99.95%,這意味一年(以365天計)只會故障262.8分鐘,或4.38小時。Amazon敢做出這樣的保證,可見其對於其所提供的雲端服務以及所建立的ICT基礎建設有相當的信心。可惜的是,此次當機8小時以上,Amazon不僅必須賠償客戶,也將打擊客戶對其雲端服務的信心。
Amazon此次的當機事件,從上述的報導得知,大概是可利用性設計、回復設計、服務連續性管理以及容量管理方面的問題,可能的原因如下:
l
Amazon的北維吉尼亞機房停電而導致此次災難。我並不認為Amazon的機房會沒有備援電力,因此比較可能的原因會是,電力供應設備的維護保養不確實,以致於備援電力在需要時無法正常啟動。
l
也有可能是ICTSCM計畫有漏洞或演習不確實,以致於在發生災難時,無法如預期般應付和解決。
l
對於EBS,Amazon似乎並沒有備援機制,以致於雖然Amazon在美國有多處機房,卻無法將工作移轉出去,而Amazon北維吉尼亞機房又沒有充足的容量以進行回復,更使得情況雪上加霜。
當然,這次災難也有可能是駭客攻擊的結果。
有專家說,此次災難證明企業不宜完全依賴雲端服務來代勞重要功能。那麼企業要依賴誰?要花多少錢?隨著雲端運算的發展,企業將越來越依賴雲端服務。所以,問題不在於企業要不要使用雲端服務,而是如何管理雲端服務。
這次災難再次證明雲端資源管理的重要。在這裡,我把之前在「雲端資源的策略與管理」中的論述再提一次,供大家參考:
雲端運算讓ICT基礎建設(雲端資源)更深地介入企業的策略發展和營運流程。企業面對雲端運算,應該如何調整?是要消極地保持現狀或是積極地利用雲端運算取得競爭優勢?
ICT服務提供者可能會告訴企業應該採取什麼策略、如何運用雲端資源,但最終的決策還是要企業本身做出來。例如:使用公共雲或許在成本上可得到好處但卻冒著資訊安全的風險,自建私有雲可能比較能保障資訊安全但在成本上可能難以接受,這中間如何取捨?
企業真的要把雲端資源的策略與管理工作委外給ICT服務提供者嗎?到什麼程度?如果委外的話,如何管理外包商?當ICT服務提供者無法履行其合約承諾時,企業如何因應?
ICT服務提供者如何讓顧客能夠安心地將雲端資源的策略與管理工作委外給他?對合約承諾的履行能提供什麼樣的保證?要如何管理雲端資源?
雲端資源的策略與管理,有很多方面要考慮、有很多問題要解決,下了錯誤的決策,可能就會對公司造成嚴重的傷害。這不僅對一般企業是如此,對ICT服務提供者也是如此。
因此,絕不能只進行單方面的考慮,掛一漏萬,而產生嚴重的後果。必須做系統性的思考,把所有的已知因素納入考慮,才能做出正確的決策。
這不能等到需要時才開始,而是現在就要開始準備。在雲端資源的策略與管理方面,應該進行下面的考慮,並且回答下列的問題:
1.
雲端運算對「公司和ICT的策略和目標」會產生什麼樣的影響?雲端運算是否能夠更有效並且更有效率地實現「公司和ICT的策略和目標」?我們是否能夠利用雲端運算來塑造「公司和ICT的策略和目標」?
2.
雲端運算對公司的「資通訊科技基礎建設和管理系統」會造成什麼樣的影響?如何規劃和實行,以將雲端運算/雲端資源納入公司的「資通訊科技基礎建設和管理系統」之中?
3.
雲端資源中的哪些設施、元件(例如:作業系統、硬體、網路、資料庫、環境等)可加以利用,以建造、改善公司的「資通訊科技基礎建設」?如何獲得這些設施、元件?如何進行測試、安裝、部署以及持續的支援和維護?
4.
雲端資源中的哪些應用軟體可加以利用,以建造、改善公司的「資通訊科技基礎建設」?公司的應用軟體是否可利用雲端資源來加強和改善?在利用雲端資源的狀況下,如何管理應用軟體在其生命週期中的各個階段?
5.
雲端資源可以達到何種程度的資訊安全(機密性、完整性、可利用性),是否可以滿足公司「資通訊科技基礎建設」對資訊安全的需求?如何確保能夠達到?發生資訊安全意外事件時如何處理?
6.
雲端資源可以達到何種程度的服務水準(例如:回應時間),是否可以滿足公司「資通訊科技基礎建設」對服務水準的需求?如何確保能夠達到?無法達到服務水準時如何處理?
7.
雲端資源的成本為何?是否有足夠的預算?財源從何而來?如何加以管理?成本如何分攤?
8.
如何確保雲端資源總是有適當的容量(例如:頻寬、CPU、磁碟空間等)可供利用,以滿足業務流程和顧客/使用者的需求?
9.
在雲端資源發生災難時,如何確保雲端資源所支援的業務流程能夠繼續運轉?需要建立什麼樣的緊急應變計畫、回復計畫?
10.
如何設計、實行、測量和管理雲端資源,以確保能夠達到對可利用性和可靠性的需求?
11.
當顧客/使用者使用雲端資源產生問題時,可以向誰(例如:服務中心)求助、連絡?服務中心應該具備何種能力以提供協助?服務中心如何向雲端資源供應商尋求協助?
12.
當雲端資源發生意外事件時,雲端資源如何能夠盡快地恢復正常作業,使對業務流程和顧客/使用者的衝擊程度降到最低?
13.
如果雲端資源發生問題,如何找出問題的根本原因,以避免其再度發生?雲端資源供應商在解決問題方面,可以提供什麼樣的協助?
14.
如何記錄雲端資源的配置和結構,以提供在建構方面的準確資訊,以支援其它的管理流程?
15.
如何有效、迅速地處理與雲端資源相關的異動,以降低異動對服務品質的衝擊?如何評估雲端資源供應商對雲端資源所進行的異動,對服務品質的衝擊?
16.
如何進行相關的規劃、設計、建造、建構、測試、溝通、分發和安裝等等的活動,以使雲端資源能夠順利地上線到實況操作環境,順暢地運作?
《《《《《《《《《《《《《《《《》》》》》》》》》》》》》》》》》
龍山顧問是ICT管理專業服務公司,服務項目包含ICT管理的出版、訓練、診斷和輔導,詳情請參考龍山顧問公司網站:http://www.longshine.tw/。
沒有留言:
張貼留言