2013年9月22日 星期日

ICT基礎建設管理系統詞彙 ---- 可利用性(Availability)、可靠性(Reliability)

此文補充說明《資訊和通訊科技基礎建設管理系統》一書之page68, 299, 300, 384。】
 
ICT中,可利用性通常是指系統(或元件、網路)能夠正常運行的能力(通常是以百分比來加以表示),例如某台個人電腦、某台伺服器、某個區域網路或某個網站在一年中能夠正常運行的時間,如此使用者能夠加以利用。
 
但是在ICT基礎建設中,我們通常會從使用者使用ICT服務的觀點來看可利用性:使用者並不在乎他所使用的ICT服務(例如ATMPOS、線上遊戲、購物網站、VoIP)要經過哪些網路和伺服器、執行哪些程式和資料庫軟體以及這些元件的個別的可利用性,使用者所關心的只是當他要使用某個ICT服務時,ICT基礎建設能不能提供這樣的服務
 
在《資訊和通訊科技基礎建設管理系統》一書中所提到的可利用性公式(如下所示),就是反映這個觀點。要注意的是,這裏的「服務時間」並不是服務中心(或服務櫃台)的服務時間,而是在服務水準協定(SLA, Service Level Agreement)中所規定的ICT服務(例如ATMPOS、線上遊戲、購物網站、VoIP)的服務時間,在這段服務時間中,使用者可以使用這個ICT服務〔當然,我們也可以在SLA中規定服務中心(或服務櫃台)的服務時間並且定義其可利用性〕。
 
有些ICT服務是全天候的,但是只有在正常的上班時間才提供服務中心(或服務櫃台)的服務。事實上,在ICT成為基礎建設的現在,使用者所期望的通常是全天候的ICT服務,就如同其對於水、電力、交通的期望一樣,因此這裏的「所商定的服務時間」非常可能是一天24小時、一週7天。
 
可利用性=
所商定的服務時間在所商定的服務期間,實際的停機時間
×100%
所商定的服務時間
 
雖然我們希望能夠從使用者的觀點來看可利用性並且加以測量和管理,但是在實務上可能會遭遇困難。這是因為大部分的ICT服務具有「端對端(end-to-end)」的性質,也就是從用戶端經由網路到伺服器端,甚至再由伺服器端經由網路到用戶端(例如VoIP)。如果要對這樣的ICT服務進行測量和管理,就必須對其所經過的所有的ICT元件(包含用戶端,例如ATM機器)進行監測和管理,有時候這並不容易,而如果是經由網際網路的話,那難度就更高了。
 
因此,大多數的ICT部門(ICT服務業者)並不願意去對其所提供的ICT服務的可利用性作出承諾。但是他們基於管理上的需要,也會想辦法對相關的ICT元件進行監測和管理,並且因而建立信心,而願意對某個ICT元件的可利用性作出承諾,而如果這樣的話,這些承諾應該在SLA中加以詳述。
 
 
基本上,對於可利用性,我們會用“幾個9” 來定義其等級,例如99%是“29” 的可利用性、99.9%是“39” 的可利用性,依此類推。下表說明不同等級的可利用性其每年可允許的停機時間(ICT服務停止的時間),以一年365天計算。
 
要注意的是,當我們談到可利用性的等級時,不要忘記要詳述所牽涉到的期間長度,例如幾個星期、幾個月、幾年等等。一個ICT元件(ICT服務)在三年的期間達到99.9%的可利用性要比另一個僅僅測量三個月的期間而達到相同可利用性的ICT元件(ICT服務)的等級要來得高〔這個我們可以用交通運輸系統來類比:一個在三年期間皆保持準時的運輸系統比僅僅在三個月期間保持準時的運輸系統要來得好〕。
 
等級
可利用性(正常運行時間)
每年可允許的停機時間(ICT服務停止的時間)
例子
1(19)
90.0%
3612小時
個人使用的ICT裝置(用戶端,例如個人的行動電話);實驗性的系統
2(29)
99.0%
87小時36分鐘
入門等級的企業系統
3(39)
99.9%
8小時46分鐘
主流的企業系統;高級的ISP
4(49)
99.99%
52分鐘34
高階的企業系統;Data Center
5(59)
99.999%
5分鐘15
醫療保健系統;銀行業務系統;Carrier-Grade Telephony(例如市內電話)
6(69)
99.9999%
31.5
國防軍事系統
 
關於可利用性的設計,請參考《資訊和通訊科技基礎建設管理系統》一書之《第十七章  可利用性管理》。
 
 
談到可利用性就必須論及可靠性,因為這兩者關係密切:可靠性對可利用性有重大的影響。一個具有完美可靠性的ICT系統意味著具有100%的可利用性。但是當ICT元件故障或ICT服務中斷時,視問題的性質而定,可利用性可能以各種不同的方式受到影響〔例如:ICT系統所具有的復原力的水準〕。一個高可靠性的ICT元件(ICT服務)並不必然就代表高可利用性,因為雖然這個ICT元件(ICT服務)發生故障(或中斷)的頻率很低,但每一次只要發生故障(或中斷)也許就要花費很長的時間去恢復。
 
ICT中,可靠性是指ICT元件(例如個人電腦、伺服器、通訊線路)在操作、運轉的狀況下免於故障的能力,通常是以「平均失效時間(MTBF, Mean Time Between Failures)」來加以表示。這個定義很精準,例如某個廠牌的顯示器的MTBF是兩萬個小時(約兩年三個月)。但是使用者對於這個數字可能沒有什麼概念,所以一般的製造商就會把這個數字轉換成年或月,例如該公司的顯示器的保固期是三年〔由於大多數的顯示器不會一年到頭都在運轉,所以這個保固期還算合理〕。
 
與可利用性相同,在ICT基礎建設中,我們通常會從使用者使用ICT服務的觀點來看可靠性:使用者並不在乎他所使用的ICT服務(例如ATMPOS、線上遊戲、購物網站、VoIP)要經過哪些通訊線路和伺服器以及這些元件的個別的可靠性,使用者所關心的只是當他正在使用某個ICT服務時,這個ICT服務千萬不能中斷
 
因此,為了配合使用者的觀點,我們通常會把ICT服務的可靠性定義為:「在所商定的服務期間內,能夠容忍的服務中斷的最大數量(例如:每年3)」。這個ICT服務的可靠性通常會與可利用性一起在SLA中加以定義。
 
 
可利用性和可靠性皆會對使用者造成影響,但是其影響的內涵有所不同。可利用性讓使用者無法使用ICT服務,因而有一段時間無法進行其工作而造成損失;可靠性則干擾、中斷使用者正在進行的工作而造成損失。筆者用下列兩個親身經歷的實例(其中一個是以電力基礎建設來類比),來說明這兩者的不同。
 
筆者曾經輔導過一家再保公司位於台北的辦公室,這家再保公司的總部位於瑞士,名列世界前三大。這個辦公室由一位瑞士人當總經理,從他來台灣當總經理開始,先後經歷了「桃園華航空難」和「921大地震」,理賠的金額以億計,但筆者從未聽他抱怨過(例如運氣不好等等)
 
筆者還記得當桃園華航空難發生時,這個辦公室的一個員工將報紙上的空難報導掃描到電腦,然後以電子郵件寄到瑞士總公司。筆者還問他:「難道不用寫報告?」他回答說:「這個消息全世界都知道,不用寫報告。」筆者猜想:其瑞士總公司之所以需要這篇報導,純粹只是需要資料歸檔,並不是要研究他們的風險評估做得好不好,因為飛機發生事故的風險已經經過徹底的研究和評估。至於921大地震,只要翻開全球的地震分佈圖,就可以發現台灣是位於地震的高風險區,只要按照規定來承保就可以了。
 
後來這家再保公司又承接了新竹科學園區某家晶圓代工廠的再保業務。由於這家晶圓代工廠的風險評估和管理計畫做得非常的好,因此他們決定以相當低的價格來承保。只是他們沒料到921大地震將台灣的電力基礎建設震得七暈八素,因而導致當時的電力供應非常不穩定,常常發生瞬間斷電的情況。這個瞬間斷電雖然只有幾秒鐘,卻讓生產線上的機台跳機,晶圓因而泡湯,他們也因此每一次都要理賠幾百萬。這個總經理因而受到瑞士總公司的責難(你到底是怎麼做風險評估的?),也常常對我抱怨這件事,甚至最後決定不再承接晶圓代工廠的再保業務。
 
〔當時新竹科學園區只要發生供電中斷的情況,股票市場就會下跌,然後股市分析師就會評估晶圓代工廠又因此而損失多少錢。由於供電中斷的頻率如此之高,另一家晶圓代工廠的董事長甚至提議新竹科學園區應該要建立自己的發電廠。還好這件事因為種種的原因而作罷,要不然現在大家到新竹科學園區就會看到發電廠的大煙囪,那豈不是太煞風景了。〕
 
另一個實例是關於線上遊戲。筆者的兒子有一陣子沈迷於某個線上遊戲,屢勸不聽,筆者也莫可奈何。這個遊戲網站並不穩定而且似乎也不重視使用者的權益,常常無預警就停機(換句話說,可利用性並不高),好一點還會顯示「維修中」的訊息,有時候則根本毫無音訊。筆者的兒子碰到這種狀況,除了咒罵幾聲之外,還是非常期待網站能夠重新運轉,讓他可以繼續玩這個遊戲。
 
後來這個遊戲網站又常常發生lag的現象,也就是訊號的傳送發生延誤,換句話說,可靠性並不高〔也許有人會說這是回應時間的問題並不是訊號中斷,但是從使用者的觀點來看:這是中斷。我們可以用另一個例子來說明:當我們使用網路電話時,有時候也會碰到lag的現象,這時候我們的感覺是:“談話斷斷續續”〕。
 
每當碰到這種情況,雖然只有短短的幾秒鐘,筆者的兒子完全無法控制他所苦心培養的遊戲人物,只能眼睜睜地看著他被敵人屠殺,這種內心的痛真是難以言喻。雖然筆者的兒子勉強打起精神重新培養他的遊戲人物,但過不了多久又發生同樣的情況,幾次之後,筆者的兒子終於心灰意冷,再也不碰這個遊戲了〔筆者本來打算發送感謝函給這個遊戲網站,感謝他們網站的不穩定,使筆者的兒子得以保護其眼睛並且還有時間讀書,後來因為感覺這樣做太過於諷刺而作罷〕。
 
從上面的實例,可以得到下列的結論:
1.        高可利用性未必就代表高可靠性:例如第一個電力供應的例子,就算每半個月瞬間斷電一次兩秒鐘,以可利用性來說算是相當的高,但是使用者(晶圓代工廠)卻是無法承受這樣的可靠性。若是能夠事先告知使用者將停電兩小時,雖然可利用性低,但是使用者能夠事先防範,所遭受的損失反而可能比較低。
2.        低可靠性的ICT服務,在某些情況下,甚至比低可利用性的ICT服務對使用者的傷害還要大:上述線上遊戲的實例可說明這件事。
3.        當規劃、設計、建造、運轉公司的ICT服務(基礎建設)時,應該從顧客和使用者的需求來決定可利用性和可靠性。而如果需要將其中的某些服務(基礎建設)委外,千萬不要忘記將供應商的能力〔也就是有用性(Serviceability)〕考慮進去。
 
 
上面所定義的可利用性和可靠性是冰冷的數字,雖然客觀而理性,但對於常常陷於不理性狀態的人類而言並不總是那麼適用。使用者所感受到的可利用性和可靠性與ICT元件發生故障或ICT服務發生中斷的時機有關。例如某個ICT系統常常在週末或三更半夜沒有人使用的時候發生問題,雖然其實際的可利用性和可靠性很差,但是使用者根本感受不到,因此很可能不會受到責難。反而另一個系統雖然具有很高的可利用性和可靠性,卻很不幸地在某個尖端使用時間發生故障,而受到大家的責難。因此,努力工作當然是最重要的,但是有時候還是要靠點運氣。
 
《《《《《《《《《《《《《《《《》》》》》》》》》》》》》》》》》
 
資訊和通訊科技基礎建設的浮現,對企業界人士產生各種不同的衝擊,例如:
l   如果你是高階經理人,你如何讓企業和ICT(資訊和通訊科技)的策略和目標結盟,以提升企業的競爭優勢?你應該作成哪些與ICT相關的決策,而不會讓ICT花費大筆的預算,卻達不到你想要的結果?
l   如果你是資訊長,你如何擬定ICT的策略和目標,與事業單位溝通,建立ICT組織,扮演好ICT的角色,以提升企業的競爭優勢,而不會被批評為只是花錢的單位,毫無貢獻?
l   如果你是資訊部門經理,你如何根據企業的ICT策略和目標,建立相關的流程和組織,例如:服務中心、意外事件管理流程、異動管理流程、資訊安全管理流程等等,並且據以實行,以達成ICT目標?
l   如果你是系統、網路、應用軟體管理、設計、開發、操作人員,你如何將自己從技術人員提升到管理人員,對企業整體的ICT基礎建設及其管理有一個全面的了解,從而提升自己在公司的地位?
l   如果你從事於資訊服務業,你如何管理本身和顧客的ICT基礎建設、如何擬定合理的價格、如何與顧客談判服務水準並且擬定服務水準協定(SLA)
 
龍山顧問所出版的《資訊和通訊科技基礎建設管理系統》一書能夠提供上述問題的解答、滿足你的需求,詳情請參考龍山顧問(http://www.longshine.tw/)所出版的《資訊和通訊科技基礎建設管理系統》一書的目錄。本書內容包含章節:
1.    資訊和通訊科技基礎建設的演進,
2.    資訊和通訊科技基礎建設與價值鏈,
3.    資訊和通訊科技基礎建設與電子商務,
4.    資訊和通訊科技基礎建設管理系統模式,
5.    企業和ICT的策略和目標,
6.    ICT基礎建設和管理系統規劃和實行,
7.    服務中心(The Service Desk)
8.    意外事件管理(Incident Management)
9.    問題管理(Problem Management)
10. 建構管理(Configuration Management)
11. 異動管理(Change Management)
12. 上線管理(Release Management)
13. 服務水準管理(SLM, Service Level Management)
14. ICT服務的財務管理(Financial Management for ICT Services)
15. 容量管理(Capacity Management)
16. ICT服務連續性管理(ICTSCM, ICT Service Continuity Management)
17. 可利用性管理(Availability Management)
18. 應用軟體管理(Application Management)
19. ICT基礎設施管理(ICTIM, ICT Infrastructure Management)
20. 資訊安全管理(Security Management)

沒有留言:

張貼留言