電力企業(yè)數(shù)據(jù)中心監(jiān)控管理一體化系統(tǒng)成功示例
國內(nèi)某知名電力企業(yè)上線了監(jiān)控管理一體化系統(tǒng)。
引言
企業(yè)核心應用宕機,機關、下屬單位等不滿意,主管領導質(zhì)疑!雖然技術(shù)人員做了很多工作,但仍然無法分清輕重緩急,也很難快速定位問題根源,迅速解決問題。網(wǎng)管說網(wǎng)絡是好的,開發(fā)人員說近期代碼沒有改動,數(shù)據(jù)庫管理員說數(shù)據(jù)庫所有組件運行正常,也許租用的基礎服務也在說所有服務都在正常運行。這些現(xiàn)象在當今電力企業(yè)數(shù)據(jù)中心屢見不鮮,對信息中心的服務、管理提出了一系列挑戰(zhàn)!因此,對信息系統(tǒng)的管控與運行就顯得格外重要。
為了實現(xiàn)上述目標,具備關鍵系統(tǒng)全面監(jiān)控能力,國內(nèi)某知名電力企業(yè)上線了監(jiān)控管理一體化系統(tǒng)。經(jīng)過一年左右的運行,基本實現(xiàn)了初步目標,下文就通過一些文字說明和總結(jié)演示,說明該系統(tǒng)的特性與成果。
建設目標
借鑒電力企業(yè)生產(chǎn)的成熟管理經(jīng)驗和國際先進的信息服務最佳實踐,全面構(gòu)建電力企業(yè)信息系統(tǒng)調(diào)度運行體系,規(guī)范優(yōu)化組織結(jié)構(gòu),實現(xiàn)統(tǒng)一指揮、分級管理;建立健全高度符合集團一體化信息系統(tǒng)運行的制度、規(guī)程和標準,實現(xiàn)管理規(guī)范化、流程標準化;建成符合智能化需求的信息運行支持平臺,實現(xiàn)運行的可視化、可控化、自動化;使企業(yè)信息系統(tǒng)運行達到國際領先水平,目前已經(jīng)成為信息系統(tǒng)監(jiān)管運行的基本目標。
一個理想的企業(yè)信息系統(tǒng)監(jiān)控與管理體系,除了需要借鑒ITIL最佳實踐來指導企業(yè)信息服務體系建設以外,對整個數(shù)據(jù)中心所負責的基礎架構(gòu)、應用系統(tǒng)與業(yè)務系統(tǒng)的全面、統(tǒng)一監(jiān)控也是現(xiàn)代企業(yè)信息管理必不可少的基礎建設之一。一個全面、統(tǒng)一的數(shù)據(jù)中心運維監(jiān)控系統(tǒng),至少需要具備下面幾種關鍵能力:
擁有能滿足現(xiàn)在與將來革命性變化需求的體系架構(gòu),擁有良好伸縮性與擴展性;
全面的數(shù)據(jù)采集能力,覆蓋面要廣,同時應具備API接口使集成、部署工作簡單化;
業(yè)務系統(tǒng)適應能力,不僅僅能從各種IT系統(tǒng)中采集、分析數(shù)據(jù),更可以從各種業(yè)務系統(tǒng)中采集、分析數(shù)據(jù)
靈活的報表與可視化能力,整個系統(tǒng)應該基于可定制策略的用戶組機制,對所有儀表板、報表、報警都可以靈活定制;
管控平臺的建設范圍
本電力企業(yè)的監(jiān)控管理一體化系統(tǒng)建設范圍包括如下幾個方面:
統(tǒng)一運維管理門戶建設
通過統(tǒng)一運維管理門戶,用戶可以靈活的訪問各種管理應用,或者針對任何一個故障進行深入挖掘,得到詳細的實時和歷史性能信息。
統(tǒng)一運維管理門戶還提供了豐富的視圖呈現(xiàn)方式,如線圖、柱圖、陰影圖等。統(tǒng)一運維管理門戶還支持根據(jù)不同維護人員角色的不同,提供不同權(quán)限的管理視圖。維護人員可以通過拖拽的方式靈活的定義管理門戶和各類報表。報表呈現(xiàn)方式多樣靈活。
提供多種層級的視圖展示
監(jiān)控管理一體化系統(tǒng)可以直觀、準確地體現(xiàn)各層面的系統(tǒng)運行狀態(tài),分別展示不同管理層次和范圍的系統(tǒng)運行狀態(tài)。根據(jù)客戶的系統(tǒng)特點和管理習慣,可將展示視圖分成根視圖、一級視圖、二級視圖和三級視圖,分別展示不同管理層次和范圍的系統(tǒng)運行狀態(tài)。
一級視圖也稱為系統(tǒng)整體健康度總體視圖。主要針對CIO的運維管理需要,提供企業(yè)系統(tǒng)整體運行狀態(tài)的查詢和管理。在這張視圖上,管理員可以清晰地看到企業(yè)網(wǎng)中所有系統(tǒng)的整體健康狀態(tài),當某個系統(tǒng)內(nèi)的監(jiān)控對象出現(xiàn)性能問題或告警時,將會有紅色或黃色的告警提示符出現(xiàn)。通過這張視圖管理員可以快速定位和判斷系統(tǒng)總體健康狀態(tài)。

圖1、一級視圖——全業(yè)務視圖
二級視圖也稱為特定系統(tǒng)或設備類型監(jiān)控視圖。主要針對IT主管的運維管理需要,提供針對關鍵IT系統(tǒng)的狀態(tài)查詢和監(jiān)控管理。在這張視圖上,管理員可以清晰地看到企業(yè)網(wǎng)中某個特定系統(tǒng)的整體健康狀態(tài),當某個系統(tǒng)內(nèi)的監(jiān)控對象出現(xiàn)性能問題或告警時,將會有紅色或黃色的告警提示符出現(xiàn)。通過這張視圖管理員可以快速定位和判斷該系統(tǒng)中的哪個被管對象出現(xiàn)問題或故障。

圖2、二級視圖特定業(yè)務系統(tǒng)視圖
三級視圖也稱為資源監(jiān)控視圖。主要針對設備運維人員的運維管理需求,提供針對具體設備組件性能指標的告警管理和性能分析。在這張視圖上,管理員可以清晰地看到企業(yè)網(wǎng)中特定被監(jiān)控對象的健康狀態(tài),當出現(xiàn)性能問題或告警時,管理員可以在這張視圖上查看告警狀態(tài)、分析歷史性能數(shù)據(jù)、執(zhí)行系統(tǒng)命令或者自動發(fā)出告警等。

圖3:三級視圖資源監(jiān)控視圖
統(tǒng)一監(jiān)控平臺建設
統(tǒng)一監(jiān)控平臺的建設包括三方面的建設內(nèi)容:集中的監(jiān)控管理、事件管理功能、性能管理功能。
監(jiān)控管理一體化系統(tǒng)提供了豐富的事件管理功能,事件管理可以覆蓋所有需要管理的設備,快速捕捉到服務器、網(wǎng)絡、存儲、數(shù)據(jù)庫和中間件的日志和消息等事件。
監(jiān)控管理一體化系統(tǒng)提供的解決方案實現(xiàn)了全面的性能管理,包括各種設備性能管理,維護人員可以根據(jù)需要靈活的設定性能閥值,生成相應的性能告警。
集中的監(jiān)控管理介紹
通過監(jiān)控管理一體化系統(tǒng)可以實現(xiàn)集中的監(jiān)控管理,監(jiān)控管理一體化系統(tǒng)提供了豐富的監(jiān)控探針,覆蓋了監(jiān)控系統(tǒng)的各個層面,包括:服務器管理、虛擬化管理、存儲管理、網(wǎng)絡管理、機房環(huán)境管理、中間件管理和數(shù)據(jù)庫管理。通過對各個層面的監(jiān)控,全面監(jiān)控和分析系統(tǒng)的性能狀態(tài)。
服務器監(jiān)控介紹
監(jiān)控管理一體化系統(tǒng)以服務器為中心的監(jiān)控理念能夠監(jiān)控包括Cisco UCS、AS400、Linux、Unix、Netware、Windows等在內(nèi)的所有主要操作系統(tǒng),可以從單一控制臺方便容易的完成對服務器關鍵資源(如CPU,內(nèi)存,磁盤,事件日志,計數(shù)器等)的完美監(jiān)控,允許管理員從集中的控制臺對遠程的服務和進程進行客中操作如自動或手動啟動、重啟、停止等。同時,對于承載在服務器上的各種商業(yè)軟件,如Web,數(shù)據(jù)庫系統(tǒng),郵件系統(tǒng)等提供了開箱即用的缺省配置模板。
虛擬化環(huán)境監(jiān)控介紹
針對虛擬化建設所面臨的困難,企業(yè)需要引入先進的虛擬化健康度管理方法來逐步改進和完善虛擬化建設的不足。
過去的僅僅是強調(diào)對虛擬機自身管控的管理思路,已經(jīng)不適合當前企業(yè)對虛擬化健康度管理的需要。當前,國外先進的虛擬化健康度管理方法強調(diào)對整個虛擬化環(huán)境進行統(tǒng)一的管控。從用戶體驗的角度,自上而下的全面評估虛擬化環(huán)境的健康度,從而提高虛擬化環(huán)境的可用性和性能,擴大虛擬化環(huán)境的適用范圍。
一方面,這種全新的虛擬化健康度管理方法覆蓋了虛擬化環(huán)境所涉及到的軟硬件的各個層面,統(tǒng)一運維,綜合分析,從而全面保障了虛擬化環(huán)境的健康度。另一方面,企業(yè)通過引入先進的健康度管理方法,還可以使得業(yè)務人員和IT運維人員可以更好地明確自己的管理職責,更好地合作,提高了工作效率,同是也優(yōu)化的虛擬化環(huán)境的可用性。

圖4、虛擬系統(tǒng)資源利用率
存儲監(jiān)控介紹
監(jiān)控管理一體化系統(tǒng)提供了針對存儲設備的管理探針,可以快速實現(xiàn)對存儲設備的監(jiān)控管理。該平臺基于標準設計,通過Web 控制臺整合不同廠商的存儲設備資源,包括存儲局域網(wǎng)(SAN),網(wǎng)絡附加存儲(NAS)和直接附加存儲(DAS)。
監(jiān)控管理一體化系統(tǒng)支持SAN交換機,存儲設備和磁帶庫的管理。能夠管理存儲分配情況,存儲利用率,對于超過性能閥值的性能指標系統(tǒng)能夠進行故障告警或者預警通知到相應的運維管理人員,生成錯誤日志。
網(wǎng)絡設備監(jiān)控介紹
監(jiān)控管理一體化系統(tǒng)支持通過SNMP V1、V2、V3協(xié)議,對網(wǎng)絡設備的拓撲管理、事件管理和性能管理功能。

圖5、公司本部所有關鍵交換機運行狀態(tài)
機房環(huán)境監(jiān)控介紹
機房環(huán)境作為集中監(jiān)控系統(tǒng)的一部分,針對機房環(huán)境、精密空調(diào)和UPS設備的監(jiān)控,監(jiān)控管理一體化系統(tǒng)通過Web Service接口與相應的傳感器相連或者采用SNMP的方式,來采集相關數(shù)據(jù),并根據(jù)用戶需要提供相應的運維管理報表。
中間件監(jiān)控介紹
中間件是重要的應用組件,也是此次項目監(jiān)控的重點。監(jiān)控管理一體化系統(tǒng)支持對所有主要流行的中間件系統(tǒng)的監(jiān)控,主要包括:Weblogic、Websphere、Tomcat、JBOSS等等。
監(jiān)控管理一體化系統(tǒng)可以監(jiān)控中間件的主要事件和性能指標,從而有效保障中間件的可用性,從而保障系統(tǒng)的正常使用。
數(shù)據(jù)庫監(jiān)控介紹
數(shù)據(jù)庫作為應用系統(tǒng)基礎的組成部分,其重要性不言而喻。對于系統(tǒng)而言,一旦數(shù)據(jù)庫崩潰或者數(shù)據(jù)庫的性能降低,那么會直接導致依賴于數(shù)據(jù)庫的應用系統(tǒng)運行速度緩慢或者根本無法使用,其最終結(jié)果不僅僅是會影響應用系統(tǒng)的使用效率,甚至會造成客戶和利潤的流失。
數(shù)據(jù)庫在使用中所出現(xiàn)的問題,可能由表空間、文件系統(tǒng)、數(shù)據(jù)文件、進程等組件當中的任意一個造成,甚至有可能是由于某一個SQL語句的性能太差造成。
因此,當數(shù)據(jù)庫出現(xiàn)問題,徹查問題的根本原因成為重復、繁雜的勞動,監(jiān)控管理一體化系統(tǒng)將管理員從重復勞動中脫離出來,以主動管理的方式,為管理員提供自動化的監(jiān)控管理,一旦數(shù)據(jù)庫出現(xiàn)問題,可以馬上通知相關的管理員。
應用系統(tǒng)監(jiān)控
SAP ERP是公司最重要的應用之一,本系統(tǒng)將復雜的ERP系統(tǒng)進行了簡約化管理,通過簡單的界面就可以完整看到ERP的運行總體態(tài)勢和性能曲線

圖6、SAP ERP應用系統(tǒng)監(jiān)控
用戶和權(quán)限管理
對于監(jiān)控系統(tǒng)本身,由于其特殊性,即具有管理其他網(wǎng)絡設備和主機的權(quán)限,因此其自身的安全性更加重要,管理系統(tǒng)具有多級操作員權(quán)限控制,不同的操作員管理不同的對象,并且具有不同的權(quán)限。可以考慮特定的管理員只能管理職權(quán)范圍內(nèi)的設備,根據(jù)人員的多少,可以細分為各種管理員,如網(wǎng)絡管理員、服務器管理員、存儲管理員、數(shù)據(jù)庫管理員等。監(jiān)控管理一體化系統(tǒng)完全支持這種靈活的用戶和權(quán)限管理方式。
監(jiān)控管理一體化系統(tǒng)具有完善的用戶管理功能,包括用戶的認證與授權(quán)機制,首先在系統(tǒng)中創(chuàng)建用戶,對于每一個用戶,都可以指定管理的設備,收到的消息,可以使用的應用程序。不同的用戶有以上不同的設置和權(quán)限,每個用戶在登錄系統(tǒng)時,需要通過用戶口令的認證。不同的用戶可以有自己的視圖,只接收自己的事件,例如,我們給不同的管理人員建立一個用戶,他們登錄到網(wǎng)管系統(tǒng)上,看到的是自己關心的設備、應用的拓撲圖,收到的消息全部是關于相應設備、應用的消息,并可以也只能對這些對象進行查看或配置。
考核指標和服務水平管理
監(jiān)控管理一體化系統(tǒng)的SLA管理包括了用戶自定義的考核指標以保障SLA滿足要求,下面也一個實例來說明監(jiān)控管理一體化系統(tǒng)的SLA報告系統(tǒng)的功能。
例如電子商務系統(tǒng)的SLA報告系統(tǒng):
以該電力企業(yè)的電子商務系統(tǒng)為例,要求按周考核的CRM系統(tǒng)指標在98%以上:
電子商務系統(tǒng)所有操作時間不超過6秒鐘
電子商務登陸時間不超過5秒鐘
電子商務系統(tǒng)查詢公司時間不超過5秒鐘
實際生成的SLA報告如下:

管控平臺的建設需求分析
研究分析電力企業(yè)的IT管理特點和業(yè)務特點,本監(jiān)控管理一體化系統(tǒng)應具有如下特點:
監(jiān)控面廣
對集團內(nèi)網(wǎng)數(shù)百臺服務器、近兩百臺網(wǎng)絡設備、數(shù)套存儲系統(tǒng)、數(shù)十套虛擬系統(tǒng)進行了基礎架構(gòu)層面的全面監(jiān)控;
主要服務器平臺包括Intel服務器、IBM Power小型機,承載的操作系統(tǒng)主要包括了windows、Linux和AIX;同時,該企業(yè)全面部署了VMWARE虛擬系統(tǒng),運行的客戶機近百臺,越來越多的重要業(yè)務在逐步遷入到虛擬化平臺中。該監(jiān)控系統(tǒng)統(tǒng)一完成了跨平臺、跨系統(tǒng)的健康度監(jiān)控檢查。
對多種數(shù)據(jù)庫(ORACLE、DB2、SYBASE、SQL SERVER、MySQL)、中間件(IIS、TOMCAT、WebSphere、WebLogic)等以及其承載的業(yè)務系統(tǒng)進行了有針對性的個性化監(jiān)控,突出了組件間的關聯(lián)關系與性能狀態(tài)。
該監(jiān)控系統(tǒng)擁有近200中不同功能的探針,既能夠以Agent方式駐留服務器獲取詳細的監(jiān)控指標,也能夠以Agentless方式通過ssh、SNMP、SYSLOG、ODBC、CLI等多種技術(shù)手段無干擾獲取遠程設備系統(tǒng)的關鍵運行狀態(tài)。
擴展性好
該系統(tǒng)是一個典型的分布式統(tǒng)一監(jiān)控系統(tǒng),采用了與眾不同的廣播/訂閱機制,可以像部署網(wǎng)絡設備一樣靈活組網(wǎng)構(gòu)建面向多單位、多中心、多部門的監(jiān)控系統(tǒng),不僅很好的滿足了當前本部機房監(jiān)控的需求,將來也可以基于本系統(tǒng)對下屬分支單位進行快速的運維監(jiān)控。
該系統(tǒng)擁有全面開放的API,可以對整個監(jiān)控系統(tǒng)的安裝部署、配置調(diào)度、告警策略、展示統(tǒng)計等進行個性化的定制,支持Java、Perl、LUA、Script等多種編程語言接口,使新功能開發(fā)、定制變得更加容易。
在本項目中,創(chuàng)新地引入了Zigbee無線傳感設備,其先天的低功耗、高可靠、超穩(wěn)定特征使得對機房溫濕度、光感等場地監(jiān)控功能達到了無需重新布線、靈活部署監(jiān)控地點、精確獲取機房環(huán)境狀態(tài)的目標。
展示效果好
監(jiān)控系統(tǒng)基于企業(yè)級門戶技術(shù)Liferay,內(nèi)置了統(tǒng)一告警控制臺、統(tǒng)一性能報表、統(tǒng)一監(jiān)控列表、統(tǒng)一架構(gòu)管理等多種展示組件;同時,獨特的參數(shù)級自定義儀表板設計器可以像VisualBasic編制新程序一樣為每一個用戶定制所需要的各種個性化儀表板。
專業(yè)的報表服務引擎能夠滿足電力企業(yè)苛刻的報表定制需求,其內(nèi)置的數(shù)百套通用報表涵蓋了系統(tǒng)監(jiān)控所需的主要功能,獨有的SLA報表生成器更可以按照國際流行規(guī)范制定本單位服務品質(zhì)承諾指標。
無論是發(fā)電企業(yè)亦或其他行業(yè),專門的短信告警成了監(jiān)控系統(tǒng)必備的功能要求,該系統(tǒng)針對提供了適合中國監(jiān)控特色的短信引擎,可以靈活制定告警規(guī)則,規(guī)避敏感詞匯,批量發(fā)送不同短信內(nèi)容。
管控平臺實施效果
該電力企業(yè)通過本監(jiān)控系統(tǒng)的有效部署,經(jīng)過近一年的穩(wěn)定運行,該企業(yè)監(jiān)控管理一體化平臺初步具備了如下能力,初步達到了提前發(fā)現(xiàn)、準確定位、深入診斷的監(jiān)控目標:
基礎服務器監(jiān)控能力──包括且不限于Linux、Windows、UNIX服務器等等;
應用服務器監(jiān)控能力──包括且不限于如下應用服務器,IIS、TOMCAT、APACHE、WEBSPHERE、WEBLOGIC等等;
數(shù)據(jù)庫系統(tǒng)監(jiān)控能力──包括且不限于如下系列數(shù)據(jù)庫系統(tǒng),ORACLE、SQLSERVER、SYBASE、MYSQL等等;
網(wǎng)絡系統(tǒng)監(jiān)控能力──包括且不限于如下網(wǎng)絡設備及網(wǎng)絡系統(tǒng)的監(jiān)控, Cisco IPSLA、DNS、DHCP、 LDAP、SNMP設備、路由器、交換機等等;
存儲系統(tǒng)監(jiān)控能力──包括且不限于如下存儲設備的監(jiān)控,EMC,IBM,HP,SUN,HDS等等;
場地監(jiān)控能力──包括且不限于如下動力設備:高、低壓配電屏、整流設備、開關電源、UPS、油機、蓄電池組等。
在上述成功實踐的基礎上,該企業(yè)正全面梳理數(shù)據(jù)中心監(jiān)控需求,結(jié)合企業(yè)未來業(yè)務系統(tǒng)建設目標,制定了本監(jiān)控平臺的下一步規(guī)劃,主要內(nèi)容包括了:
完善現(xiàn)有系統(tǒng)監(jiān)控內(nèi)容
將機房內(nèi)網(wǎng)所有設備及軟件進行納管,不留盲點;
完善移動辦公軟件的監(jiān)控統(tǒng)計功能,增加客戶體驗管理;
完善機房中環(huán)境信息、場地系統(tǒng)、安防系統(tǒng)的監(jiān)控指標,消除死角。
增加目前系統(tǒng)監(jiān)控功能
增強與ITIL管理平臺、新一代呼叫中心等系統(tǒng)的全面集成能力;
增加機房與辦公區(qū)域等大屏幕展示,動態(tài)展示數(shù)據(jù)中心運行狀態(tài);
增加移動終端如IPAD、智能手機等的監(jiān)控功能,實現(xiàn)移動監(jiān)控目標。
深度監(jiān)控核心業(yè)務系統(tǒng)
針對企業(yè)核心應用SAP ERP HR系統(tǒng)、SAP財務資產(chǎn)一體化系統(tǒng)等,引入專業(yè)監(jiān)控模塊,按照SAP BASIS運維規(guī)范進行完整監(jiān)控,確保核心業(yè)務運行的可靠、平穩(wěn)、高效。
企業(yè)核心應用宕機,機關、下屬單位等不滿意,主管領導質(zhì)疑!雖然技術(shù)人員做了很多工作,但仍然無法分清輕重緩急,也很難快速定位問題根源,迅速解決問題。網(wǎng)管說網(wǎng)絡是好的,開發(fā)人員說近期代碼沒有改動,數(shù)據(jù)庫管理員說數(shù)據(jù)庫所有組件運行正常,也許租用的基礎服務也在說所有服務都在正常運行。這些現(xiàn)象在當今電力企業(yè)數(shù)據(jù)中心屢見不鮮,對信息中心的服務、管理提出了一系列挑戰(zhàn)!因此,對信息系統(tǒng)的管控與運行就顯得格外重要。
為了實現(xiàn)上述目標,具備關鍵系統(tǒng)全面監(jiān)控能力,國內(nèi)某知名電力企業(yè)上線了監(jiān)控管理一體化系統(tǒng)。經(jīng)過一年左右的運行,基本實現(xiàn)了初步目標,下文就通過一些文字說明和總結(jié)演示,說明該系統(tǒng)的特性與成果。
建設目標
借鑒電力企業(yè)生產(chǎn)的成熟管理經(jīng)驗和國際先進的信息服務最佳實踐,全面構(gòu)建電力企業(yè)信息系統(tǒng)調(diào)度運行體系,規(guī)范優(yōu)化組織結(jié)構(gòu),實現(xiàn)統(tǒng)一指揮、分級管理;建立健全高度符合集團一體化信息系統(tǒng)運行的制度、規(guī)程和標準,實現(xiàn)管理規(guī)范化、流程標準化;建成符合智能化需求的信息運行支持平臺,實現(xiàn)運行的可視化、可控化、自動化;使企業(yè)信息系統(tǒng)運行達到國際領先水平,目前已經(jīng)成為信息系統(tǒng)監(jiān)管運行的基本目標。
一個理想的企業(yè)信息系統(tǒng)監(jiān)控與管理體系,除了需要借鑒ITIL最佳實踐來指導企業(yè)信息服務體系建設以外,對整個數(shù)據(jù)中心所負責的基礎架構(gòu)、應用系統(tǒng)與業(yè)務系統(tǒng)的全面、統(tǒng)一監(jiān)控也是現(xiàn)代企業(yè)信息管理必不可少的基礎建設之一。一個全面、統(tǒng)一的數(shù)據(jù)中心運維監(jiān)控系統(tǒng),至少需要具備下面幾種關鍵能力:
擁有能滿足現(xiàn)在與將來革命性變化需求的體系架構(gòu),擁有良好伸縮性與擴展性;
全面的數(shù)據(jù)采集能力,覆蓋面要廣,同時應具備API接口使集成、部署工作簡單化;
業(yè)務系統(tǒng)適應能力,不僅僅能從各種IT系統(tǒng)中采集、分析數(shù)據(jù),更可以從各種業(yè)務系統(tǒng)中采集、分析數(shù)據(jù)
靈活的報表與可視化能力,整個系統(tǒng)應該基于可定制策略的用戶組機制,對所有儀表板、報表、報警都可以靈活定制;
管控平臺的建設范圍
本電力企業(yè)的監(jiān)控管理一體化系統(tǒng)建設范圍包括如下幾個方面:
統(tǒng)一運維管理門戶建設
通過統(tǒng)一運維管理門戶,用戶可以靈活的訪問各種管理應用,或者針對任何一個故障進行深入挖掘,得到詳細的實時和歷史性能信息。
統(tǒng)一運維管理門戶還提供了豐富的視圖呈現(xiàn)方式,如線圖、柱圖、陰影圖等。統(tǒng)一運維管理門戶還支持根據(jù)不同維護人員角色的不同,提供不同權(quán)限的管理視圖。維護人員可以通過拖拽的方式靈活的定義管理門戶和各類報表。報表呈現(xiàn)方式多樣靈活。
提供多種層級的視圖展示
監(jiān)控管理一體化系統(tǒng)可以直觀、準確地體現(xiàn)各層面的系統(tǒng)運行狀態(tài),分別展示不同管理層次和范圍的系統(tǒng)運行狀態(tài)。根據(jù)客戶的系統(tǒng)特點和管理習慣,可將展示視圖分成根視圖、一級視圖、二級視圖和三級視圖,分別展示不同管理層次和范圍的系統(tǒng)運行狀態(tài)。
一級視圖也稱為系統(tǒng)整體健康度總體視圖。主要針對CIO的運維管理需要,提供企業(yè)系統(tǒng)整體運行狀態(tài)的查詢和管理。在這張視圖上,管理員可以清晰地看到企業(yè)網(wǎng)中所有系統(tǒng)的整體健康狀態(tài),當某個系統(tǒng)內(nèi)的監(jiān)控對象出現(xiàn)性能問題或告警時,將會有紅色或黃色的告警提示符出現(xiàn)。通過這張視圖管理員可以快速定位和判斷系統(tǒng)總體健康狀態(tài)。

圖1、一級視圖——全業(yè)務視圖
二級視圖也稱為特定系統(tǒng)或設備類型監(jiān)控視圖。主要針對IT主管的運維管理需要,提供針對關鍵IT系統(tǒng)的狀態(tài)查詢和監(jiān)控管理。在這張視圖上,管理員可以清晰地看到企業(yè)網(wǎng)中某個特定系統(tǒng)的整體健康狀態(tài),當某個系統(tǒng)內(nèi)的監(jiān)控對象出現(xiàn)性能問題或告警時,將會有紅色或黃色的告警提示符出現(xiàn)。通過這張視圖管理員可以快速定位和判斷該系統(tǒng)中的哪個被管對象出現(xiàn)問題或故障。

圖2、二級視圖特定業(yè)務系統(tǒng)視圖
三級視圖也稱為資源監(jiān)控視圖。主要針對設備運維人員的運維管理需求,提供針對具體設備組件性能指標的告警管理和性能分析。在這張視圖上,管理員可以清晰地看到企業(yè)網(wǎng)中特定被監(jiān)控對象的健康狀態(tài),當出現(xiàn)性能問題或告警時,管理員可以在這張視圖上查看告警狀態(tài)、分析歷史性能數(shù)據(jù)、執(zhí)行系統(tǒng)命令或者自動發(fā)出告警等。

圖3:三級視圖資源監(jiān)控視圖
統(tǒng)一監(jiān)控平臺建設
統(tǒng)一監(jiān)控平臺的建設包括三方面的建設內(nèi)容:集中的監(jiān)控管理、事件管理功能、性能管理功能。
監(jiān)控管理一體化系統(tǒng)提供了豐富的事件管理功能,事件管理可以覆蓋所有需要管理的設備,快速捕捉到服務器、網(wǎng)絡、存儲、數(shù)據(jù)庫和中間件的日志和消息等事件。
監(jiān)控管理一體化系統(tǒng)提供的解決方案實現(xiàn)了全面的性能管理,包括各種設備性能管理,維護人員可以根據(jù)需要靈活的設定性能閥值,生成相應的性能告警。
集中的監(jiān)控管理介紹
通過監(jiān)控管理一體化系統(tǒng)可以實現(xiàn)集中的監(jiān)控管理,監(jiān)控管理一體化系統(tǒng)提供了豐富的監(jiān)控探針,覆蓋了監(jiān)控系統(tǒng)的各個層面,包括:服務器管理、虛擬化管理、存儲管理、網(wǎng)絡管理、機房環(huán)境管理、中間件管理和數(shù)據(jù)庫管理。通過對各個層面的監(jiān)控,全面監(jiān)控和分析系統(tǒng)的性能狀態(tài)。
服務器監(jiān)控介紹
監(jiān)控管理一體化系統(tǒng)以服務器為中心的監(jiān)控理念能夠監(jiān)控包括Cisco UCS、AS400、Linux、Unix、Netware、Windows等在內(nèi)的所有主要操作系統(tǒng),可以從單一控制臺方便容易的完成對服務器關鍵資源(如CPU,內(nèi)存,磁盤,事件日志,計數(shù)器等)的完美監(jiān)控,允許管理員從集中的控制臺對遠程的服務和進程進行客中操作如自動或手動啟動、重啟、停止等。同時,對于承載在服務器上的各種商業(yè)軟件,如Web,數(shù)據(jù)庫系統(tǒng),郵件系統(tǒng)等提供了開箱即用的缺省配置模板。
虛擬化環(huán)境監(jiān)控介紹
針對虛擬化建設所面臨的困難,企業(yè)需要引入先進的虛擬化健康度管理方法來逐步改進和完善虛擬化建設的不足。
過去的僅僅是強調(diào)對虛擬機自身管控的管理思路,已經(jīng)不適合當前企業(yè)對虛擬化健康度管理的需要。當前,國外先進的虛擬化健康度管理方法強調(diào)對整個虛擬化環(huán)境進行統(tǒng)一的管控。從用戶體驗的角度,自上而下的全面評估虛擬化環(huán)境的健康度,從而提高虛擬化環(huán)境的可用性和性能,擴大虛擬化環(huán)境的適用范圍。
一方面,這種全新的虛擬化健康度管理方法覆蓋了虛擬化環(huán)境所涉及到的軟硬件的各個層面,統(tǒng)一運維,綜合分析,從而全面保障了虛擬化環(huán)境的健康度。另一方面,企業(yè)通過引入先進的健康度管理方法,還可以使得業(yè)務人員和IT運維人員可以更好地明確自己的管理職責,更好地合作,提高了工作效率,同是也優(yōu)化的虛擬化環(huán)境的可用性。

圖4、虛擬系統(tǒng)資源利用率
存儲監(jiān)控介紹
監(jiān)控管理一體化系統(tǒng)提供了針對存儲設備的管理探針,可以快速實現(xiàn)對存儲設備的監(jiān)控管理。該平臺基于標準設計,通過Web 控制臺整合不同廠商的存儲設備資源,包括存儲局域網(wǎng)(SAN),網(wǎng)絡附加存儲(NAS)和直接附加存儲(DAS)。
監(jiān)控管理一體化系統(tǒng)支持SAN交換機,存儲設備和磁帶庫的管理。能夠管理存儲分配情況,存儲利用率,對于超過性能閥值的性能指標系統(tǒng)能夠進行故障告警或者預警通知到相應的運維管理人員,生成錯誤日志。
網(wǎng)絡設備監(jiān)控介紹
監(jiān)控管理一體化系統(tǒng)支持通過SNMP V1、V2、V3協(xié)議,對網(wǎng)絡設備的拓撲管理、事件管理和性能管理功能。

圖5、公司本部所有關鍵交換機運行狀態(tài)
機房環(huán)境監(jiān)控介紹
機房環(huán)境作為集中監(jiān)控系統(tǒng)的一部分,針對機房環(huán)境、精密空調(diào)和UPS設備的監(jiān)控,監(jiān)控管理一體化系統(tǒng)通過Web Service接口與相應的傳感器相連或者采用SNMP的方式,來采集相關數(shù)據(jù),并根據(jù)用戶需要提供相應的運維管理報表。
中間件監(jiān)控介紹
中間件是重要的應用組件,也是此次項目監(jiān)控的重點。監(jiān)控管理一體化系統(tǒng)支持對所有主要流行的中間件系統(tǒng)的監(jiān)控,主要包括:Weblogic、Websphere、Tomcat、JBOSS等等。
監(jiān)控管理一體化系統(tǒng)可以監(jiān)控中間件的主要事件和性能指標,從而有效保障中間件的可用性,從而保障系統(tǒng)的正常使用。
數(shù)據(jù)庫監(jiān)控介紹
數(shù)據(jù)庫作為應用系統(tǒng)基礎的組成部分,其重要性不言而喻。對于系統(tǒng)而言,一旦數(shù)據(jù)庫崩潰或者數(shù)據(jù)庫的性能降低,那么會直接導致依賴于數(shù)據(jù)庫的應用系統(tǒng)運行速度緩慢或者根本無法使用,其最終結(jié)果不僅僅是會影響應用系統(tǒng)的使用效率,甚至會造成客戶和利潤的流失。
數(shù)據(jù)庫在使用中所出現(xiàn)的問題,可能由表空間、文件系統(tǒng)、數(shù)據(jù)文件、進程等組件當中的任意一個造成,甚至有可能是由于某一個SQL語句的性能太差造成。
因此,當數(shù)據(jù)庫出現(xiàn)問題,徹查問題的根本原因成為重復、繁雜的勞動,監(jiān)控管理一體化系統(tǒng)將管理員從重復勞動中脫離出來,以主動管理的方式,為管理員提供自動化的監(jiān)控管理,一旦數(shù)據(jù)庫出現(xiàn)問題,可以馬上通知相關的管理員。
應用系統(tǒng)監(jiān)控
SAP ERP是公司最重要的應用之一,本系統(tǒng)將復雜的ERP系統(tǒng)進行了簡約化管理,通過簡單的界面就可以完整看到ERP的運行總體態(tài)勢和性能曲線

圖6、SAP ERP應用系統(tǒng)監(jiān)控
用戶和權(quán)限管理
對于監(jiān)控系統(tǒng)本身,由于其特殊性,即具有管理其他網(wǎng)絡設備和主機的權(quán)限,因此其自身的安全性更加重要,管理系統(tǒng)具有多級操作員權(quán)限控制,不同的操作員管理不同的對象,并且具有不同的權(quán)限。可以考慮特定的管理員只能管理職權(quán)范圍內(nèi)的設備,根據(jù)人員的多少,可以細分為各種管理員,如網(wǎng)絡管理員、服務器管理員、存儲管理員、數(shù)據(jù)庫管理員等。監(jiān)控管理一體化系統(tǒng)完全支持這種靈活的用戶和權(quán)限管理方式。
監(jiān)控管理一體化系統(tǒng)具有完善的用戶管理功能,包括用戶的認證與授權(quán)機制,首先在系統(tǒng)中創(chuàng)建用戶,對于每一個用戶,都可以指定管理的設備,收到的消息,可以使用的應用程序。不同的用戶有以上不同的設置和權(quán)限,每個用戶在登錄系統(tǒng)時,需要通過用戶口令的認證。不同的用戶可以有自己的視圖,只接收自己的事件,例如,我們給不同的管理人員建立一個用戶,他們登錄到網(wǎng)管系統(tǒng)上,看到的是自己關心的設備、應用的拓撲圖,收到的消息全部是關于相應設備、應用的消息,并可以也只能對這些對象進行查看或配置。
考核指標和服務水平管理
監(jiān)控管理一體化系統(tǒng)的SLA管理包括了用戶自定義的考核指標以保障SLA滿足要求,下面也一個實例來說明監(jiān)控管理一體化系統(tǒng)的SLA報告系統(tǒng)的功能。
例如電子商務系統(tǒng)的SLA報告系統(tǒng):
以該電力企業(yè)的電子商務系統(tǒng)為例,要求按周考核的CRM系統(tǒng)指標在98%以上:
電子商務系統(tǒng)所有操作時間不超過6秒鐘
電子商務登陸時間不超過5秒鐘
電子商務系統(tǒng)查詢公司時間不超過5秒鐘
實際生成的SLA報告如下:

管控平臺的建設需求分析
監(jiān)控面廣
對集團內(nèi)網(wǎng)數(shù)百臺服務器、近兩百臺網(wǎng)絡設備、數(shù)套存儲系統(tǒng)、數(shù)十套虛擬系統(tǒng)進行了基礎架構(gòu)層面的全面監(jiān)控;
主要服務器平臺包括Intel服務器、IBM Power小型機,承載的操作系統(tǒng)主要包括了windows、Linux和AIX;同時,該企業(yè)全面部署了VMWARE虛擬系統(tǒng),運行的客戶機近百臺,越來越多的重要業(yè)務在逐步遷入到虛擬化平臺中。該監(jiān)控系統(tǒng)統(tǒng)一完成了跨平臺、跨系統(tǒng)的健康度監(jiān)控檢查。
對多種數(shù)據(jù)庫(ORACLE、DB2、SYBASE、SQL SERVER、MySQL)、中間件(IIS、TOMCAT、WebSphere、WebLogic)等以及其承載的業(yè)務系統(tǒng)進行了有針對性的個性化監(jiān)控,突出了組件間的關聯(lián)關系與性能狀態(tài)。
該監(jiān)控系統(tǒng)擁有近200中不同功能的探針,既能夠以Agent方式駐留服務器獲取詳細的監(jiān)控指標,也能夠以Agentless方式通過ssh、SNMP、SYSLOG、ODBC、CLI等多種技術(shù)手段無干擾獲取遠程設備系統(tǒng)的關鍵運行狀態(tài)。
擴展性好
該系統(tǒng)是一個典型的分布式統(tǒng)一監(jiān)控系統(tǒng),采用了與眾不同的廣播/訂閱機制,可以像部署網(wǎng)絡設備一樣靈活組網(wǎng)構(gòu)建面向多單位、多中心、多部門的監(jiān)控系統(tǒng),不僅很好的滿足了當前本部機房監(jiān)控的需求,將來也可以基于本系統(tǒng)對下屬分支單位進行快速的運維監(jiān)控。
該系統(tǒng)擁有全面開放的API,可以對整個監(jiān)控系統(tǒng)的安裝部署、配置調(diào)度、告警策略、展示統(tǒng)計等進行個性化的定制,支持Java、Perl、LUA、Script等多種編程語言接口,使新功能開發(fā)、定制變得更加容易。
在本項目中,創(chuàng)新地引入了Zigbee無線傳感設備,其先天的低功耗、高可靠、超穩(wěn)定特征使得對機房溫濕度、光感等場地監(jiān)控功能達到了無需重新布線、靈活部署監(jiān)控地點、精確獲取機房環(huán)境狀態(tài)的目標。
展示效果好
監(jiān)控系統(tǒng)基于企業(yè)級門戶技術(shù)Liferay,內(nèi)置了統(tǒng)一告警控制臺、統(tǒng)一性能報表、統(tǒng)一監(jiān)控列表、統(tǒng)一架構(gòu)管理等多種展示組件;同時,獨特的參數(shù)級自定義儀表板設計器可以像VisualBasic編制新程序一樣為每一個用戶定制所需要的各種個性化儀表板。
專業(yè)的報表服務引擎能夠滿足電力企業(yè)苛刻的報表定制需求,其內(nèi)置的數(shù)百套通用報表涵蓋了系統(tǒng)監(jiān)控所需的主要功能,獨有的SLA報表生成器更可以按照國際流行規(guī)范制定本單位服務品質(zhì)承諾指標。
無論是發(fā)電企業(yè)亦或其他行業(yè),專門的短信告警成了監(jiān)控系統(tǒng)必備的功能要求,該系統(tǒng)針對提供了適合中國監(jiān)控特色的短信引擎,可以靈活制定告警規(guī)則,規(guī)避敏感詞匯,批量發(fā)送不同短信內(nèi)容。
管控平臺實施效果
該電力企業(yè)通過本監(jiān)控系統(tǒng)的有效部署,經(jīng)過近一年的穩(wěn)定運行,該企業(yè)監(jiān)控管理一體化平臺初步具備了如下能力,初步達到了提前發(fā)現(xiàn)、準確定位、深入診斷的監(jiān)控目標:
基礎服務器監(jiān)控能力──包括且不限于Linux、Windows、UNIX服務器等等;
應用服務器監(jiān)控能力──包括且不限于如下應用服務器,IIS、TOMCAT、APACHE、WEBSPHERE、WEBLOGIC等等;
數(shù)據(jù)庫系統(tǒng)監(jiān)控能力──包括且不限于如下系列數(shù)據(jù)庫系統(tǒng),ORACLE、SQLSERVER、SYBASE、MYSQL等等;
網(wǎng)絡系統(tǒng)監(jiān)控能力──包括且不限于如下網(wǎng)絡設備及網(wǎng)絡系統(tǒng)的監(jiān)控, Cisco IPSLA、DNS、DHCP、 LDAP、SNMP設備、路由器、交換機等等;
存儲系統(tǒng)監(jiān)控能力──包括且不限于如下存儲設備的監(jiān)控,EMC,IBM,HP,SUN,HDS等等;
場地監(jiān)控能力──包括且不限于如下動力設備:高、低壓配電屏、整流設備、開關電源、UPS、油機、蓄電池組等。
在上述成功實踐的基礎上,該企業(yè)正全面梳理數(shù)據(jù)中心監(jiān)控需求,結(jié)合企業(yè)未來業(yè)務系統(tǒng)建設目標,制定了本監(jiān)控平臺的下一步規(guī)劃,主要內(nèi)容包括了:
完善現(xiàn)有系統(tǒng)監(jiān)控內(nèi)容
將機房內(nèi)網(wǎng)所有設備及軟件進行納管,不留盲點;
完善移動辦公軟件的監(jiān)控統(tǒng)計功能,增加客戶體驗管理;
完善機房中環(huán)境信息、場地系統(tǒng)、安防系統(tǒng)的監(jiān)控指標,消除死角。
增加目前系統(tǒng)監(jiān)控功能
增強與ITIL管理平臺、新一代呼叫中心等系統(tǒng)的全面集成能力;
增加機房與辦公區(qū)域等大屏幕展示,動態(tài)展示數(shù)據(jù)中心運行狀態(tài);
增加移動終端如IPAD、智能手機等的監(jiān)控功能,實現(xiàn)移動監(jiān)控目標。
深度監(jiān)控核心業(yè)務系統(tǒng)
針對企業(yè)核心應用SAP ERP HR系統(tǒng)、SAP財務資產(chǎn)一體化系統(tǒng)等,引入專業(yè)監(jiān)控模塊,按照SAP BASIS運維規(guī)范進行完整監(jiān)控,確保核心業(yè)務運行的可靠、平穩(wěn)、高效。

責任編輯:和碩涵
免責聲明:本文僅代表作者個人觀點,與本站無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內(nèi)容。
我要收藏
個贊
-
發(fā)電電力輔助服務營銷決策模型
2019-06-24電力輔助服務營銷 -
繞過安卓SSL驗證證書的四種方式
-
網(wǎng)絡何以可能
2017-02-24網(wǎng)絡