從攜程宕機(jī)引發(fā)“運(yùn)維人員”的思考
昨日上午11時(shí)09分,攜程官網(wǎng)和APP突然無法使用引發(fā)熱議,不少人對此幸災(zāi)樂禍,衍生出各種謠言段子。公眾在調(diào)侃攜程的同時(shí),可能難以體會(huì)到攜程技術(shù)部的巨大壓力,尤其是運(yùn)維部門面臨的壓抑和不安。 今日凌晨
昨日上午11時(shí)09分,攜程官網(wǎng)和APP突然無法使用引發(fā)熱議,不少人對此幸災(zāi)樂禍,衍生出各種謠言段子。公眾在調(diào)侃攜程的同時(shí),可能難以體會(huì)到攜程技術(shù)部的巨大壓力,尤其是運(yùn)維部門面臨的壓抑和不安。
今日凌晨,原支付寶運(yùn)維團(tuán)隊(duì)負(fù)責(zé)人智錦發(fā)表《深入解析和反思攜程宕機(jī)事件》一文,讓不少運(yùn)維人讀后深有感觸,OneAPM也感同身受。面對層出不窮的安全隱患,當(dāng)下運(yùn)維人員亟需一套新型高效的方法論和工具,為自身運(yùn)維工作“減負(fù)”,告別加班熬夜的怪圈。
運(yùn)維重要性凸顯
在不少企業(yè)管理者眼里,運(yùn)維長期處于“邊緣化”角色,他們往往不知該如何評價(jià)運(yùn)維價(jià)值,甚至很多運(yùn)維從業(yè)者也不知該關(guān)注什么,每天任務(wù)就是到處當(dāng)“救火隊(duì)長”。
眾所周知,運(yùn)維和性能息息相關(guān),網(wǎng)站的訪問性能(速度、穩(wěn)定性),對于如今移動(dòng)互聯(lián)網(wǎng)時(shí)代的企業(yè)而言,已經(jīng)成為影響公司發(fā)展過程中至關(guān)重要的一環(huán)。
以谷歌為例,網(wǎng)站打開速度只要差400毫秒,用戶請求將會(huì)下降0.59%。更何況攜程發(fā)生如此嚴(yán)重的宕機(jī)事件,造成損失難以估量。由此可見,企業(yè)管理者必須轉(zhuǎn)變“傳統(tǒng)運(yùn)維”思考模式,積極探索新玩法。
通過攜程宕機(jī)事件,OneAPM建議IT企業(yè)和技術(shù)人員應(yīng)痛定思痛,認(rèn)真總結(jié)經(jīng)驗(yàn)教訓(xùn),認(rèn)識到“運(yùn)維”的價(jià)值和重要性。
APM為運(yùn)維工作減負(fù)
在傳統(tǒng)時(shí)代,運(yùn)維人員只能通過查詢、分析各種日志文件來分析各種故障問題,基本上靠血肉之軀實(shí)現(xiàn)了業(yè)務(wù)部門的信息化,但已越來越難以適應(yīng)新時(shí)代的運(yùn)維需求。
近年來,APM(應(yīng)用性能管理)已成SaaS領(lǐng)域最火的創(chuàng)業(yè)方向,其能對企業(yè)關(guān)鍵業(yè)務(wù)應(yīng)用進(jìn)行監(jiān)測、優(yōu)化。提高企業(yè)應(yīng)用可靠性和質(zhì)量,保證用戶得到良好的服務(wù),降低IT總擁有成本(TCO)。
以O(shè)neAPM為例,OneAPM專注于提供下一代應(yīng)用性能管理軟件和服務(wù),幫助企業(yè)用戶和開發(fā)者實(shí)現(xiàn)緩慢的程序代碼和SQL語句的實(shí)時(shí)抓取。產(chǎn)品適用于復(fù)雜的現(xiàn)代應(yīng)用程序生產(chǎn)環(huán)境,提供端到端應(yīng)用性能管理、移動(dòng)端和瀏覽器真實(shí)用戶體驗(yàn)分析、業(yè)務(wù)交易實(shí)時(shí)分析,可以降低運(yùn)維人員 90% 故障修復(fù)時(shí)間,減少 80% 的客服工作量。
APM的運(yùn)維價(jià)值
攜程此次宕機(jī)發(fā)生后,歷經(jīng)17個(gè)小時(shí)才恢復(fù)正常。究其原因,主要是對大型網(wǎng)站而言,數(shù)據(jù)恢復(fù)遠(yuǎn)不是搞定幾個(gè)應(yīng)用和幾個(gè)數(shù)據(jù)庫服務(wù)器那么簡單。一個(gè)網(wǎng)站的后臺是一個(gè)由SOA(面向服務(wù))架構(gòu)組成的龐大服務(wù)器集群,每一個(gè)簡單頁面的背后,都由成百上千個(gè)應(yīng)用子系統(tǒng)組成,每個(gè)子系統(tǒng)又包括若干臺應(yīng)用和數(shù)據(jù)庫服務(wù)器,而且不同應(yīng)用系統(tǒng)之間也存在耦合和依賴關(guān)系。這么多復(fù)雜的系統(tǒng)交織在一起,數(shù)據(jù)恢復(fù)的難度可想而知。
為此,OneAPM提供一套新型解決方案。通過OneAPM的Application Insight 產(chǎn)品可以實(shí)現(xiàn)對前端瀏覽器、網(wǎng)絡(luò)傳輸、應(yīng)用性能、中間件性能、數(shù)據(jù)庫性能的自動(dòng)關(guān)聯(lián)及分析功能,可自動(dòng)發(fā)現(xiàn)應(yīng)用執(zhí)行過程中涉及的軟硬件基礎(chǔ)架構(gòu)組件,以及他們之間的交互路徑。
這也意味著,使用Application Insight 就能夠根據(jù)應(yīng)用拓?fù)浜妥詣?dòng)發(fā)現(xiàn)和可視化,進(jìn)而實(shí)現(xiàn)對系統(tǒng)進(jìn)行整體的把握。
不久前,OneAPM客戶通過后臺監(jiān)控發(fā)現(xiàn)線上服務(wù)出現(xiàn)異常日志,通過監(jiān)控報(bào)告發(fā)現(xiàn),JVM垃圾回收指標(biāo)迅速升高,運(yùn)維馬上進(jìn)行針對性的分析,很快發(fā)現(xiàn)出現(xiàn)問題的代碼行,在最短的時(shí)間內(nèi)解決問題。直到半小時(shí)后,該公司使用的公有云服務(wù)商才發(fā)出告警信息。
從該層面而言,OneAPM對運(yùn)維人員的價(jià)值不言而喻,OneAPM能夠幫助IT運(yùn)維人員提前預(yù)警,快速定位到故障問題,為運(yùn)維人員節(jié)省更多的時(shí)間成本和和勞動(dòng)強(qiáng)度。
除此之外,OneAPM另一核心價(jià)值就是將“黑盒運(yùn)維”變成“白盒運(yùn)維”。傳統(tǒng)的運(yùn)維人員算是“黑盒運(yùn)維”,不斷去做重復(fù)性的操作,時(shí)間久了,只知道自己管理的服務(wù)器能正常對外服務(wù),但是卻不知道應(yīng)用的依賴關(guān)系。
通過OneAPM,運(yùn)維人員能真正清楚所管理的系統(tǒng)的功能和配置,從前端瀏覽器到后端應(yīng)用服務(wù)器、數(shù)據(jù)庫,能夠有效監(jiān)控和分析系統(tǒng)執(zhí)行的每一個(gè)環(huán)節(jié),從源頭上解決運(yùn)維人員到處救火的窘境。
對于攜程此次宕機(jī)事故,OneAPM建議公眾應(yīng)以理解和寬容心態(tài)對待。對于互聯(lián)網(wǎng)公司而言,突發(fā)性技術(shù)故障算是稀疏平常之事,Google、Amazon、百度、騰訊、阿里巴巴等也難以幸免。
OneAPM也希望通過本次攜程宕機(jī)事件,讓業(yè)界重新認(rèn)識到運(yùn)維的價(jià)值和重要性。同時(shí)建議運(yùn)維人員能接觸和了解APM。當(dāng)然,并不意味使用APM就能一勞永逸,OneAPM更多的是幫助運(yùn)維人員提供一套高效的管理模式,以及更加智能化解決方案。

責(zé)任編輯:大云網(wǎng)
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
-
發(fā)電電力輔助服務(wù)營銷決策模型
2019-06-24電力輔助服務(wù)營銷 -
電力線路安全工作的組織措施和技術(shù)措施分別是什么?
-
兩會(huì)保電進(jìn)行時(shí)丨陜西電力部署6項(xiàng)重點(diǎn)任務(wù)
-
電力線路安全工作的組織措施和技術(shù)措施分別是什么?
-
兩會(huì)保電進(jìn)行時(shí)丨陜西電力部署6項(xiàng)重點(diǎn)任務(wù)
-
山東特高壓首次完成帶電消缺 確保電力安全穩(wěn)定迎峰度冬
-
發(fā)電電力輔助服務(wù)營銷決策模型
2019-06-24電力輔助服務(wù)營銷 -
繞過安卓SSL驗(yàn)證證書的四種方式
-
網(wǎng)絡(luò)何以可能
2017-02-24網(wǎng)絡(luò)
-
Windows 10首發(fā) 四大安全提升
-
超級安卓漏洞 “寄生獸”影響數(shù)千萬手機(jī)應(yīng)用
-
航空公司首出現(xiàn)操作系統(tǒng)被黑
2015-06-23航空公司
-
“企業(yè)應(yīng)急響應(yīng)和反滲透”之真實(shí)案例分析
-
攜程恢復(fù)正常 安全,我們準(zhǔn)備好了嗎?
2015-05-29攜程 -
一張圖讀懂《2014年消費(fèi)者個(gè)人信息網(wǎng)絡(luò)安全報(bào)告》