您的位置:首頁 >公共 >

環(huán)球微資訊!云原生穩(wěn)定性價值被低估?看頭部金融企業(yè)穩(wěn)定性保障法則!

2023-06-30 09:23:43 來源:51CTO

云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等技術(shù)浪潮賦予金融科技創(chuàng)新源源不斷的生命力,但與此同時,以數(shù)字經(jīng)濟(jì)為代表的新型經(jīng)濟(jì)形態(tài)也對傳統(tǒng)金融業(yè)態(tài)和既有底層技術(shù)帶來深刻變革和巨大挑戰(zhàn)。

在國際形勢復(fù)雜化的背景下,國家對安全可靠、自主可控技術(shù)提出了更高的要求。金融行業(yè)信息系統(tǒng)具備自主研發(fā)能力,降低對商業(yè)產(chǎn)品的依賴成為當(dāng)前刻不容緩的工作。


(資料圖)

由于金融行業(yè)涉及民生,業(yè)務(wù)一旦出現(xiàn)問題,就會對整個社會輿論造成嚴(yán)重影響,因此,金融行業(yè)的系統(tǒng)穩(wěn)定性保障尤為重要。然而,走向數(shù)字化的金融企業(yè)在業(yè)務(wù)方面存在不可預(yù)測、不可控、復(fù)雜性高等問題,這就給系統(tǒng)穩(wěn)定性保障帶來不小挑戰(zhàn)。

那么,金融企業(yè)如何規(guī)劃系統(tǒng)穩(wěn)定性治理工作?如何利用云原生架構(gòu)的特性和優(yōu)勢,來保障業(yè)務(wù)系統(tǒng)穩(wěn)定性?近日,51CTO 采訪了網(wǎng)易數(shù)帆云原生解決方案專家朱劍峰,攜國有大行長期實(shí)踐經(jīng)驗(yàn),為金融行業(yè)的系統(tǒng)穩(wěn)定性建設(shè)獻(xiàn)策支招。

金融行業(yè)云原生升級挑戰(zhàn)多

隨著近年來同業(yè)競爭加劇,各大金融機(jī)構(gòu)紛紛追求金融服務(wù)個性化、場景化,欲打造開放金融,加之監(jiān)管要求需要實(shí)現(xiàn) IT 自主可控目標(biāo),金融企業(yè)從大單體總線架構(gòu)進(jìn)一步向微服務(wù)、云原生架構(gòu)演進(jìn)。

在近日舉辦的 WOT 全球技術(shù)創(chuàng)新大會上,來自銀行、證券、保險等領(lǐng)域的多位科技部門負(fù)責(zé)人表示,云原生架構(gòu)的落地不是一蹴而就的,需要在架構(gòu)演進(jìn)過程中,不斷完善相關(guān)的能力與規(guī)范,形成企業(yè)的組織文化與技術(shù)體系。企業(yè)需要全面梳理、逐步演進(jìn),從周邊到核心,先創(chuàng)新再傳統(tǒng)。映射到金融企業(yè),就是先從偏向互聯(lián)網(wǎng)業(yè)務(wù)方向的敏態(tài)業(yè)務(wù)開始進(jìn)行微服務(wù)拆分和云原生改造,進(jìn)而再滲透到核心系統(tǒng)的穩(wěn)態(tài)業(yè)務(wù)。

隨著諸多企業(yè)開始向云原生架構(gòu)遷移,云原生穩(wěn)定性保障也逐漸受到重視。企業(yè)在云原生穩(wěn)定性保障方面也遇到了不小挑戰(zhàn)。朱劍峰表示,金融企業(yè)在云原生穩(wěn)定性保障方面主要有兩大挑戰(zhàn)。一類集中在系統(tǒng)韌性方面,在外部環(huán)境下,訪問流量的變化會導(dǎo)致系統(tǒng)過載,應(yīng)用高可用設(shè)計(jì)不達(dá)標(biāo),都會造成系統(tǒng)韌性不足;另一類在系統(tǒng)可觀測性方面,由于系統(tǒng)可觀測性不足,導(dǎo)致運(yùn)維人員無法第一時間發(fā)現(xiàn)多樣化的云服務(wù)風(fēng)險故障,例如針對生產(chǎn)環(huán)境的操作變更(人為誤操作、變更失敗),代碼編寫的缺陷(代碼質(zhì)量、程序邏輯、應(yīng)用架構(gòu)等故障),以及業(yè)務(wù)依賴的平臺硬件故障、網(wǎng)絡(luò)故障等情況,無法快速發(fā)現(xiàn)并定位問題,最終造成業(yè)務(wù)損失。

因此,云原生技術(shù)底座成為了金融企業(yè)業(yè)務(wù)系統(tǒng)保障的重點(diǎn)演進(jìn)方向。金融企業(yè)需要將云原?的特性應(yīng)?在業(yè)務(wù)場景方面,增強(qiáng)傳統(tǒng)云服務(wù)的觀測性、應(yīng)?韌性、?可?性、故障?愈等能?,從而消除不確定性,為業(yè)務(wù)系統(tǒng)帶來額外保障。

云原生提供的穩(wěn)定性價值被低估,國有大行已嘗鮮

眾所周知,傳統(tǒng)運(yùn)行環(huán)境偏向手工運(yùn)維,更多依賴個人經(jīng)驗(yàn),一般很難做到標(biāo)準(zhǔn)化。而云原生架構(gòu)的本質(zhì)區(qū)別在于容器和容器編排調(diào)度的能力,容器化帶來了運(yùn)行應(yīng)用的標(biāo)準(zhǔn)化環(huán)境,包括云原生環(huán)境下的監(jiān)控告警、異常事件等數(shù)據(jù)也是以標(biāo)準(zhǔn)化的格式存放,再結(jié)合 K8s 技術(shù)提供的故障自愈以及實(shí)現(xiàn)自動化的運(yùn)維技術(shù),采用云原生技術(shù)建設(shè)的風(fēng)險預(yù)測平臺天然就擁有較為智能、自動化、標(biāo)準(zhǔn)的穩(wěn)定性保障能力,也可以為傳統(tǒng)虛擬機(jī)環(huán)境上的業(yè)務(wù)應(yīng)用提供更為有效的工具平臺。

然而,業(yè)界對于云原生的期待大多還聚焦于如何將業(yè)務(wù)遷移到云原生架構(gòu)上。但這一遷移過程成本相對比較高,周期也較長,金融行業(yè)創(chuàng)新意愿強(qiáng)烈的頭部客戶固然已經(jīng)在行動,尤其是一些技術(shù)實(shí)力強(qiáng)勁的國有大行,以基于云原生的穩(wěn)定性保障為后盾,將分布式架構(gòu)轉(zhuǎn)型和核心業(yè)務(wù)小機(jī)下移的規(guī)劃相結(jié)合推進(jìn)落地,而更多技術(shù)儲備不足的企業(yè),往往處于觀望狀態(tài)。綜合分析,朱劍峰認(rèn)為,基于云原生架構(gòu)能夠額外提供的可觀測性、故障自愈能力是被低估的。

朱劍峰表示,像容器、K8s、微服務(wù)平臺以及穩(wěn)定性平臺屬于工具類平臺,是 PaaS 的云原生底座,這些技術(shù)工具平臺擁有云原生的能力和優(yōu)勢,相比傳統(tǒng)虛擬機(jī)和物理機(jī)可以進(jìn)一步實(shí)現(xiàn)智能化能力,這也是大家沒有太多感知到的。所以,在業(yè)務(wù)云原生化之前,企業(yè)不妨考慮將技術(shù)工具類平臺遷移到云原生架構(gòu)上,通過穩(wěn)定性保障技術(shù)來反向?yàn)閭鹘y(tǒng)架構(gòu)下的業(yè)務(wù)(包括穩(wěn)態(tài)業(yè)務(wù))進(jìn)行賦能。事實(shí)上,與網(wǎng)易數(shù)帆合作的部分金融客戶,在某些業(yè)務(wù)上也謹(jǐn)慎地采用了這樣的策略。

系統(tǒng)穩(wěn)定性保障三部曲事前降發(fā)生和事中降影響并重

墨菲定律指出,“凡是可能出錯的事有很大概率會出錯”,指的是任何一個事件,只要具有大于零的概率,就不能夠假設(shè)它不會發(fā)生。整個定律也提示我們,即使一件事發(fā)生的可能性很小,也不能忽視它,應(yīng)該采取預(yù)防措施,防止發(fā)生不良后果。

那么,對于業(yè)務(wù)系統(tǒng)的穩(wěn)定性保障,應(yīng)該如何建設(shè)和完善呢?朱劍峰按照事件生命周期,將增強(qiáng)業(yè)務(wù)系統(tǒng)的穩(wěn)定性風(fēng)險保障能力的建設(shè)路徑梳理為三部曲:事前提供風(fēng)險預(yù)測,降低故障發(fā)生概率;事中通過故障感知自動根因分析快速止損,降低故障影響;事后完善故障改進(jìn)追蹤能力,實(shí)現(xiàn)穩(wěn)定性建設(shè)目標(biāo)。

事前階段,通過風(fēng)險預(yù)見和中間件巡檢,結(jié)合全鏈路壓測、混沌工程、引流回放在測試環(huán)境事先發(fā)現(xiàn)系統(tǒng)存在的可能風(fēng)險,給出分析報告;同時,在生產(chǎn)環(huán)境定時巡檢,及時發(fā)現(xiàn)生產(chǎn)環(huán)境可能存在的風(fēng)險問題。事中階段,通過立體化監(jiān)控收集系統(tǒng)的深度指標(biāo),標(biāo)準(zhǔn)化數(shù)據(jù)讓根因分析及時發(fā)現(xiàn)故障,并定位根因,給出分析報告,做到1分鐘發(fā)現(xiàn)問題,5分鐘定位問題。事后階段屬于復(fù)盤過程,主要在于總結(jié)經(jīng)驗(yàn),并將事前和事中的一些經(jīng)驗(yàn)固化為專家規(guī)則庫。

然而,如果企業(yè)的 IT 團(tuán)隊(duì)能力有限,在資金投入也受限的情況下,應(yīng)該注重事前、事中還是事后呢?朱劍峰表示,每個企業(yè)的情況不一樣,在企業(yè)沒有充足的預(yù)算和人力的情況下,應(yīng)該著重在事前降發(fā)生和事中降影響兩個方面。事前通過持續(xù)巡檢、?險評估、故障演練等將異常?險左移,引?算法實(shí)現(xiàn)事前?險預(yù)測能?,降低潛在的?險;事中通過?體化監(jiān)控,在故障發(fā)?后能快速定位根因,根據(jù)故障特征模版采取限流兜底或?愈策略,把影響降?最低。

沉淀專家經(jīng)驗(yàn)降低穩(wěn)定性保障門檻

據(jù)了解,針對企業(yè)云原生穩(wěn)定性保障方面,網(wǎng)易數(shù)帆提供事件生命周期全棧能力,包括故障演練、服務(wù)治理、風(fēng)險預(yù)見、立體化監(jiān)控、根因分析、故障自愈、規(guī)則專家?guī)斓炔煌K。

那么,網(wǎng)易數(shù)帆的核心競爭力有哪些呢?朱劍峰告訴 51CTO,網(wǎng)易數(shù)帆云原生穩(wěn)定性保障平臺的核心價值在于專家經(jīng)驗(yàn)的沉淀,這也是企業(yè)數(shù)字資產(chǎn)的一部分。一方面,網(wǎng)易在集團(tuán)業(yè)務(wù)中涉及大規(guī)?;ヂ?lián)網(wǎng)業(yè)務(wù),沉淀了非常多的專業(yè)的專家經(jīng)驗(yàn),可以覆蓋 70%-80% 的互聯(lián)網(wǎng)場景,并可復(fù)用于金融等行業(yè)敏態(tài)業(yè)務(wù)支撐。另一方面,網(wǎng)易數(shù)帆還在和包括國有大行在內(nèi)的多家頭部金融企業(yè)合作共建金融行業(yè)專家?guī)?,不斷完善金融場景下的專家?jīng)驗(yàn),為金融敏態(tài)業(yè)務(wù)提供穩(wěn)定性保障。“基于這套專家經(jīng)驗(yàn)庫,網(wǎng)易數(shù)帆通過將專家經(jīng)驗(yàn)和故障庫形成代碼,讓機(jī)器通過算法降低對系統(tǒng)保障對‘人’的經(jīng)驗(yàn)的依賴,讓穩(wěn)定性保障的門檻變低?!?/p>

專家經(jīng)驗(yàn)?zāi)軌蛟诜€(wěn)定性保障場景里被有效使用,其實(shí)是通過決策來實(shí)現(xiàn)的。一方面是通過規(guī)則引擎直接運(yùn)行專家經(jīng)驗(yàn),另一方面是通過 AIGC、AIOps 等技術(shù),幫助企業(yè)進(jìn)行輔助性決策,從而不斷提升診斷建議的科學(xué)性和有效性。這也是網(wǎng)易數(shù)帆在穩(wěn)定性保障方面的下一步舉措,并且正在內(nèi)部驗(yàn)證過程中。

提供轉(zhuǎn)型利器保障金融系統(tǒng)穩(wěn)定性

在服務(wù)金融企業(yè)技術(shù)架構(gòu)轉(zhuǎn)型過程中,網(wǎng)易數(shù)帆對自己的定位也相對比較清晰。一是通過與行業(yè)頭部金融企業(yè)合作共建,打造經(jīng)過大規(guī)模實(shí)踐優(yōu)化的具備自主可控、穩(wěn)定可靠、技術(shù)領(lǐng)先,以及可持續(xù)演進(jìn)的技術(shù)底座產(chǎn)品,為金融企業(yè)提供轉(zhuǎn)型的利器。二是秉持開源、開放、無綁定的原則,提供輕量、解耦的模塊化工具產(chǎn)品,配合企業(yè)已有的 IT 規(guī)劃小步快跑,逐漸落地數(shù)字化轉(zhuǎn)型。

某金融企業(yè)經(jīng)常出現(xiàn)緩存不可用的情況,間接導(dǎo)致業(yè)務(wù)不可用。而這家企業(yè)的自動化程度較低、觀測性也較弱,無法發(fā)現(xiàn)問題出現(xiàn)的根本原因。接入網(wǎng)易數(shù)帆云原生穩(wěn)定性保障平臺后,該企業(yè)通過穩(wěn)定性巡檢的方式發(fā)現(xiàn)底層存儲抖動,精確定位到 SSD 寫穿掉盤的故障,從而及時發(fā)現(xiàn)問題,告知存儲團(tuán)隊(duì)排查處理。

此外,底層存儲的抖動,還影響到對應(yīng)虛擬機(jī)和物理機(jī)運(yùn)行的中間件,網(wǎng)易數(shù)帆基于云原生實(shí)踐對各中間件品類設(shè)計(jì)了配套的異地多活及故障自愈能力,如果出現(xiàn)異常抖動的情況,可以通過這項(xiàng)能力及時將流量遷移到穩(wěn)定的集群,從而規(guī)避風(fēng)險。朱劍峰強(qiáng)調(diào),大型企業(yè)最核心的訴求就是出現(xiàn)問題后能夠快速止損,因此底層存儲出現(xiàn)抖動,如果排查問題并恢復(fù)對應(yīng)的存儲,整個周期是非常長的。但是通過穩(wěn)定性巡檢的方式快速發(fā)現(xiàn)問題,并且自動解決事故,是事中快速止損的一種方法。

結(jié)語

金融行業(yè)一直是網(wǎng)易數(shù)帆持續(xù)投入與推動落地實(shí)踐的重要領(lǐng)域。融合網(wǎng)易互聯(lián)網(wǎng)技術(shù)與金融行業(yè)服務(wù)經(jīng)驗(yàn),通過提供微服務(wù)治理、API 網(wǎng)關(guān)、容器平臺、分布式緩存、消息、搜索等云原生 PaaS 中間件及相關(guān)云原生分布式產(chǎn)品全棧能力,網(wǎng)易數(shù)帆已經(jīng)幫助兩家國有四大行、十余家中國金融百強(qiáng)企業(yè)客戶向云原生分布式架構(gòu)轉(zhuǎn)型升級,建設(shè)API資產(chǎn)全生命周期管理,打造滿足金融業(yè)務(wù)特性的企業(yè)級技術(shù)底座,幫助金融企業(yè)應(yīng)對復(fù)雜業(yè)務(wù)場景的挑戰(zhàn),加速金融業(yè)務(wù)創(chuàng)新。在云原生穩(wěn)定性保障領(lǐng)域,未來,網(wǎng)易數(shù)帆還將與金融企業(yè)持續(xù)合作,不斷完善 DBA、SRE 老專家經(jīng)驗(yàn),從而提升診斷建議的科學(xué)性及有效性,并結(jié)合智能決策,幫助金融企業(yè)滿足業(yè)務(wù)穩(wěn)定性增長需求。

標(biāo)簽:

編輯推薦