日本一本正道综合久久dvd_亚洲综合图_色综合久久天天_亚洲综合图色国模40p_国产精品嘿咻嘿咻

 
首頁(yè) > 綜合 >
 
 

周天虹:從原生云走向云原生

2023-05-11 12:05:01  來(lái)源:金融電子化

文 / 招商銀行信息技術(shù)部總經(jīng)理 周天虹


(資料圖)

招商銀行信息技術(shù)部 譚斌 熊愛國(guó) 張錁斌

過去20年,隨著互聯(lián)網(wǎng)發(fā)展浪潮的推進(jìn),作為互聯(lián)網(wǎng)IT技術(shù)主體支持的x86開放系統(tǒng)得到跨越式發(fā)展,而銀行業(yè)廣泛使用的IBM主機(jī)系統(tǒng)的生態(tài)則由于封閉而日趨衰落,開放系統(tǒng)替代主機(jī)系統(tǒng)成為一個(gè)必然的技術(shù)趨勢(shì)。但傳統(tǒng)開放平臺(tái)由于集群規(guī)模過小導(dǎo)致資源池割裂,進(jìn)而產(chǎn)生IT運(yùn)維和開發(fā)的豎井,這讓銀行業(yè)開放系統(tǒng)替代主機(jī)的過程充滿挑戰(zhàn)。在技術(shù)演進(jìn)過程中,云計(jì)算技術(shù)應(yīng)運(yùn)而生,成為重塑整個(gè)信息產(chǎn)業(yè)業(yè)務(wù)模式的革命性技術(shù),極大促進(jìn)了全社會(huì)的數(shù)字化轉(zhuǎn)型,同時(shí)也推動(dòng)了軟件開發(fā)的規(guī)模和復(fù)雜性迅速上升。與此同時(shí),近年來(lái)銀行業(yè)科技應(yīng)用日漸深入,IT應(yīng)用開發(fā)模式也由多年前的小團(tuán)隊(duì)獨(dú)立開發(fā)為主更多轉(zhuǎn)變?yōu)榇髨F(tuán)隊(duì)協(xié)作開發(fā),開發(fā)團(tuán)隊(duì)迫切需要一個(gè)彈性敏捷、扁平開放、支持協(xié)作分享的基礎(chǔ)設(shè)施,這進(jìn)一步強(qiáng)化了云平臺(tái)作為未來(lái)銀行業(yè)數(shù)字化轉(zhuǎn)型基石的地位。

在云的發(fā)展過程中,我們觀察到一個(gè)重要的現(xiàn)象:技術(shù)發(fā)展由原來(lái)的頭部廠商推動(dòng)轉(zhuǎn)變?yōu)殚_源社區(qū)推動(dòng)。這就意味著我們獲取關(guān)鍵技術(shù)的方式發(fā)生了根本性變化,銀行IT不能再完全依賴頭部廠商實(shí)現(xiàn)關(guān)鍵基礎(chǔ)技術(shù)的進(jìn)步,而需要建立自主的力量。在云平臺(tái)的長(zhǎng)期構(gòu)建過程中,我們獲得了一些有價(jià)值的經(jīng)驗(yàn)和認(rèn)識(shí)。

招商銀行信息技術(shù)部 總經(jīng)理 周天虹

務(wù)實(shí)致遠(yuǎn),守正創(chuàng)新
完善私有云頂層設(shè)計(jì)

云計(jì)算是新的IT變革中的決定性力量,招行需要一個(gè)先進(jìn)的私有云來(lái)重構(gòu)科技體系,實(shí)現(xiàn)科技的扁平、開放、共享和敏捷,并支撐全行業(yè)務(wù)更加融合互通以及快速發(fā)展。原生云的概念由來(lái)已久,它要求云在技術(shù)架構(gòu)、組織、流程和工具等各方面均應(yīng)具備先進(jìn)的特性,以AWS為首的領(lǐng)先公有云正是原生云的最佳實(shí)踐。在技術(shù)架構(gòu)上,招行私有云應(yīng)該具備云的彈性、靈活性、開放特征和大集群管理能力,本身可持續(xù)發(fā)展并能夠支持應(yīng)用的云原生架構(gòu)演進(jìn)。招行從云建設(shè)伊始就明確要緊追領(lǐng)先公有云,走原生云之路(招行原生云簡(jiǎn)稱ACS,Advanced Cloud Service)?;诖硕ㄎ?,招行在能力框架、建設(shè)方向和原則、總體架構(gòu)以及實(shí)施路線等方面開展了頂層規(guī)劃設(shè)計(jì)。

1.企業(yè)級(jí)云能力框架。云的基本能力方面,基于私有云是企業(yè)IT基礎(chǔ)設(shè)施的定位以及公有云領(lǐng)先實(shí)踐的狀況,我們的策略是私有云建設(shè)需全面對(duì)標(biāo)領(lǐng)先公有云。與一般公有云能力表述不同,考慮到私有云的企業(yè)屬性,提供云的通用能力的同時(shí)也應(yīng)該更好地支持企業(yè)自身需求的內(nèi)嵌場(chǎng)景。特別是IT管理能力部分,由于招行需要實(shí)現(xiàn)基礎(chǔ)設(shè)施領(lǐng)域包括組織、流程和架構(gòu)等方面的企業(yè)級(jí)規(guī)范管理,因此私有云必須實(shí)現(xiàn)相應(yīng)的管理能力場(chǎng)景,此部分功能對(duì)云上架構(gòu)持續(xù)進(jìn)化具有長(zhǎng)遠(yuǎn)意義。在支持云服務(wù)使用者方面,由于擁有對(duì)用戶使用方式的強(qiáng)管理權(quán)限,云服務(wù)功能須包含特定技術(shù)性要求,同時(shí)應(yīng)針對(duì)用戶場(chǎng)景提供企業(yè)范圍內(nèi)的開發(fā)工具支持。在私有云管理功能方面,圍繞管理IaaS層各類資源、管理云服務(wù)、管理應(yīng)用和管理用戶,拆分為云運(yùn)營(yíng)和云運(yùn)維能力,讓云的前后臺(tái)在流程層面解耦,有助于各自獨(dú)立發(fā)展并持續(xù)提升用戶體驗(yàn)。結(jié)合云的技術(shù)特點(diǎn)及應(yīng)用價(jià)值,招行面向用戶(云管理者和使用者)提出了云目標(biāo)能力(見下表)。

表 招商銀行原生云云能力框架概要

2.保證云發(fā)揮使能作用的建設(shè)原則。基于私有云應(yīng)該具備的能力和需要提供的價(jià)值,我們定義了指導(dǎo)私有云建設(shè)的基本原則:私有云是承載企業(yè)級(jí)IT發(fā)展的基礎(chǔ)設(shè)施,是支持、驅(qū)動(dòng)甚至引領(lǐng)組織、流程和文化持續(xù)發(fā)展變革的IT平臺(tái),科技領(lǐng)域的組織、流程和文化要匹配云的建設(shè)和應(yīng)用;在面向用戶場(chǎng)景方面,構(gòu)建以滿足技術(shù)人員云原生應(yīng)用開發(fā)、云服務(wù)開發(fā)、應(yīng)用和服務(wù)部署以及業(yè)務(wù)人員使用云場(chǎng)景的全棧功能云,而非實(shí)現(xiàn)局部IaaS云或PaaS云;統(tǒng)一標(biāo)準(zhǔn)化、自動(dòng)化管理平面,而非拼湊式對(duì)接傳統(tǒng)運(yùn)維體系甚至主要靠人工實(shí)現(xiàn)云管理;在核心服務(wù)模式對(duì)齊領(lǐng)先公有云的基礎(chǔ)上,構(gòu)建滿足招行特色需求的私有云;在管理工具上形成閉環(huán),支持實(shí)施云采用框架(Cloud Adoption Framework,簡(jiǎn)稱CAF,AWS提出的云實(shí)施最佳實(shí)踐框架)。

3.錨定業(yè)務(wù)場(chǎng)景規(guī)劃總體架構(gòu)。架構(gòu)設(shè)計(jì)方面,云作為實(shí)現(xiàn)IT能力交付的平臺(tái),“云即業(yè)務(wù)”,并且是對(duì)傳統(tǒng)IT交付模式進(jìn)行顛覆性變革的業(yè)務(wù)平臺(tái),傳統(tǒng)IT的組織、角色、流程在云模式下都有較大的變化,云業(yè)務(wù)體系的定位對(duì)新模式下需求和功能的實(shí)現(xiàn)至關(guān)重要,是技術(shù)體系的出發(fā)點(diǎn)。云業(yè)務(wù)體系中對(duì)業(yè)務(wù)的目標(biāo)架構(gòu)和架構(gòu)變遷路線的明確,有助于理清云服務(wù)的主次關(guān)系和建設(shè)路徑,并推動(dòng)在云轉(zhuǎn)型的干系方如組織和流程等方面作出匹配調(diào)整,避免技術(shù)架構(gòu)變成空中樓閣。技術(shù)體系方面,IaaS層主要采納已有廠商產(chǎn)品形成的標(biāo)準(zhǔn)化API管理接口,PaaS層基于開放的K8s及自研云服務(wù),之上以自研云管平臺(tái)為管理核心,根據(jù)招行場(chǎng)景編排需求和組織云服務(wù)。同時(shí),針對(duì)私有云的應(yīng)用上云場(chǎng)景,需提供應(yīng)用參考架構(gòu),以及支持其落地的云服務(wù)和工具。

4.在探索中交付,在發(fā)展中完善。2015年招行啟動(dòng)私有云建設(shè)時(shí),以我們預(yù)期達(dá)成的云能力和規(guī)模體量,業(yè)界尚無(wú)成功案例可借鑒,更缺少具體的實(shí)施經(jīng)驗(yàn)?!暗雷枨议L(zhǎng),行則將至”,招行整體私有云建設(shè)在探索中逐漸成熟和規(guī)范,具體過程可總結(jié)為:凝聚共識(shí)、架構(gòu)引領(lǐng)、規(guī)劃統(tǒng)籌、協(xié)同交付、迭代演進(jìn)。首先形成科技組織范圍內(nèi)“CloudFirst”的共識(shí),制定業(yè)務(wù)架構(gòu)和技術(shù)架構(gòu),通過總體規(guī)劃統(tǒng)領(lǐng)落地實(shí)施,以云工程項(xiàng)目群管理的方式開放式推進(jìn)各團(tuán)隊(duì)協(xié)同交付,從MVP起步,先小范圍試點(diǎn),再逐步推廣演進(jìn),最終達(dá)成目標(biāo)。

群策眾智,凝心聚力
打磨云平臺(tái)關(guān)鍵組件

原生云總體架構(gòu)確定后,具體的業(yè)務(wù)和技術(shù)方案就成為左右云平臺(tái)成敗的關(guān)鍵環(huán)節(jié)。我們通過共同關(guān)注點(diǎn)來(lái)聚焦和組織相關(guān)業(yè)務(wù)和技術(shù)解決方案。在實(shí)施層面,將原生云建設(shè)劃分為一級(jí)實(shí)施領(lǐng)域及二級(jí)專題,將共同關(guān)注點(diǎn)映射到對(duì)應(yīng)專題,并相應(yīng)組織一系列項(xiàng)目展開具體建設(shè),從而實(shí)現(xiàn)方案以高內(nèi)聚、松耦合的方式落地。截至目前,已經(jīng)完成二級(jí)專題超過600個(gè)。某種程度上,一個(gè)私有云整體解決方案實(shí)際上就是若干個(gè)關(guān)注點(diǎn)和其解決方案的集合。我們基于業(yè)務(wù)導(dǎo)向和技術(shù)導(dǎo)向,將共同關(guān)注點(diǎn)分為兩類。業(yè)務(wù)導(dǎo)向的關(guān)注點(diǎn)主要包括:云原生架構(gòu)轉(zhuǎn)型、自服務(wù)、云運(yùn)營(yíng)和云運(yùn)維等;技術(shù)導(dǎo)向的關(guān)注點(diǎn)主要包括:云基礎(chǔ)設(shè)施、可用性、容量性能、可維護(hù)性和開放性等。

1.精細(xì)把握自服務(wù)模式。在提升用戶使用基礎(chǔ)設(shè)施資源的效率方面,公有云開創(chuàng)了自服務(wù)模式。銀行IT歷來(lái)都是保姆式服務(wù),如果私有云提供自服務(wù)模式,雖然可以解決傳統(tǒng)IT模式中服務(wù)提供者和用戶之間的服務(wù)鏈割裂問題,但在管理權(quán)責(zé)、流程接續(xù)和安全等方面必然面臨一系列挑戰(zhàn)和問題。自服務(wù)模式涉及對(duì)運(yùn)維和開發(fā)人員的角色和活動(dòng)的重新定義,涉及組織層次上的調(diào)整,同時(shí)需要以技術(shù)手段保證技術(shù)管理域和業(yè)務(wù)管理域的對(duì)應(yīng),從而確保安全、性能和個(gè)性化服務(wù)的要求被落實(shí)。我們首先通過責(zé)任分擔(dān)模型,重新定義開發(fā)、測(cè)試和運(yùn)維等不同場(chǎng)景下云服務(wù)提供者和使用者的權(quán)責(zé),制定云服務(wù)接入規(guī)范和準(zhǔn)入標(biāo)準(zhǔn)。結(jié)合自研云管平臺(tái),把各個(gè)云服務(wù)都包裝成標(biāo)準(zhǔn)Resource Provider以供調(diào)用。在云服務(wù)規(guī)范和標(biāo)準(zhǔn)統(tǒng)一的基礎(chǔ)上,優(yōu)化自服務(wù)的流程銜接。為了解決自服務(wù)的安全問題,我們采用VPC/SEG等技術(shù)手段,實(shí)現(xiàn)多租戶和數(shù)據(jù)權(quán)限隔離,總分行開發(fā)和業(yè)務(wù)人員能夠靈活主動(dòng)獲取資源的同時(shí),也符合銀行對(duì)安全運(yùn)維的要求。上述方案實(shí)施后,實(shí)現(xiàn)了公有云自服務(wù)模式在原生云的落地,并在實(shí)踐中得到了驗(yàn)證和強(qiáng)化。

2.云運(yùn)營(yíng)和云運(yùn)維分而治之。銀行IT原來(lái)沒有運(yùn)營(yíng)和運(yùn)維的區(qū)別。上云后,尤其是自助式服務(wù)之后,可用性、資源治理、安全管控等問題變得突出。在調(diào)研國(guó)內(nèi)幾家頭部云廠商的后臺(tái)團(tuán)隊(duì)后,招行組建了獨(dú)立的云運(yùn)維和云運(yùn)營(yíng)團(tuán)隊(duì)。云運(yùn)維面向云服務(wù),關(guān)注站點(diǎn)可用性、容量、自動(dòng)化、SLO/SLI/SLA和資源利用率等;云運(yùn)營(yíng)面向用戶,關(guān)注用戶旅程、體驗(yàn)度量?jī)?yōu)化、權(quán)限配額、計(jì)量計(jì)費(fèi)和資源治理等。云支持模式從原來(lái)運(yùn)維為主兼顧運(yùn)營(yíng),轉(zhuǎn)變?yōu)樵七\(yùn)維和云運(yùn)營(yíng)并重,用戶需求與云平臺(tái)技術(shù)互相促進(jìn)、良性互動(dòng)。調(diào)整一年后,2022年原生云整體可用性首次突破99.995%,變更自動(dòng)化率提升到90%,云服務(wù)資源交付成功率提升到97%,安全和權(quán)限管理失控的狀況明顯改善。

3.靈活彈性的云基礎(chǔ)設(shè)施。原生云借鑒公有云的多區(qū)域RG(Region)、多可用區(qū)AZ(Availability Zone)的云基礎(chǔ)設(shè)施設(shè)計(jì)方案,但在具體的部署架構(gòu)上與公有云有差異。結(jié)合金融行業(yè)重要信息系統(tǒng)的保障要求,我們規(guī)劃和建設(shè)了分布于深圳和上海的3個(gè)區(qū)域(RG)共計(jì)11個(gè)可用區(qū)(AZ),每個(gè)區(qū)域(RG)至少含3個(gè)可用區(qū)(AZ),每個(gè)可用區(qū)含多個(gè)云資源池MU(Management Unit),投入物理服務(wù)器2萬(wàn)余臺(tái)。在具體設(shè)計(jì)和實(shí)施時(shí),我們根據(jù)原生云SDN和SDS的特性和能力,綜合評(píng)估成本、用戶功能、管理、可用性、容量性能和可維護(hù)性等要求,靈活設(shè)置基礎(chǔ)設(shè)施的管理域、故障域、安全域、性能域和功能域。例如我們可以把開發(fā)、測(cè)試和生產(chǎn)環(huán)境在同一個(gè)可用區(qū)(AZ)內(nèi)用不同的云資源池(MU)隔離,但在可用區(qū)(AZ)層面又是統(tǒng)一管理,從而達(dá)到管理清晰、成本最優(yōu)、安全隔離的目的。

4.解耦的可用性才是可管理的可用性。基于國(guó)內(nèi)外領(lǐng)先公有云建設(shè)經(jīng)驗(yàn),為了建設(shè)高可用的金融私有云,我們對(duì)基礎(chǔ)設(shè)施設(shè)計(jì)了更精細(xì)的縱向分層和橫向解耦方案。在IaaS層面,借鑒公有云行之有效的RG、AZ高可用架構(gòu),根據(jù)招行自身架構(gòu)特點(diǎn),在AZ級(jí)以下設(shè)置了MU(Management Unit)、FD(Fault Domain)、CL(Cluster)、機(jī)柜和服務(wù)器PM(Physical Machine)等可用性級(jí)別,有效壓縮故障的爆炸半徑,為快速故障定界和隔離自愈提供條件。在PaaS層面,根據(jù)各類云服務(wù)特點(diǎn)設(shè)計(jì)對(duì)應(yīng)的可用性方案。例如在容器平臺(tái)方面,有別于公有云上普遍采用的單集群跨多AZ,我們使用多集群跨多AZ架構(gòu),通過自研的容器云管和云應(yīng)用管理平臺(tái)落地應(yīng)用流水線部署,通過流量調(diào)度平臺(tái)實(shí)現(xiàn)應(yīng)用在多AZ之間調(diào)度流量。這套方案可以規(guī)避AZ及以下級(jí)別的故障。在2022年觸發(fā)的近百次故障隔離或自愈事件中,最小可以做到應(yīng)用服務(wù)單元顆粒度級(jí)別的故障隔離。通過自動(dòng)化的一鍵措施,隔離和切換的應(yīng)急時(shí)效能達(dá)到分鐘級(jí)。在應(yīng)用層面,除了應(yīng)用本身的高可用設(shè)計(jì),在部署架構(gòu)方面,原生云提供可用性集AS(Availability Set)等特性,實(shí)現(xiàn)應(yīng)用實(shí)例的親和/反親和部署。通過發(fā)布云原生應(yīng)用部署參考架構(gòu),指導(dǎo)應(yīng)用按規(guī)范部署并實(shí)現(xiàn)和底層組件的高可用聯(lián)動(dòng)。當(dāng)前,原生云的整體可用性已經(jīng)達(dá)到99.995%,滿足了金融領(lǐng)域絕大多數(shù)場(chǎng)景的可用性要求。

5.多管齊下提升容量性能。隨著全行大規(guī)模的應(yīng)用上云,早期隱藏的容量性能問題逐步暴露,包括資源供給不足和資源浪費(fèi)并存,應(yīng)用部署新舊架構(gòu)轉(zhuǎn)換導(dǎo)致資源占用雙份,SDN性能不理想導(dǎo)致部分場(chǎng)景丟包和延時(shí),基于DNS域名的流量分發(fā)不均,大數(shù)據(jù)應(yīng)用上云后對(duì)存儲(chǔ)計(jì)算分離模式的巨大沖擊等。為此,我們從技術(shù)、流程和資源等方面采取措施,大力推進(jìn)云平臺(tái)建設(shè)過程的標(biāo)準(zhǔn)化和自動(dòng)化,確保2周就可以供給一個(gè)新資源池;建立管理集群,計(jì)算集群和存儲(chǔ)集群的灰度升級(jí)能力;對(duì)SDN組件持續(xù)升級(jí)、調(diào)優(yōu)和擴(kuò)容;建設(shè)云平臺(tái)元數(shù)據(jù)收集系統(tǒng),對(duì)容量性能統(tǒng)一監(jiān)控和分析;建設(shè)原生云流量調(diào)度平臺(tái),確保精準(zhǔn)流量調(diào)度;對(duì)普通資源池,提高超分比和利舊比,提高資源利用率;云運(yùn)營(yíng)團(tuán)隊(duì)加大資源治理力度。采取這些措施后,原生云容量性能問題得到逐步緩解。目前,容量增長(zhǎng)速度下降到高峰時(shí)的一半,SDN丟包和延時(shí)下降99%,各資源池平均CPU使用率突破20%,標(biāo)準(zhǔn)資源池CPU利用率達(dá)到30%以上,已超越公有云的集群CPU利用率水平,2022年資源治理收益折合超過7000臺(tái)物理服務(wù)器。當(dāng)前,我們正在探索離在線容器混部和動(dòng)態(tài)調(diào)度,爭(zhēng)取達(dá)到40%以上的CPU利用率。

6.灰度升級(jí)保證服務(wù)不中斷??删S護(hù)性是云平臺(tái)成熟度的重要指標(biāo)。原生云3年來(lái)經(jīng)歷了2次跨大版本的升級(jí),每次升級(jí)都伴隨著可用性和可維護(hù)性的全面提升。由于采用計(jì)算和存儲(chǔ)分離的架構(gòu),我們通過優(yōu)化策略、動(dòng)態(tài)調(diào)度等措施,在云平臺(tái)灰度升級(jí)的過程中可以保持服務(wù)在線,結(jié)合原生云可用性集AS特性,可以不破壞云平臺(tái)服務(wù)的高可用架構(gòu),讓用戶基本無(wú)感。在實(shí)施中,維護(hù)域/容錯(cuò)域/故障域(Fault Domain)的劃分確保了每次維護(hù)的影響范圍/爆炸半徑可控,避免變更失誤造成重大事故。我們基于云運(yùn)維平臺(tái)做了大量的運(yùn)維數(shù)字化增強(qiáng)工作,使變更自動(dòng)化率提升到90%以上,每2小時(shí)可以完成一次全平臺(tái)的自動(dòng)化巡檢,96%事件能當(dāng)天處置完畢,IaaS層可不間斷持續(xù)實(shí)施計(jì)算和存儲(chǔ)的灰度升級(jí)。

7.開放才能有未來(lái)。開放生態(tài)推動(dòng)了云計(jì)算技術(shù)發(fā)展,構(gòu)建私有云同樣需要開放性來(lái)保證其持續(xù)發(fā)展。私有云開放性關(guān)注點(diǎn)落地是比較復(fù)雜的工作,我們的做法是以自研云管平臺(tái)為抓手,利用云管平臺(tái)的統(tǒng)一調(diào)用和編排云服務(wù),在擴(kuò)大調(diào)用范圍的過程中逐步落地云服務(wù)接口標(biāo)準(zhǔn)化和云服務(wù)模塊化。云管平臺(tái)讓用戶場(chǎng)景和具體實(shí)現(xiàn)技術(shù)解耦,最底層的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)的云基礎(chǔ)模塊也實(shí)現(xiàn)了異構(gòu)產(chǎn)品兼容,避免了私有云發(fā)展過程中被廠商或技術(shù)棧鎖定。配套建設(shè)混合部署工具、云運(yùn)維平臺(tái)等,支持開放技術(shù)棧的應(yīng)用發(fā)布和系統(tǒng)運(yùn)維接口,保證底層異構(gòu)模塊對(duì)上層使用的透明。信創(chuàng)政策出臺(tái)后,招行引入某信創(chuàng)云產(chǎn)品,與原有國(guó)外產(chǎn)品形成雙技術(shù)棧架構(gòu)?;谏鲜鲩_放性策略,在信創(chuàng)云建設(shè)中,不到一年即實(shí)現(xiàn)了兩個(gè)技術(shù)棧的統(tǒng)一納管和混部調(diào)度,云基礎(chǔ)能力全面打通,實(shí)現(xiàn)一云雙棧(通用/信創(chuàng)),支持一云多芯(x86/c86/ARM),支持上層應(yīng)用在兩個(gè)技術(shù)棧上實(shí)現(xiàn)無(wú)感平滑遷移(見下圖)。

圖 原生云的一云雙棧和一云多芯示意圖

8.推動(dòng)云原生應(yīng)用架構(gòu)轉(zhuǎn)型。云原生指以完全適配云架構(gòu)的方式在云上開發(fā)、設(shè)計(jì)、部署和運(yùn)行應(yīng)用的方法論和技術(shù)體系。我行進(jìn)行云建設(shè)和應(yīng)用上云的同時(shí),也同步開展了云原生的轉(zhuǎn)型工作。相對(duì)于傳統(tǒng)應(yīng)用架構(gòu),云原生是一套全新的架構(gòu)體系,在應(yīng)用架構(gòu)、代碼工程、流程交付和部署架構(gòu)等方面都需要進(jìn)行適配。

一是云原生應(yīng)用開發(fā)范式賦能應(yīng)用設(shè)計(jì)。應(yīng)用架構(gòu)方面,我們通過云原生開發(fā)范式對(duì)項(xiàng)目開發(fā)進(jìn)行賦能。招行業(yè)務(wù)應(yīng)用的上云過程,是一個(gè)伴隨著云應(yīng)用架構(gòu)轉(zhuǎn)型的過程,目前容器應(yīng)用的比例超過了90%,支持云原生應(yīng)用的快速部署和灰度發(fā)布,應(yīng)用整體轉(zhuǎn)向云原生架構(gòu)。在轉(zhuǎn)型過程中,服務(wù)的拆分是一個(gè)難點(diǎn)。云應(yīng)用架構(gòu)設(shè)計(jì)方面目前沒有通用的解決方案,大量依賴于開發(fā)團(tuán)隊(duì)的能力和經(jīng)驗(yàn)。我們將業(yè)界先進(jìn)的微服務(wù)設(shè)計(jì)方法論,如領(lǐng)域驅(qū)動(dòng)設(shè)計(jì)、事件風(fēng)暴等,結(jié)合招行業(yè)務(wù)的特點(diǎn),形成可操作的開發(fā)范式和流程規(guī)范,通過種子教練賦能的方式,提升開發(fā)團(tuán)隊(duì)在業(yè)務(wù)應(yīng)用微服務(wù)拆分方面的設(shè)計(jì)能力。

二是開發(fā)框架和代碼工程模版賦能開發(fā)效能提升。應(yīng)用開發(fā)方面,我們通過開發(fā)框架和代碼工程模板降低開發(fā)門檻。云原生應(yīng)用為了使用云平臺(tái)的能力,不可避免地要在業(yè)務(wù)代碼中加入大量的平臺(tái)相關(guān)的技術(shù)代碼,一方面增加了應(yīng)用代碼和底層平臺(tái)的耦合性,另外也拉高了業(yè)務(wù)開發(fā)人員的技術(shù)門檻。在實(shí)踐過程中,我們逐步總結(jié)了一條結(jié)合了開發(fā)框架、開發(fā)插件和代碼工程模板的綜合治理之路。開發(fā)框架在代碼層面實(shí)現(xiàn)平臺(tái)相關(guān)技術(shù)代碼和應(yīng)用代碼的解耦,讓業(yè)務(wù)開發(fā)人員聚焦業(yè)務(wù)邏輯的開發(fā);IDE下自研開發(fā)插件可以有效提高開發(fā)效率,作為代碼規(guī)范的落地工具,提升代碼的規(guī)范性和安全性;代碼工程模板解決了設(shè)計(jì)模式落地的痛點(diǎn),統(tǒng)一代碼語(yǔ)言,提升了代碼可維護(hù)性和可靠性。

三是開放應(yīng)用模型(OAM)標(biāo)準(zhǔn)化應(yīng)用交付。應(yīng)用交付流程和部署架構(gòu)方面,我們結(jié)合DevOps和OAM提升應(yīng)用的交付效率。招行很早就將DevOps流水線作為一項(xiàng)重要的軟件工程能力進(jìn)行建設(shè),目前DevOps成熟度是通過信通院成熟度5級(jí)認(rèn)證的兩家單位之一,已經(jīng)覆蓋了所有自研系統(tǒng)的交付,并實(shí)現(xiàn)了應(yīng)用的持續(xù)交付。OAM是一個(gè)基礎(chǔ)設(shè)施即代碼(IaC)的標(biāo)準(zhǔn)開源規(guī)范,實(shí)現(xiàn)系統(tǒng)級(jí)別的不可變基礎(chǔ)設(shè)施和聲明式部署。通過標(biāo)準(zhǔn)的OAM描述語(yǔ)言,描述一個(gè)簡(jiǎn)單業(yè)務(wù)由哪些微服務(wù)組成,這些微服務(wù)如何運(yùn)行,相互之間是怎樣的依賴關(guān)系,微服務(wù)對(duì)外暴露服務(wù)能力的方式,以及如何運(yùn)維,如何排障等特性。招行的云原生應(yīng)用管理平臺(tái),基于OAM模型,為應(yīng)用提供可視化的一站式交付能力。通過簡(jiǎn)單的可視化配置,可以快速實(shí)現(xiàn)多個(gè)關(guān)聯(lián)應(yīng)用服務(wù)單元,以及相關(guān)云服務(wù)的整體發(fā)布和部署。

價(jià)值初顯,任重道遠(yuǎn)

招行原生云自2015年啟動(dòng)建設(shè)至今,克服了平臺(tái)定位把握、技術(shù)路線選擇、技術(shù)難點(diǎn)攻關(guān)、性能安全成本三方平衡等困難。期間也犯了不少錯(cuò)誤,踩過大量的技術(shù)坑,應(yīng)對(duì)緊急情況通宵奮戰(zhàn)的場(chǎng)景至今記憶猶新。先后經(jīng)歷了PaaS平臺(tái)、全棧云和雙棧云三個(gè)發(fā)展階段,原生云逐步演進(jìn)為業(yè)界最先進(jìn)的私有云平臺(tái)之一,并已全面投產(chǎn)應(yīng)用。面向未來(lái),確保關(guān)鍵業(yè)務(wù)的長(zhǎng)期穩(wěn)定運(yùn)行,充分釋放云的潛能,我們還有較長(zhǎng)的一段路要走。

1.云平臺(tái)賦能總分行業(yè)務(wù)發(fā)展。當(dāng)前原生云平臺(tái)投產(chǎn)的物理服務(wù)器算力合計(jì)超過130萬(wàn)核,多種分布式云存儲(chǔ)總可用容量超40PB,提供70余種云服務(wù),服務(wù)總行、分行和多家子公司開放系統(tǒng)全面上云,應(yīng)用上云過程中同步推進(jìn)云原生改造和傳統(tǒng)中間件的可控平替。原生云上的應(yīng)用90%以上都是容器應(yīng)用及云服務(wù)。原生云平臺(tái)及云模式的轉(zhuǎn)變,讓總分行和子公司的研發(fā)效率得到提升,業(yè)務(wù)更加敏捷。云上承載的應(yīng)用每日業(yè)務(wù)請(qǐng)求量超過300億次,峰值處理能力超過100萬(wàn)TPS,CPU平均利用率超越公有云水平。

2.緊追前沿技術(shù),分享技術(shù)紅利。不同于傳統(tǒng)銀行IT在基礎(chǔ)設(shè)施方面只使用成熟技術(shù)的慣例,招行原生云建設(shè)的指導(dǎo)思想是緊追前沿技術(shù),在云建設(shè)中引入和應(yīng)用了大量前沿技術(shù),一方面我們本身享受到技術(shù)嘗鮮者的收益,另外對(duì)于管理前沿技術(shù)的風(fēng)險(xiǎn)敞口也積累了有益的經(jīng)驗(yàn)。

我們?cè)谠频腎aaS層采用了大量新技術(shù),例如25G/100G CLOS網(wǎng)絡(luò)、存儲(chǔ)計(jì)算分離架構(gòu)、軟件定義網(wǎng)絡(luò)SDN、軟件定義存儲(chǔ)SDS、IPv6+IPv4雙網(wǎng)絡(luò)棧、RDMA、SRIOV和智能網(wǎng)卡、ACS流量調(diào)度平臺(tái)、異構(gòu)雙平面DNS等。穩(wěn)步推進(jìn)新技術(shù)應(yīng)用,從實(shí)驗(yàn)到可控到推廣,實(shí)現(xiàn)了IaaS層的技術(shù)迭代更新。

在PaaS層,CMB-K8s是我們?cè)谠菩艅?chuàng)技術(shù)棧上推出的容器平臺(tái)服務(wù),采用基于Cilium自研組網(wǎng)模式,較通用容器集群網(wǎng)絡(luò)性能提升30%以上,基于eBPF實(shí)現(xiàn)了更好的容器網(wǎng)絡(luò)可觀測(cè)性。

自主可控的云管理平臺(tái)和云運(yùn)維平臺(tái),可以支持應(yīng)用在多個(gè)技術(shù)棧之間進(jìn)行無(wú)縫遷移。有利于吸納和引進(jìn)最先進(jìn)的技術(shù),取各家之長(zhǎng),并避免廠商鎖定,保證云底座的先進(jìn)性。

聲明式的應(yīng)用交付模式,基于OAM,實(shí)現(xiàn)真正的IaC交付模式。云平臺(tái)提供的標(biāo)準(zhǔn)化資源和服務(wù)供給,為IaC提供了基礎(chǔ)能力。將一個(gè)通用的應(yīng)用模型貫穿到整個(gè)業(yè)務(wù)應(yīng)用研發(fā)的用戶旅程中,每一個(gè)環(huán)節(jié)的輸出都以可執(zhí)行代碼的形式記錄,最終通過自動(dòng)化引擎,實(shí)現(xiàn)聲明式的部署。

在原生云平臺(tái)建設(shè)中,我們不僅使用開源軟件,也在開源社區(qū)做出貢獻(xiàn),OAM作為云原生應(yīng)用交付的重要標(biāo)準(zhǔn),KubeVela是OAM的主流開源實(shí)現(xiàn),招行已成為國(guó)際KubeVela開源社區(qū)的最高一級(jí)貢獻(xiàn)者,能夠參與社區(qū)的技術(shù)規(guī)劃和決策。

3.發(fā)揮云的牽引作用,從上云走向全面適配云。招商銀行已經(jīng)走過“上云”的起步期,進(jìn)入可持續(xù)發(fā)展的雙棧云階段,具備有利條件支持云技術(shù)在行內(nèi)的持續(xù)發(fā)展。為全面獲取云的紅利,下一步需要推進(jìn)科技體系全面適配云。為此,我們要加快推進(jìn)云開發(fā)范式落地,通過加強(qiáng)架構(gòu)設(shè)計(jì),提升應(yīng)用開發(fā)的敏捷性,應(yīng)對(duì)業(yè)務(wù)的快速變化;我們要構(gòu)建全面適配云的工程管理體系,并從DevOps走向BizDevOps,高質(zhì)高效地進(jìn)行產(chǎn)品價(jià)值交付;參考云技術(shù)的發(fā)展軌跡,我們將持續(xù)探索科技組織內(nèi)部的開源生態(tài)和開源能力共享;與云帶來(lái)的開放、創(chuàng)新、分享的文化相匹配,我們更要用云原生重塑IT工作文化,讓招行科技體系更快地從“OnCloud”走向“InCloud”,全面釋放云生產(chǎn)力,支持“數(shù)字招行”建設(shè)進(jìn)一步提速。

(欄目編輯:鄭巖)

關(guān)鍵詞:

  
相關(guān)新聞
每日推薦
  • 滾動(dòng)
  • 綜合
  • 房產(chǎn)