在論壇上,國外某企業(yè)的真實案例引發(fā)了熱議。一開始該企業(yè)只顧技術創(chuàng)新,積極上云,不顧成本。
直到有一天,高層介入喊停:“這個云不能再上了,成本已經(jīng)遠大于收益了”。該企業(yè)因為成本失控導致上云進度延遲兩年,嚴重影響企業(yè)技術創(chuàng)新。
(資料圖片僅供參考)
隨著企業(yè)上云越來越普及,企業(yè)會發(fā)現(xiàn)用云成本也水漲船高,似乎與當初云計算誕生時宣稱的“降低IT成本”理念背道而馳。
正因如此,云時代如何有效控制成本、質量和效率,成為企業(yè)用云管云的新課題。與之對應的云成本優(yōu)化(FinOps)一詞,也變得越來越流行。
在Google Trends上,“FinOps”關鍵字的搜索量在2019年到2023年的四年間增長了410倍。在國外,有18000多人把FinOps技能列在了自己的LinkedIn簡歷里。
CNCF發(fā)布的云原生2023年趨勢預測報告中,10個熱點趨勢中有4個與FinOps相關,分別是FinOps、GreenOps、GitOps和削減成本。
今天就來聊聊,什么是FinOps,以及企業(yè)該如何實踐FinOps?
FinOps:用最低成本創(chuàng)造最大價值
FinOps的歷史并不悠久,公有云早期用戶Adobe和Intuit在2012年首次描繪出了FinOps的雛形。FinOps本質上是一個理論框架,沒有特定的技術棧,其方法論來自各個云廠商最佳實踐的整合和抽象,從組織流程、識別浪費、優(yōu)化措施等方面給出建議。
FinOps定義了一系列云財務管理規(guī)則和最佳實踐,通過助力工程和財務團隊、技術和業(yè)務團隊彼此合作,進行數(shù)據(jù)驅動的成本決策,使組織能夠獲得最大收益。
FinOps基金會的這張圖被引用了很多次,圖里簡單列出了FinOps理論的原則、目標和參與方等。
圖片來源:FinOps基金會(中譯版)
FinOps理論的最終目的是要最低的成本來創(chuàng)造最大的價值,并指出了成本優(yōu)化的三個階段:
●成本感知節(jié)點關注成本可視化、成本分攤等;
●成本優(yōu)化階段可聚焦目標制定,然后通過費率優(yōu)化和用量優(yōu)化來節(jié)省成本;
●運維階段通過持續(xù)優(yōu)化流程、規(guī)范和資源運營手段等實現(xiàn)持續(xù)成本優(yōu)化。
同時,F(xiàn)inOps理論還有一些成熟度評估模型,來評估企業(yè)做得好不好。
這三個方面牽扯廣、執(zhí)行難,是一個需要拉動企業(yè)全員參與的系統(tǒng)工程,因此成功的前提是組織目標的高度對齊,全員經(jīng)營意識的建立,組織堅定的執(zhí)行力和不斷提升的執(zhí)行效率,實踐的本身就是對組織效率的大練兵。
FinOps如何實施?
知名IT軟件企業(yè)Flexera對云計算決策者進行年度調研已經(jīng)持續(xù)12年,在3月8日發(fā)布的《Flexera 2023年云計算現(xiàn)狀報告》中顯示,82%的受訪者表示,他們面臨的最大挑戰(zhàn)是管理云支出。
近一半(45%)受訪者表示,由于經(jīng)濟不確定性,他們預計的云使用量和支出要比原計劃中的略高或大幅度提高。
因此,云成本管理的關注度也許并不令人意外。如今的經(jīng)濟波動意味著,盡管云的使用和支出依然保持強勁增長,但企業(yè)對與之相關的費用越來越敏感。
那么,涉及到云成本優(yōu)化時,到底該如何降本增效呢?
企業(yè)要做到降本增效,無非是兩個途徑:一是減量,減少浪費。國外有調查報告顯示,現(xiàn)在至少有35%的云資源是被浪費掉的。二是減價,從計費模式切入優(yōu)化。
確立了路徑之后,企業(yè)具體該如何實施呢?有業(yè)內專業(yè)給出了以下步驟:
第一,全體動員。讓該參與的這種角色或者組織或者團隊加入進來。
第二,構建精確的IT資源全景地圖。通過CMDB的方式構建一個企業(yè)全局的資源圖譜,便于各個團隊之間的溝通,或者在談某個項目或某一個環(huán)境的降本增效時,確保大家的信息是對齊的。
第三,合理的標簽。成本的分攤,是通過在IT資源全景地圖上,基于系統(tǒng)的層次架構、技術架構、業(yè)務架構等來分攤,在這其中有一套標簽體系是非常重要的,需要把它當成日常重要的工作來做。
第四,有效的IT資源利用率監(jiān)控。很多時候,企業(yè)做IT資源的可觀測性,大家比較關注系統(tǒng)可用性監(jiān)控,或是性能監(jiān)控,不太重視資源利用率的監(jiān)控。如果連利用率監(jiān)控都監(jiān)控不準的話,那么就沒法判斷哪些資源是浪費的。
值得注意的是,面向FinOps的利用率監(jiān)控和傳統(tǒng)的運維監(jiān)控不太一樣。傳統(tǒng)的運維監(jiān)控比較關注平均利用率,而FinOps更加關注峰值。如果不按照峰值去算容量的話,那么降本增效之后,系統(tǒng)大概率就崩潰了。
除了減量減價的優(yōu)化方式,還有一些被忽視的“省錢之道”也需要受到企業(yè)關注,例如:
●選擇適合自己的多云架構。并非所有的業(yè)務都適合上云,有的業(yè)務上了云之后可能更貴。同時,需關注多云的最大公約數(shù),保證既能跨云,又不會被某一個云廠商鎖定。
●善用托管服務。比如有的企業(yè)數(shù)據(jù)中心上云后,將原有數(shù)據(jù)中心的機器托管給服務商,基于原有的機器去上云,可以節(jié)省一大筆成本。
知名互聯(lián)網(wǎng)企業(yè)的FinOps實踐
盡管FinOps在國內提及不多,但早在2020年12月,中國信通院就牽頭成立FinOps產業(yè)推進方陣,推進規(guī)?;瘜嵺`。
在那些率先擁抱云原生的互聯(lián)網(wǎng)大廠內部,云成本優(yōu)化的種子其實早就生根萌芽,形成了最佳實踐的方法論。FinOps的出現(xiàn),讓大廠們的優(yōu)化經(jīng)驗得到了更體系化的表達。
以字節(jié)跳動為例,他們內部已有相關實踐,例如云賬單分析,多云架構下對不同廠商定價策略的審視,推薦、廣告、搜索的在離線任務混合部署等。目前,字節(jié)跳動在云成本優(yōu)化上的最佳實踐,將通過火山引擎對外提供服務。
阿里集團也搭建了自己的混合云資源管理平臺(HCRM),推進自身成本數(shù)字化從無到有的建設,重新疏通集團內部的云資源計費和結算鏈路。
在騰訊內部,云業(yè)務成本中心承擔著FinOps團隊的職責,需要背上資源優(yōu)化的考核指標,從平臺側、業(yè)務側著手,甚至可以向上匯報,通過GM的層級去推動。
以騰訊為例,其內部構建了豐富的成本和利用率績效看板,每天晾曬績效,做得好或不好都會及時披露。
騰訊內部的成本看板主要包括兩個維度:第一個是哪個帳號買了哪些資源,第二個是哪些業(yè)務使用了這些資源,包括一些分攤細節(jié)。
此外,還有面向平臺和業(yè)務的利用率、成熟度等成熟度指標看板,主要了解資源大盤的整體情況,看投入使用部分用得好不好,同時盤活閑置資源、減少浪費。
平臺側提供的FinOps能力從以下幾個角度助力業(yè)務和平臺達成目標:
業(yè)務優(yōu)化:在云控制臺上提供了資源優(yōu)化專項頁面,基于業(yè)務的資源用量歷史進行預測,構建業(yè)務資源畫像,并給出資源優(yōu)化建議。
規(guī)格建議:通過對比業(yè)務資源的申請量和使用量,可以告訴業(yè)務可以節(jié)省的成本數(shù)據(jù),然后業(yè)務可以通過系統(tǒng)的控制臺直接做優(yōu)化。
彈性建議:比如某個工作日資源使用非常高,但周末基本沒有流量,這時候周末就要縮容,這些業(yè)務也可以通過控制臺自己優(yōu)化。
平臺優(yōu)化:云平臺在進行業(yè)務調度時,提供了眾多基于資源畫像的調度能力。
調度優(yōu)化:提出了面向真實利用率的動態(tài)調度能力,管理員設定節(jié)點目標利用率,只要利用率還未達標,調度器就可以調度更多業(yè)務進來。
混部能力:引入差異化 SLA,允許高優(yōu)在線業(yè)務和低優(yōu)近離線業(yè)務混部,壓榨每一分算力,同時離線服務可以在發(fā)生資源競爭時立即讓渡資源需求,實現(xiàn)對在線業(yè)務零干擾。
據(jù)悉,騰訊內部的在線業(yè)務通過調度優(yōu)化手段把資源利用率拉到48%,再加上離線混部,部分集群資源利用率可以達到65%以上。
整體來看,騰訊CPU規(guī)模達到了5000萬核,而云成本優(yōu)化總節(jié)省30億元。
企業(yè)何時下場FinOps?
盡管互聯(lián)網(wǎng)大廠們已做出表率,在FinOps實踐中取得了可觀的成績,這是否意味著眼下所有的企業(yè)都應該進入到FinOps的實踐中?
事實上,企業(yè)對上云的關注點是循序漸進的:第一階段企業(yè)關注的更多是隱私、穩(wěn)定,以及行業(yè)監(jiān)管政策;第二階段則是云與業(yè)務、研發(fā)、管理等體系的適配,關注效率的提升;第三階段,才會來到成本優(yōu)化的層次。
目前大多數(shù)國內企業(yè)還處在業(yè)務遷上云原生的時期,當企業(yè)面對業(yè)務壓力時,成本管控的優(yōu)先級自然會先“放一放”;當業(yè)務趨于穩(wěn)定,應用的容器化、架構的現(xiàn)代化接近完成,也就是時候將關注點轉到成本優(yōu)化上來。
但現(xiàn)狀如此,并不代表這就是理想的狀態(tài)。
有業(yè)內專家直言,云成本優(yōu)化應該從上云的第一天就開始規(guī)劃,并且不斷優(yōu)化。
“很多企業(yè)在上云的過程中,只是把過去的經(jīng)驗簡單粗暴的套用在新技術棧上。也有眾多團隊武斷地認為成本優(yōu)化和業(yè)務穩(wěn)定性是相背離的,二者只能取其一”,該專家表示。
結語
FinOps是大勢所趨,而且正處于快速發(fā)展的早期階段。對于企業(yè)來說,早期的實踐和轉變總會帶來陣痛,實踐者需要做好這樣的心理準備。而 FinOps未來如何幫助企業(yè)把云“用好”,還需要全行業(yè)的不懈努力和探索。
相關閱讀
“物有所值”還是“有所不值”?FinOps算一筆云計算的經(jīng)濟賬
中美云巨頭盈利差距拉大,中國云計算為什么不賺錢?
云計算“躺賺”時代過去了,算清賬變得更重要
【科技云報道原創(chuàng)】
轉載請注明“科技云報道”并附本文鏈接