是時候全員FinOps了嗎?
企業上云已經逐漸越來越普及的一件事情,但很多時候,企業上云卻需要相對高的用云成本。這個時候,云成本優化,即“FinOps”這一概念就逐漸被提到了日程當中。那么,什么是“FinOps”?現在的企業可以如何實踐FinOps呢?一起來看看本文的解讀。
在論壇上,國外某企業的真實案例引發了熱議。一開始該企業只顧技術創新,積極上云,不顧成本。
直到有一天,高層介入喊停:“這個云不能再上了,成本已經遠大于收益了”。該企業因為成本失控導致上云進度延遲兩年,嚴重影響企業技術創新。
隨著企業上云越來越普及,企業會發現用云成本也水漲船高,似乎與當初云計算誕生時宣稱的“降低IT成本”理念背道而馳。
正因如此,云時代如何有效控制成本、質量和效率,成為企業用云管云的新課題。與之對應的云成本優化(FinOps)一詞,也變得越來越流行。
在Google Trends上,“FinOps”關鍵字的搜索量在2019年到2023年的四年間增長了410倍。在國外,有18000多人把FinOps技能列在了自己的LinkedIn簡歷里。
CNCF發布的云原生2023年趨勢預測報告中,10個熱點趨勢中有4個與FinOps相關,分別是FinOps、GreenOps、GitOps和削減成本。
今天就來聊聊,什么是FinOps,以及企業該如何實踐FinOps?
一、FinOps:用最低成本創造最大價值
FinOps的歷史并不悠久,公有云早期用戶Adobe和Intuit在2012年首次描繪出了FinOps的雛形。FinOps本質上是一個理論框架,沒有特定的技術棧,其方法論來自各個云廠商最佳實踐的整合和抽象,從組織流程、識別浪費、優化措施等方面給出建議。
FinOps定義了一系列云財務管理規則和最佳實踐,通過助力工程和財務團隊、技術和業務團隊彼此合作,進行數據驅動的成本決策,使組織能夠獲得最大收益。
FinOps基金會的這張圖被引用了很多次,圖里簡單列出了FinOps理論的原則、目標和參與方等。
圖片來源:FinOps基金會(中譯版)
FinOps理論的最終目的是要最低的成本來創造最大的價值,并指出了成本優化的三個階段:
- 成本感知節點關注成本可視化、成本分攤等;
- 成本優化階段可聚焦目標制定,然后通過費率優化和用量優化來節省成本;
- 運維階段通過持續優化流程、規范和資源運營手段等實現持續成本優化。
同時,FinOps理論還有一些成熟度評估模型,來評估企業做得好不好。
這三個方面牽扯廣、執行難,是一個需要拉動企業全員參與的系統工程,因此成功的前提是組織目標的高度對齊,全員經營意識的建立,組織堅定的執行力和不斷提升的執行效率,實踐的本身就是對組織效率的大練兵。
二、FinOps如何實施?
知名IT軟件企業Flexera對云計算決策者進行年度調研已經持續12年,在3月8日發布的《Flexera 2023年云計算現狀報告》中顯示,82%的受訪者表示,他們面臨的最大挑戰是管理云支出。
近一半(45%)受訪者表示,由于經濟不確定性,他們預計的云使用量和支出要比原計劃中的略高或大幅度提高。
因此,云成本管理的關注度也許并不令人意外。如今的經濟波動意味著,盡管云的使用和支出依然保持強勁增長,但企業對與之相關的費用越來越敏感。
那么,涉及到云成本優化時,到底該如何降本增效呢?
企業要做到降本增效,無非是兩個途徑:一是減量,減少浪費。國外有調查報告顯示,現在至少有35%的云資源是被浪費掉的。二是減價,從計費模式切入優化。
確立了路徑之后,企業具體該如何實施呢?有業內專業給出了以下步驟:
第一,全體動員。讓該參與的這種角色或者組織或者團隊加入進來。
第二,構建精確的IT資源全景地圖。通過CMDB的方式構建一個企業全局的資源圖譜,便于各個團隊之間的溝通,或者在談某個項目或某一個環境的降本增效時,確保大家的信息是對齊的。
第三,合理的標簽。成本的分攤,是通過在IT資源全景地圖上,基于系統的層次架構、技術架構、業務架構等來分攤,在這其中有一套標簽體系是非常重要的,需要把它當成日常重要的工作來做。
第四,有效的IT資源利用率監控。很多時候,企業做IT資源的可觀測性,大家比較關注系統可用性監控,或是性能監控,不太重視資源利用率的監控。如果連利用率監控都監控不準的話,那么就沒法判斷哪些資源是浪費的。
值得注意的是,面向FinOps的利用率監控和傳統的運維監控不太一樣。傳統的運維監控比較關注平均利用率,而FinOps更加關注峰值。如果不按照峰值去算容量的話,那么降本增效之后,系統大概率就崩潰了。
除了減量減價的優化方式,還有一些被忽視的“省錢之道”也需要受到企業關注,例如:
- 選擇適合自己的多云架構。并非所有的業務都適合上云,有的業務上了云之后可能更貴。同時,需關注多云的最大公約數,保證既能跨云,又不會被某一個云廠商鎖定。
- 善用托管服務。比如有的企業數據中心上云后,將原有數據中心的機器托管給服務商,基于原有的機器去上云,可以節省一大筆成本。
三、知名互聯網企業的FinOps實踐
盡管FinOps在國內提及不多,但早在2020年12月,中國信通院就牽頭成立FinOps產業推進方陣,推進規?;瘜嵺`。
在那些率先擁抱云原生的互聯網大廠內部,云成本優化的種子其實早就生根萌芽,形成了最佳實踐的方法論。FinOps的出現,讓大廠們的優化經驗得到了更體系化的表達。
以字節跳動為例,他們內部已有相關實踐,例如云賬單分析,多云架構下對不同廠商定價策略的審視,推薦、廣告、搜索的在離線任務混合部署等。目前,字節跳動在云成本優化上的最佳實踐,將通過火山引擎對外提供服務。
阿里集團也搭建了自己的混合云資源管理平臺(HCRM),推進自身成本數字化從無到有的建設,重新疏通集團內部的云資源計費和結算鏈路。
在騰訊內部,云業務成本中心承擔著FinOps團隊的職責,需要背上資源優化的考核指標,從平臺側、業務側著手,甚至可以向上匯報,通過GM的層級去推動。
以騰訊為例,其內部構建了豐富的成本和利用率績效看板,每天晾曬績效,做得好或不好都會及時披露。
騰訊內部的成本看板主要包括兩個維度:第一個是哪個帳號買了哪些資源,第二個是哪些業務使用了這些資源,包括一些分攤細節。
此外,還有面向平臺和業務的利用率、成熟度等成熟度指標看板,主要了解資源大盤的整體情況,看投入使用部分用得好不好,同時盤活閑置資源、減少浪費。
平臺側提供的FinOps能力從以下幾個角度助力業務和平臺達成目標:
- 業務優化:在云控制臺上提供了資源優化專項頁面,基于業務的資源用量歷史進行預測,構建業務資源畫像,并給出資源優化建議。
- 規格建議:通過對比業務資源的申請量和使用量,可以告訴業務可以節省的成本數據,然后業務可以通過系統的控制臺直接做優化。
- 彈性建議:比如某個工作日資源使用非常高,但周末基本沒有流量,這時候周末就要縮容,這些業務也可以通過控制臺自己優化。
- 平臺優化:云平臺在進行業務調度時,提供了眾多基于資源畫像的調度能力。
- 調度優化:提出了面向真實利用率的動態調度能力,管理員設定節點目標利用率,只要利用率還未達標,調度器就可以調度更多業務進來。
- 混部能力:引入差異化?SLA,允許高優在線業務和低優近離線業務混部,壓榨每一分算力,同時離線服務可以在發生資源競爭時立即讓渡資源需求,實現對在線業務零干擾。
據悉,騰訊內部的在線業務通過調度優化手段把資源利用率拉到48%,再加上離線混部,部分集群資源利用率可以達到65%以上。
整體來看,騰訊CPU規模達到了5000萬核,而云成本優化總節省30億元。
四、企業何時下場FinOps?
盡管互聯網大廠們已做出表率,在FinOps實踐中取得了可觀的成績,這是否意味著眼下所有的企業都應該進入到FinOps的實踐中?
事實上,企業對上云的關注點是循序漸進的:第一階段企業關注的更多是隱私、穩定,以及行業監管政策;第二階段則是云與業務、研發、管理等體系的適配,關注效率的提升;第三階段,才會來到成本優化的層次。
目前大多數國內企業還處在業務遷上云原生的時期,當企業面對業務壓力時,成本管控的優先級自然會先“放一放”;當業務趨于穩定,應用的容器化、架構的現代化接近完成,也就是時候將關注點轉到成本優化上來。
但現狀如此,并不代表這就是理想的狀態。
有業內專家直言,云成本優化應該從上云的第一天就開始規劃,并且不斷優化。
“很多企業在上云的過程中,只是把過去的經驗簡單粗暴的套用在新技術棧上。也有眾多團隊武斷地認為成本優化和業務穩定性是相背離的,二者只能取其一”,該專家表示。
五、結語
FinOps是大勢所趨,而且正處于快速發展的早期階段。對于企業來說,早期的實踐和轉變總會帶來陣痛,實踐者需要做好這樣的心理準備。而 FinOps未來如何幫助企業把云“用好”,還需要全行業的不懈努力和探索。
本文由@科技云報到 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。提供信息存儲空間服務。
- 目前還沒評論,等你發揮!