聊聊支付寶的重大事故

0 評論 1232 瀏覽 0 收藏 5 分鐘

2025年1月16日下午,支付寶發生了一起P0級別的重大事故,短短二十幾分鐘內,所有訂單價格異常享受了政府補貼,打了八折。這一事件迅速引發了廣泛關注。

16號下午兩點40分到45分,支付寶出了一次P0級別的重大事故,這個時間段所有訂單的價格都享受了政府補貼,打了八折。支付寶這么大體量的公司,影響面一定特別廣,涉及的金額也會非常大。

一、這么大的公司也會出問題?

越大的公司,商城體系就會越復雜,各個模塊錯綜交互,哪一個分支場景沒有測試到位,就很容易出問題。

一般的大廠,功能上線需要經歷:

1.產品方案設計,審視方案有無業務場景的漏洞,各個模塊的區分是否合理

2.架構師從技術架構梳理,如果識別產品經理的方案不合理,還要重新調整方案

3.測試評審,一般答應的項目,還會有解決方案測試,多方串聯,保證各個項目細節能夠知悉到位

4.灰度上線,大功能一般需要灰度個幾周,沒有太多的異常反饋后才能全量上線

以上的流程任何一個步驟沒有做到位,都很容易出現問題。

大公司的流程一般都很完善,但并不代表大公司就不會出問題。

很多項目還是需要人的參與,是人都有七情六欲,比如稍微測試不周全,問題就出現了。

當然,相比小公司,大公司這塊做的還是不錯的。

體現在:五分鐘就把問題處理掉了

二、為什么問題處理這么快?

五分鐘,什么概念?

發現問題到定位問題,隨隨便便都不止五分鐘,可是支付寶五分鐘就處理完了,這背后是非常強大的風險管理機制在支撐。

我在前公司,一旦遇到現網問題,從運維的同事接收信息,到處理完畢,需要在15分鐘內解決,不然就是大事故,要扣績效。

因為這個規則,運維團隊的配置,24小時的輪值監控,產品經理輪值監控,開發測試人員的輪值,確保在出現異常的時候,能夠最快速度聯系到人,最快速定位到問題,及時解決問題。

五分鐘應該是處理問題的天花板了,向支付寶致敬,每一個風控體系的完善,少不了那么多運維團隊的辛勤付出。

很多小公司,別說五分鐘了,可能一旦出現問題,自己人都沒有發現,還要等著用戶來主動反饋,而用戶的主動反饋有些時候還視而不見,即使知道了,還要從家里趕到公司,再定位問題,聯系各個產品經理、開發、測試,不斷定位問題,這樣一來一回,估計一天就過去了。

記得印象很深的一次,618開門紅時候,有將近一個小時下不了單,損失慘重。后來有將近一個月的時間,所有的研發團隊都在做技術重構,1000多人的團隊,就只做一件事,可想而知影響面有多大。

支付寶還有一個更牛的,出問題的當天晚上,就把錢要回來了。每個下單的,都綁定了支付寶賬號,天時地利人和都占據了,再一次把損失降到最低。

做電商的,危機意識太重要了,因為是和錢打交道的,一點點問題,就有可能給公司帶來直接的經濟損失,而且甚至不可彌補。

警鐘長鳴

本文由人人都是產品經理作者【蔡錦?!?,微信公眾號:【錦海說】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!