怎樣寫好事故報告,并且做好經(jīng)驗復(fù)用與分享?

0 評論 15137 瀏覽 21 收藏 10 分鐘

我只想知道將來我會死在什么地方,這樣我就永遠(yuǎn)不去那兒了。

常在河邊走,哪能不濕鞋?日常工作中,總會遇到產(chǎn)品在正式使用過程中出故障,導(dǎo)致功能出現(xiàn)缺陷或者信息暴露等等問題。無論大公司或小公司,例如2017年12月7日美團(tuán)外賣重復(fù)支付bug,2018年6月27日下午阿里云掛了長達(dá)2時,2019年1月3日,藝考報名系統(tǒng)“藝術(shù)升”APP持續(xù)崩潰、閃退,導(dǎo)致數(shù)十萬藝考生無法報名。

在事故來臨時,我們積極應(yīng)對,處理完事故,后面的事情同樣重要。作為產(chǎn)品相關(guān)人員,撰寫一份優(yōu)秀的事故報告,做出經(jīng)驗總結(jié),落地執(zhí)行改進(jìn)措施,既能有效避免同類事情再次發(fā)生,又能提前消滅其他隱藏的危險。

事故報告內(nèi)容結(jié)構(gòu)

事故報告基本可以分為五大模塊:標(biāo)題、事故描述、事故處理、事故責(zé)任人、經(jīng)驗總結(jié)。其他諸如處罰、資料附件等等根據(jù)實際需要添加。下面,我以真實事件為原型,模擬一個事故來作為例子描述。

標(biāo)題

標(biāo)題:XX系統(tǒng)響應(yīng)崩潰事故報告

說明:直接點名主題;或準(zhǔn)確指明事故具體名稱+事故報告

事故描述

這里我們應(yīng)用記述六要素,時間、地點、人物、起因、經(jīng)過、結(jié)果。

時間:2018年12月3日10:00—2018年12月4日00:00

地點:全國各區(qū)域用戶(無區(qū)域性的事故,可去掉本項)

人物:產(chǎn)品用戶(有些事故由于人為操作不當(dāng)導(dǎo)致,需加上相關(guān)人物。)

起因:2018年12月3日上午10點,官網(wǎng)活動開始,用戶大量進(jìn)入APP,每秒最大并發(fā)連接數(shù)1.98萬,隨后,其他活動也開始舉行,并發(fā)數(shù)保持高峰。由于排隊人數(shù)過多,服務(wù)器的響應(yīng)能力嚴(yán)重不足,導(dǎo)致系統(tǒng)出現(xiàn)了擁堵。

經(jīng)過:2018年12月3日10點,官網(wǎng)活動開始,用戶大量進(jìn)入APP,每秒最大并發(fā)連接數(shù)1.98萬,上午11點,每秒最大并發(fā)連接數(shù)2萬;系統(tǒng)報警,開發(fā)人員XX緊急檢查……

隨后,A、B、C三大活動方活動也開始舉行,并發(fā)數(shù)保持高峰,2018年12月3日12點,每秒最大并發(fā)連接數(shù)2.5萬。

2018年12月3日18點,所有活動方均已開始舉行活動,每秒最大并發(fā)連接數(shù)5.7萬。

……

以上為各重點節(jié)點描述,本文不再贅述。

說明:簡要描述各個重要時間節(jié)點,還原事件經(jīng)過,讓查看的人有清晰的事件發(fā)展路線,如有相關(guān)數(shù)據(jù)圖表,也應(yīng)加上。

結(jié)果:2018年12月3日10:00起-2019年12月4日00:00,期間APP持續(xù)崩潰、閃退,導(dǎo)致所參與的200萬用戶提交請求出現(xiàn)失敗。12月4日凌晨,APP恢復(fù)正常。

說明:結(jié)果描述需要具體、真實并且包含影響范圍。

事故處理

2018年12月3日10:00,系統(tǒng)報警,開發(fā)人員XX緊急檢查,并聯(lián)系相關(guān)負(fù)責(zé)人匯報情況……商討方案……馬上申請調(diào)用服務(wù)器…..組織進(jìn)行架構(gòu)優(yōu)化……由于之前系統(tǒng)在線排隊用戶較多,消化用戶隊列需要一段時間,此過程用戶體驗略慢,截止12月4日凌晨,所有頁面與App己完全恢復(fù)正常,目前系統(tǒng)穩(wěn)定。

說明:事故處理需要描述從開始導(dǎo)處理完畢的過程,可用于復(fù)盤,若有發(fā)現(xiàn)處理過程不足的地方,可備后續(xù)改進(jìn),優(yōu)秀的經(jīng)驗可用于分享。

事故責(zé)任人

產(chǎn)品負(fù)責(zé)人XXX

技術(shù)負(fù)責(zé)人XXX

說明:根據(jù)實際情況填寫負(fù)責(zé)人,以便進(jìn)行追責(zé)、改進(jìn)等等工作。

經(jīng)驗總結(jié)

本次事故突出了我們系統(tǒng)人員在前期系統(tǒng)流量沖擊預(yù)估不足,沒有緊急擴充服務(wù)器方案。

說明:一次事故,表面的原因可能是是一行代碼寫錯,一個失誤、一個忽視。但實際上暴露的產(chǎn)品研發(fā)流程規(guī)范、制度規(guī)范、人員安全意識等等,這些才是我們后續(xù)需要重點解決的,很多時候,事故報告被當(dāng)作一種形式化的文檔。

甚至,有部分公司也根本不需要寫事故報告,解決問題后就不管了,沒有進(jìn)行后續(xù)的跟進(jìn)總結(jié)。事故一次次發(fā)生,無論產(chǎn)品或者人員沒有從這一次次的事故中吸取教訓(xùn)、取得進(jìn)步。

以上為事故報告的內(nèi)容構(gòu)成,事故報告之外,經(jīng)驗復(fù)用、分享同樣重要。

經(jīng)驗復(fù)用與分享

經(jīng)驗復(fù)用

產(chǎn)品內(nèi)部:每一個事故都不是偶然的,造成的原因不是唯一,在其他地方往往也存在問題。例如:產(chǎn)品某個接口暴露敏感信息,我們也應(yīng)該同樣檢查類似接口,避免其他接口也出現(xiàn)同樣的問題。

其他產(chǎn)品:在一家公司中,往往產(chǎn)品研發(fā)流程、制度規(guī)范大部分一致,若是由于流程不完善,此時不應(yīng)該只對出問題的產(chǎn)品線進(jìn)行優(yōu)化,在做出改進(jìn)措施后,應(yīng)當(dāng)將其延伸復(fù)用到其他產(chǎn)品線,避免其他產(chǎn)品線出現(xiàn)同樣的問題。

經(jīng)驗分享

這里我們參考萬達(dá)內(nèi)部培訓(xùn)方法《11130教學(xué)法》來對我們的經(jīng)驗進(jìn)行分享。“11130”的含義是:1個業(yè)務(wù)問題;1個實際案例;1個解決方法;30分鐘講解。

  • 1個業(yè)務(wù)問題+1個實際案例:兩者避免了我們之前在做經(jīng)驗分享時內(nèi)容大而全、不聚焦、無重點導(dǎo)致受眾根本記不住的問題。專注一個或一類業(yè)務(wù)問題,徹底分析,舉一反三,全面解決問題。實際發(fā)生的案例,我們印象更為深刻,也更加容易產(chǎn)生聯(lián)想,用工作中實際發(fā)生的案例來呈現(xiàn)問題,呈現(xiàn)解決方法,問題實,方法實,有價值。
  • 1個解決方法:復(fù)盤后,我們根據(jù)實際問題,制定最好的那個解決方法,只分享最好的,不累贅,更有利于大家吸收,反思自己所負(fù)責(zé)的產(chǎn)品。
  • 30分鐘講解:平時大家工作任務(wù)重,所以對于這種經(jīng)驗分享,事故總結(jié)會議總是心存排斥,30分鐘只是一個概念,如果一個問題可以講透,可以縮短到20分鐘、15分鐘甚至10分鐘。30分鐘講解,讓分享可以靈活安排在部門例會后或問題發(fā)生的現(xiàn)場。根據(jù)不同情況,時間也可以適當(dāng)延長,但我們盡量在短時間內(nèi)把問題講透。

通過《11130教學(xué)法》,我們可以快速學(xué)習(xí),特別是互聯(lián)網(wǎng)行業(yè),在這個快速迭代更新的世界,我們也需要快速更新我們的知識。重大的事故,帶來的負(fù)面影響往往很大,但是隨著帶來的教訓(xùn)與經(jīng)驗也往往更多,我們需要將這些解決問題的方法與經(jīng)驗得到快速的沉淀,轉(zhuǎn)化為企業(yè)資產(chǎn)。

以上,通過回顧事故,做出總結(jié),將經(jīng)驗進(jìn)行復(fù)用與分享,相信我們能夠做到不重復(fù)踩坑!

最后分享投資大師查理芒格最喜歡的一句諺語:

我只想知道將來我會死在什么地方,這樣我就永遠(yuǎn)不去那兒了。

 

作者:彬go,微信公眾號“有個思享”,專注讀書與產(chǎn)品心得分享,歡迎交流。

本文由 @彬go 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!