盤點近幾年的互聯網宕機事件,都是啥原因?

0 評論 2905 瀏覽 11 收藏 17 分鐘

互聯網宕機事件頻繁發生,引發廣泛關注,本文將回顧一些國內外重大宕機事件,并分析宕機的可能原因。讓我們一起來看看吧!

“滴滴滴滴滴滴等待”,從昨天晚上到今天中午,滴滴崩了難住了不少打工人。

這次宕機持續近12個小時,算是滴滴近年來癱瘓時間最長的一次故障。

滴滴2023年第三季度財報顯示,單季度中國出行業務總交易額為725億元,日均單量達到3130萬單。據此,有媒體估計將會讓滴滴損失過千萬的訂單量和超4億的交易額。

而除了滴滴外,阿里云在不到10天的時間里也出現了兩次故障。

第一次是11月12日下午5點多,阿里云出現異常,隨之“淘寶又崩了”“閑魚崩了”“阿里云盤崩了”“釘釘崩了”等話題相繼登上微博熱搜。

原因是2023年11月12日17:44起,阿里云產品控制臺訪問及API調用出現出現使用異常,阿里云工程師正在緊急介入排查。當天晚上7點20左右恢復正常。

第二次就是昨天,阿里云再次出現故障,不到兩個小時后得到修復。

阿里云聲明稱11月27日09:16起,阿里云監控發現北京、上海、杭州、深圳、青島 、香港以及美東、美西地域的數據庫產品(RDS、PolarDB、Redis等)的控制臺和OpenAPI訪問出現異常,實例運行不受影響。經過工程師緊急處理,訪問異常問題已于當日10:58恢復。

而事實上,阿里云在近幾年曾出現多次事故。從2018年至2022年的5年時間里,阿里云曾有3次大事故。

2022年12月18日,阿里云爆發香港Region可用區C大規模服務中斷事件,導致多個香港及澳門站點受到影響。當時阿里云坦言:“這對很多客戶的業務產生重大影響,也是阿里云運營十多年來持續時間最長的一次大規模故障?!?/p>

后來,阿里云發布了事件說明,公告顯示,冷機系統故障恢復時間過長、現場處置不及時導致觸發消防噴淋、客戶在香港地域新購ECS等管控操作失敗、故障信息發布不夠及時透明是導致此次宕機時間長、規模大的四大重要原因。

下面我們再來盤點下近幾年來影響較大的宕機事件。

一、先看看國際宕機事件

1. Facebook史上最嚴重宕機,長達7小時,市值蒸發數百億

2021年10月5日,Facebook、Messenger、Instagram和WhatsApp等Facebook旗下應用均出現故障。

盤點近幾年的互聯網宕機事件,都是啥原因?

據了解,此次宕機長達7個小時,刷新了 Facebook 自 2008 年以來的最長宕機時長。

此次宕機影響到全球數十個國家和地區用戶,Facebook幾乎所有的產品都受到波及,甚至內網都無法使用。Facebook擁有幾十億用戶,影響范圍不可想象。

宕機期間,大量用戶涌向了Twitter、Telegram等其他應用,又進一步導致這些應用程序的服務器崩潰。

后來Facebook對宕機原因進行了說明。

聲明中稱:“據我們工程團隊的了解,協調數據中心之間網絡流量的主干路由器的配置變化導致了通信中斷,由此對我們數據中心的通信方式產生了連帶影響,使我們的服務陷入停頓?!?/strong>

當日Facebook股價盤中暴跌6%,市值減少數百億美元,扎克伯格個人財富一日蒸發逾60億美元。

當時有媒體報道,專家估計Facebook、Instagram、WhatsApp全球服務中斷一小時就將給全球經濟造成1.6億美元的損失。

2. ChatGPT和API服務出現嚴重停機,CEO公開致歉

根據網絡狀況監測網站Downdector的數據顯示,大概從11月8日北京時間周三晚22點左右開始,出現大量網友報告OpenAI的ChatGPT和API(提供給開發者搭建第三方服務的應用程序接口)全都無法使用。整個故障的時間大致持續了100分鐘。

OpenAI也將這次的事件定義為“嚴重停機”(Major Outage)。公司在北京時間11月8日21點54分宣布服務出現問題。最終在當天23點33分,OpenAI確認已實施修復措施,服務開始逐漸恢復。

為此,OpenAI CEO山姆·奧特曼在X(原推特)上發表公開致歉稱,本周發布的新功能遇到遠超預期的使用量。公司原計劃在周一為所有訂閱者啟用GPT服務,但目前還無法實現。奧特曼進一步表示,由于負載原因,短期內可能還會出現服務不穩定的情況。

3. 蘋果公司也多次宕機

作為全球最受矚目的科技公司,蘋果也有過宕機事件。

在去年蘋果曾多次出現宕機事故,一月份有1次,3月份有2次,8月份還有一次。

盤點近幾年的互聯網宕機事件,都是啥原因?

2022年1月26日,蘋果iCloud服務遭遇大范圍宕機,受影響嚴重的地區有紐約、芝加哥、洛杉磯。

同年3月23日,蘋果再次出現服務器宕機。來到8月份,蘋果的一些iCloud服務發生了中斷。

2023年5月11日,蘋果全球服務經歷了55分鐘的大規模宕機,導致許多用戶的 Apple ID / iCloud 賬戶突然登出,無法登錄。宕機的原因是數據中心的嚴重故障,導致蘋果公司的多項服務無法正常運行,包括 iCloud、App Store、iTunes 等。

4. 谷歌曾一年就4次宕機

谷歌也經常發生宕機事件。

2022年8月8日,美國愛荷華州康瑟爾布拉夫斯的谷歌數據中心發生電力事故,導致3名電工嚴重燒傷。

據媒體報道,3名電工在數據中心大樓附近的變電站工作時,突然發生了電弧閃光,事故造成全球40多個國家/地區的至少1338臺服務器中斷服務,谷歌搜索遭遇全球性宕機。

此外,在2020年谷歌就發生了4次宕機事件。

5. 特斯拉全球性宕機

2020年9月,特斯拉系統遭全球性宕機。

從美東時間9月23日11點開始,特斯拉車主便無法通過手機App連接到汽車上。同樣的問題也發生在特斯拉的能源產品上,特斯拉太陽能和Powerwall儲能電池用戶無法監控他們的系統。

盤點近幾年的互聯網宕機事件,都是啥原因?

有用戶在宕機追蹤網站Down Detetor上表示,特斯拉App在iPhone上顯示已經“凍結”,卸載、重新下載了后App則顯示“出現錯誤”。受到影響的車主大部分來自美國,英國、德國、俄羅斯等歐洲國家的車主也報告了類似的問題,一些中國車主也反映了特斯拉App手機鑰匙斷開連接的問題。

有網友在推特求救稱,自己在一個沙漠的超級充電樁,但被鎖在Model 3車外了,特斯拉App無法連接到車上,已經撥打緊急道路救援電話快兩小時了。

這并非特斯拉第一次出現全系統的宕機。早在2018年4月21日,從下午開始一直到次日早上,眾多特斯拉車主經歷了長時間的App宕機。當時,特斯拉承認出現了問題并表示當日晚間已經修復,但許多車主在次日早上仍在經歷同樣的問題。而2017年3月7日,特斯拉的APP和API停機幾乎長達24小時。

6. 云計算巨頭OVH數據中心大火,導致360萬個網站下線

2021年3月份,歐洲云計算巨頭OVH位于法國斯特拉斯堡的數據中心發生嚴重火災,該區域總共有 4 個數據中心,其中一個數據中心被完全燒毀。大火6個小時才被撲滅。

據了解,此次多達360萬個網站下線。

受到此次大火影響的客戶包括歐洲航天局的數據與信息訪問服務ONDA項目,此項目負責為用戶托管地理空間數據并在云端構建應用程序。Rust旗下的游戲工作室Facepunch Studios證實,有25臺服務器被燒毀,他們的數據已在這場大火中全部丟失。即使數據中心重新上線后,也無法恢復任何數據。

7.美國民航系統癱瘓,數百架次航班取消

2023年1月11日,美國民航系統于當地時間周三早間癱瘓,導致當日9時全美所有航班禁飛,超過4000架次國內國際航班延誤,據 FlightAware 數據顯示,截至美東時間8時50分,全美約698架次航班取消。

這次故障可能源于飛行任務通知系統的一個文件損壞,而在緊急情況下使用的備份系統也發現了損壞文件,美國聯邦航空管理局被迫重啟系統,導致航班大面積延誤或取消。

盤點近幾年的互聯網宕機事件,都是啥原因?

二、再來看看國內宕機事件

1. 唯品會宕機12小時,損失超億元

今年3月29日,“唯品會崩了”登上熱搜,由于崩潰時間太長,影響了很多消費者無法正常下單,唯品會官方對此回應稱,因系統短時故障,主站“加購”等功能或出現異常。

6月5日,唯品會發布“關于329機房宕機故障處理公告”,公告稱,3月29日(00:14-12:01)南沙IDC冷凍系統故障,導致機房設備溫度快速升高宕機,造成線上商城停止服務。此次事故影響時間持續12個小時,導致唯品會業績損失超億元,影響客戶達800萬,唯品會將此次故障判定為P0級故障。

盤點近幾年的互聯網宕機事件,都是啥原因?

公告指出,唯品會決定對此次事件嚴肅處理,對應部門的直接管理者承擔此次事故責任,基礎平臺部負責人予以免職做相應處理。

2. 招商證券三個月崩2次

2022年3月和5月,招商證券出現了2次系統崩潰情況。

3月14日早間開盤后,陸續有網友在社交平臺反映招商證券交易系統出現系統故障,包括無法成交、無法撤回等。隨后,“招商證券崩了”登上微博熱搜。

5月16日,有大量投資者再次反映招商證券系統崩潰,電腦和手機都無法登錄。

事實上除了招商證券,今年3月份,東方財富證券交易軟件在一個交易日內出現“兩連崩”。

3. 語雀宕機7小時,影響數千萬用戶

2023年10月23日,螞蟻集團旗下的在線文檔編輯與協同工具語雀發生服務器故障。從故障發生到完全恢復正常,語雀整個宕機時間將近8小時。

語雀方面表示,10月23日下午,服務語雀的數據存儲運維團隊在進行升級操作時,由于新的運維升級工具bug,導致華東地區生產環境存儲服務器被誤下線。

4. 百度宕機系運營商DNS問題

2018年11月9日,百度網站疑似崩潰,移動端和網頁端均無法打開。對此百度方面回應稱,系運營商DNS問題,影響北京聯通部分用戶。

據了解,本次事故主要涵蓋北京地區的聯通用戶。具體表現為無法打開百度移動端和網頁端。目前,百度方面稱,已與運營商方面聯動,目前已經定位并正在加緊修復該問題。

三、宕機原因都有啥?

服務器宕機的原因五花八門,常見原因有:

  • 硬件故障:服務器的硬件組件(如電源、內存、硬盤、主板等)出現故障,導致系統無法正常工作。
  • 軟件問題:操作系統、應用程序或驅動程序出現錯誤、崩潰或沖突,導致系統不穩定甚至宕機。
  • 資源耗盡:CPU、內存、磁盤空間或網絡帶寬等資源耗盡,使服務器無法繼續運行。
  • 網絡問題:網絡故障、網絡攻擊(如DDoS攻擊)或網絡設備問題導致服務器無法正常訪問或通信。
  • 電力問題:電源不穩定、電壓波動、電力供應中斷等問題導致服務器關機或宕機。
  • 安全問題:惡意攻擊、病毒、惡意軟件或黑客入侵導致服務器宕機或無法正常工作。
  • 操作錯誤:誤操作、配置錯誤或不當的系統管理操作可能導致服務器不穩定或宕機。
  • 數據庫問題:數據庫故障、死鎖、數據損壞等問題可能影響應用程序和服務器的正常運行。
  • 溫度問題:過高的溫度可能導致服務器硬件損壞或系統關機,尤其是在散熱不良的情況下。

文中提到的例子中,很多都有涉及。比如ChatGPT就是典型的服務器負載過大;美國民航系統是文件損壞,不得不重啟系統;還有唯品會是運行環境的冷卻系統故障,高溫導致機房宕機。

除了以上原因,我們還能注意到火災等危險也是服務器面臨的重要考驗。

當然服務器宕機是個復雜的問題,可能受到多重因素的影響,背后的原因也比我們想象的復雜。

有人認為最近頻繁的宕機或許和人員優化有關,得出人才缺失的結論。這種說法看似有點道理,但實則沒有有力依據。

對一個成熟公司來說,邊緣業務可能因為人才流失受到較大影響,而核心業務根本不會。

作者:三言

來源公眾號:三言Pro(ID:sycaijing),提供新科技、新消費、新未來的前沿資訊。

本文由人人都是產品經理合作媒體 @三言財經 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!