AI顛覆者:DeepSeek的過去、現在與未來

0 評論 493 瀏覽 0 收藏 19 分鐘

DeepSeek這次的開源,讓行業最領先的水平實現了平權,會加速推動AI進化的速度,給AI行業帶來一股強心劑,但是仍然沒有改變當前模型發展的困境。

2025年開年,AI行業迎來了一場出乎意料的「地震」——國內的DeepSeek以顛覆性姿態炸裂出圈,短短數日登頂全球應用下載榜榜首,日活用戶迅速突破1500萬。

中美科技界對DeepSeek進行了激烈的爭論,觀點交鋒,有人高度認可,有人冷嘲熱諷,更有人陷入恐慌。Anthropic CEO達里奧·阿莫迪萬字長文呼吁進一步加強對華的芯片封鎖;OpenAI CEO山姆·奧特曼罕見認錯,并且承認OpenAI的領先性被削弱。不僅是科技行業,美國總統特朗普也指出DeepSeek給美國敲響了警鐘。

DeepSeek到底做了什么?為何會引發全球性的轟動?DeepSeek的出現,打破了哪些行業共識?如何理解DeepSeek帶來的機會以及未來的挑戰?本文將會逐個探討這些問題。

一、DeepSeek做了什么?

DeepSeek引發AI行業地震的前提包含三個基礎事實:模型能力追平行業領先水平;在算法和工程上有核心創新;產品引發全球關注。

第一,模型能力上,R1追平行業領先水平。

關于年初發布的DeepSeek R1模型能力,相信大家已經看到足夠多的信息,或者也自己體驗過了,測評層面,DeepSeek R1在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1正式版。

對于大語言模型,邏輯能力和語文能力是最直觀可以感受到的。Claude 3.5 Sonnet去年發布之后,這兩項能力是非常突出的,個人體感是比GPT還優秀,尤其是語文能力,最近半年多最主要使用的也是Claude。

如今的DeepSeek R1在邏輯和語文能力上也是非常突出,結合外顯的思考過程,給用戶的沖擊非常強烈。小紅書上出現了大量DeepSeek的「銳評帖」、「情感貼」,因其詳實全面的思考過程,被網友戲稱為「最內耗的AI」。并且,DeepSeek針對法律、市場營銷等專業領域的問題,也能給出全面、有洞察,甚至是讓從業人員「不寒而栗」的回答。

總的來說,目前DeepSeek R1在基礎能力上,明確地屬于第一梯隊。

第二,核心創新上,V3在算法和工程上圍繞MoE進行了大膽嘗試。

關于DeepSeek模型的爭議有很多,R1雖然效果很亮眼,有很好地運用了強化學習的范式,但是這個算是在行業中已經被運用的方法,DeepSeek進行了很好的實踐,更像是對OpenAI的o1進行復現,有不同的地方是,DeepSeek把思考的過程給用戶呈現了。

DeepSeek在算法和工程方面最具創新性的突破在于MoE(混合專家模型)的規模化應用。從V2開始,DeepSeek將專家數量從傳統的8或16個擴展到160個;到V3時期,更是突破性地達到256個專家數量,實現了671B參數量下僅需激活37B參數的高效運算。

MoE模型的效率優勢正源于其選擇性激活機制。與傳統模型(如Llama)需要激活全部網絡權重不同,MoE通過對計算網絡進行「分類」,只激活相關專家進行運算,顯著降低計算成本。類似分成8個專家,運算的時候激活1個,這樣運算量就只有八分之一,剩下的7個專家都是和輸入八竿子打不著的部分,沒必要進行運算。

那如果MoE這么高效,為什么此前行業沒有大規模運用呢?

MoE模型此前未被廣泛應用的主要障礙是訓練難度大,容易出現信息分類不當。DeepSeek V3通過創新性的算法和工程優化,成功突破這一限制,在保證模型效果的同時,實現了僅需激活5%參數的高效運算,開創了大規模MoE的先河。

第三,產品表現上,引發全球轟動,日活迅速超1500萬。

模型能力、技術創新引發全球性討論的同時,DeepSeek的APP也陸續在全球100多個國家登頂下載榜榜首,日活很快超過了1500萬。硅谷一線風投a16z的創始人Marc Andreessen也轉發了相關的對比數據,顯示DeepSeek日活已經達到了ChatGPT的23%。實際上公司因為遭受了不明原因的大規模攻擊,不得不暫停了海外新用戶的注冊,不然這個增長勢頭可能會更猛烈。

二、DeepSeek為什么能引發全球轟動?

列完這三個基礎的事實,不知道大家有沒有發現,DeepSeek產品表現上只是追趕到第一梯隊,并不是超越當前市面上的產品,也不是底層的范式創新。要說模型能力,其實Anthropic的Claude 3.5 Sonnet真的也很能打,都半年多了,但是看數據就知道和ChatGPT的聲量(日活)是完全沒法比的,除了AI的從業者,外部的討論微乎其微。

相較而言,DeepSeek的新模型發布之所以能在AI領域掀起驚濤駭浪,是因為有三點遠超大家預期。

第一個遠超預期的點是DeepSeek R1做到了又好又便宜。

在模型效果追平第一梯隊的情況下,DeepSeek的訓練成本不到600萬美金,而Meta開源的Llama3-405B訓練成本超6000萬美元,DeepSeek用不到Meta十分之一的訓練成本,實現了更好的模型表現。

在推理的API定價的層面,與能力相當的OpenAI o1模型進行對比,DeepSeek的定價約為o1的三十分之一。參考DeepSeek去年推出的V2模型,如果效果不好,但是便宜,不會引起這么大轟動;參考Anthropic的Claude 3.5 Sonnet,如果效果好,但是不便宜,也不會有這么大的轟動。

如果要給好和便宜排個序,肯定是便宜更超預期。因為好的層面,已經有GPT和Claude,其他的也在追趕。好到追平第一梯隊,不能說太超預期。但是在好的基礎上,還便宜這個點,是全世界沒有其他團隊做到的。因此給了業界極大的沖擊。

至于團隊是如何做到如此大幅度的降成本,重要原因是剛才提到的算法和工程的創新,MoE大膽地拓到了256個,實際運行只需要激活5%左右的參數,極大地提升了運算的效率。

第二個遠超預期的點是DeepSeek做到了完全開源。

第一梯隊的模型GPT和Claude都是閉源的,開源的Llama效果要比GPT和Claude遜色一些。現在DeepSeek在比肩第一梯隊的情況下,還做到了開源,而且是在論文中公布了詳實的模型細節。OpenAI沒能做到的Open和開源,反而讓來自中國的DeepSeek做到了。

第三個遠超預期的點是DeepSeek的成果由中國團隊做出。

一直以來都被認為是追趕者的中國公司,第一次在AI行業中站上世界舞臺的中心,給到全球一個又好又便宜,還開源的大模型。而且DeepSeek的核心研究員都是中國本土培養的博士,沒有海外留學的背景。

三、DeepSeek打破了哪些共識?

DeepSeek打破的第一個共識是:美國引領一切。

AI科技領域,美國長期以來都是創新的引領者,中國企業往往扮演跟隨者的角色,更擅長技術的應用場景拓展?,F在竟然有中國的團隊,在AI技術領域,做出了像消費電子般的中國「智造」模型,又好又便宜,在一定程度上打破了技術創新只能在美國出現的刻板印象。

圖靈獎得主LeCun也借此痛批硅谷傲慢?。夯加羞@種病癥的人認為自己所在的小圈子壟斷了好想法,甚至認為其圈子以外的所有創新都是通過「作弊手段」得來的。

第二個被打破的共識是:資金密集投入,大力出奇跡,壟斷市場就能獲得超額收益。

DeepSeek的全球熱議還帶來了美股的驚天震動,英偉達單日大跌近17%,市值蒸發5950億美元,近6000億美元,相當于人民幣4.3萬億,創美股單日跌幅最高記錄。

二級市場短期是情緒的體現,大家恐慌性地拋售,原因不僅是因為DeepSeek訓練成本下降,帶來了芯片算力需求可能會下降的恐慌,也源自傳統的美國科技資本邏輯受到的沖擊。

傳統邏輯是:在行業中進行密集的資金投入,寡頭的幾家企業獲得壟斷性的資金優勢,進而大力出奇跡,帶來技術成果后獲得壟斷市場的主導地位。簡單來說,就是大資金、大投入、長周期帶來超額回報。從互聯網時代開始,到移動互聯網已經多次印證了這個邏輯。

在AI的時代,由于算力成本高昂,這個邏輯更是被放大。像是最近公布的有特朗普站臺的「星際之門」(Stargate)計劃,由OpenAI、孫正義(SoftBank 軟銀掌門人)以及中東基金共同推動,宣稱要在4年內投入5000億美元,打造「全球算力中心」,想要依靠大規模投入建立算力優勢。

DeepSeek的出現,給這個資本邏輯一記重拳——在AI領域大資金、大投入并不意味著一勞永逸。實現領先有可能根本不需要這么大資金的投入,抑或是這么大資金的投入之后,即使是閉源,也無法保證壟斷。假如基本的邏輯開始面臨挑戰,逐利的資本顯然需要重新思考自己的投資思路。

第三個被打破的共識是:閉源始終領先。

關于AI開源閉源領先性的討論,其實一直爭論不斷。DeepSeek R1的出現,是一個巨大的變量。模型追上了閉源的OpenAI和Anthropic,而且進行了開源,為整個AI行業注入新的動力。OpenAI CEO山姆·奧特曼也罕見認錯,認為OpenAI在是否開源上,站在了歷史錯誤的一面。

關于開源閉源之爭,還有兩點值得關注。

AI語言模型VS傳統開源技術差異:

  1. 技術同源而非分叉:對比Android與iOS的生態隔離,開源與閉源大模型均基于Transformer架構,差異是在數據、算法運用、工程等維度,并非是截然不同的技術路線。
  2. 企業主導型開源:Meta、DeepSeek、OpenAI等公司掌握開源與否的節奏,社區更多是參與者而非主導者,而傳統Linux更像是社區驅動的模式。

AI多模態模型現狀:

  • 圖像生成:開源stable diffusion相關的生態繁榮,閉源的midjourney等企業也有很好的商業化。
  • 音樂生成:閉源的Suno相對領先。
  • 視頻生成:閉源的Runway、快手的可靈、生數科技的vidu等相對領先。

我們在討論DeepSeek開源的時候,語境都是LLM大語言模型。但是除了語言模型,AI還有非常重要并行的領域是多模態模型。DeepSeek也在近期發布了圖像模型Janus pro,但是效果一般。在多模態的領域,開源還有更長的路要走。

四、未來展望:機會與挑戰

首先,DeepSeek會給AI應用的發展帶來長期利好。

應用對基礎服務的需求,從來都是「又好又快又便宜」。如果要排序,好>便宜>快。不好的東西可以不用,同樣好用的產品,便宜當然是有優勢,然后速度快,服務穩定。DeepSeek當前的語言模型,做到了又好又便宜。

對于現有的AI應用來說,已經接入語言模型的應用,可以替換成價格是三十分之一的API,顯著降低的成本,可以更好地探索PMF(Product Market Fit),有更大的空間進行嘗試。這個是第一步最直接的影響。

關于能否因此出現新的killer app,我的答案是:短期否定,長期肯定。

短期來看,AI的killer app需要的不只是PMF,在PMF之前,還有技術。技術在細分場景是不是足夠好用,是killer app的必要條件。而這個和模型的能力直接掛鉤,最早就有提到這次的出圈,并不是模型能力的突破,所以短期這個必要條件沒有變化。

長期來看,會利好AI應用的發展。原因在于DeepSeek這次的開源,讓行業最領先的水平平權了,會加速推動AI進化的速度,進而推動必要條件的成熟,帶來新的應用機會。

其次,推理芯片和云服務也有望受益。

一方面,好用便宜,所以多用。會讓推理的市場需求加速擴大,對應的推理芯片和配套的云服務市場也擴大。英偉達在訓練芯片上的優勢是更顯著的,推理芯片層面相對而言,國內頭部芯片代差會小一些。

另一方面,亞馬遜和微軟都已經接入DeepSeek,國內的百度云、騰訊云、阿里云也都已經接入。上文提到的AI應用企業,使用API的選擇之一也是從云服務接入。

當然,DeepSeek在未來也會面臨來自模型技術發展和地緣因素的雙重挑戰。

雖然這次DeepSeek給AI行業帶來一股強心劑,但是沒有改變是當前模型發展的困境。對于語言模型,還有類似幻覺這樣的問題難以解決,可能需要更底層的范式創新才能突破;對于多模態的模型,考驗就更多,圖片的指令遵循效果差,細節控制差。

視頻生成模型在過去半年,進展速度非???,但是指令遵循、一致性等都還有很大空間,并且成本很高,非常需要像DeepSeek V3一樣能把價格打下來的模型。

同時,DeepSeek的出現給了中國企業更大的信心去做創新性的嘗試,也給美國敲響了警鐘??梢灶A見的是,中美的科技冷戰會進一步加劇。芯片的限制可能會進一步加強,中國企業的國際化也會面臨比以往更大的壓力。

道路難免崎嶇,前行必有曙光。

在通往AGI的征程上,DeepSeek的崛起不僅打破了閉源壟斷的舊秩序,更以開源民主化的方式推動重構著AI領域的競爭規則。從「美國引領」到「中國創新」,從「資本密集」到「人人可及」,從「閉源壟斷」到「開放共享」,這些根本性的改變,正在塑造AI發展的新秩序。

作者 | 余智敏(上海) 監制 | 李威(北京)邵樂樂(上海)

本文由人人都是產品經理作者【窄播】,微信公眾號:【窄播】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!