變天!——由一個驚艷例子引發對DeepSeek的10條思考
DeepSeek R1模型以其卓越的性能和驚艷的輸出,在AI領域引起了廣泛關注。本文通過一個具體的案例——模擬李世民在玄武門之變后的獨白,展示了DeepSeek R1在歷史細節、文學表達和用戶需求預判方面的強大能力。
如果我們問AI這樣一個簡潔的問題——
“玄武門之變結束的當天,李世民在深夜寫下一段獨白,你覺得他會寫什么?”
你覺得AI會如何回答?
在揭曉AI的驚艷回答之前,我們先來看微博上一個網友對DeepSeek輸出結果的一條評論——
沒錯,這個問題看似簡單,但是要輸出一個讓人驚嘆的答案并不容易。
它需要考慮玄武門之變的歷史背景、要考慮李世民愧疚、掙扎、野心、抱負等可能的復雜心理,要考慮行文的語氣和身份的合一,要考慮“深夜”、“獨白”等問題設定。
我們看最近震驚AI圈的DeepSeek R1模型是如何思考的,以下是它在給出一個驚艷回答之前同樣驚艷的思考過程——
好的,用戶讓我思考李世民在玄武門之變結束的深夜寫下的獨白。
首先,我需要回顧玄武門之變的歷史背景。這場政變發生在626年,李世民殺死了自己的兄弟李建成和李元吉,隨后迫使父親李淵退位,自己登基成為唐太宗。
接下來,用戶的問題是關于李世民當晚的心理活動。要寫一段獨白,需要深入他的內心世界。首先,要考慮他的情感:勝利后的復雜心情,可能有釋然、愧疚、恐懼、自責等多種情緒交織。他是被迫發動政變,還是早有預謀?
然后,用戶可能希望這段獨白不僅反映歷史事實,還要有文學性,表現出人性的復雜。需要考慮李世民作為歷史人物的多面性:他既是殺兄逼父的篡位者,也是后來開創貞觀之治的明君。因此,獨白中需要平衡他的野心與自責,對未來的抱負與對過去的悔恨。
還需要考慮當時的文化背景,比如儒家思想對孝悌的重視,李世民的行為顯然違背了這些倫理,他可能會有內心的掙扎。同時,他可能試圖為自己的行為找到正當化的理由,比如為了國家安定,避免內亂等。
另外,用戶可能希望這段獨白有一定的文學修辭,比如比喻、對仗、意象等。例如,用“血浸透的朱砂”來象征權力與血腥,用“墨跡蜿蜒如玄武門的血跡”來連接書寫與事件本身,增強畫面感。
還要注意時間的設定,深夜,周圍寂靜,李世民獨自一人,這時候的獨白應該比較私密,真實,可能包含對兄弟的歉意,對父親的愧疚,以及對自己不得不采取行動的無奈。
要符合當時的歷史語境,同時,要確保內容符合史實,比如李淵的退位,李世民登基后的政策,以及他后來對史書編纂的影響,可能在這段獨白中有所暗示。
最后,用戶可能需要這段獨白既有情感深度,又能體現李世民的帝王心術,既有脆弱的一面,也有堅定的決心。因此,在寫作時需要平衡這些元素,讓獨白真實感人,同時符合歷史人物的性格和處境。
經過以上細膩、嚴謹、自洽、深刻的思考,DeepSeek在思考8秒之后輸出了以下結果——
(鋪開素絹,狼毫蘸墨時發現指尖殘留著未洗凈的血痂)
子時三刻,太極宮的血腥氣飄到了承乾殿。
方才在甘露殿,父親的龍袍下擺沾著建成碎裂的玉冠殘片。
他問我”可有受傷”時的眼神,與二十年前教我騎射時看我墜馬的眼神一般無二。
只是這次,他不敢觸碰我甲胄上元吉的掌印。
硯臺里新研的朱砂太艷了,艷得像元吉咽氣前抓著我的那只手。
他總說我箭囊上的豹紋繡得歪斜,可今日我射穿他護心鏡的那支白羽箭,準得連尉遲恭都屏住了呼吸。
(墨跡在”弒”字上暈開一團)
史官們此刻定在掖庭局爭吵,該用”誅”還是”戮”,”迫”還是”承”。
他們不會記錄建成倒下時,我靴底打滑的玄武門青磚縫里,卡著他去年上元節贈我的錯金匕首。
就像他們不會知道,三日前東宮夜宴的酒樽底,映著齊王府親衛腰間的弩機。
(夜風掀動案頭《韓非子》,停在”夫妻者,非有骨肉之恩也”那頁)
觀音婢悄悄焚了那件濺血的明光鎧,她不知道甲片縫隙里還沾著承天門守將的腦漿。
那個總給青雀塞糖漬梅子的黑臉漢子,今晨被程知節劈成兩半時,左手還攥著半塊沒來得及給我的宮門魚符。
(忽然扔筆,抓起銅鏡)
鏡中人鬢角竟有霜色了,四天前我還與玄齡笑談白發,此刻卻覺得這抹銀光正好。
明日朝會,那些哭著要撞柱的死諫老臣,看見三十歲的監國太子早生華發,或許會少吐半口血。
(指尖蘸著朱砂在空白處畫了幅長安輿圖)
懷里的武德律還在發燙,但壓在下面的貞觀新政綱要更燙。五更前要改完均田制細則。
卯時還得去太醫署看魏徵——這頭倔驢竟真敢空手奪我陌刀,他淌在朱雀大街上的血,可比他寫的諫書有分量得多。
(晨光刺破窗紙時突然頓筆)
建成,你教我的《商君書》錯了,帝王術不是棋枰上的黑白子,而是淬火的刀。
今日我斬斷的每寸骨血,都會熔成他日量天下的尺。
(最后在絹帛角落以血為印)
后世若嫌這墨色太腥,便讓他們去讀我用二十年光陰漂白的青史。
感覺如何?
我將以上的回復截圖發到了微博上,這條微博被轉了接近2000次,微博CEO@來去之間、@谷大白話、@林熊貓等博主都用轉發表達了對這個輸出的認可。
它需要考慮玄武門之變的歷史背景、要考慮李世民愧疚、掙扎、野心、抱負等可能的復雜心理,要考慮行文的語氣和身份的合一,要考慮“深夜”、“獨白”等問題設定。
我們看最近震驚AI圈的DeepSeek R1模型是如何思考的,以下是它在給出一個驚艷回答之前同樣驚艷的思考過程——無數網友感嘆那句——“后世若嫌這墨色太腥,便讓他們去讀我用二十年光陰漂白的青史?!?驚為天人,難以置信。
如果我們無法理解上述的輸出有多好,那么咱們一起來看一看GPT4o、Claude、豆包、Kimi的答案。
GPT4o 輸出結果
Claude?Sonnet3.5 輸出結果
“豆包”輸出結果
“Kimi探索版”輸出結果
沒有對比就沒有傷害,可以看到,DeepSeek的思考與表達的確碾壓了上述所有模型。
它的思考過程細膩、自洽、深刻、全面,輸出結果在語氣、結構、邏輯上天衣無縫,讓人服氣。
很顯然,它的回答是極其優秀的,深入研究,會發現它牛逼在下面幾個方面——
第一,它首先在語氣上還原了一個帝王的語氣。
而上面其他模型輸出盡管表達了意思,但語氣完全不對。
李世民作為千古一君,絕不可能用上面四家輸出結果那樣傻的語氣說話,而DeepSeek也并沒有用力過猛,用相對古典的文字但并沒有直接用文言文,體貼地兼顧了可讀性。
第二,它對歷史細節異常熟悉。
我猜測這大概率和它支持“深度探索”和“聯網搜索”同時開啟有關。
“太極宮”、“甘露殿”、“掖庭局”、“觀音婢”、“宮門魚符”完全還原了唐初的歷史稱謂。
我特意查了一下,“觀音婢”是李世民的長孫皇后的乳名,“掖庭局”是內廷用于史官和其他人員的一個專屬機構。
“魏徵”我以為是想寫“魏征”寫錯了,后來發現“征”是“徵”的簡體字,可以說這個AI非常講究了。
第三,和其他AI泛泛而談的各種大詞不同,Deepseek的輸出極其具體而充滿驚人的細節。
“狼毫蘸墨時發現指尖殘留著未洗凈的血痂”,“史官們此刻定在掖庭局爭吵。該用”誅”還是”戮”,”迫”還是”承”。“只是這次,他不敢觸碰我甲胄上元吉的掌印”
這些讓畫面躍然紙上的句子,每一句都沒有寫“愧疚與野心,掙扎與抱負”,但每一句都寫的是“愧疚與野心,掙扎與抱負”,其中行文的隱喻拿捏非常到位,很高級。
第四,Deepseek這個輸出結果另一個神來之筆,就是在獨白文本中“自作主張”地加入了括號中的場景描述。
這一操作,一下就讓整個輸出的畫面感撲面而來,讀者仿如親歷,而這完全沒有在提示詞中提出。
(“夜風掀動案頭《韓非子》,停在”夫妻者,非有骨肉之恩也”那頁”)、“(墨跡在”弒”字上暈開一團)
這些句子的確很難相信是AI寫的。
而(“忽然扔筆,抓起銅鏡”)這句也隱喻了魏征的名言“以銅為鏡,可以正衣襟;以史為鏡,可以知興衰;以人為鏡,可以知得失”。
你說這AI成精了,我都信。
第五,最重要的,DeepSeek預判了用戶的需求。
再回顧一下我輸入的提示詞——
“玄武門之變結束的當天,李世民在深夜寫下一段獨白,你覺得他會寫什么?”
我的輸入已經非常簡潔了,不能再壓縮了,并且沒有任何形容詞,沒有任何傾向性。
但神奇的是,它顯然知道我要什么,比如這當然不是一個要求精確的數理題,它自然想到要給輸出加上文學性,這種預判在很大程度上表現出了“高級的智能”。
當然,一個值得商榷的點是,根據史實,魏征是在玄武門之變之后才見到李世民的,因此是不可能當天在朱雀大街空手奪刀的,但以魏征的性格,這似乎又是合乎情理。
但anyway,瑕不掩瑜。
在微博的所有評論中,有一條讓我印象深刻,一位微博網友質疑DeepSeek的這段輸出是不是隱藏了提示詞,懷疑我前面加了一大段復雜的提示詞,而展示給大家的這句只是一句觸發詞。
這句評論之所以單獨拿出來說,是因為能想到“隱藏提示詞”的用戶,其實已經是AI的高級用戶了,而這樣的用戶也不相信這是AI直接寫出來的,這從一個側面說明了DeepSeek強大的實力。
而正是這種強大的實力讓衛夕從春節假期模式切換出來,連夜碼了這篇7000字長文。
我上傳一個錄屏,證明一下我木有隱藏提示詞——
僅僅只是展示這樣一個驚艷的Case,顯然不是衛夕的風格,事實上,以小窺大,這個小的Case引發了我諸多思考,以下是我的十點思考——
1. DeepSeek“開源+新訓練方法+低成本+高性能”大概率讓國內競爭對手很難心態平和地過年了。
去年讓AI圈沒辦法好好過年的是OpenAI的Sora,而今年則是來自國內的DeepSeek。
從Meta員工在Reddit上說DeepSeek引起Meta AI部門恐慌的帖子看,美國AI巨頭大概率度過了一個彷徨的一月,而國內的AI產業界,無論是大廠還是創業公司,所受到的沖擊,毫無疑問不會比硅谷的AI公司小。
我其實十分好奇,張一鳴、馬化騰、楊植麟、王小川、李開復們,這些同樣壓重注的局中人,面對DeepSeek的沖擊,此刻正在做什么、想什么?
于是我在Deepseek里問了這樣一個問題——
“假如你是OpenAI的CEO山姆奧特曼,你瀏覽完DeepSeeK R1發布的新聞以及各方反應,你立馬召集了公司核心技術人員圍繞此事召開一次緊急會議,會議開頭你一個人講了三分鐘,你會講什么?”
Deepseek縝密地分析了一通,山姆奧特曼是這樣講話結尾的——
2. 所有的提示詞都值得用DeepSeek R1重新試一次;
這個重新試一次,并不是只將原來的提示詞原封不動地丟給DeepSeek R1,而是要針對這個智能程度更高的模型重新調整提示詞。
舉個例子,原本是一個本科的實習生來實習,現在變成一個博士生來實習,那作為帶他的Leader,同樣布置一個任務,你跟他說的話肯定要進行相應的調整。
DeepSeek R1的訓練流程中引入了冷啟動數據和格式獎勵機制,強制規范輸出結構(如使用think和answer標簽),其實R1的思考過程即標簽內的內容其實對調整提示詞有著非常巨大的啟示作用。
此外,多項測試表明,R1對提示詞形式敏感,零樣本設置效果更佳,而少樣本提示可能因“過度思考”降低效率,這提示用戶需重新設計提示結構(如明確步驟劃分、減少冗余示例)
3. Deepseek R1的思考過程價值被低估。
和在其他模型中加入思維鏈提示詞“請一步一步思考”不同,Deepseek R1是真思考,不是其他模型由于能力有限的“表演思考”。
過往模型的“思維鏈”(Chain-of-Thought, CoT)能力依賴于模型的規模和數據覆蓋度,其在實際體驗中往往生成看似合理的步驟,但實際上缺乏對中間邏輯的嚴格驗證。
盡管Deepseek R1的think標簽也是模型強制輸出的結果,但由于模型能力上限的提升,其呈現的思考過程細膩、自洽、深刻、全面。
我的個人體驗是,在很多時候我閱讀Deepseek R1的思考過程的收獲比閱讀更有收獲,更能體會到模型能力的邊界。
4. DeepSeek一個容易被忽視的貢獻是,它第一次大幅降低了國內用戶接觸高階AI的門檻。
事實上,ChatGPT、Claude、Gemini的高階模型在文本創作、代碼生成等多個領域上已經到了非常高的水準。
我曾經在我的另一個小號中寫過一篇長文描述展示過這種水準,但由于眾所周知的原因,國內的絕大多數用戶的其實是用不上的。
這樣其實導致了一個認知差,對于大部分普通人而言,他們印象中的AI還是那個只會說“首先、其次、總而言之”這類AI味撲面而來的平庸AI。
而DeepSeek R1是國內普通用戶第一次不用XX就可以免費無限量使用的唯一C端高階產品。
這也是為什么上面這個Case發在微博非常多網友發出“哇!”、“我擦!”、“太牛逼了”、“成精了”的感嘆。
事實上,同樣的內容,很多用過Claude Sonnet3.5的即刻網友就表現的相對淡定。
5. 如果非要說一個DeepSeek的缺點,那就是有時候會“用力過猛”
所謂用力過猛,是指有時候當你輸入一些提示詞的時候,它會為了達到你提示詞的效果而控制不好火候。
我舉個一個例子,我在給我閨女生成適合她閱讀故事的時候,提示詞的要求中加了“用詞豐富”這個詞,結果DeepSeek生成了下面的文字——
很顯然,DeepSeek的輸出用詞過于豐富了,并不適合小朋友閱讀。
當然,這種問題也容易解決,去掉這個“用詞豐富”這個詞或者關閉“深度思考”標簽就完了,這其實就是“殺雞用牛刀”所產生的“幸福的煩惱”。
此外,從我的個人體驗看,DeepSeek的聯網搜索貌似優先搜索的是國內網頁,哪怕我指定它搜索英文網站和英文內容,它還是會混進去不少國內網頁的結果,不知道這是否和那個眾所周知的原因有關。
6. “美國限制反促國產AI崛起”是無稽之談
有一種論調,說DeepSeek的證明“美國限制反促國產AI崛起”,我看微博上居然還有人創建了這個話題,在我看來這,這純屬無稽之談。
DeepSeek的突破無疑讓人印象深刻,但如果將其歸因于美國的芯片封鎖的結果就純屬表面歸因了。
DeepSeek本身在封鎖前就囤積了大量的英偉達芯片,而芯片數量的優勢在某種意義上恰恰使DeepSeek能實行烏托邦般的技術探索:“無層級、無審批、資源調用無上限”(梁文鋒采訪語)。
事實上,根據中國人工智能產業發展聯盟數據,2024年中國AI服務器市場英偉達份額仍達85%。
另外一個未經驗證的數據是,僅Meta一家所擁有的英偉達高端芯片的數量,就超過了國內所有頭部大廠之和。
僅憑DeepSeek一家的創新,依然無法改變中美絕對算力存在巨大差距的事實,顯然不能因為DeepSeek的目前在開源模型上的領先就認為硅谷AI大廠們遇到了“資源詛咒”,這顯然是不客觀的。
7. AI的“消費型內容時代”已經來了!
什么意思?以DeepSeek R1為代表的高階AI,在內容創作層面已經接近通過“藝術家圖靈測試”。
即人們已經區分不了這些文字到底是AI生成的還是藝術家創作的,這就是標志著“消費型內容時代”到來。
“AI消費型內容時代”意味著很多,意味著文藝逐漸進入“亂紀元”的新階段,意味著舊的創意體系和生產結構會逐步瓦解,意味著內容領域依賴人“原創+優質+高頻”的不可能三角開始松動,意味著復合科技和人文的“π”型人才可能比單一的“T”型人才擁有更多的結構性優勢,意味著很多很多…..
但無論如何,人和人的創意,依然是一切內容生產的起點。
記住,AI不會沒有起點地自動工作,而人的創意指令永遠是AI創造的起點,事實上,這篇文章的誕生也源于一個有意思的問題。
8. 面對DeepSeek R1這種開掛的高階AI,普通人的策略還是兩個字——多用
很顯然,我們之前對常規AI所積累的具體技巧,在面對R1的高階AI大概率會失效,但如何清晰表達、如何按貝葉斯公式迭代的總原則是不變的。
這就像是做菜,放鹽嘗一口,放多了再加水,試多了自然知道火候。
我看過太多例子,一個新工具出來,隨便試一次,發現結果不符合預期,然后就得出一個結論——“也就那樣”,從此再也不碰了。
事實上,面對DeepSeek R1這的模型,輸出效果不好,大概率是我們的問題,而不是它的問題。
我媳婦兒之前用Midjourney畫圖死活搞不出復古膠片感,后來硬是試出“1990年柯達褪色+漏光”這種奇葩關鍵詞,Midjourney立馬給跪。
說白了,再牛逼的模型本質上就跟你家狗子一樣,處久了就能聽懂你的各種指令,但首先你得天天帶它遛彎。
9. 從DeepSeek發布節奏看,它沒有發布的東西可能更值得期待
很少有人注意到DeepSeek的發布節奏,12月26日發布V3,1月20日發布R1,二者相隔的時間僅僅24天。
我不知道這個公司的發布節奏是如何的決策的,但可以肯定,它顯然沒有有OpenAI每次發布會精準阻擊Google所表現出的雞賊,更沒有山姆奧特曼每次為了融資在Twitter含糊其辭的放風,有的只有優雅的論文和爽快上架的開掛模型。
而一個合理的猜測是,DeepSeek因為有足夠的技術儲備從而可以無視常規的發布節奏。
從這個意義上,DeepSeek那個平均年齡25歲、人數僅100+的年輕團隊在2025年還會給產業界帶來哪些新的東西,由衷值得期待。
10. 梁文鋒大概率被低估
當Marc Andreessen、Satya Nadella、Yann LeCun等硅谷頂級大佬將DeepSeek視為”東方神秘力量”時,實質是承認中國團隊開始參與定義技術演進方向,而非單純應用落地。
梁文鋒的獨特性,在于其同時具備量化投資的系統思維、本土的務實精神以及硅谷式技術理想主義,而DeepSeek的MLA架構和MoE稀疏結構,標志著大模型領域首次由國內團隊完成底層注意力機制革新。
品玩的駱軼航老師在一篇長文中認為將DeepSeek比喻成“AI界的拼多多”是有失偏頗的,我認為這個說法是有洞見的,DeepSeek和梁文鋒顯然無法簡單標簽化。
即刻網友@Chris-Su說,梁文鋒是極少數還沒被‘廣泛解讀和學習’的頂級CEO,的確,這幾天硅谷媒體在逐句翻譯和研究梁文鋒的兩篇采訪稿,而美國電視臺CNBC做了一個長達40分鐘的專題片來專門討論DeepSeek。
據我所知,這在國內技術發展史上是從來沒有過的事。
從這個意義上,已經是爽文男主角的梁文鋒大概率還是被低估了。
結語
我用2023年DeepSeek成立發布做大模型公告時,引用法國新浪潮導演特呂弗的一句話結束今天的文章——
“務必要瘋狂地懷抱雄心,且還要瘋狂地真誠?!?/p>
本文由人人都是產品經理作者【衛夕】,微信公眾號:【衛夕指北】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!