Chain of Thought:AI一思考,人類就……

0 評論 983 瀏覽 4 收藏 24 分鐘

這是一份寫給非技術(shù)崗的產(chǎn)品經(jīng)理/運營的CoT(思維鏈)應(yīng)用指南。

01 引子:不算久遠的AI往事

2023年底,Google大張旗鼓地發(fā)布了自己的多模態(tài)大模型Gemini,《Introducing Gemini: our largest and most capable AI model》。當(dāng)時宣傳之盛,大有要復(fù)刻Chatgpt橫空出世時的風(fēng)光。

但是,任憑谷歌如何大開香檳,業(yè)內(nèi)并不買賬,反而紛紛吐槽起谷歌竟也為了“優(yōu)等生”的面子刷榜、水?dāng)?shù)據(jù)。刷榜跡象鐵證如山,其中有一項尤為矚目:在跟 GPT-4 對比推理能力的時候,谷歌“雞賊”地給自己的模型用了叫做 Chain of Thought(鏈式思維)的提示策略,而用來作為對照組的GPT-4 呢,并沒有。

這個提示策略能給大模型帶來多大的差異呢?嗯,大約就是考試的時候一個人允許用草稿紙,另一個人只允許口算的差別。所以,當(dāng)Gemini用了這樣的開掛神器,要和“裸考”的Gpt-4比高下,自然會引來非議。

經(jīng)此一役,Gemini有沒有如愿被硬捧上寶座,不得而知。但CoT(鏈式思維)的江湖地位更為牢固了。幾乎沒有人能否認,它是提示工程中重要的策略之一,大模型們能不能跑出復(fù)雜的推理,生成符合邏輯的響應(yīng),端賴此君。

既然CoT如此重要,自然很值得一篇文章來好好討論:

  • CoT到底是什么?它是如何產(chǎn)生的?
  • 為什么大語言模型有它沒它,會有如此大的差異?
  • 在非技術(shù)領(lǐng)域,它有哪些應(yīng)用?

02 誕生:進化而來的“思考力”

CoT全稱是Chain of Thought,中文通常翻譯為鏈式思維、思維鏈等。它是在提示詞工程中被廣泛使用的核心技術(shù)之一。它的中心思想就是當(dāng)模型碰到復(fù)雜的推理問題的時候,要拆解成多個簡單的子問題,并依次求解,形成一條完整的推理鏈條,再讓大模型回答。

AI科學(xué)家之所以會提出這種“逐層拆解”的方式,還要從人工智能進化歷史說起。

如果我們要給大語言模型“短暫又輝煌”的歷史找一個關(guān)鍵的里程碑,那無疑是2017到2019年。那時候,Transformer模型的出現(xiàn),為機器學(xué)習(xí)帶來了新的方向。傳統(tǒng)的全監(jiān)督學(xué)習(xí)方法逐漸顯得力不從心,研究者們開始探索以預(yù)訓(xùn)練模型為基礎(chǔ),輔以Fine-tuning的新方向。

但是,隨著預(yù)訓(xùn)練模型的規(guī)模日益增大,F(xiàn)ine-tuning的成本也隨之上升,而效果卻不盡如人意。為了解決這個問題,提示工程應(yīng)運而生。它通過提供任務(wù)指示和專家知識,使得AI的輸入和輸出更加符合訓(xùn)練時的數(shù)據(jù)模式。

到了2022年,LLM的提示效果有了顯著提升,許多之前難以處理的任務(wù),如對話和上下文理解,都取得了突破。然而,在復(fù)雜推理方面,大模型的表現(xiàn)仍有提升空間。如果讓LLM處理算術(shù)推理、常識推理和符號推理,它給出的答案可能并不總是準確。

為了改善這一點,鏈式思維被提出。這種方法旨在幫助AI更好地處理復(fù)雜推理任務(wù),提高其準確性和可靠性。這種逐步推理的方式不僅降低了問題的難度,還使得模型的推理過程更加透明和可解釋。

我們用一個例子來說明CoT有多重要:

提問:這個餐廳原來有23個蘋果。中午用掉了20個,然后又買進了6個。請問現(xiàn)在餐廳一共有多少個蘋果。

這個在人類看起來平平無奇的計算題,在沒有“鏈式思維(CoT)”的大模型時代,簡直是黑暗降臨。

因為沒有鏈式思維的LLM會直接回答你:還有27個。

你甚至不知道它為什么會生成這么個離譜的答案。

好在我們有了CoT,它能要求模型逐步拆解這個問題:

  1. 這個餐廳最開始有23個蘋果。
  2. 用掉了20個,所以是23-20=3。
  3. 又買了6個,所以是6+3 = 9。

所以,答案是9個?;卮鹫_!

自此,大模型有了“思考之光”。此后技術(shù)界對于CoT,有了一系列的衍生研究,大致成果如下:

  1. 結(jié)合驗證和細化:思維鏈推理過程中可能會出現(xiàn)誤差,產(chǎn)生錯誤的推理步驟。為了減少這種現(xiàn)象,結(jié)合驗證來獲取反饋,并根據(jù)反饋改進推理過程。
  2. 問題分解:通過將多步驟推理問題分解成多個中間步驟,分配給更多的計算量,生成更多的token,再進行求解。
  3. 利用外部知識:結(jié)合外部知識對不確定的例子進行重新推理,減少分析中的事實錯誤。
  4. 投票排序:利用投票機制消除錯誤答案,然后對每個推理步驟進行獨立的細粒度驗證。
  5. 提高效率:通過優(yōu)化模型結(jié)構(gòu)和算法,減少不必要的計算量,提高推理的效率。
  6. 減少偏見:針對CoT可能產(chǎn)生的系統(tǒng)性偏見問題,引入了BCT無監(jiān)督微調(diào)方案。這種方法可以訓(xùn)練模型在包含和不包含偏見特征的提示下給出一致的推理,減少偏見推理。
  7. Let’s think step by step:引入了一種簡單的提示方法,通過在問題的結(jié)尾附加“Let’s think step by step”等詞語,使大語言模型能夠生成一個回答問題的思維鏈。這種方法無需額外的訓(xùn)練數(shù)據(jù),可以直接應(yīng)用于各種推理任務(wù)。

這些增強的技術(shù)手段,讓大模型的“鏈式思維”除了“在中間加步驟”的總原則,有了更多的推理保障,讓整個推理過程更嚴謹,生成的結(jié)果質(zhì)量也更好。

03 應(yīng)用:充分開發(fā)CoT,為我所用

到這里,也許你會問:CoT的功效我知道了,但我并不是算法工程師,平時只是要應(yīng)用提示詞進行工作,了解CoT對我來說有什么用?

在我們的經(jīng)驗中,即便是在內(nèi)容創(chuàng)作、產(chǎn)品設(shè)計或項目規(guī)劃等領(lǐng)域,只需掌握一些基本的增強技巧,依然能充分利用大型語言模型的推理潛能,點亮它的“思考之光”。

我們總結(jié)了五種實用的場景:

1. Let’s think step by step

做法:在輸入問題之后,加一句后綴:Let’s think step by step。

收益:這是最簡單的“鏈式思維”的啟動語。在問題后加入這句話,會要求LLM不要直接跳結(jié)論,而是以一種逐步推理的方式來處理問題。因此,在一些簡單的需要分步驟思考的場景,它會促進LLM主動分步驟,提高它回答的靠譜程度。

2. 復(fù)雜決策/評估的報告產(chǎn)出

做法:在一些復(fù)雜的決策/評估報告的生成場景中,我們可以用后綴“請說明理由/請說出你的推理過程”來讓LLM說明他的評估理由,讓它提供的報告不僅僅只有結(jié)果,還會決策/評估過程,使結(jié)果更具參考性。比如:

  • 當(dāng)你提供一些人才績效信息讓它解讀,并要求評估“我們?nèi)绾未_定銷售團隊中哪些成員是高潛力人才,哪些需要進一步培訓(xùn),以及哪些可能考慮職位調(diào)整?請給出高潛力人才的評估,并說明理由”。
  • 當(dāng)你收到了多方面的調(diào)研反饋,要對調(diào)研信息的重要性做一個排序,你可以這樣要求“請根據(jù)XXX的標(biāo)準,對反饋信息做一個分類以及重要性排序,并說出你的推理過程。

收益:在做一些復(fù)雜決策或評估時,決策的理由其實比單一結(jié)果更重要。而加上這一個短短的后綴,不僅僅能讓LLM的產(chǎn)出更準確,我們也能收獲一份有著合理決策過程的產(chǎn)出。

3. 頭腦風(fēng)暴,創(chuàng)意產(chǎn)出更精準

做法:我們可以用CoT的方式,讓大模型幫助我們進行頭腦風(fēng)暴,產(chǎn)出方案。

舉例:假設(shè)你是一家廣告公司的創(chuàng)意總監(jiān),你需要為一家新興的環(huán)保型清潔用品公司設(shè)計一個廣告活動。

輸入:我們?nèi)绾蝿?chuàng)造一個廣告活動,以提高這家環(huán)保清潔用品公司的市場知名度,并吸引對環(huán)保有高度意識的消費者?”請用鏈式思維頭腦風(fēng)暴出至少五個方案。

大模型:鏈式思維頭腦風(fēng)暴方案

目標(biāo):為新興的環(huán)保型清潔用品公司設(shè)計廣告活動,提高市場知名度,吸引環(huán)保意識強的消費者。

方案一

目標(biāo)受眾分析:環(huán)保意識強的消費者通常關(guān)注可持續(xù)發(fā)展,喜歡在社交媒體上分享環(huán)保生活方式。

創(chuàng)意概念:##“綠色生活,從選擇開始”##

執(zhí)行策略

制作一系列短視頻,展示使用我們的產(chǎn)品如何減少對環(huán)境的影響。在Instagram和Facebook上發(fā)起#綠色生活挑戰(zhàn)#,鼓勵用戶分享他們使用環(huán)保產(chǎn)品的照片和故事。

方案二

目標(biāo)受眾分析:環(huán)保消費者傾向于信任和支持那些公開透明、有社會責(zé)任感的品牌。

創(chuàng)意概念:##“透明化生產(chǎn),清潔你我他”##

執(zhí)行策略

開發(fā)一個微型網(wǎng)站,詳細展示我們產(chǎn)品的生產(chǎn)過程和環(huán)保實踐。

邀請消費者參觀工廠,讓他們親眼看到產(chǎn)品的環(huán)保生產(chǎn)流程。

方案三

目標(biāo)受眾分析:環(huán)保消費者更愿意為有故事、有情感的產(chǎn)品買單。

創(chuàng)意概念:##“每一滴,都承載著地球的未來”##

執(zhí)行策略

制作情感化的廣告,講述我們的產(chǎn)品如何幫助保護環(huán)境,比如減少水資源浪費。

與環(huán)保組織合作,通過公益活動提升品牌形象。

方案四

目標(biāo)受眾分析:年輕一代的環(huán)保消費者喜歡通過他們的消費行為來表達自己的身份和價值觀。

創(chuàng)意概念:##“選擇環(huán)保,選擇潮流”##

執(zhí)行策略

設(shè)計一系列時尚、有趣的環(huán)保清潔用品包裝,吸引年輕消費者的注意。

在大學(xué)校園和音樂節(jié)等年輕人聚集的地方進行產(chǎn)品展示和推廣。

方案五

目標(biāo)受眾分析:環(huán)保消費者通常對產(chǎn)品的成分和來源非常關(guān)心。

創(chuàng)意概念:##“源自自然,饋于自然”##

執(zhí)行策略

制作一系列教育性的內(nèi)容,如博客文章和視頻,介紹我們產(chǎn)品中的天然成分及其對環(huán)境的積極影響。

在產(chǎn)品包裝上增加二維碼,消費者掃描后可以了解更多關(guān)于產(chǎn)品成分和環(huán)保故事的信息。

方案六

目標(biāo)受眾分析:環(huán)保消費者可能會對那些提供可持續(xù)生活方式解決方案的品牌感興趣。

創(chuàng)意概念:##“全方位綠色生活”##

執(zhí)行策略

與生活方式博主和環(huán)保KOL合作,展示我們的產(chǎn)品是如何融入日常生活的。

開發(fā)一個綠色生活指南,提供使用我們產(chǎn)品的各種環(huán)保小貼士。

通過以上鏈式思維頭腦風(fēng)暴,我們得到了六個針對不同方面和策略的廣告活動方案,每個方案都旨在提高新興環(huán)保型清潔用品公司的市場知名度,并吸引目標(biāo)消費者。

收益:如果我們少了“請用鏈式思維的方式”,只是簡單要求大模型“請給我五個方案”,我們收獲的只有五個方案的描述。但是由于多了鏈式思維的要求,大模型就會從受眾、概念、策略等步驟逐一進行分解,給出更精準的答案。

4. 為思考流程進行“自定義”

做法:以上的3種做法,我們都只是給到了LLM“你要進行分步驟思考”的要求,但并沒有定義具體的步驟。但事實上,如果你已有成熟的思考步驟,也可以要求LLM跟著你的要求走。

舉例:你想創(chuàng)作一個時間旅行的故事,想讓LLM幫著構(gòu)思情節(jié),但你有著嚴格的思考要求,并不想讓大模型放飛自我。你可以這樣寫:

我是一個科幻小說家,我希望你能幫我構(gòu)思一部時間旅行的作品。請根據(jù)CoT逐步思考以下問題:

1. 定義核心概念:時間旅行如何影響人物和事件?

2. 探索可能性:如果一個角色可以回到過去,他們可能會改變什么?

3. 構(gòu)建情節(jié):角色的行動如何引發(fā)一系列事件,導(dǎo)致意想不到的后果?

4. 深化主題:時間旅行的道德困境和哲學(xué)問題是什么?

產(chǎn)出:一篇完善的故事大綱,不得少于2000字

AI的回答:

故事大綱:《時間的織者》

1. 定義核心概念:時間旅行如何影響人物和事件?

核心概念:

時間旅行不是簡單的歷史重寫,而是一系列復(fù)雜的因果鏈。每一次旅行都是對時間織物的編織,每一次改變都可能產(chǎn)生無法預(yù)料的連鎖反應(yīng)。

影響:

人物:時間旅行者會經(jīng)歷身份的轉(zhuǎn)變,從歷史的旁觀者變?yōu)閰⑴c者,甚至可能成為歷史的創(chuàng)造者。

事件:歷史不再是固定的,而是流動的,每一次旅行都可能導(dǎo)致完全不同的歷史走向。

2. 探索可能性:如果一個角色可以回到過去,他們可能會改變什么?

角色:艾麗森,一位物理學(xué)家,發(fā)現(xiàn)了時間旅行的秘密。

可能的改變

個人層面:艾麗森試圖修正自己過去的錯誤,比如挽救親人的生命。

社會層面:她考慮改變歷史上的重大事件,如阻止戰(zhàn)爭或災(zāi)難。

科學(xué)層面:她試圖帶回未來的科技,以加速當(dāng)前社會的發(fā)展。

3. 構(gòu)建情節(jié):角色的行動如何引發(fā)一系列事件,導(dǎo)致意想不到的后果?

情節(jié)概述

艾麗森首次嘗試時間旅行,成功回到了十年前,試圖阻止一場導(dǎo)致她弟弟死亡的車禍。然而,她的行動意外地改變了歷史,導(dǎo)致了一個平行宇宙的出現(xiàn),其中她的弟弟成為了一個科技巨頭,但同時也引發(fā)了一場全球性的經(jīng)濟危機。

事件鏈

初始行動:艾麗森回到過去,阻止了車禍。

第一次后果:弟弟幸存,成為科技巨頭。

第二次后果:弟弟的公司開發(fā)了一種新的能源技術(shù),導(dǎo)致全球能源市場崩潰。

第三次后果:經(jīng)濟危機引發(fā)社會動蕩,艾麗森發(fā)現(xiàn)自己的世界變得陌生和危險。

4. 深化主題:時間旅行的道德困境和哲學(xué)問題是什么?

道德困境

個人與集體:艾麗森的個人行動對整個社會產(chǎn)生了深遠的影響,她是否應(yīng)該為了個人的利益而改變歷史?

預(yù)知與責(zé)任:如果知道未來會發(fā)生什么,是否有責(zé)任去改變它?

哲學(xué)問題

自由意志與命運:時間旅行是否意味著命運是可塑的,還是說時間旅行本身就是命運的一部分?

歷史的真實性:如果歷史可以被改變,那么什么是真實的歷史?

存在的意義:如果過去可以被重寫,那么現(xiàn)在的存在是否還有意義?

故事大綱:

第一章:發(fā)現(xiàn)

艾麗森在實驗室中偶然發(fā)現(xiàn)了時間旅行的可能性。

她對時間旅行的理論和實踐進行了深入研究。

第二章:第一次旅行

艾麗森決定回到過去,阻止弟弟的死亡。

她成功改變了歷史,但發(fā)現(xiàn)自己的世界開始變得陌生。

第三章:新世界

艾麗森探索新的歷史線,發(fā)現(xiàn)弟弟成為了科技巨頭。

她開始意識到自己的行動可能帶來了更大的問題。

第四章:連鎖反應(yīng)

弟弟的公司引發(fā)了全球經(jīng)濟危機。

艾麗森試圖找到解決問題的方法。

第五章:道德困境

艾麗森面臨道德抉擇:是否應(yīng)該再次干預(yù)歷史?

她開始思考時間旅行的道德和哲學(xué)意義。

第六章:時間的織者

艾麗森決定成為一個“時間的織者”,謹慎地修復(fù)時間織物的裂痕。

她學(xué)習(xí)如何平衡個人愿望和對歷史的責(zé)任。

第七章:回歸與接受

艾麗森最終接受了時間旅行的后果,決定活在當(dāng)下。

她開始利用自己的知識幫助當(dāng)前的世界,而不是試圖改變過去。

第八章:新的開始

艾麗森關(guān)閉了時間旅行的實驗,專注于當(dāng)前的生活。

她成為了一個時間旅行理論的講師,教導(dǎo)人們關(guān)于時間、歷史和責(zé)任的重要性。

結(jié)語

艾麗森的故事成為了一個警示,提醒人們珍惜現(xiàn)在,理解每一個選擇的重要性。

時間旅行不再是一個逃避現(xiàn)實的手段,而是一個關(guān)于責(zé)任和接受的教訓(xùn)。

這個故事大綱提供了一個關(guān)于時間旅行的復(fù)雜敘事,探討了個人選擇如何影響整個宇宙的深刻主題。通過艾麗森的旅程,讀者可以思考時間、歷史和存在的意義。

收益:

  • 無論是小說、演講稿和方案,CoT方法通過逐步構(gòu)建思維鏈條,每個步驟都建立在前一個步驟的基礎(chǔ)上,使得整個故事或論述更加縝密、前后呼應(yīng)。
  • 而且有了中間步驟之后,如果需要微調(diào)其中的某一個步驟,只需要繼續(xù)給出指令,修改局部即可。不會影響到整體的框架,調(diào)整的效率大為提高。

5. 多輪對話時,重新喚起記憶

做法:有時候我們在做復(fù)雜的設(shè)計/分析時,可能會涉及到多輪產(chǎn)出。此時,CoT也有用武之地。由于每輪的設(shè)計可能都會有較長的文本輸入輸出,如果上下文內(nèi)容多了,LLM就和人類一樣,對較早的內(nèi)容就“淡忘”。所以,我們在多輪討論中,要提醒它結(jié)合上下文思考。

舉例:我們要通過LLM來設(shè)計一個虛擬的游戲角色,已經(jīng)跟LLM進行多輪設(shè)計:角色的核心概念、背景、形象、技能。最后一步是要結(jié)合以上所有內(nèi)容,來設(shè)計角色的人際關(guān)系,那么在輸入設(shè)計要求之后,可以加入后綴:<請根據(jù)以下流程來工作>

  1. 思考角色的核心概念
  2. 思考角色的視覺形象
  3. 思考角色的能力與技能
  4. 思考人際關(guān)系的設(shè)計要求

收益:能確保LLM綜合多輪大文本的理解和思考,再給出結(jié)論。

04 結(jié)語:人腦的特權(quán) vs 智腦的“模仿”

認知心理學(xué)教授斯坦尼斯拉斯·迪昂(Stanislas Dehaene)曾這樣描述過“人腦的特權(quán)”:緩慢地、理智地、符號化地運作,是人腦的特權(quán)。只有它可以在任何可能的時候,提取具有普遍性、邏輯性的、明確的原則。

人類的大腦思考非線性和多維的,思維可以快速跳躍,受到情感、直覺和過往經(jīng)驗的影響。這種思考的結(jié)果高度個性化,且思考路徑也是獨一無二的。它有時并沒有路徑和步驟可循,但依然能推演出一個優(yōu)質(zhì)的結(jié)果。

而大語言模型的CoT技術(shù),則更像是對人腦的一種“仿作”。它嚴格遵循線性,通過一系列有序的步驟來處理信息,每一步都基于前一步的輸出,以此來確保推理的連貫性和準確性。但是在面對復(fù)雜、未知的問題,它依然缺乏人類情感的深度和直覺的靈光一現(xiàn)。

這似乎讓人們可以松一口氣:至少在未來不短的時間內(nèi),人類依然能穩(wěn)居于智能生物鏈的頂端。同樣的,在面對未知與不確定的路上,我們也只能踽踽獨行。

本文由 @AI 實踐干貨 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!