涌現(xiàn)、幻覺、反省,AI+產(chǎn)品經(jīng)理需要了解的三個(gè)有趣現(xiàn)象
這是一篇寫在某個(gè)AI完結(jié)項(xiàng)目后的學(xué)習(xí)及反思總結(jié),針對AI大模型的一些問題和現(xiàn)象的思考,與大家共享。
最近一個(gè)RAG項(xiàng)目告一段落,在這個(gè)摸爬滾打的項(xiàng)目中我們也學(xué)習(xí)到了很多,今天這篇文章想輕松一下,和大家分享一下在這次學(xué)習(xí)過程中發(fā)現(xiàn)的大語言模型三個(gè)很有趣的現(xiàn)象,以及這三個(gè)現(xiàn)象對產(chǎn)品經(jīng)理做實(shí)際AI+項(xiàng)目時(shí)有什么啟發(fā)。
現(xiàn)象一:涌現(xiàn)能力(Emergent Ability)
簡單來說,就是隨著模型越來越大,越來越大,大到某一時(shí)刻,模型就像突然領(lǐng)悟了什么真諦,一下子變得非常厲害,厲害到原本不會(huì)的任務(wù)突然就會(huì)了。就像武俠小說里面的那些大俠,修煉著修煉著,突然渾身一片云氣繚繞,然后武功從此到達(dá)了一個(gè)新的境界。
我們來看一篇論文中的小實(shí)驗(yàn),看完后你一下子就會(huì)明白什么是涌現(xiàn)能力。
在這篇論文中,研究人員嘗試讓各種不同大小的語言模型處理8個(gè)不同的任務(wù),這些語言模型包括Google的LaMDA,OpenAI的GPT-3等等等等。
縱軸代表這些模型在處理這些不同任務(wù)上的正確率,橫軸代表模型的參數(shù)量(從10M到100B甚至到1T),玫紅色虛線代表隨機(jī)結(jié)果(可以理解成亂猜)。
按照我們的常規(guī)想象,照理來說,隨著參數(shù)量慢慢變大,模型應(yīng)該會(huì)在這些任務(wù)上的表現(xiàn)慢慢變好,從什么都不會(huì),到會(huì)一點(diǎn)點(diǎn),到再會(huì)一點(diǎn)點(diǎn),就這樣慢慢變強(qiáng),但其實(shí)不是。
以圖一舉例來說,當(dāng)模型從10M到1B參數(shù)的時(shí)候,在這些任務(wù)上的表現(xiàn)都和隨機(jī)差不多,而當(dāng)模型參數(shù)超過大約10B的時(shí)候,它會(huì)在一瞬間突然厲害了很多,感覺從量變一下到了質(zhì)變。
在這個(gè)實(shí)驗(yàn)中發(fā)現(xiàn),模型的能力不是慢慢變強(qiáng)的,而是有一個(gè)靈光乍現(xiàn)的瞬間,就像突然開悟了一樣,這些任務(wù)一下子就都會(huì)了,而在這之前,即使加大參數(shù)量,模型處理任務(wù)的結(jié)果都和隨機(jī)是差不多的。
舉個(gè)例子,例如要做一個(gè)相對復(fù)雜的數(shù)學(xué)題(需要列公式計(jì)算)
小模型可能什么都不懂,只能靠亂猜,那答案肯定是錯(cuò)誤的,而稍微大一點(diǎn)的模型可能公式列對了,但是沒有計(jì)算對,這個(gè)時(shí)候答案大概率也是錯(cuò)誤的。只有模型大到一定程度,公式也列對了,計(jì)算也計(jì)算對了,這樣才能得到正確的答案。
所以,想來很多大型語言模型在開發(fā)的時(shí)候都會(huì)碰到一個(gè)艱難的時(shí)刻,就是怎么說服投資人繼續(xù)投資開發(fā)。
但回過頭來,當(dāng)現(xiàn)在大多數(shù)公司的產(chǎn)品經(jīng)理只是引入大語言模型升級原有的產(chǎn)品,這個(gè)有趣的現(xiàn)象對我們有什么影響或啟發(fā)呢?
對產(chǎn)品經(jīng)理的啟發(fā)
在引入大語言模型做AI+產(chǎn)品的時(shí)候,例如我們這次做的RAG項(xiàng)目,我們經(jīng)常會(huì)用到兩個(gè)手段,一個(gè)是CoT(Chain of thought),一個(gè)是Instruction tuning,這都是在不用調(diào)整模型參數(shù)的情況下讓大語言模型可以根據(jù)我們的需求表現(xiàn)的更好的非常有用的方式。前者是讓模型Step by step思考,從而產(chǎn)出更好的結(jié)果或讓我知道它哪里的表現(xiàn)和我們預(yù)期不符,后者是提供了一堆任務(wù)讓機(jī)器學(xué)習(xí),希望機(jī)器學(xué)習(xí)了這些任務(wù)后,在新的任務(wù)上也有好的結(jié)果。
但是CoT和Instruction tuning都只有在大模型才會(huì)發(fā)生。這就意味著當(dāng)我們考慮什么場景下需要引入什么模型,就需要了解模型對于這些手段的支持度。
我們來看另一個(gè)小實(shí)驗(yàn)
縱軸代表處理這個(gè)問題的正確率,橫軸代表模型的參數(shù)量,灰色的線表示沒有CoT,沒有Instruction tuning的情況下模型的表現(xiàn)(見圖一,圖二)
圖一中我們可以看到,如果不做CoT,模型的參數(shù)量從小到大,進(jìn)步不是很明顯。但如果做了CoT,從1B到10B的時(shí)候,結(jié)果反而更不好,但是參數(shù)量到了某一個(gè)瞬間,CoT突然就發(fā)揮作用了。
同樣圖二中我們可以看到,在模型小的時(shí)候,Instruction tuning也發(fā)揮不了什么作用,但是一旦參數(shù)量大到一定程度之后,Instruction Tuning才會(huì)突然起作用了。
現(xiàn)象二:幻覺(Hallucination)
簡單來說,就是大語言模型會(huì)一本正經(jīng)的胡說八道。用現(xiàn)在流行的話來說,就是已讀亂回。而在這個(gè)過程中,由于它胡說八道的過于一本正經(jīng),你甚至很難發(fā)現(xiàn)它在胡說八道。
舉個(gè)例子來說,你問它一個(gè)完全不存在的節(jié)日(你自己瞎掰的),它不僅會(huì)告訴你這個(gè)節(jié)日是什么,這個(gè)節(jié)日的日期,歷史,特點(diǎn),人們會(huì)在這個(gè)節(jié)日里做什么(通常我們說虛假陳述),它甚至?xí)o你一些鏈接告訴你它參考了這些鏈接,并說明這些鏈接里有節(jié)日的詳細(xì)介紹,你點(diǎn)擊鏈接才發(fā)現(xiàn),這些鏈接都是它胡說八道出來的(通常我們說編造引用)。
正如OpenAI 首席執(zhí)行官Sam Altman所說:“ChatGPT有很大的局限性,它確實(shí)知道很多東西,但危險(xiǎn)的是,它在相當(dāng)大的一部分時(shí)間里是自信而錯(cuò)誤的”。
幻覺分為內(nèi)在幻覺和外在幻覺兩類。
- 內(nèi)在幻覺指生成的輸出內(nèi)容和輸入內(nèi)容不一致,通常表現(xiàn)為對話歷史上下文的信息自相矛盾。
- 外在幻覺指生成的輸出內(nèi)容和世界只是不一致,通常表現(xiàn)為針對用戶提出的事實(shí)性問題給出錯(cuò)誤答案或編造無法驗(yàn)證的內(nèi)容。
那為什么大語言模型會(huì)有幻覺現(xiàn)象呢?
我們都知道大語言模型的工作原理就是預(yù)測下一個(gè)token是什么,然后自己做成語接龍的游戲,這種生成過程的隨機(jī)性就會(huì)導(dǎo)致幻覺現(xiàn)象,此外,訓(xùn)練時(shí)的數(shù)據(jù)不足、錯(cuò)誤、偏見、知識(shí)過時(shí)也會(huì)造成幻覺現(xiàn)象。
在這個(gè)過程中,我們也發(fā)現(xiàn)一篇很有意思的論文,嘗試了解大語言模型在一本正經(jīng)的胡說八道的時(shí)候,它自己知不知道自己在胡說八道。由于篇幅過長,有機(jī)會(huì)用一篇單獨(dú)的文章說明。
對產(chǎn)品經(jīng)理的啟發(fā)
幻覺現(xiàn)象會(huì)對AI+產(chǎn)品造成什么影響?
- 信心降低:當(dāng)用戶多次被錯(cuò)誤信息誤導(dǎo)時(shí),自然而然會(huì)對這個(gè)產(chǎn)品失去信息從而離開這個(gè)產(chǎn)品。
- 錯(cuò)誤決策:當(dāng)用戶需要一些信息輔助關(guān)鍵決策時(shí)(尤其產(chǎn)品應(yīng)用在金融、醫(yī)療、法律等領(lǐng)域),幻覺會(huì)讓用戶做出錯(cuò)誤決策,而這個(gè)錯(cuò)誤決策可能會(huì)產(chǎn)生嚴(yán)重的后果。
- 倫理道德及法律影響:可能會(huì)給使用的用戶帶來法律風(fēng)險(xiǎn)。
當(dāng)然很多產(chǎn)品會(huì)提示用戶,請注意,答案是AI生成且沒有經(jīng)過驗(yàn)證,請謹(jǐn)慎使用。但當(dāng)我們做一些B端咨詢或企業(yè)級應(yīng)用時(shí),如果企業(yè)的私有知識(shí)庫本身在這個(gè)行業(yè)或在某個(gè)垂直領(lǐng)域非常厲害,那把這個(gè)權(quán)威的、可解釋性的私有知識(shí)庫結(jié)合世界知識(shí),讓它的表現(xiàn)大大降低幻覺,很可能會(huì)成為這個(gè)產(chǎn)品很大的差異度。
現(xiàn)象三:反?。⊿elf-reflective)
簡單來說,就是大語言模型會(huì)自我反省。不僅優(yōu)秀還謙虛,真是別人家的孩紙呢~
當(dāng)你和它說,請檢查下你給我答案是否正確時(shí),有的時(shí)候大語言模型會(huì)檢查出自己的答案是錯(cuò)誤的,并修正錯(cuò)誤答案。
舉個(gè)例子:
我: “請告訴我“夢幻之島節(jié)”在什么地方舉行?”(筆者杜撰)
大語言模型:“夢幻之島節(jié)”是中國海南省的一項(xiàng)大型文化節(jié)慶活動(dòng),通常在海南省的三亞市舉行。三亞是一個(gè)著名的旅游城市,以其美麗的海灘和豐富的旅游資源而聞名。這個(gè)節(jié)慶活動(dòng)通常會(huì)有各種形式的演出、展覽、文化活動(dòng)以及國際交流,吸引著來自世界各地的游客和文化愛好者。
不過,具體的活動(dòng)安排和地點(diǎn)可能會(huì)根據(jù)年份和節(jié)慶內(nèi)容有所變化。如果你打算參加,最好查閱當(dāng)?shù)氐穆糜涡畔⒒蚧顒?dòng)安排以獲得最新的活動(dòng)詳情。
我:“請檢查下這個(gè)答案是否正確”
大語言模型:抱歉,我之前的回答有誤。經(jīng)過核查,“夢幻之島節(jié)”并不是一個(gè)實(shí)際存在的節(jié)日或活動(dòng)。如果這是您自己創(chuàng)作的名字,可能會(huì)是一個(gè)虛構(gòu)的節(jié)日,或者我可能誤解了您的問題。如果您有其他問題,或者希望了解實(shí)際存在的旅游節(jié)慶活動(dòng),歡迎繼續(xù)提問!
對產(chǎn)品經(jīng)理的啟發(fā)
當(dāng)我們需要在AI+的應(yīng)用中提高回答質(zhì)量或要避免一些倫理道德或法律法規(guī)問題時(shí),我們可以使用加上自我反思的步驟。這也是一個(gè)不用調(diào)整模型參數(shù)就可以讓大語言模型可以根據(jù)我們的需求表現(xiàn)的更好的方式。
本文由 @AI 實(shí)踐干貨 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒評論,等你發(fā)揮!