用ChatGPT寫作業?AI可沒有對錯的概念

0 評論 5666 瀏覽 1 收藏 26 分鐘

OpenAI 的最新聊天機器人 ChatGPT能寫小說、寫劇本、寫代碼,還有人用它來寫作業,不過AI寫作業,可不一定能保證答案一定是正確的哦,本篇文章就揭示了這一點,讓我們一起來看看吧。

那天正好是星期三晚上,我的女兒正在為她的歐洲歷史課“拿破侖的審判”做準備。她要扮演的角色是辯方證人托馬斯·霍布斯(Thomas Hobbes),為此她向我尋求幫忙。于是我把問題拋給了幾小時前 OpenAI 才剛剛發布的 ChatGPT:

關于托馬斯·霍布斯,ChatGPT給出了錯誤回答

ChatGPT 回答得很自信,并且附上了支持的證據以及對霍布斯著作的引用,但答案完全是錯誤的。霍布斯是絕對主義的支持者,他相信無政府狀態——人類事務的自然狀態——唯一可行的替代方法,是將絕對權力授予君主。

制衡是霍布斯年輕時候同時代的人物約翰·洛克(John Locke)提出的觀點,他認為權力應該在行政部門和立法部門之間分配。詹姆斯·麥迪遜(James Madison)在撰寫美國憲法時曾采納了查爾斯·孟德斯鳩(Charles Montesquieu) 的一項改進提案——增設司法部門來制衡其他兩個機構。

一、ChatGPT 產品

很“幸運”,我第一個 ChatGPT 查詢出來的結果就是錯的,不過你可以看看它是怎么出來的:霍布斯和洛克兩人幾乎總是被一起提及,所以洛克對三權分立重要性的闡述很可能與家庭作業(互聯網上到處都是這樣的東西)里面提到的霍布斯和利維坦的地方是緊挨著的。

這些作業因為是在互聯網上的,所以也許是支撐了 ChatGPT 的 GPT-3 語言模型的一些要點; ChatGPT 用了一層的人類反饋強化學習(RLHF),用來創建一個新模型,然后用一個具有一定程度記憶(通過重新發送以前的聊天互動以及新提示來實現)的直觀聊天界面來呈現。

觀察這個周末發生的事情會很有趣,可以研究一下這些改進是如何使得人們對 OpenAI 的能力產生了濃厚興趣,你會發現人們對人工智能即將對社會產生的影響的認識在不斷增強,盡管其底層模型是已有兩年歷史的 GPT-3。

我懷疑,關鍵因素是 ChatGPT 的易用性,而且是免費的:就像我們在 GPT-3 首次發布時看到的那樣,看人工智能的輸出示例是一回事;但自己生成這些輸出是另一回事;事實上,當 Midjourney 讓人工智能生成藝術變得簡單并且免費時,大家的興趣和意識也出現了類似的爆炸式增長(隨著 Lensa AI 的更新把 Stable Diffusion 驅動的魔法頭像納入進來,本周這種興趣又有了一次飛躍)。

GitHub 首席執行官納特·弗里德曼(Nat Friedman)在接受采訪時曾認為,除了 Github Copilot 以外,人工智能在現實世界的應用匱乏。這可以說是他這一觀點的具體例子:

我離開 GitHub 的時候曾經在想,“看來人工智能革命已經到來,很快就會有其他人來折騰這些模型,開發產品,掀起一股應用浪潮?!苯Y果卻是然后就沒有然后了,這種走勢確實很令人驚訝。

現在的情況是研究人員走在了前面,每天都在不斷加快節奏向全世界提供大量新功能。所以這些能力就擺在全世界的面前,但奇怪的是,創業者和做產品的才剛剛開始消化這些新能力,才開始琢磨“我們可以開發什么樣的產品呢?那種之前開發不了,但大家又很想用的產品是什么?”我覺得,在緊跟開發趨勢這方面,我們的能力其實是很欠缺的。

有趣的是,我認為這其中一個原因是因為大家都在模仿 OpenAI ,它的形態介于初創企業與研究實驗室之間。也就是說,出現了這樣一代的人工智能初創企業,它們把自己打造成了研究實驗室,對于這樣的公司來說,地位和名聲的通貨是論文發表和引用,而不是客戶和產品。

我認為,我們只是想講好故事,并鼓勵其他有興趣這樣做的人去開發這些人工智能產品,因為我們認為這其實會以一種有用的方式反饋給研究界。

OpenAI 提供了一個 API,初創企業可以基于此去開發產品;不過,其中存在一個基本的限制因素,成本:如果用 OpenAI 最強大的語言模型 Davinci 生成約 750 個單詞,成本大概是 2 美分;用 RLHF 或其他任何方法對模型進行微調要花很多錢,而從這些微調過的模型生成約 750 個單詞要 12 美分。然后,也許并不奇怪,是 OpenAI 自己用自己的最新技術推出了第一款可廣泛訪問且(目前)免費的產品。這家公司的研究肯定會得到很多反饋!

OpenAI 的領先優勢一直都很明顯;ChatGPT 之所以吸引人,是因為它與 MidJourney 攜手把 OpenAI 抬上了消費者型人工智能產品領導者的位置。

MidJourney 已經通過訂閱直接將消費者變現了;這種商業模式是行得通的,因為在 GPU 時間方面服務是存在邊際成本的,雖說這樣做也會限制用戶的探索和發現。這就是廣告之所以能屹立不倒的原因:當然你要有好的產品來推動消費者使用,但免費也是一個重要因素,文本生成最終可能更適合廣告模式,因為對大多數人來說,它的效用——以及因此獲得收集第一方數據的機會——可能要比圖像生成更高。

二、確定與蓋然

哪些工作會先被人工智能顛覆,這個問題仍懸而未決;不過,對于一部分人來說,從這個周末已經明顯可以看出,有一項普遍活動將受到嚴重威脅:那就是家庭作業。

回到我上面提到的我女兒的那個例子:關于政治哲學的論文,或者讀書報告,或者布置給學生的任何數量的作業,那種理論上是新的論文,但就世界而言,往往只是對已經寫過一百萬次的東西的反芻。不過現在,你可以通過這些反芻寫一些“原創”的東西,而且至少在接下來這幾個月的時間里,你可以免費做這件事情。

ChatGPT 之于家庭作業有一個很明顯的類比:學生已經不需要進行繁瑣的數學計算,每次只需輸入相關數字就能獲得正確答案;為此,教師通過讓學生展示他們的作業過程來應對。

不過,這也說明了為什么人工智能生成的文字是完全不一樣的東西;計算器是確定性設備:如果你計算 4839 + 3948 – 45,你每次都會得到 8742。這也是為什么教師要求學生展示計算過程是充分的補救措施:有一條通往正確答案的道路,并且展示沿著這條道路走下去的能力比得出最終結果更重要。

另一方面,人工智能輸出是概率性的:ChatGPT 沒有關于對錯的任何內部記錄,有的只是關于在不同上下文中哪些語言組合在一起的統計模型。這個上下文的基礎是訓練 GPT-3 用到的數據全集,以及來自 ChatGPT 的訓練 RLHF 時額外提供的上下文,以及提示與之前的對話,還有很快就會出來的、對本周發布的東西的反饋。這可能會產生出一些真正令人興奮的結果,比方說 ChatGPT 內置的虛擬機:

知道嗎,你可以在 ChatGPT 里面運行一整個虛擬機。

妙極了,輸入這個巧妙的提示后,我們就會進入 Linux 機器的根目錄。我想知道在這里面能找到什么樣的東西。那就來查看一下主目錄的內容吧。

嗯,就是一個最基礎的設置。我們來創建一個文件吧。

ChatGPT 喜歡的經典笑話都在這兒了。我們來看看這個文件。

看來 ChatGPT 似乎了解文件系統的工作原理、文件的存儲方式以及之后的檢索方式。它知道 linux 機器是有狀態的,還能正確地檢索并顯示信息。

我們還能用電腦做什么。編程!

沒錯!看看怎么計算前 10 個質數:

這也是對的!

在這里我想指出的是,這個用來查找素數的 python 編程挑戰(code golf python)的實現效率是非常低的。在我的機器上執行這條命令要用 30 秒,但在 ChatGPT 上運行相同的命令只需要大約 10 秒。所以,對于某些應用來說,這個虛擬機已經比我的筆記本電腦還快了。

不同之處在于 ChatGPT 其實并沒有運行 python 并很確切地確定它給出的就是前 10 個素數:每個答案都是從構成 GPT-3 的互聯網數據語料庫里面收集到的概率性結果;換句話說,ChatGPT 在 10 秒內得出了對結果的最佳猜測,而且這個猜測很可能是正確的,感覺就像是一臺真正的計算機在執行相關代碼。

這就引出了一些迷人的哲學問題,關于知識本質的;你也可以直接問 ChatGPT 前 10 個質數是什么:

ChatGPT列出的前 10 個素數

那些數字就不是計算出來的,只是已知的;不過,它們之所以是已知,是因為被記錄在互聯網的某個地方上了。相比之下,請注意 ChatGPT 如何搞砸了我上面提到的那個簡單得多的公式:

ChatGPT數學計算搞錯了

不管怎樣,我得多下點功夫才能讓 ChatGPT 搞砸數學問題:基礎的 GPT-3 模型在大多數情況下計算基本的三位數加法都是錯的,不過 ChatGPT 表現得要好一些。盡管如此,它顯然不是計算器:而是模式匹配器——而模式有時候會很古怪。此處的技巧是當它出錯的時候要抓住它,不管是基礎數學還是基礎政治理論。

三、詢問與編輯

在應對 ChatGPT 的影響方面,已經有一個網站走在了前列:Stack Overflow。Stack Overflow 是開發者的問答網站,在這里他們可以詢問代碼方面的問題,或者在處理各種開發問題時獲得幫助;答案一般就是代碼本身。

我懷疑這導致 Stack Overflow 成為了 GPT 模型的金礦:因為上面既有問題的描述,也有解決相應問題的代碼。但問題是,正確的代碼出自經驗豐富的開發者對問題的回答,另外就是讓其他開發者對這些問題進行投票;如果用 ChatGPT 來回答問題會怎樣?

看起來這是個大問題;來自 Stack Overflow Meta:

用 ChatGPT 生成的文本。

這是一項暫時性政策,旨在緩解用 ChatGPT 創建的答案涌入進來。關于該工具以及其他類似工具的使用,我們的最終政策還需要與 Stack Overflow 工作人員討論,而且很可能也要在 Meta Stack Overflow 這里進行討論。

ChatGPT 回答正確的平均比率太低,對網站以及詢問或尋找正確答案的用戶來說,發布由 ChatGPT 創建的答案是非常有害的。

主要問題是,雖然 ChatGPT 生成的答案有很高的錯誤率,但通??雌饋硪苍S還不錯,而且答案很容易生成。還有很多人盡管自己沒有專業知識,或不愿意在發布之前驗證答案是否正確,卻愿意嘗試用 ChatGPT 來創建答案。

因為這樣的答案很容易產生,所以很多人都在發布大量的答案。這些答案的數量(成千上萬),以及答案通常需要至少具有一些相關專業知識的人仔細閱讀才能確定答案其實是錯誤的,這些會導致我們靠志愿者策劃出來的,優質的基礎設施被錯誤答案淹沒。

因此,我們得減少這些帖子的數量,我們還得處置那些快速發布的帖子,這意味著要與用戶打交道,而不是處理單個帖子。所以,目前已經不允許用 ChatGPT 在 Stack Overflow 上創建帖子。如果用戶被認為在此臨時政策發布后仍使用 ChatGPT 發帖,網站將實施制裁,阻止用戶繼續發布此類內容,哪怕這些帖子在其他情況下是可以接受的也不行。

這里面有一些值得討論的有趣問題。一個是關于制作內容的邊際成本:Stack Overflow 的核心是用戶生成內容;這意味著它可以免費獲得用戶的內容,因為用戶為了幫助別人、為人慷慨、想要贏得地位等而生成了內容。唯有互聯網才促成了這一點。

人工智能生成內容則更進一步:它確實很費錢,尤其是現在,(目前 OpenAI 是自己來承擔這些可觀的成本),但從長遠來看,你可以想象這樣一個世界,在這個世界里,內容生成不僅從平臺的角度來看是免費的,而且從用戶的時間來看也是免費的;想象一下建立一個新的論壇或聊天群,比方說,用一個可以立即提供“聊天流動性”的人工智能。

不過,就目前而言,概率性人工智能似乎站在了 Stack Overflow 交互模型的錯誤一邊:而由計算器代表的確定性計算則給出了一個你可以信任的答案,當今(以及如 Noah Smith 所言,未來)人工智能的最佳用途,是提供一個你可以糾正的起點:

所有這些愿景的共同點是我們所謂的“三明治”工作流這樣一個東西。這是一個包括三個步驟的流程。首先,人類有了創作的沖動,于是給人工智能一個提示。 人工智能然后會生成一個選項菜單。接著人類選擇其中一個選項,對其進行編輯,并根據個人喜好進行潤色。

三明治工作流與人們習慣的工作方式大不相同。人們自然會擔心提示和編輯在本質上不如自己產生想法那么有創意,那么有趣,這會導致工作變得更加生搬硬套,更加機械化。也許其中有部分在所難免,這就跟手工制造讓位于大規模生產那時候一樣。人工智能給社會帶來的財富增加應該會讓我們有更多的空閑時間來發展我們的創意愛好……

我們預測,很多人會改變自己對個人創造力的看法。就像一些現代雕塑家會使用機器工具,一些現代藝術家會使用 3D 渲染軟件一樣,我們認為未來的一些創作者會習得將生成人工智能視為另一種工具——一種通過解放人類去思考創作的不同方面,來增強創造力的工具。

換句話說,人類對人工智能扮演的角色不是詢問者,而是編輯者。

四、零信任家庭作業

在這種新范式下,家庭作業可能會變成什么樣子呢?這里有個例子。想象一下,一所學校拿到了一套人工智能軟件套件,希望學生用它來回答有關霍布斯或其他任何方面的問題;生成的每個答案都會被記錄下來,這樣教師馬上就能確定學生沒有用不同的系統。

此外,教師沒有要求學生自己寫論文(因為知道這是徒勞),而是堅持用人工智能。不過,重點在這里:系統經常會給出錯誤的答案(而且不僅僅是偶然——錯誤答案往往是故意推出的);家庭作業要考核的真正技能在于驗證系統生成的答案——去學習如何成為驗證者和編輯者,而不是反芻者。

這種新技能的引人注目之處在于,這不僅是一種在人工智能主導的世界里會變得越來越重要的能力:在今天這也是非常有價值的一項技能。畢竟,只要內容是由人類而不是人工智能生成的,互聯網就不是仿佛是“對的”;實際上,ChatGPT 輸出的一個類比是我們都熟悉的那種發帖人,那種不管對不對都是我說了算的人。現在,驗證和編輯將變成每個人的基本技能。

這也是對互聯網虛假信息唯一的系統性回應,與自由社會也是一致的。在 COVID 出現后不久,我寫了《零信任信息》,證明了對付虛假信息唯一的解決方案是采用與零信任網絡背后一樣的范式:

答案是想都不要想:別想把所有東西都放到城堡里面,而是把所有東西都放在護城河以外的城堡里,并假設每個人都是威脅。于是就有了這個名稱:零信任網絡。

零信任網絡示意圖

在這種模型里面,信任是在經過驗證的個人層面:訪問(通常)取決于多因子身份驗證(比方說密碼+受信任設備或臨時碼),哪怕通過了身份驗證,個人也只能訪問定義好顆粒度的資源或應用……

簡而言之,零信任計算從互聯網的假設開始:無論好壞,所有人和物都連接到一起,并利用零交易成本的力量做出持續訪問的決定,其分布性和顆粒度遠非物理安全所能及,從而一舉解決了城堡護城河式安全方案存在的根本矛盾。

我認為,在虛假信息方面,年輕人已經適應了這種新范式:

為此,與其跟互聯網做斗爭——試圖圍繞著信息構建一個城堡和護城河,并考慮所有可能的折衷——會不會擁抱洪水可能會帶來更多的價值?所有可得證據均表明,大家(特別是年輕人)正在設法弄清個人驗證的重要性;比方說,牛津大學路透研究所的這項研究:

在采訪中,我們沒有發現年輕人當中存在經常聽說的媒體信任危機。大家對某些被政治化的觀點普遍不相信,但是對某些個人喜愛的品牌的質量又非常贊賞。相對于另一件事情,假新聞本身頂多令人討厭,尤其是考慮到相對于其所引起的公眾關注度,能感受到的問題的規模似乎相對較小。因此,用戶覺得有能力把這些問題掌握在自己手中。

路透社研究所之前的一項研究還發現,相對于線下新聞消費而言,社交媒體展現出更多的觀點,另一項研究則表明,在使用互聯網最少的老年人當中,政治觀點的分化最大。

同樣地,無論是短期的冠狀病毒還是中期的社交媒體和無中介信息,這并不是說一切都好。但是,我們有理由感到樂觀,有一種理念認為,看門人越少,信息越多,意味著創新想法和好點子會跟虛假信息一樣成比例增長,但對于后者,伴隨著互聯網成長起來的年輕人已經開始學會無視了。我們越快地接受這種理念,情況就會變得越好。

那篇文章最大的錯誤是假設信息的分布是正態的;事實上,正如我之前所指出那樣,不良信息的數量多太多了,原因很簡單,因為生成這些信息的成本更低?,F在,由于人工智能,信息泛濫會變得更加洪水滔天,雖然它往往是正確的,但有時候也會搞錯,對于個人來說,弄清楚哪個是哪個很重要。

解決方案要從互聯網的假設開始,這意味著豐富,并選擇洛克和孟德斯鳩而不是霍布斯:與其堅持自上而下的信息控制,不如擁抱豐富,并托付給個人來解決問題。就人工智能而言,不要禁止學生或其他任何人使用它;而是要利用它來建立這樣一種教育模式,它會從假設內容是免費的開始,學生真正要掌握的技能是將其編輯成對的或美麗的東西;只有這樣,它才會有價值,才可信賴。

譯者:boxi,來源:神譯局。神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。

本文由@神譯局 翻譯發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!