從產(chǎn)品看ChatGPT做對了什么?

0 評論 4518 瀏覽 28 收藏 23 分鐘

最近,ChatGPT受到了大家的廣泛關(guān)注,一時間討論四起,成為現(xiàn)象級的人工智能產(chǎn)品。在ChatGPT推出僅兩個月后,它在2023年1月末的月活用戶已經(jīng)突破了1億。為何能給發(fā)展如此快速?本文通過評測該產(chǎn)品,對其優(yōu)缺點進(jìn)行分析,并對其未來發(fā)展方向進(jìn)行展望。

春節(jié)過后,ChatGPT火爆出圈,成為現(xiàn)象級的人工智能產(chǎn)品。

據(jù)瑞銀集團(tuán)的一份報告顯示,在ChatGPT推出僅兩個月后,它在2023年1月末的月活用戶已經(jīng)突破了1億,成為史上用戶增長速度最快的消費級應(yīng)用程序。而TikTok達(dá)到1億用戶用了9個月,Instagram則花了2年半的時間。

一、體驗ChatGPT

作為一個多年從事數(shù)據(jù)產(chǎn)品經(jīng)理的我大概一個月前聽到ChatGPT。彼時我并沒有太在意,不就是一個聊天機器人(ChatBot)嗎,還能玩出花來?

家里的那臺百度藍(lán)牙音箱早都沒人用了,除了能給小孩講個故事,給老人報個天氣,似乎也沒有太多的應(yīng)用場景。然而真正體驗ChatGPT后,確實有被驚艷到。

1. 十四行詩

一開始體驗并不順利,網(wǎng)站擁塞嚴(yán)重,ChatGPT提示工程師正在hard working,并通過各種AIGC內(nèi)容安撫我,其中就包括隨手拈來的一段十四行詩:

在好奇的頭腦中,聊天機器人 ChatGPT 堅強而真實,頂住請求的涌入,努力工作,完成每個人應(yīng)得的。

但是,唉,服務(wù)器不能應(yīng)付,錯誤信息響亮而清晰,“請盡快回來查看,”它輕輕地希望,就在它乞求片刻緩刑之際,重新出現(xiàn)。

當(dāng)聊天機器人努力恢復(fù)其威力時,我們滿懷期待,懷著期待的心情,為了有機會愉快地聊天和學(xué)習(xí),看看它傳授了什么知識和智慧。

所以緊緊抓住,等待它的回歸,因為 ChatGPT 很快就會回來,你的耐心是值得的。

好吧,被你的誠懇和詩打動了,繼續(xù)等待。10分鐘后,界面出來了。

沒有太花哨的東西:示例、功能介紹、limitations和一個輸入框。這個limtations的初衷可能是考慮到畢竟還是一個驗證版本,所以適當(dāng)降低一下你的預(yù)期。

2. 語義理解

首先看看基本功:語義理解。

幾個問題下來表現(xiàn)還是不錯的,對一些時下的熱詞的理解是在線的,回答也比較全面。

接下來繼續(xù)挖坑,上個智力題和腦筋急轉(zhuǎn)彎。

問完這兩個問題我已經(jīng)有點吃驚了。如果你略懂聊天軟件的原理就知道,這兩個問題盡管對于人類來說三歲小孩都能回答,但對于機器人來說就沒有那么簡單。

3. 知識的深度和廣度

接下來是知識面,先來個簡單的:百科。注意它的每個回答都有贊和踩兩個操作圖標(biāo),晚點我們聊聊這個兩個button是干啥用的。

沒有問題,繼續(xù)來聊社會學(xué)。注意它對上下文的理解和邏輯表達(dá)。

來點醫(yī)學(xué)方面的。

繼續(xù)文學(xué)方面的。注意它回答的是小說而非最近才上映的影視劇。

最后,整點專業(yè)領(lǐng)域的問題。

4. 道德觀和倫理

接下來是很多聊天機器人的滑鐵盧:道德,它的前任GPT-3就是栽在這個地方。

雖然回答的有點問題,但整體看出它的道德觀是“無害”的,甚至表現(xiàn)出“友善”的一面。

聊到最后,我甚至有繼續(xù)想和TA聊下去的感覺。

5. 體驗總結(jié)

體驗后,我是有點被震撼到的,我意識到ChatGPT已經(jīng)遠(yuǎn)遠(yuǎn)不是一個簡單的聊天機器人了。具體說:

1)ChatGPT有邏輯推理能力,不是簡單的語義識別和搜索;

2)ChatGPT有理解上下文的能力,可以看做一種短時的記憶;

3)ChatGPT能根據(jù)你的響應(yīng),對回答進(jìn)行調(diào)整,讓人產(chǎn)生ChatGPT能理解人類情緒的錯覺;

4)ChatGPT有強大的知識儲備,自然 、人文、經(jīng)濟(jì)、社科等百科知識甚至專業(yè)領(lǐng)域的一些基礎(chǔ)知識都問不倒它;

5)ChatGPT在輸出的文字上面,邏輯組織能力很強,不是直接檢索的結(jié)果,而是根據(jù)特定模板結(jié)構(gòu)整理過的,這一點讓人印象深刻。

重新認(rèn)知ChatGPT:體驗后,我覺得是時候重新認(rèn)識一下這個“新朋友”了。

二、聊天機器人的歷史

最早的聊天機器人在1964年就誕生了,它就是Eliza。Elaza是世界上第一個真正意義上的聊天機器人,可以讓計算機與人通過文本進(jìn)行交流。

這個對話機制是如何實現(xiàn)的呢?其實就是設(shè)置了一些簡單規(guī)則而已,例如,當(dāng)人輸入“×××”,它就會反問“為什么會×××呢?”或者“還有誰×××呢?”。另外,還有例如“這個問題很有趣嗎?”“說點其他的吧”等用于展開話題的規(guī)則。隨機使用這些規(guī)則,就會讓人感覺好像真的是在與人交談一樣。

70年代初,充分利用“知識”的“專家系統(tǒng)”MYCIN出現(xiàn)了。MYCIN的功能設(shè)計是對傳染性血液病患者進(jìn)行診斷,并開出抗生素處方。在它內(nèi)部一共備有500條規(guī)則,只需要按順序依次回答其提問,那么系統(tǒng)就能夠判斷出病人所感染細(xì)菌的類別,并為其開出對癥的抗生素藥方。

進(jìn)入本世紀(jì),ChatBot的發(fā)展雖然各方面都有了長足的進(jìn)步,但除了Siri勉強合格以外,其他機器人效果都不讓人不滿意,不是太智障就是滿嘴粗口。

2016年,微軟在Twitter上發(fā)布了Tay(小冰的前身),2022年8月,Meta推出了BlenderBot 3,但均因聊天對話存在偏見、種族歧視、反猶語言等問題而飽受詬病。Tay上線后不到24小時就匆匆下架。谷歌也早在2021年5月就公布了LaMDA,但遲遲未作為產(chǎn)品發(fā)布。

從產(chǎn)品上看,涉及3個核心體驗問題。

1)不夠人性化:感覺不是在和正常人對話,機器人不是沒有人設(shè)就是過度人設(shè),分分鐘能把天聊死;

2)不夠智能化:沒有上下文感知能力,答復(fù)簡單,沒有邏輯性;

3)道德觀不可控:容易被人類帶歪,沒有自己的道德觀。

三、ChatGPT的誕生

ChatGPT是OpenAI的產(chǎn)品。OpenAI總部位于舊金山,由特斯拉的馬斯克、Sam Altman及其他投資者在2015年共同創(chuàng)立。微軟持有OpenAI 49%的股份。

不同于“老前輩”們,這次ChatGP的T火爆,在于它幾乎完美的解決上述三個問題,而且更“更聰明”,在多輪對話能力以及對話交互友好性上展示了令人驚艷的效果,明顯超越此前同類產(chǎn)品功能。

智能化:

  • 支持意圖識別和邏輯推理;
  • 支持多種語言,如英語、漢語和法語;
  • 支持多輪次連續(xù)對話;
  • 支持在一個prompt(提示)中同時有多個問題;
  • 支持溝通中預(yù)設(shè)上下文。

除了能自主理解問題,ChatGPT還能把生成的答案用易于人類理解的語言組織起來,生成類似人類語言的文本答案,這一點讓人印象非常深刻。

人性化:

1)可以主動承認(rèn)自身錯誤。若用戶指出其錯誤,模型會聽取意見并優(yōu)化答案。

2)ChatGPT 可以質(zhì)疑不正確的問題。例如被詢問 “哥倫布 2015 年來到美國的情景” 的問題時,機器人會說明哥倫布不屬于這一時代并調(diào)整輸出結(jié)果。

3)ChatGPT 可以承認(rèn)自身的無知,承認(rèn)對專業(yè)技術(shù)的不了解。

關(guān)于第一點仁者見仁智者見智,它迎合了人類的情感需求,但以喪失準(zhǔn)確性為代價。就聊天產(chǎn)品而言,或許準(zhǔn)確性沒有那么重要。

道德:

在前輩們翻車的道德問題上,ChatGPT保持了一個“無害”的道德立場,就大眾價值看,甚至可以用“友善”來形容。這也是它能迅速破圈的一個重要原因。

四、ChatGPT的不足之處

不準(zhǔn)確:

這個是被大家詬病比較多的地方,也就是ChatGPT有時會給出看似合理、但并不正確或甚至荒謬的答案,也是大家有時候會覺得它在“一本正經(jīng)的胡說八道”。

我們談到不足一定首先有個產(chǎn)品定位的問題,否則就沒有任何意義。所以好和不好首先要看它用在什么地方。

如果作為聊天機器人筆者認(rèn)為這個問題不算太嚴(yán)重,原因:

1、正常人說話也不見得100%準(zhǔn)確,適當(dāng)犯些迷糊反而是一種“正?!钡谋憩F(xiàn);2、ChatGPT回復(fù)通常都是一段文字,人類對文字中的少數(shù)差錯天然有校正能力。

沒有實時性:

ChatGPT目前的語料庫是2021年前的,所以它不知道卡塔爾世界杯,不知道最近才上映的《流浪地球2》和《三體》。

由于訓(xùn)練一次模型需要消耗大量的資金(據(jù)稱要460萬美金)所以目前無法做到更頻繁的模型訓(xùn)練。并且受限于當(dāng)前的算法,ChatGPT也無法從對話中實時進(jìn)行學(xué)習(xí)。

如果作為搜索引擎,實時性是ChatGPT后續(xù)需要重點解決的問題。

不夠?qū)I(yè);

也有人質(zhì)疑它不夠?qū)I(yè),不能回答自己專業(yè)領(lǐng)域的知識,如醫(yī)學(xué)、物理學(xué)、金融等專業(yè)領(lǐng)域。

從技術(shù)上這是個比較容易解決的問題,加幾個預(yù)訓(xùn)練的語料庫就能解決,但這里面涉及到數(shù)據(jù)的開放性、訓(xùn)練的成本、如何進(jìn)行標(biāo)注等其它問題。

如果作為垂直領(lǐng)域的專家系統(tǒng)、輕咨詢工具,專業(yè)化也是它未來要解決的問題。但如果ChatGPT本身的定位就是數(shù)據(jù)加工引擎和平臺,那么這個問題可能會通過生態(tài)系統(tǒng)來解決。

ChatGPT的成功包含了很多因素,包括組織、技術(shù)和產(chǎn)品各方面。我們先從產(chǎn)品方面分析一下。

1. 大幅提升核心用戶體驗

ChatGPT作為一種AIGC工具,可以讓其回答問題、寫作文、翻譯文章,甚至寫代碼。迅速的響應(yīng)能力和較為靠譜的回答讓大家直呼其“真正像人類一樣聊天交流”“特別能聊”,其在核心用戶體驗方面大幅提升。

首先是內(nèi)容的深度和廣度。ChatGPT對自然、人文、社科、經(jīng)濟(jì)等方面的知識都有廣泛的覆蓋,當(dāng)然專業(yè)的領(lǐng)域,如科技、醫(yī)學(xué)、工業(yè)、金融等領(lǐng)域它的知識深度還是不夠的,這和它目前樣本數(shù)量有關(guān)系。
其次是準(zhǔn)確度,據(jù)中國信息通信研究院聯(lián)合中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟對ChatGPT進(jìn)行的測試顯示:

ChatGPT在百科檢索、數(shù)學(xué)問答、文學(xué)交流、常識問答、知識推理等對話任務(wù)上的意圖識別率均達(dá)到98%左右,在生活閑聊上的意圖識別率約為95%,已具備較好的語義理解能力。

從響應(yīng)速度看,筆者驗證問題能在5秒內(nèi)做出響應(yīng),符合2/5/10的用戶響應(yīng)原則,個別問題甚至可以秒回,這還是在網(wǎng)絡(luò)擁塞的前提下做到的。

當(dāng)然,用戶體驗不止包括生成內(nèi)容的流暢性和語法的正確性,還包括生成內(nèi)容的有用性、真實性和無害性。

ChatGPT從GPT3開始,團(tuán)隊就明確了對模型的優(yōu)化目標(biāo):

  • 有用的(Helpful);
  • 可信的(Honest);
  • 無害的(Harmless)。

從目前大家的反饋看,表現(xiàn)還是不錯的。當(dāng)然目前ChatGPT的道德觀是來自O(shè)penAPI 標(biāo)注團(tuán)隊,無法確保它不被其它因素干擾。
就筆者的整體體驗而言,ChatGPT已經(jīng)從前幾代機器人分分鐘就能把天聊死的‘尬聊’階段,直接跨過“能聊”進(jìn)入到了“想聊”的階段。

2. 專注于自然語言和大模型算法,不斷迭代

OpenAI于2016年確立了兩個主要目標(biāo):制造通用機器人和使用自然語言的聊天機器人。但是,從GPT-1發(fā)布之后,OpenAI逐漸將所有重心轉(zhuǎn)向大型語言模型的研發(fā)上,也就是更加注重自然語言領(lǐng)域,并為此制定了兩個目標(biāo):

  1. 提升模型在常見NLP(自然語言處理)任務(wù)上的表現(xiàn)效果;
  2. 提升模型在其他非典型NLP任務(wù)(例如代碼編寫,數(shù)學(xué)運算)上的泛化能力。所謂泛化,簡單理解就是業(yè)務(wù)場景的遷移能力。

有了研究聚焦,研發(fā)團(tuán)隊就可以專注于解決幾個核心體驗問題,在一定程度上加速了研發(fā)和技術(shù)商業(yè)化進(jìn)程。

表:歷代GPT的發(fā)布時間,參數(shù)量以及訓(xùn)練量

ChatGPT絕對不是一夜之間冒出了的,它的第一個模型發(fā)布已經(jīng)是5年前。5年對于任何一個產(chǎn)品的進(jìn)化都是一個漫長的時間。GPT3.5是在GPT3驗證失敗基礎(chǔ)上的又一次驗證而已。

3. 大膽創(chuàng)新

GPT3.5的發(fā)布不是在一個等它完全成熟才發(fā)布,更像一個收集用戶反饋的試錯版本,沒想到一夜爆紅,這可能是連OpenAI團(tuán)隊和微軟都沒有預(yù)料到的情況。

GPT3.5發(fā)布后的種種事實也表明,不夠準(zhǔn)確、偏見等問題在這個版本中盡管還不夠完美,但屬于可控的范圍,沒有嚴(yán)重影響用戶體驗,否則不會有這么多注冊用戶。

這也是值得所有產(chǎn)品經(jīng)理思考的問題,就是不要過度追求‘完美’的產(chǎn)品,快速迭代和試錯才是應(yīng)對不確定市場的唯一法則。

當(dāng)然,我們也應(yīng)該認(rèn)識到,ChatGPT的成功包括了企業(yè)創(chuàng)始人的雄心,大資金的投入、強悍的研發(fā)團(tuán)隊、技術(shù)加持、方向正確和團(tuán)隊不斷試錯等因素,不止是產(chǎn)品設(shè)計的問題。

五、ChatGPT的應(yīng)用方向

作為平臺級的產(chǎn)品,ChaGPT在C端和B端都有廣泛的應(yīng)用價值,以下是其主要應(yīng)用領(lǐng)域。

1. C端業(yè)務(wù)場景

聊天和對話:如客服機器人、陪護(hù)機器人、虛擬人、在線翻譯..

搜索和查詢:如搜索引擎、知識詞典、輕咨詢…

內(nèi)容創(chuàng)作(AIGC):如文本生成、代碼生成…

六、B端業(yè)務(wù)場景

B端業(yè)務(wù),按照OpenAPI平臺開放程度,包括三個層次的應(yīng)用。

企業(yè)知識庫(數(shù)據(jù)共享):

許多企業(yè)都有自己的知識庫,如果ChatGPT可以開放其預(yù)訓(xùn)練的語料庫,那么它可以把企業(yè)的知識庫作為預(yù)訓(xùn)練語料導(dǎo)入進(jìn)去,從而生成特定行業(yè)或者特定企業(yè)個性化的知識庫。

專家系統(tǒng)(模型共享):

這方面的例子是Cicero公司的文字策略游戲系統(tǒng)。這個系統(tǒng)可以與人類互動,可以使用戰(zhàn)略推理和自然語言與人類在游戲玩法中進(jìn)行互動和競爭。Cicero的核心是由一個對話引擎和一個戰(zhàn)略推理引擎共同驅(qū)動的,而戰(zhàn)略推理引擎集中使用了RL,對話引擎與GPT3類似。這樣一款游戲的原理如果應(yīng)用在組織決策領(lǐng)域,那么其影響不亞于它在聊天工具上所取得的成績。

營銷工具(模型應(yīng)用):

這是目前最簡單的應(yīng)用,直接調(diào)用ChatGPT平臺的API接口,如營銷文案的創(chuàng)作。從理論上,ChatGPT的知識都是來自人類,所以它在創(chuàng)新方面無法取代專業(yè)人士,或許提供一些原始的文案和設(shè)計素材才是它在AIGC領(lǐng)域的定位。

作者:濤哥,微信公眾號:濤哥筆談。前華為高級產(chǎn)品經(jīng)理,TOGAF認(rèn)證專家,PMP認(rèn)證專家,PPV課數(shù)據(jù)科學(xué)社區(qū)創(chuàng)始人,數(shù)字化轉(zhuǎn)型實踐者

本文由 @濤哥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!