圖靈測(cè)試2.0:怎么判斷AI到底能干什么不能干什么
在計(jì)算機(jī)領(lǐng)域,圖靈測(cè)試可是大名鼎鼎,但如果用在A(yíng)I上,就沒(méi)那么簡(jiǎn)單了。本文進(jìn)行了一次測(cè)試,抽取了真實(shí)產(chǎn)品的部分場(chǎng)景進(jìn)行方便理解的再包裝,目的主要用于說(shuō)明圖靈測(cè)試2.0這概念。
圖靈測(cè)試本身是一個(gè)定性的、概念性的測(cè)試,理論上隨便哪個(gè)程序都可以通過(guò)縮窄測(cè)試范圍、限定測(cè)試集然后通過(guò)所謂的圖靈測(cè)試。
換成產(chǎn)品視角,情況則有所不同,這時(shí)候能否通過(guò)圖靈測(cè)試就會(huì)限定在產(chǎn)品的邊界以?xún)?nèi),并且拳拳到肉,一旦不靈,AI驅(qū)動(dòng)的產(chǎn)品就不成立了。本次測(cè)試就是抽取了真實(shí)產(chǎn)品的部分場(chǎng)景進(jìn)行方便理解的再包裝,目的主要用于說(shuō)明圖靈測(cè)試2.0這概念。
考慮潛在的誤讀,預(yù)先做如下聲明:
1. 本測(cè)試不權(quán)威也不全面,但可復(fù)現(xiàn),過(guò)程數(shù)據(jù)有留存??蓮?fù)現(xiàn)是指按照步驟每個(gè)人都可以測(cè)試。
2. 本測(cè)試不代表各個(gè)模型優(yōu)劣,只代表和設(shè)定場(chǎng)景的匹配度。
3. 本測(cè)試選擇模型有主觀(guān)性,在用的起和好用上做了權(quán)衡。
一、角色中心式計(jì)算與圖靈測(cè)試2.0
角色中心式計(jì)算是相對(duì)功能中心式計(jì)算說(shuō)的。
到現(xiàn)在為止差不多所有我們用的APP是以功能來(lái)劃分的,職能相對(duì)單一,比如IM、搜索、外賣(mài)、打車(chē)等等。
一個(gè)角色職責(zé)的完成往往需要組合很多的功能,比如那怕一個(gè)招聘的角色它背后都必須組合十幾個(gè)工具(從IM到招聘APP等)才能完成招聘某個(gè)人的工作。
現(xiàn)在A(yíng)I可以承擔(dān)這個(gè)居中調(diào)度的角色,所以應(yīng)用的下一步必然是角色中心式計(jì)算。
而角色中心式計(jì)算是否成立,核心則在于A(yíng)I的智商程度是否能夠處理角色邊界內(nèi)的一切事情,比如招聘的時(shí)候要能判斷當(dāng)前的JD的描述是否匹配需求方的需求也要判斷一個(gè)候選人是否初步匹配對(duì)應(yīng)的招聘需求等。
如果角色的每一個(gè)這種關(guān)鍵步驟的都可以用AI來(lái)完成,那對(duì)這個(gè)角色而言就不單通過(guò)對(duì)話(huà)無(wú)法區(qū)分出這是真人還是AI,從現(xiàn)實(shí)的反饋也無(wú)法區(qū)分。
這就算通過(guò)了圖靈測(cè)試2.0。
這點(diǎn)之前展開(kāi)比較多,這里不過(guò)多重復(fù)了。
在過(guò)去的文章里一直缺一個(gè)往下一步,怎么設(shè)計(jì)和實(shí)現(xiàn)圖靈測(cè)試2.0的例子,這篇文章重點(diǎn)在這里。
我們抽取一個(gè)真實(shí)場(chǎng)景的核心步驟,從易懂的角度包裝成一個(gè)極簡(jiǎn)的例子,來(lái)說(shuō)明圖靈測(cè)試2.0的概念怎么分解,和一個(gè)具體的角色怎么融合。
二、圖靈測(cè)試2.0的示例
假如我們打造這么一個(gè)簡(jiǎn)單角色。
它是你的代理,可以幫助你按照你的設(shè)定在特定UGC平臺(tái)上發(fā)布你生成的內(nèi)容。(OpenAI發(fā)布會(huì)上Greg Brockman演示過(guò)類(lèi)似的例子)
我們略去大量細(xì)節(jié)來(lái)描述這個(gè)角色。
這樣一來(lái)這個(gè)角色就有4個(gè)關(guān)鍵內(nèi)涵:
1. 完成你對(duì)自己做的人設(shè)。
2. 針對(duì)特定話(huà)題或者問(wèn)題生成內(nèi)容。
3. 確保內(nèi)容的質(zhì)量。
4. 發(fā)布等執(zhí)行步驟。
第四步的發(fā)布等是傳統(tǒng)的RPA等技術(shù),其實(shí)并不關(guān)鍵,后面就都略過(guò)了。
在這三個(gè)關(guān)鍵步驟里面,除了內(nèi)容生成,還需要AI做的判斷是:
1. 生成的內(nèi)容是不是真的匹配對(duì)應(yīng)的話(huà)題或者問(wèn)題?(內(nèi)容生成是一次性的,在多個(gè)平臺(tái)發(fā)布是多次性的,所以要經(jīng)常做匹配的判斷)
2. 內(nèi)容的基礎(chǔ)質(zhì)量到底怎么樣?
這兩項(xiàng)工作別看簡(jiǎn)單,但在沒(méi)有AI大模型前還真的很難做好。在過(guò)去你就沒(méi)辦法針對(duì)特定問(wèn)題、話(huà)題實(shí)時(shí)生成內(nèi)容,也很難實(shí)時(shí)大批量的判斷匹配度。
有點(diǎn)像無(wú)機(jī)物到單細(xì)胞生物。
為了縮減文章篇幅,我們進(jìn)一步降低目標(biāo)。
完成第一項(xiàng)工作就變成生成一個(gè)內(nèi)容的概要,然后大模型判斷內(nèi)容概要和問(wèn)題的匹配度。這里其實(shí)可以直接用模型,也可以用Embedding算法。
兩者各有利弊,但這里只關(guān)注用模型的判斷結(jié)果。
這步驟做完之后,比如你生成的內(nèi)容是:青玉案元夕相關(guān),那就可以匹配到古詩(shī)詞的標(biāo)簽或者特定問(wèn)題下面。
都測(cè)試完了之后,還需要用人來(lái)標(biāo)注下最終測(cè)試結(jié)果,這樣就提供個(gè)絕對(duì)的尺度,知道AI大模型算法能進(jìn)行到什么程度了。
第二項(xiàng)的評(píng)測(cè)簡(jiǎn)化成使用BLEU算法來(lái)評(píng)測(cè)生成內(nèi)容的相似度。
這是避免內(nèi)容生成的重復(fù)。
為什么做這個(gè)呢?因?yàn)樽罱K不希望反復(fù)發(fā)表一樣的內(nèi)容。即使輸入相對(duì)一致,比如人設(shè)、話(huà)題等有相似性,也不希望內(nèi)容一致。
至于是不是內(nèi)容生成的足夠優(yōu)美,就先不管了,那十分麻煩。
為了完成這個(gè)測(cè)試,需要一些真實(shí)數(shù)據(jù),這可以手動(dòng)編輯或者抓取。這部分和具體你輻射的領(lǐng)域有關(guān)系,文藝青年、斜杠青年等需要的數(shù)據(jù)不怎么一樣。但這和RPA一樣是個(gè)傳統(tǒng)的活,大部分程序員都會(huì)做。這里為了避免不必要的麻煩,數(shù)據(jù)先不公開(kāi)了。
完成了上面的工作,其實(shí)就完成了從一個(gè)角色到圖靈2.0測(cè)試集的基礎(chǔ)映射:關(guān)鍵是要分解角色內(nèi)涵,為關(guān)鍵判斷建立測(cè)試集。
三、測(cè)試結(jié)果
在準(zhǔn)備的1000條測(cè)試數(shù)據(jù)上,第一項(xiàng)測(cè)試最終結(jié)果是下面這樣:
這里面檢出率是指在1000條測(cè)試項(xiàng)目里,有多少模型判斷為匹配的,準(zhǔn)確率是指在認(rèn)為匹配的項(xiàng)目里面和人的標(biāo)注比,準(zhǔn)確率什么樣。
這個(gè)測(cè)試結(jié)果最終怎么用會(huì)和你的傾向性相關(guān),顯然的數(shù)量?jī)?yōu)先和質(zhì)量?jī)?yōu)先結(jié)果是不一樣的。
結(jié)果里面最有意思的點(diǎn)是:至少在這一個(gè)判斷項(xiàng)上,AI還不如人。所以如果判斷項(xiàng)比較多,整體精度的控制會(huì)是很有挑戰(zhàn)的問(wèn)題。
然后我們測(cè)試的是內(nèi)容生成部分的質(zhì)量,這部分我們不測(cè)文辭是否優(yōu)美這些,就測(cè)生成內(nèi)容的最簡(jiǎn)單的BLEU值,其中參數(shù)都用缺省參數(shù),temperature這些就不改了。如果做的很細(xì),這部分可以反復(fù)試多組值。但我們是為了說(shuō)明圖靈測(cè)試2.0概念,就不做這部分了。
最終測(cè)試結(jié)果中得分前三的是:
全部模型的測(cè)試結(jié)果是:
這里面和原文對(duì)比是指創(chuàng)作內(nèi)容和原始種子做比較,然后統(tǒng)計(jì)BLEU值小于0.75的比例,0.85就意味著85%的內(nèi)容差異度大于0.75。(原文可以看成是內(nèi)容的種子,基于原文和提示詞生成對(duì)應(yīng)內(nèi)容。)
和改寫(xiě)結(jié)果比是指,同樣的方法會(huì)生成3次內(nèi)容,然后看BLEU值,把小于0.75的除以3就是上面的結(jié)果。當(dāng)然提示詞中會(huì)包含加大差異度的部分。
內(nèi)容生成會(huì)比較耗費(fèi)token,所以同步要記錄下token數(shù)目和費(fèi)用。最終出了個(gè)價(jià)格離譜的,說(shuō)明模型初選的時(shí)候選錯(cuò)了。
四、例子的意義
當(dāng)這種測(cè)試可以通過(guò),那就意味著最終從技術(shù)視角看,對(duì)應(yīng)的角色可以通過(guò)圖靈測(cè)試2.0。如果精度達(dá)不到一定程度,那你設(shè)定的角色在當(dāng)前AI的智商下就不成立。不管多酷炫、別人多么吹捧但對(duì)解決你設(shè)想的問(wèn)題都沒(méi)意義。
其次是要理解,任何一個(gè)角色的成立要涵蓋對(duì)應(yīng)角色的N多方面。
用AI來(lái)做亮眼的Demo,和用AI做真正能用的產(chǎn)品,兩者的難度不在一個(gè)數(shù)量級(jí),雖然看著都是差不多的東西。這就是一般鏡頭和哈勃望遠(yuǎn)鏡的鏡頭的區(qū)別。
這種測(cè)試結(jié)果也可以標(biāo)識(shí)從產(chǎn)品角度看到的AI的真實(shí)進(jìn)展。往往和某些媒體上來(lái)的認(rèn)知有很大偏差。
落地時(shí)里面的項(xiàng)目和復(fù)雜度當(dāng)然需要進(jìn)一步增加。
但如果真想用AI,那現(xiàn)在開(kāi)始就需要建立你自己的測(cè)試集,并且在模型還不穩(wěn)定的時(shí)候定期測(cè)試。
假設(shè)這個(gè)測(cè)試集里面的數(shù)據(jù)采樣足夠豐富,再加上一個(gè)對(duì)接到各個(gè)大模型的測(cè)試框架,那在你的領(lǐng)域你會(huì)比任何人都權(quán)威,不用聽(tīng)任何人的。
這就是之前說(shuō)的一手體驗(yàn)。
這里面對(duì)一般人有點(diǎn)挑戰(zhàn)的倒不是提示詞怎么寫(xiě),這部分資料比較多,反復(fù)測(cè)試可以找到解決方案,最不濟(jì)還可以問(wèn)AI。
麻煩一點(diǎn)的是怎么組合各種算法。
不是所有的時(shí)候都只用大模型一種算法就行的。
這部分只能陸續(xù)探討,沒(méi)有唯一解決方法。
限制
上述方法現(xiàn)在可以用于支持一些比較簡(jiǎn)單的角色。
但因?yàn)榻巧陨淼男袨槟J竭€是基于規(guī)則,只能在限定的流程框架里面完成任務(wù)。
如果角色過(guò)于復(fù)雜,可能還需要進(jìn)一步的AI進(jìn)步,暫時(shí)可以先別整。
但這已經(jīng)能夠打造一些和過(guò)去不一樣的應(yīng)用了。
五、小結(jié)
最終再總結(jié)下圖靈測(cè)試2.0的全過(guò)程:先定義你認(rèn)為有商業(yè)價(jià)值的角色,然后依據(jù)角色挖掘它的內(nèi)涵,具體成相應(yīng)的圖靈測(cè)試2.0的測(cè)試集,然后就反復(fù)測(cè)試各種模型。如果能通過(guò),那從技術(shù)角度角色也成立,產(chǎn)品可以啟動(dòng)。否則就得等等?;氐浆F(xiàn)場(chǎng)的一手體驗(yàn),是AI產(chǎn)品的最最關(guān)鍵的起點(diǎn)。
專(zhuān)欄作家
琢磨事,微信公眾號(hào):琢磨事,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。聲智科技副總裁。著有《終極復(fù)制:人工智能將如何推動(dòng)社會(huì)巨變》、《完美軟件開(kāi)發(fā):方法與邏輯》、《互聯(lián)網(wǎng)+時(shí)代的7個(gè)引爆點(diǎn)》等書(shū)。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀(guān)點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!