99久久精品国产成人综合,激情久久综合激情久久GiF,99精品国产一区二区三区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

圖靈測(cè)試2.0：怎么判斷AI到底能干什么不能干什么

琢磨事

2024-06-21

0 評(píng)論 2436 瀏覽 1 收藏

13 分鐘

在計(jì)算機(jī)領(lǐng)域，圖靈測(cè)試可是大名鼎鼎，但如果用在A(yíng)I上，就沒(méi)那么簡(jiǎn)單了。本文進(jìn)行了一次測(cè)試，抽取了真實(shí)產(chǎn)品的部分場(chǎng)景進(jìn)行方便理解的再包裝，目的主要用于說(shuō)明圖靈測(cè)試2.0這概念。

圖靈測(cè)試本身是一個(gè)定性的、概念性的測(cè)試，理論上隨便哪個(gè)程序都可以通過(guò)縮窄測(cè)試范圍、限定測(cè)試集然后通過(guò)所謂的圖靈測(cè)試。

換成產(chǎn)品視角，情況則有所不同，這時(shí)候能否通過(guò)圖靈測(cè)試就會(huì)限定在產(chǎn)品的邊界以?xún)?nèi)，并且拳拳到肉，一旦不靈，AI驅(qū)動(dòng)的產(chǎn)品就不成立了。本次測(cè)試就是抽取了真實(shí)產(chǎn)品的部分場(chǎng)景進(jìn)行方便理解的再包裝，目的主要用于說(shuō)明圖靈測(cè)試2.0這概念。

考慮潛在的誤讀，預(yù)先做如下聲明：

1. 本測(cè)試不權(quán)威也不全面，但可復(fù)現(xiàn)，過(guò)程數(shù)據(jù)有留存?？蓮?fù)現(xiàn)是指按照步驟每個(gè)人都可以測(cè)試。

2. 本測(cè)試不代表各個(gè)模型優(yōu)劣，只代表和設(shè)定場(chǎng)景的匹配度。

3. 本測(cè)試選擇模型有主觀(guān)性，在用的起和好用上做了權(quán)衡。

一、角色中心式計(jì)算與圖靈測(cè)試2.0

角色中心式計(jì)算是相對(duì)功能中心式計(jì)算說(shuō)的。

到現(xiàn)在為止差不多所有我們用的APP是以功能來(lái)劃分的，職能相對(duì)單一，比如IM、搜索、外賣(mài)、打車(chē)等等。

一個(gè)角色職責(zé)的完成往往需要組合很多的功能，比如那怕一個(gè)招聘的角色它背后都必須組合十幾個(gè)工具（從IM到招聘APP等）才能完成招聘某個(gè)人的工作。

現(xiàn)在A(yíng)I可以承擔(dān)這個(gè)居中調(diào)度的角色，所以應(yīng)用的下一步必然是角色中心式計(jì)算。

而角色中心式計(jì)算是否成立，核心則在于A(yíng)I的智商程度是否能夠處理角色邊界內(nèi)的一切事情，比如招聘的時(shí)候要能判斷當(dāng)前的JD的描述是否匹配需求方的需求也要判斷一個(gè)候選人是否初步匹配對(duì)應(yīng)的招聘需求等。

如果角色的每一個(gè)這種關(guān)鍵步驟的都可以用AI來(lái)完成，那對(duì)這個(gè)角色而言就不單通過(guò)對(duì)話(huà)無(wú)法區(qū)分出這是真人還是AI，從現(xiàn)實(shí)的反饋也無(wú)法區(qū)分。

這就算通過(guò)了圖靈測(cè)試2.0。

這點(diǎn)之前展開(kāi)比較多，這里不過(guò)多重復(fù)了。

在過(guò)去的文章里一直缺一個(gè)往下一步，怎么設(shè)計(jì)和實(shí)現(xiàn)圖靈測(cè)試2.0的例子，這篇文章重點(diǎn)在這里。

我們抽取一個(gè)真實(shí)場(chǎng)景的核心步驟，從易懂的角度包裝成一個(gè)極簡(jiǎn)的例子，來(lái)說(shuō)明圖靈測(cè)試2.0的概念怎么分解，和一個(gè)具體的角色怎么融合。

二、圖靈測(cè)試2.0的示例

假如我們打造這么一個(gè)簡(jiǎn)單角色。

它是你的代理，可以幫助你按照你的設(shè)定在特定UGC平臺(tái)上發(fā)布你生成的內(nèi)容。（OpenAI發(fā)布會(huì)上Greg Brockman演示過(guò)類(lèi)似的例子）

我們略去大量細(xì)節(jié)來(lái)描述這個(gè)角色。

這樣一來(lái)這個(gè)角色就有4個(gè)關(guān)鍵內(nèi)涵：

1. 完成你對(duì)自己做的人設(shè)。

2. 針對(duì)特定話(huà)題或者問(wèn)題生成內(nèi)容。

3. 確保內(nèi)容的質(zhì)量。

4. 發(fā)布等執(zhí)行步驟。

第四步的發(fā)布等是傳統(tǒng)的RPA等技術(shù)，其實(shí)并不關(guān)鍵，后面就都略過(guò)了。

在這三個(gè)關(guān)鍵步驟里面，除了內(nèi)容生成，還需要AI做的判斷是：

1. 生成的內(nèi)容是不是真的匹配對(duì)應(yīng)的話(huà)題或者問(wèn)題？（內(nèi)容生成是一次性的，在多個(gè)平臺(tái)發(fā)布是多次性的，所以要經(jīng)常做匹配的判斷）

2. 內(nèi)容的基礎(chǔ)質(zhì)量到底怎么樣？

這兩項(xiàng)工作別看簡(jiǎn)單，但在沒(méi)有AI大模型前還真的很難做好。在過(guò)去你就沒(méi)辦法針對(duì)特定問(wèn)題、話(huà)題實(shí)時(shí)生成內(nèi)容，也很難實(shí)時(shí)大批量的判斷匹配度。

有點(diǎn)像無(wú)機(jī)物到單細(xì)胞生物。

為了縮減文章篇幅，我們進(jìn)一步降低目標(biāo)。

完成第一項(xiàng)工作就變成生成一個(gè)內(nèi)容的概要，然后大模型判斷內(nèi)容概要和問(wèn)題的匹配度。這里其實(shí)可以直接用模型，也可以用Embedding算法。

兩者各有利弊，但這里只關(guān)注用模型的判斷結(jié)果。

這步驟做完之后，比如你生成的內(nèi)容是：青玉案元夕相關(guān)，那就可以匹配到古詩(shī)詞的標(biāo)簽或者特定問(wèn)題下面。

都測(cè)試完了之后，還需要用人來(lái)標(biāo)注下最終測(cè)試結(jié)果，這樣就提供個(gè)絕對(duì)的尺度，知道AI大模型算法能進(jìn)行到什么程度了。

第二項(xiàng)的評(píng)測(cè)簡(jiǎn)化成使用BLEU算法來(lái)評(píng)測(cè)生成內(nèi)容的相似度。

這是避免內(nèi)容生成的重復(fù)。

為什么做這個(gè)呢？因?yàn)樽罱K不希望反復(fù)發(fā)表一樣的內(nèi)容。即使輸入相對(duì)一致，比如人設(shè)、話(huà)題等有相似性，也不希望內(nèi)容一致。

至于是不是內(nèi)容生成的足夠優(yōu)美，就先不管了，那十分麻煩。

為了完成這個(gè)測(cè)試，需要一些真實(shí)數(shù)據(jù)，這可以手動(dòng)編輯或者抓取。這部分和具體你輻射的領(lǐng)域有關(guān)系，文藝青年、斜杠青年等需要的數(shù)據(jù)不怎么一樣。但這和RPA一樣是個(gè)傳統(tǒng)的活，大部分程序員都會(huì)做。這里為了避免不必要的麻煩，數(shù)據(jù)先不公開(kāi)了。

完成了上面的工作，其實(shí)就完成了從一個(gè)角色到圖靈2.0測(cè)試集的基礎(chǔ)映射：關(guān)鍵是要分解角色內(nèi)涵，為關(guān)鍵判斷建立測(cè)試集。

三、測(cè)試結(jié)果

在準(zhǔn)備的1000條測(cè)試數(shù)據(jù)上，第一項(xiàng)測(cè)試最終結(jié)果是下面這樣：

圖靈測(cè)試2.0：怎么判斷AI到底能干什么不能干什么

這里面檢出率是指在1000條測(cè)試項(xiàng)目里，有多少模型判斷為匹配的，準(zhǔn)確率是指在認(rèn)為匹配的項(xiàng)目里面和人的標(biāo)注比，準(zhǔn)確率什么樣。

這個(gè)測(cè)試結(jié)果最終怎么用會(huì)和你的傾向性相關(guān)，顯然的數(shù)量?jī)?yōu)先和質(zhì)量?jī)?yōu)先結(jié)果是不一樣的。

結(jié)果里面最有意思的點(diǎn)是：至少在這一個(gè)判斷項(xiàng)上，AI還不如人。所以如果判斷項(xiàng)比較多，整體精度的控制會(huì)是很有挑戰(zhàn)的問(wèn)題。

然后我們測(cè)試的是內(nèi)容生成部分的質(zhì)量，這部分我們不測(cè)文辭是否優(yōu)美這些，就測(cè)生成內(nèi)容的最簡(jiǎn)單的BLEU值，其中參數(shù)都用缺省參數(shù)，temperature這些就不改了。如果做的很細(xì)，這部分可以反復(fù)試多組值。但我們是為了說(shuō)明圖靈測(cè)試2.0概念，就不做這部分了。

最終測(cè)試結(jié)果中得分前三的是：

圖靈測(cè)試2.0：怎么判斷AI到底能干什么不能干什么

全部模型的測(cè)試結(jié)果是：

圖靈測(cè)試2.0：怎么判斷AI到底能干什么不能干什么

這里面和原文對(duì)比是指創(chuàng)作內(nèi)容和原始種子做比較，然后統(tǒng)計(jì)BLEU值小于0.75的比例，0.85就意味著85%的內(nèi)容差異度大于0.75。（原文可以看成是內(nèi)容的種子，基于原文和提示詞生成對(duì)應(yīng)內(nèi)容。）

和改寫(xiě)結(jié)果比是指，同樣的方法會(huì)生成3次內(nèi)容，然后看BLEU值，把小于0.75的除以3就是上面的結(jié)果。當(dāng)然提示詞中會(huì)包含加大差異度的部分。

圖靈測(cè)試2.0：怎么判斷AI到底能干什么不能干什么

內(nèi)容生成會(huì)比較耗費(fèi)token，所以同步要記錄下token數(shù)目和費(fèi)用。最終出了個(gè)價(jià)格離譜的，說(shuō)明模型初選的時(shí)候選錯(cuò)了。

四、例子的意義

當(dāng)這種測(cè)試可以通過(guò)，那就意味著最終從技術(shù)視角看，對(duì)應(yīng)的角色可以通過(guò)圖靈測(cè)試2.0。如果精度達(dá)不到一定程度，那你設(shè)定的角色在當(dāng)前AI的智商下就不成立。不管多酷炫、別人多么吹捧但對(duì)解決你設(shè)想的問(wèn)題都沒(méi)意義。

其次是要理解，任何一個(gè)角色的成立要涵蓋對(duì)應(yīng)角色的N多方面。

用AI來(lái)做亮眼的Demo，和用AI做真正能用的產(chǎn)品，兩者的難度不在一個(gè)數(shù)量級(jí)，雖然看著都是差不多的東西。這就是一般鏡頭和哈勃望遠(yuǎn)鏡的鏡頭的區(qū)別。

這種測(cè)試結(jié)果也可以標(biāo)識(shí)從產(chǎn)品角度看到的AI的真實(shí)進(jìn)展。往往和某些媒體上來(lái)的認(rèn)知有很大偏差。

落地時(shí)里面的項(xiàng)目和復(fù)雜度當(dāng)然需要進(jìn)一步增加。

但如果真想用AI，那現(xiàn)在開(kāi)始就需要建立你自己的測(cè)試集，并且在模型還不穩(wěn)定的時(shí)候定期測(cè)試。

假設(shè)這個(gè)測(cè)試集里面的數(shù)據(jù)采樣足夠豐富，再加上一個(gè)對(duì)接到各個(gè)大模型的測(cè)試框架，那在你的領(lǐng)域你會(huì)比任何人都權(quán)威，不用聽(tīng)任何人的。

這就是之前說(shuō)的一手體驗(yàn)。

這里面對(duì)一般人有點(diǎn)挑戰(zhàn)的倒不是提示詞怎么寫(xiě)，這部分資料比較多，反復(fù)測(cè)試可以找到解決方案，最不濟(jì)還可以問(wèn)AI。

麻煩一點(diǎn)的是怎么組合各種算法。

不是所有的時(shí)候都只用大模型一種算法就行的。

這部分只能陸續(xù)探討，沒(méi)有唯一解決方法。

限制

上述方法現(xiàn)在可以用于支持一些比較簡(jiǎn)單的角色。

但因?yàn)榻巧陨淼男袨槟Ｊ竭€是基于規(guī)則，只能在限定的流程框架里面完成任務(wù)。

如果角色過(guò)于復(fù)雜，可能還需要進(jìn)一步的AI進(jìn)步，暫時(shí)可以先別整。

但這已經(jīng)能夠打造一些和過(guò)去不一樣的應(yīng)用了。

五、小結(jié)

最終再總結(jié)下圖靈測(cè)試2.0的全過(guò)程：先定義你認(rèn)為有商業(yè)價(jià)值的角色，然后依據(jù)角色挖掘它的內(nèi)涵，具體成相應(yīng)的圖靈測(cè)試2.0的測(cè)試集，然后就反復(fù)測(cè)試各種模型。如果能通過(guò)，那從技術(shù)角度角色也成立，產(chǎn)品可以啟動(dòng)。否則就得等等?；氐浆F(xiàn)場(chǎng)的一手體驗(yàn)，是AI產(chǎn)品的最最關(guān)鍵的起點(diǎn)。

專(zhuān)欄作家

琢磨事，微信公眾號(hào)：琢磨事，人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。聲智科技副總裁。著有《終極復(fù)制：人工智能將如何推動(dòng)社會(huì)巨變》、《完美軟件開(kāi)發(fā)：方法與邏輯》、《互聯(lián)網(wǎng)+時(shí)代的7個(gè)引爆點(diǎn)》等書(shū)。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于 CC0 協(xié)議

該文觀(guān)點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App