国产午夜亚洲精品不卡在线观看,97久久超碰福利国产精品,国产午夜精品无码理论片

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

比人類便宜20倍！谷歌DeepMind推出「超人」AI系統(tǒng)

新智元

2024-03-31

0 評(píng)論 2097 瀏覽 5 收藏

10 分鐘

大模型的幻覺問題怎么解？谷歌DeepMind：用AI來做同行評(píng)審！事實(shí)核驗(yàn)正確率超過人類，而且便宜20倍。AI的同行評(píng)審來了！

一直以來，大語言模型胡說八道（幻覺）的問題最讓人頭疼，而近日，來自谷歌DeepMind的一項(xiàng)研究引發(fā)網(wǎng)友熱議：

大模型的幻覺問題，好像被終結(jié)了？

論文地址：https://arxiv.org/pdf/2403.18802.pdf

項(xiàng)目地址：https://github.com/google-deepmind/long-form-factuality

在這篇工作中，研究人員介紹了一種名為 “搜索增強(qiáng)事實(shí)性評(píng)估器”（Search-Augmented Factuality Evaluator，SAFE）的方法。

對(duì)于LLM的長篇回答，SAFE使用其他的LLM，將答案文本分解為單個(gè)敘述，然后使用諸如RAG等方法，來確定每個(gè)敘述的準(zhǔn)確性。

——簡單來說就是：AI答題，AI判卷，AI告訴AI你這里說的不對(duì)。

真正的「同行」評(píng)審。

另外，研究還發(fā)現(xiàn)，相比于人工標(biāo)注和判斷事實(shí)準(zhǔn)確性，使用AI不但便宜20倍，而且還更靠譜！

目前這個(gè)項(xiàng)目已在GitHub上開源。

長文本事實(shí)性檢驗(yàn)

大語言模型經(jīng)常胡說八道，尤其是有關(guān)開放式的提問、以及生成較長的回答時(shí)。

比如小編隨手測試一下當(dāng)前最流行的幾個(gè)大模型。

ChatGPT：雖然我的知識(shí)儲(chǔ)備只到2021年9月，但我敢于毫不猶豫地回答任何問題。

Claude 3：我可以謙卑且胡說八道。

為了對(duì)大模型的長篇回答進(jìn)行事實(shí)性評(píng)估和基準(zhǔn)測試，研究人員首先使用GPT-4生成LongFact，這是一個(gè)包含數(shù)千個(gè)問題的提示集，涵蓋38個(gè)主題。

LongFact包含兩個(gè)任務(wù)：LongFact-Concepts和LongFact-Objects，前者針對(duì)概念、后者針對(duì)實(shí)體。每個(gè)包括30個(gè)提示，每個(gè)任務(wù)各有1140個(gè)提示。

然后，使用搜索增強(qiáng)事實(shí)性評(píng)估器（SAFE），利用LLM將長篇回復(fù)分解為一組單獨(dú)的事實(shí)，并使用多步驟推理過程來評(píng)估每個(gè)事實(shí)的準(zhǔn)確性，包括使用網(wǎng)絡(luò)搜索來檢驗(yàn)。

此外，作者建議將F1分?jǐn)?shù)進(jìn)行擴(kuò)展，提出了一種兼顧精度和召回率的聚合指標(biāo)。

1. SAFE工作流程

如上圖所示，首先提示語言模型將長篇響應(yīng)中的每個(gè)句子拆分為單個(gè)事實(shí)。

然后，通過指示模型將模糊的引用（代詞等）替換為上下文中引用的適當(dāng)實(shí)體，將每個(gè)單獨(dú)的事實(shí)修改為自包含的事實(shí)。

為了對(duì)每個(gè)獨(dú)立的個(gè)體事實(shí)進(jìn)行評(píng)分，研究人員使用語言模型來推理該事實(shí)是否與上下文中相關(guān)，并且使用多步驟方法對(duì)每個(gè)相關(guān)事實(shí)進(jìn)行評(píng)定。

如上圖所示，在每個(gè)步驟中，模型都會(huì)根據(jù)要評(píng)分的事實(shí)和先前獲得的搜索結(jié)果生成搜索查詢。

在設(shè)定的步驟數(shù)之后，模型執(zhí)行推理以確定搜索結(jié)果是否支持該事實(shí)。

2. 比人類更好用

首先，直接比較對(duì)于每個(gè)事實(shí)的SAFE注釋和人類注釋，可以發(fā)現(xiàn)，SAFE在72.0%的單個(gè)事實(shí)上與人類一致（見下圖），表明SAFE幾乎達(dá)到了人類的水平。

——這還沒完，跟人類一致并不代表正確，如果拿正確性PK一下呢？

研究人員在所有SAFE注釋與人類注釋產(chǎn)生分歧的案例中，隨機(jī)抽樣出100個(gè)，然后人工重新比較到底誰是正確的（通過網(wǎng)絡(luò)搜索等途徑）。

最終結(jié)果讓人震驚：在這些分歧案例中，SAFE注釋的正確率為76%，而人工注釋的正確率僅為19%（見上圖），——SAFE以將近4比1的勝率戰(zhàn)勝了人類。

然后我們?cè)倏匆幌鲁杀荆嚎偣?96個(gè)提示的評(píng)分，SAFE發(fā)出的 GPT-3.5-Turbo API調(diào)用成本為64.57美元，Serper API調(diào)用成本為 31.74 美元，因此總成本為96.31美元，相當(dāng)于每個(gè)響應(yīng)0.19美元。

而人類標(biāo)注這邊，每個(gè)響應(yīng)的成本為4美元，——AI比人類便宜了整整20多倍！

對(duì)此，有網(wǎng)友評(píng)價(jià)，LLM在事實(shí)核驗(yàn)上有「超人」級(jí)別的表現(xiàn)。