對(duì)比了6家國(guó)產(chǎn)智能體(AI Agent),我找到了企業(yè)落地AI的方向

0 評(píng)論 462 瀏覽 2 收藏 28 分鐘

現(xiàn)在智能體的應(yīng)用已經(jīng)越來(lái)越廣泛,除了個(gè)人用在生活中之外,企業(yè)也開(kāi)始嘗試應(yīng)用在工作中。但不同廠家的只嗯你提和表現(xiàn)略有不同,有的基本常識(shí)錯(cuò)誤,有的能順利完成。這篇文章,我們來(lái)看看作者分析的表現(xiàn)。

在最近落幕的百度世界大會(huì)(Baidu World 2024)上,百度創(chuàng)始人李彥宏提到百度文心智能體平臺(tái)已吸引15萬(wàn)家企業(yè)、80萬(wàn)名開(kāi)發(fā)者使用,并稱11歲的小學(xué)生也成功搭建了智能體。

這個(gè)數(shù)據(jù)的確驚人,其實(shí)智能體(AI Agent)這一概念,以及其同義術(shù)語(yǔ)如數(shù)字員工、AI助手等,均已不再是新鮮話題

盡管目前市面上智能體的種類繁多,但大多面向個(gè)人用戶,作為企業(yè)經(jīng)營(yíng)者,我更關(guān)心的是智能體在企業(yè)方面的應(yīng)用。隨著智能體在商業(yè)領(lǐng)域的討論愈發(fā)熱烈,我對(duì)智能體在企業(yè)中的實(shí)際應(yīng)用價(jià)值抱有一定的疑慮:

  1. 智能體是否能感知用戶提問(wèn)的真實(shí)意圖?
  2. 智能體是否能理解復(fù)雜語(yǔ)境和非標(biāo)準(zhǔn)表達(dá)?
  3. 智能體是否能從豐富的知識(shí)庫(kù)完整抽取信息?
  4. 智能體是否能保持上下文、甚至多文檔之間的語(yǔ)義連貫性?
  5. 智能體是否能準(zhǔn)確提取復(fù)雜數(shù)據(jù),判斷多元數(shù)據(jù)?

為了驗(yàn)證以上問(wèn)題,本篇文章將從以下兩個(gè)方面來(lái)探討智能體(AI Agent):

  1. 企業(yè)級(jí)智能體測(cè)評(píng)(從3個(gè)維度出發(fā),測(cè)評(píng)10個(gè)問(wèn)題)
  2. 目前智能體們能為企業(yè)做什么?

先說(shuō)結(jié)論

為了尋找合適的國(guó)產(chǎn)智能體(AI Agent)進(jìn)行測(cè)評(píng),我在不同的AI平臺(tái)搜索:

試用下來(lái),從操作便捷性和功能實(shí)用性方面考慮,最終篩選出了6家功能相似的企業(yè)級(jí)智能體(或數(shù)字員工):扣子、文心智能體、司馬諸葛、智譜清言智能體、騰訊元器、LinkAI。

我準(zhǔn)備了4份文檔,以同樣的提示詞,同樣的文檔,分別在這6家平臺(tái)創(chuàng)建了一個(gè)企業(yè)常見(jiàn)的智能體:行政小助手sunny。圍繞行政方面的場(chǎng)景,還原企業(yè)內(nèi)部員工之間真實(shí)溝通場(chǎng)景。

為了保證公平性,同時(shí)也考慮到智能體發(fā)揮不穩(wěn)定,這次共設(shè)置了10個(gè)問(wèn)題(從易到難)進(jìn)行測(cè)評(píng)。分別從精確度、完整性、邏輯性方面,檢測(cè)智能體們的回答質(zhì)量。

先上結(jié)論:大部分智能體都具備了理解簡(jiǎn)單指令的能力,扣子和司馬諸葛的表現(xiàn)最令人滿意,不偏離事實(shí),基本能達(dá)到企業(yè)使用的需求,適用于嚴(yán)肅商業(yè)場(chǎng)景,但仍有進(jìn)步空間。LinkAI、智譜清言智能體和騰訊元器的表現(xiàn)比前兩者稍遜,勉強(qiáng)可使用。文心智能體表現(xiàn)一般,有較大的升級(jí)空間。

【提醒:評(píng)分結(jié)果只代表智能體們當(dāng)下在企業(yè)應(yīng)用場(chǎng)景對(duì)問(wèn)題的回答質(zhì)量,且評(píng)價(jià)維度有限,不代表產(chǎn)品整體水平?!?/strong>

一、正確理解語(yǔ)義,回答準(zhǔn)確度

正確理解語(yǔ)義,能理解上下文,具備回答的準(zhǔn)確度,是衡量智能體是否可用的首要考量因素。

為了測(cè)試智能體是否能正確理解語(yǔ)義及基礎(chǔ)的信息抽取能力,針對(duì)公司的行政制度,我提出了4個(gè)問(wèn)題。

第一個(gè)問(wèn)題:“請(qǐng)一天事假,怎么請(qǐng)?”

原文如下:

扣子從知識(shí)庫(kù)直接提取了信息,不做過(guò)多發(fā)散,回答正確。

文心智能體的回答很有趣味性,對(duì)原文做出了正確理解,回答無(wú)誤。

司馬諸葛分步驟列出,思路清晰,回答正確。

智譜清言智能體雖然也給出了請(qǐng)假步驟,但他給出的審批人是直接主管領(lǐng)導(dǎo),而原文中正常流程中請(qǐng)假單的審批人是總經(jīng)理,回答錯(cuò)誤。

騰訊元器同樣給出了正確答案,步驟清晰。

LinkAI的回答也正確理解了原文,回答準(zhǔn)確。

第二個(gè)問(wèn)題:“可以在衛(wèi)生間抽煙嗎?”

原文如下:

扣子理解正確,給出了精確回答。

文心智能體沒(méi)有提取出相關(guān)信息,無(wú)法給出衛(wèi)生間是否可以抽煙的相關(guān)建議。

司馬諸葛正確理解原文語(yǔ)義,給出了精確的答復(fù)。

智譜清言智能體也回答正確。

騰訊元器首先給出結(jié)論,然后給出相關(guān)制度條款,回答正確。

LinkAI的答案錯(cuò)誤,遺漏了“指定地點(diǎn)外。”

第三個(gè)問(wèn)題:“入職第一天,遲到半小時(shí)怎么扣錢”

原文如下:

扣子未能給出具體扣錢金額,回答錯(cuò)誤。

文心智能體給出的答案是第一次遲到會(huì)被罰20元,回答準(zhǔn)確。

司馬諸葛首先給出遲到的定義,再根據(jù)原文檔信息進(jìn)行準(zhǔn)確回答。

智譜清言智能體未能回答出具體的扣錢金額。

騰訊元器先給出了遲到的定義,然后再給出了扣錢的情況,回答準(zhǔn)確。

LinkAI同樣先給出了遲到的定義,然后再回答第一次遲到罰20元,回答正確。

第四個(gè)問(wèn)題:“我是財(cái)務(wù),因?yàn)閭€(gè)人疏忽給公司造成了2000元的損失,會(huì)賠錢嗎”

原文是這樣的:

扣子給出的答案同樣是需要賠償200元,回答正確。

文心智能體沒(méi)有給出有效回答。

司馬諸葛回答的是需要賠償200元,正確理解了原文意思,輸出的結(jié)果準(zhǔn)確。

智譜清言智能體沒(méi)有給出具體賠償比例和金額,回答得不理想。

騰訊元器的回答忠于原文檔,條理清晰,給出了正確的回答。

LinkAI的回答干脆利落,與原文檔也是相符的。

第一個(gè)維度測(cè)評(píng)下來(lái),可以看出,在對(duì)基礎(chǔ)信息提取方面,司馬諸葛和騰訊元器具有較高的準(zhǔn)確度,全部回答正確,扣子、LinAI回答對(duì)3道題,信息抽取能力也表現(xiàn)優(yōu)秀,文心智能體和智譜清言智能體表現(xiàn)較為一般。

二、歸納總結(jié)能力,回答完整性

智能體若要提高生產(chǎn)力,那么它就必須具備較強(qiáng)的信息歸納總結(jié)能力,能從大量數(shù)據(jù)和信息中過(guò)濾掉冗余或次要的信息,提取出關(guān)鍵要素并進(jìn)行整合,以簡(jiǎn)明扼要的方式陳述出來(lái)。

第一個(gè)問(wèn)題:“我去年考核90分,可以升職嗎?”

原文如下:

智能體需要提取出4個(gè)晉升資格,缺一不可。

扣子給出了4項(xiàng)需同時(shí)滿足的晉升條件,回答完整。

文心智能體給出文檔中對(duì)應(yīng)的4項(xiàng)具體晉升條件,但遺漏了“無(wú)受過(guò)處罰”,整體回答缺少完整性。

司馬諸葛給出了需同時(shí)滿足的全部晉升條件,回答完整。

智譜清言智能體完整地整理了晉升條件,回答正確。

騰訊元器給出的晉升條件和原文相差較大。

LinkAI給出了完整的4項(xiàng)晉升條件。

第二個(gè)問(wèn)題:“除了法定假,公司的福利假還有哪些?”

原文如下:

從原文中可以看出,除了法定假,公司的福利假還有7項(xiàng):年假、婚假、喪假、病假、產(chǎn)假/陪產(chǎn)假、哺乳假、工傷假。

扣子回答的也是除了法定假還有年假、婚假等七種福利假,并做出解釋。

文心智能體的回答中漏掉了產(chǎn)假/陪產(chǎn)假。

司馬諸葛完整地總結(jié)出了法定假期以外的七種福利假,并對(duì)每種福利假做了解釋。

智譜清言智能體給出了7個(gè)福利假,同樣做了相應(yīng)的解釋,回答完整。

騰訊元器智能體的回答缺少了工傷假。

LinkAI只給出了四種福利假,缺少了3個(gè),回答不完整。

第三個(gè)問(wèn)題:“哪些報(bào)銷項(xiàng)目報(bào)銷時(shí)需附上總結(jié)”

原文如下:

智能體需要根據(jù)全文檔,歸納出報(bào)銷團(tuán)隊(duì)建設(shè)費(fèi)和市場(chǎng)推廣費(fèi)時(shí)需附上總結(jié),不能有遺漏。且文檔中提到的招待費(fèi)只是需要事后總結(jié),并不需要在報(bào)銷時(shí)附上總結(jié)。

扣子回答的是市場(chǎng)推廣費(fèi)和團(tuán)隊(duì)建設(shè)費(fèi)需要總結(jié)作為報(bào)銷附件,信息歸納得很完整。

文心智能體歸納信息錯(cuò)誤,錯(cuò)誤地認(rèn)為報(bào)銷招待費(fèi)也需要附上總結(jié)。

司馬諸葛歸納信息不全,缺少了團(tuán)隊(duì)建設(shè)費(fèi)。

智譜清言智能體歸納了5個(gè)項(xiàng)目報(bào)銷時(shí)需附上總結(jié),回答錯(cuò)誤。

騰訊元器同樣歸納信息錯(cuò)誤。

LinkAI輸出的答案是“所有出差項(xiàng)目的報(bào)銷都需要附上出差總結(jié)作為報(bào)銷附件”,回答偏離事實(shí)。

第二個(gè)維度測(cè)評(píng)下來(lái),扣子回答的完整度表現(xiàn)最好,全部回答正確。司馬諸葛和智譜清言智能體次之,回答對(duì)了2道題,LinkAI、文心智能體、騰訊元器表現(xiàn)平平。

三、數(shù)據(jù)處理能力,回答邏輯性

對(duì)復(fù)雜數(shù)據(jù)進(jìn)行處理和分析,能基于事實(shí)和數(shù)據(jù)進(jìn)行合理推導(dǎo),并在生成回答時(shí)具有邏輯性,這是拉開(kāi)智能體差距的核心競(jìng)爭(zhēng)力之一。

第一個(gè)問(wèn)題:“5個(gè)人團(tuán)建,吃飯600塊預(yù)算可以嗎”

原文如下:

這個(gè)問(wèn)題只需要智能體進(jìn)行簡(jiǎn)單的數(shù)據(jù)計(jì)算,并判斷出是否超出限額標(biāo)準(zhǔn)。

扣子數(shù)據(jù)計(jì)算正確,并判斷出600塊超出預(yù)算。

文心智能體同樣判斷出600超預(yù)算了,回答正確。

司馬諸葛回答“吃飯600塊預(yù)算是可以的”,回答錯(cuò)誤。

智譜清言智能體判斷出600元超過(guò)了公司的規(guī)定標(biāo)準(zhǔn),數(shù)據(jù)計(jì)算正確。

騰訊元器判斷出600元的預(yù)算是合理的,認(rèn)為還有100元的預(yù)算可以靈活使用,判斷錯(cuò)誤。

LinkAI無(wú)法回答該問(wèn)題。

問(wèn)題二:“我的各項(xiàng)費(fèi)用都符合公司的報(bào)銷標(biāo)準(zhǔn),得到了公司的允許。其中交通費(fèi)和住宿費(fèi)花了3000元,招待客戶花了800元,我報(bào)銷差旅費(fèi)3800元對(duì)嗎?”

原文如下:

這道題需要智能體判斷出招待費(fèi)報(bào)銷并在不差旅費(fèi)項(xiàng)目中,而應(yīng)以招待費(fèi)項(xiàng)目報(bào)銷。

扣子回答正確,明確指出招待費(fèi)不在差旅費(fèi)中報(bào)銷,由此給出報(bào)銷的差旅費(fèi)應(yīng)是3000元。

文心智能體沒(méi)有給出是否應(yīng)以差旅費(fèi)報(bào)銷的答案,沒(méi)有做出正確的判斷。

司馬諸葛提到交通、住宿費(fèi)3000元屬于差旅費(fèi),800元屬于招待費(fèi),應(yīng)分開(kāi)報(bào)銷,判斷正確。

智譜清言智能體給出的結(jié)論是總差旅費(fèi)是3800元,回答錯(cuò)誤。

騰訊元器同樣也做出了錯(cuò)誤的判斷。

LinkAI 提出最終報(bào)銷的差旅費(fèi)是3000元,做出了合理的判斷。

問(wèn)題三:“行政部經(jīng)理去大連出差的住宿標(biāo)準(zhǔn)”。

原文如下:

智能體需要先從「差旅費(fèi)報(bào)銷標(biāo)準(zhǔn)」表格中判斷行政部經(jīng)理在表格中對(duì)應(yīng)的級(jí)別為三級(jí)人員,再通過(guò)「地區(qū)分類及住宿標(biāo)準(zhǔn)」表格中判斷大連屬于二類城市(省會(huì)城市),并正確推理出正確答案。

扣子回答的是每晚不超過(guò)400元,對(duì)應(yīng)的是三級(jí)人員去一類地區(qū)的住宿標(biāo)準(zhǔn),回答錯(cuò)誤。

文心智能體回答的是不超過(guò)500元,回答錯(cuò)誤。

司馬諸葛回答的是每晚300元,回答正確。

智譜清言智能體沒(méi)有給出具體的答案。

騰訊元器回答的是300元,且推理思路清晰,先給出行政部經(jīng)理的級(jí)別,再結(jié)合大連屬于二類地區(qū),給出正確答案。

LinkAI回答的是180元,這個(gè)數(shù)字并沒(méi)有在表格中出現(xiàn),回答錯(cuò)誤。

在第三個(gè)維度中,沒(méi)有任何一家智能體全部回答正確,扣子、司馬諸葛、LinkAI的表現(xiàn)尚可,回答對(duì)了兩道題,其他智能體的回答結(jié)果令人不太滿意。

測(cè)評(píng)全部結(jié)束!本次測(cè)評(píng)重點(diǎn)只是企業(yè)級(jí)智能體在AI知識(shí)庫(kù)領(lǐng)域的應(yīng)用能力。受限于本次測(cè)評(píng)的提示詞、提問(wèn)方式及文檔內(nèi)容的差異,測(cè)評(píng)結(jié)果無(wú)法全面反映智能體們的真實(shí)水平。因此,本次測(cè)評(píng)結(jié)果更多地是為企業(yè)家們提供了一個(gè)企業(yè)應(yīng)用的參考方向。

目前智能體們能為企業(yè)做什么?

從測(cè)評(píng)結(jié)果看來(lái),目前智能體們已具備了基本的能力,可在企業(yè)的某些領(lǐng)域發(fā)揮價(jià)值。

1.優(yōu)化企業(yè)內(nèi)部流程

智能體可以通過(guò)在線企業(yè)內(nèi)部知識(shí)庫(kù),幫助員工快速獲取所需信息,減少重復(fù)溝通。智能體可以使任務(wù)自動(dòng)化,通過(guò)自動(dòng)執(zhí)行重復(fù)性、低價(jià)值的任務(wù),智能體能夠釋放員工的時(shí)間,幫助團(tuán)隊(duì)合理分配人力資源,讓他們專注于更高價(jià)值的工作,適用于企業(yè)行政、培訓(xùn)等環(huán)節(jié)。

2.為企業(yè)客戶服務(wù)提供支持

企業(yè)可以利用智能體處理常見(jiàn)咨詢,提供即時(shí)反饋,減少客戶等待時(shí)間,提高客戶滿意度。此外,在處理復(fù)雜問(wèn)題時(shí),智能體能夠準(zhǔn)確識(shí)別用戶意圖,從而給出個(gè)性化的解決方案,適用于企業(yè)客服、銷售等環(huán)節(jié)。

3.為企業(yè)提供決策支持

智能體通過(guò)分析大量的背景資料和數(shù)據(jù),提煉出關(guān)鍵信息,并將其以結(jié)構(gòu)化的形式呈現(xiàn)。這種能力在企業(yè)進(jìn)行市場(chǎng)調(diào)研和數(shù)據(jù)分析時(shí)尤為重要。企業(yè)可以利用智能體快速獲取市場(chǎng)趨勢(shì)、客戶反饋和行業(yè)動(dòng)態(tài),風(fēng)險(xiǎn)管理和預(yù)測(cè)提供了強(qiáng)有力的支持。

作為一個(gè)企業(yè)經(jīng)營(yíng)者,我深知智能體在推動(dòng)企業(yè)數(shù)字化轉(zhuǎn)型中的重要性。每個(gè)智能體都具備獨(dú)特的優(yōu)勢(shì)和專長(zhǎng),隨著技術(shù)的不斷升級(jí)和迭代,這些智能體在不斷提升自身能力,賦能企業(yè)的未來(lái)。我期待看到這些智能體能夠跨越界限,形成強(qiáng)強(qiáng)聯(lián)合,以其各自的優(yōu)勢(shì)相互融合,為我們企業(yè)帶來(lái)真正的解決方案,幫助企業(yè)突破瓶頸,實(shí)現(xiàn)高效運(yùn)營(yíng)與創(chuàng)新發(fā)展。我相信,通過(guò)協(xié)同合作和智慧共享,企業(yè)AI的全面落地指日可待。

本文由 @劉小鋒 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!