談談在B端落地第三方大模型的步驟
在B端系統落地應用大模型的過程中,企業可能會遇到哪些問題?又可以遵循怎樣的落地步驟,以避免或減少問題的發生?這篇文章里,作者便對在B端落地第三方大模型的步驟進行了總結,一起來看一下。
一、引言
奇績創壇創始人兼CEO陸奇博士曾經提出過“三位一體”的結構模型:“信息 + 模型 + 行動”。其解釋了人類、組織等有機體的運作方式,也可用于概括互聯網產品的組成結構:
圖片引用于陸奇《我的大模型世界觀》
在B端系統中,我們可以采用“信息 + 模型 + 行動”的結構來規劃和應用人工智能的能力。利用業務所產生的數據作為輸入,經過模型的規則總結,然后系統根據模型的預測結果來采取相應的行動。例如,我們可以利用AI的語言處理能力實現翻譯功能,或者通過AI對客服問答進行總結,實現智能機器人客服。最終的目標是通過AI技術實現B端業務的成本降低和效率提升。
在當前生成式人工智能蓬勃發展的背景下,許多中小型企業希望結合第三方提供的大型模型能力,將自己的產品“重新用AI打造”。大多B端產品經理也在領導的要求下,被要求利用現有的大型AI模型來滿足相關需求。
然而,我們需要思考AI是否真正適合自身的業務,如何選擇適合的大型模型,以及如何在確保業務效果的前提下規避當前AI所面臨的不可控問題。本文將對在實施AI落地過程中的一些思考進行梳理。
二、落地難點
事實上,大多數中小企業并沒有自行訓練大模型的能力,因此只能依賴第三方提供的大模型來進行需求開發。而這種情況下存在一些影響企業應用AI的問題:
1)AI的黑盒特性導致的不可控問題
目前的AI技術仍處于第二代系統階段,遠未達到AGI水平。因此,AI的能力仍然存在一定的局限性,主要表現在以下幾個方面:
- 答案的可信度不確定:由于AI是基于已有信息的提煉和總結,對于新出現的問題和場景,AI可能無法提供有用的答案。尤其是在垂直領域的AI應用,可能無法產生有用的信息。
- 答案的合規性不確定:AI是一種基于統計學的結果預測,本質上沒有明確的是非判斷能力。因此,在涉及道德、法律等層面的問題上,AI無法進行甄別或判斷,容易給企業帶來負面影響。
2)“大模型百家爭”下的技術方案不確定性
目前,國內外的知名企業都在積極發展大模型,國內有文心一言、通義千問、盤古、星火認知大模型等數十家廠商。對于這些大模型的能力和邊界,我們了解甚少,因此在決策企業AI技術落地時,面臨著諸多問題,例如“應該選擇哪些大模型”和“如何使用這些大模型”,這增加了企業決策AI技術落地的成本。
圖片來源于網絡
三、實施步驟
AI技術在B端的應用場景十分廣泛,但本文將專注于研討如何在發現一個可行的場景時,有效地實施落地的步驟,以解決企業在依賴第三方AI技術時面臨的不可控性和不確定性問題。以下為個人總結的落地步驟:
1. 快速驗證可行性
在明確B端系統要應用AI的具體任務后,需要進行快速的可行性驗證。盡管尚未確定最終選用哪個大型模型,但可以先使用一種評價較高的大型模型進行驗證,并請技術團隊和業務團隊進行評估。為了快速驗證,您可以嘗試搭建一個演示版本,以便迅速進行業務驗證。為避免浪費開發成本,建議優先選擇一些開源的技術實現方案,僅需支付部署費用即可。這樣能夠有效降低開發成本并提高開發效率。
其中測試的時候有兩種驗證方法可供嘗試:
1)角色扮演法:測試者扮演B端系統的用戶角色,模擬業務的交互流程并輸入信息,以評估AI的返回結果是否符合業務要求。例如,可以模擬用戶向智能機器人提問,觀察AI返回的問題是否能夠滿足業務要求,從中判斷AI是否能夠在該場景中提供解決方案的方法。
2)數據模擬法:通過在線業務數據獲取真實的樣本數據,并進行人工篩選以確定具有代表性的數據案例。隨后,批量輸入這些數據到AI模型中以獲取輸出結果,并進行大規模的評估。
2. 建立指標體系進行模型選型
當確定AI技術可在B端上落地后,需要確定接入的模型能力。這里需要基于業務梳理模型評估體系,使用量化的指標便于多個大模型之間的對比,以便綜合考量最終選取合適的大模型提供方。一般指標會包含以下內容:
1)召回率
召回率是模型訓練中的概念,又稱“查全率”,是一個常用的衡量數據挖掘模型在查詢回歸程度的指標。用簡單的話介紹就是“原本需要系統判斷出來的內容中,大模型真的抓出來了多少”,用來判斷大模型能夠準確判斷的范圍。
2)準確率
準確率同是模型訓練中的概念,用于衡量模型預測正確的結果所占的比例。通俗地講,就是模型判斷正確了多少。
在大模型能力有限的情況下,召回率和準確率一定程度上是沖突的。為了判斷得全,就會加大判斷錯誤的概率。為了判斷得正確,又會有案例沒有沒判斷到。
召回率和準確性直接決定了大模型的服務能力。
3)安全性
由于是第三方服務,B端企業需要考慮到數據的安全問題,評估模型能否保護用戶數據的隱私和安全,并符合相關的數據保護法規和標準。
4)可解釋性
可解釋性是指模型的結果能否被理解。可解釋性高的模型,其黑盒程度相對更低,更具有可控性。
對B端業務來說,模型的結果需要能夠被解釋和理解,以便用戶和業務決策者能夠理解模型的工作原理和結果依據。
5)穩定性
結合自身業務端量級判斷評估模型的性能,包括響應時間、吞吐量和并發處理能力。模型需要能夠在合理的時間內處理大量的請求,并保持高效的性能和穩定的服務。
6)成本
使用大模型是有成本的,例如使用ChatGPT需要按照token進行收費。此外,不同版本的大模型收費標準也不同,例如ChatGPT4.0版本雖然效果更好,但成本卻是3.5版本的40倍到60倍。因此,在選擇大模型時,需要結合業務量級進行成本評估,以確保AI需求真正能夠實現”降本”的目標。
7)發展潛力
評估大模型提供方的潛力,后續是否有可能提供更好的服務能力。
基于上方指標進行多個大模型之間的對比,按照指標權重綜合考慮,最終選擇最合適的大模型以接入。
3. 海王思維,兩手準備
隨著人工智能的快速發展,企業在選擇和應用大型模型時面臨著不確定性。原本使用的大型模型可能隨時被新出現的更優秀模型所取代,以滿足業務需求。這種替換可能會導致額外的成本,對企業的B端系統建設進度產生不利影響。因此,在實施企業的人工智能需求時,需要具備一種“海王”思維:
1)做好隨時“分手”的準備
確?;诖竽P偷男枨髮崿F方案不要過于定制和耦合,明確好自身系統和第三代模型的邊界。把第三方大模型當作一個可隨時替換的“插件”,做好隨時替換的準備,當目前使用的大模型技術由于成本或者能力問題需要替換的時候,可以隨時抽身而退。
2)確定模型評估方案,定期勾搭市面上的其他模型
由于當前AI發展日新月異,為了不讓企業落后,產品團隊需要定期接入最新的模型進行測試和驗證,利用前面搭建的“模型評估體系”判斷最新的模型與原有模型的差異,以用于判斷“是否替換”或是“保持使用”。
4. 確保兜底邏輯,規避AI的不可控風險
由于AI輸出的答案存在不確定性問題,在涉及面向C端用戶的業務場景中,直接應用AI輸出結果可能導致無法控制的影響。因此,為規避相關風險,我們需要采取以下措施:
1)建立自主AI結果檢測程序,攔截無效輸出結果:我們可以通過建立AI結果檢測程序來識別可能對業務產生影響的內容。通過使用詞庫和正則匹配等方法,我們可以甄別并攔截AI生成的錯誤結果。對于出現錯誤的結果,我們將重新執行AI生成邏輯,直至獲得正確的輸出內容。
2)引入人力兜底方案以應對影響用戶的內容:對于不直接影響用戶的內容,我們可以直接采用AI的判斷結果。
然而,對于可能對用戶產生影響的內容,最好由人力進行兜底控制。例如,在審核環節中,我們可以引入“機審”和“人審”的組合,使用“機審”對內容進行初步篩選,而“人審”則負責處理AI無法準確判斷的內容。又例如,在智能對話客服環節,我們可以引入“人工入口”,以確保在機器無法解決問題的情況下,引導用戶尋求人工幫助,避免對用戶體驗造成影響。
四、總結
總體而言,使用第三方大模型可能會引發一系列問題,由于第三方技術的不可控性,這可能會影響中小企業在B端的實施。
為了避免這些問題,確定落地方案時需要快速進行可行性驗證,并建立指標體系來進行選擇。同時,還需要做好兩手準備和兜底邏輯,以應對市場的快速發展和AI技術帶來的風險。
本文由 @檸檬餅干凈又衛生 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
題主有做過在b端場景的落地項目嗎
嗯嗯