智能原生應用的腦、手、意
AI原生應用的特征以及作為引擎的大模型,我們該如何度量它是否智能?本文以一個假象場景,來看看當中有哪些環節以及需要什么樣的智能,彼此之間的配比如何。
從《從手機App到AI原生應用》開始我們其實寫了幾次AI原生應用的特征以及作為引擎的大模型應該如何進行度量它到底智能不智能,到底能不能干點事了,但還是比較抽象,概念和邏輯的成分比較多。
所以這次我們按一個假象場景來完整舉一個例子,看下在這個過程中到底有哪些環節,這些環節需要什么樣的智能,彼此間的配重又是什么樣子。
一、假如你想做自己的主播分身
之前我們提到過,AI應用落地快慢可能和幻覺有益還是有害相關,所以我們舉個離現實比較近,幻覺基本沒什么害處的例子。
假如你想開播了,但又不想自己上,而是做一個自己的數字代理或者說分身,那這個數字代理人真想取得效果都要搞定什么呢?(取得效果是指有人愿意看,有粉絲等)
首先是最基礎的產研部分:先打造自己的外殼,也就是形象要像那么回事,然后給它匹配上看、聽、說、想的能力(計算機的輸入輸出、存儲和CPU…)。這里面看、聽、說基本上是用過去十年反復打磨的技術,比如圖像識別、語言識別、語音合成等,想的部分要基于大模型了,它來基于綜合各種輸入產生自己的輸出。當程序員把這些都綜合連接起來,基本上就有一個數字分身,它能基于各種輸入做點反饋,做到這里基本上完成了手的部分,腦的部分屬于有了,但還不好使。
這時候即使導入了最好的大模型,它也還是一個很傻的Bot,別說取得效果,基本上就沒人會看完任何一個直播段落。這時候在單純的單點技術上使勁內卷是沒前途的(包括大模型),那樣搞不定粉絲也搞不定留存,回報大致為0。
改善起來第一步肯定是希望能加入人格特征,讓它的性格特征和你更像,比如是不是對人友善、表達是不是犀利,也要社會一點:會說話能聯絡感情等。這時候要盡可能記住過去和某個人說過什么。這部分不純粹是技術,但技術相關性還是很高,通常需要找找過去干過的老司機,純粹的干prompt估計搞不定。
這步是個檻,搞定了算通過圖靈測試1.0,別人分不出到底是不是你了,但現在其實搞不定這事,無邊界閑聊還行,限定到人格特征上表現就沒想的那么好。搞不定的情況下,會出現什么結果呢?看著有點智能有點像你的一個人,在那里叨叨,但毫無特色和趣味性。能不能吸引到粉絲呢?這要看你到底播什么了。我估計播動物世界沒準行,娛樂估計夠嗆。這是下面的話題,進一步從技術進步到產品。
通過圖靈測試1.0的智能產品已經有用了,在這之前是純粹工具,在這之后就有點Agent的意思,但價值還沒想的那么大。
通過圖靈測試1.0這樣的一個數字分身有什么用呢?它好處是信息吞吐量大,不知疲憊,人模人樣;壞處是智能還是不夠,做不出很好的性格、才藝、出眾的觀點、有趣的隨機應變等。那適合做什么事呢?它適合做內容本身有趣,主播是配角的事。
那些事是這類的呢?比如播動物世界、講故事、播新聞,偶爾穿插點互動。
這是在干什么呢?是在縮減場景對智能的需求。智能供給不足就只能降級。那理想狀況是什么樣呢?
這本質是一個更好用了的智能音箱(參照:大模型有能力打穿智能音箱/硬件的市場壁壘么?)
理想狀況是這個數字分身還要能接入實時的熱點,動態的生成要輸出的內容,比如圖片、視頻,然后做主播。這種熱點要匹配大家的關注點,要新穎,要匹配平臺的規則,不單是正向的規則,還要把握好反向的尺度,否則會被抬走或者封殺。這部分會衍生非常多的細節工作,比如那個是現在主推的,這得跟著平臺走才行,否則你權重不好它不推你,不也白搭。對平臺這是個智能對智能的過程,但受眾這是個綜合分析的過程,對創作這是個創意創新的過程。這事能干了,算是通過圖靈測試2.0,一旦過了至少可以和人類二分天下。
過不了,比如不管內容的時效或者不管平臺熱點的捕捉,就都還是干半截活!是智能供給不足。這部分如果成功,那基本上可以有粉絲了。到這里也才算是腦子長成,并且培養出了自己的風格(意)
假設這能做到了,就完了么?
還沒有。這些都搞完了,主要解決了硅基智能和硅基智能的關系,相當于能夠比較匹配平臺的規則和現實的熱點。
郭德綱捧人的主要方法就是反復提這個人。你做主播如果有人拉扯顯然效果會更好。那和誰合作,怎么合作還是需要人去做。把這個場景全覆蓋了,才算真正的你的代理。
從這個視角看現在能完成的百分之三十不到。更何況這只是一個相對簡單的C端場景,B端場景比這個要復雜的多。
(全是這造型的話,最開始還行,時間長了自己就得能顛覆自己,否則就可能還不如獅子吸引人,這種邏輯的理解其實很挑戰通過了圖靈測試2.0的只能分身)
二、AI的悖論
往深處挖掘,在上面這個過程中有幾個典型的悖論:
第一個悖論是越極化技術,離產生效果越遠。在整個過程里技術最關鍵,但最核心的部分絕大多數人得對外部形成依賴。在具體場景邊界內判斷OpenAI等能干到什么程度是最關鍵的尺度判斷。這時候純粹技術背景的同學容易擼起袖子自己上,但在這個局部上投入越大,你在別的部分的精力就越少,然后效果就出不來。上面的產品要想達成PMF,顯然不是就算法能搞定的,而是要在清楚算法限度的前提下,內外的融合來回折騰。知道平臺,社會現實,然后把有限且成熟的技術力量投過去,變成自己的產品力量(只有產品的力量用戶可感知)。價值只可能在外部創造。這就是悖論,技術是第一驅動,但你極化它的話,會死的很慘。(純做模型不是這邏輯,但大部分其實是看模型的熱鬧,不真的有做模型的機會)
第二個悖論可以叫只有獅子才能生存,但其實不是獅子。
上面這樣的產品注定依賴于大量的技術供應鏈,除了極大的大廠,沒人能全部搞定各個環節,不管是大的算法、云服務還是小的平臺數據分析(沒有平臺的反饋數據你根本不知道下面要干啥),投流策略等。這意味著做AI的產品越來越只能做總成。Agent其實就是總成,平均算算一個Agent可能需要10家以上的技術供應商。這時候作為團隊你個頭是大的,至少消耗是大的,也就意味著你就需要捕食大的獵物才能活下來。這就很悖論,要用很小的團隊撬動綜合度非常高的事情,就必須精英化,否則肯定干不好。這可以拿非洲大草原的動物做個類比:胡狼啥都吃,個頭也小,撿撿剩肉也能對付;鬣狗和野狗就吃的比較多,但單兵戰斗力差就只能成群結隊才可能干倒水牛,欺負落單豹子什么的,但就不能挑食;獅子在食物鏈最頂端吃的又多,那就必須戰斗力爆表,最怕就是獅子的胃口但胡狼的戰斗力。
做很多小工具很像胡狼吃吃也就飽了,沒那么多肉但也能活的還不錯。
Agent就不行,這地兒確實有肉,但就像大水牛一樣,不是比較猛的獅子根本拿不下,但大部分團隊早期怎么可能是獅子,所以做起來就擰巴。
三、 智能原生的尺度
假如跨越了這些障礙,也成功搞定了數字分身,那我們回頭看看,在這樣一種產品上取得效果,關鍵的節點有那些。
第一個顯然得像,不管是聲音還是形象。這就是做殼,殼要做不好后面的就不要說了。這事現在做的七七八八,就是貴和便宜的區別。這部分最具體,確實可以用很多指標來衡量。
第二就是擬人。即使不出彩,好歹要沒那么傻。這里對應的標準就是老的圖靈測試。
第三就是在標定場景下的智能。核心的判斷標準其實是圖靈測試2.0。不是閑聊天而是真的在一個場景下,從分析到性格到價值標準到表達能頂一個人。這事其實遠遠搞不定。搞不定就只能打折,退化后商業價值也就縮小。
第四則是管理智能。這個更復雜,但前面如果搞定必然遞進到這里,因為顯然能搞定一個Agent任何一個團隊就絕不會只搞定一個。而每一個Agent都產生大量的信息,這種信息的膨脹根本不是人所能管理的,想像下一個公司里的人能管理5000萬主播么?這時候就需要一個把所有Agent都管理起來的系統。這個系統的良性運轉又需要提供足夠充分的數據。兩者互相促進,最終就會變成智能原生的組織和智能原生的系統。最終走到這里是曲折的,但只要Agent大量產生,就必然會這樣。那時候人會退到管理智能的背后。
在這過程里面圖靈測試2.0承上啟下。
在當前這個階段,最適合的其實就是用圖靈測試2.0的視角,持續觀察各個場景,要確切的知道最先進的AI技術到底能不能通過這個場景的測試。一旦通過,那就可以做事了。
在這里場景的邊界既是一個商業判斷也是一個技術判斷。
小結
在過去我們一度這么區分整個軟件產品的架構:最底層是操作系統等基礎設施,在上面是數據庫等,再上面才是各種應用。有趣的是各種工具雖然小,比如壓縮軟件,嚴格劃分其實應該在操作系統這里。與此類比,大模型以及各種工具其實在操作系統那個位置,上面我們說的則是應用的邏輯,不適合做模型的情況。
這種應用在過去二十年間其實更迭了三次:一次是伴隨著Win95開始的Windows應用,比如現在可能還有人在用的Foxmail和視頻播放器都是這時候的產物;一次則伴隨著PC互聯網,比如當年的Discuz;一次則是大家都熟悉的手機APP。上面說的智能原生應用看著和前面這些還是非常不同,可能構成新的更迭。
專欄作家
琢磨事,微信公眾號:琢磨事,人人都是產品經理專欄作家。聲智科技副總裁。著有《終極復制:人工智能將如何推動社會巨變》、《完美軟件開發:方法與邏輯》、《互聯網+時代的7個引爆點》等書。
本文原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
咩咩……