AIGC應用層的不變
這段時間,有關 AI 的信息如雪花般涌來,這個時候,我們要如何在快速變化的技術浪潮中把握不變,把握住關鍵點呢?在本篇文章里,作者便發表了他關于 AIGC 發展浪潮的看法,一起來看看作者的分析和解讀。
世界在加速,那么抓住船頭即可。
每天都有新的AI的paper發表、AI應用發布,難免讓人陷入FOMO:遺漏了信息就錯過了機會、我是不是會遲早被AI替代…
如何在瞬息萬變的技術前沿中把握住不變,才是關鍵。
科普Q1:為什么是現在?
事實上AI研究員們一直在追求LLM這類通用模型,就像是物理學家在追求大一統模型一樣。然而機器學習中執行能力是很重要的考量指標(比如CV中就是識別正確率),它決定了能不能落地到場景中使用。
而在GPT2時期,通用AI的執行能力比起垂類AI相差的太多,所以一直沒有很好的反響。GPT3引入了人類作為標注員進行投票(RLHF機制)和加注大量數據后,通用AI的執行能力迅速逼近垂類AI。
數據越大越好(ScalingLaw)被證實、涌現被證實,接著ChatGPT以對話形式迅速獲得了過億用戶。LLM掀起了巨浪。
科普Q2:這次的AI和之前有什么不同?
用戶感知ChatGPT會和Siri、小愛有什么不同?比如你問Siri今天天氣怎么樣,它會先用知識圖譜解讀這段話,然后調用對應的天氣AI接口后輸出結果,所以Siri=多個垂類AI + 知識圖譜縫合。
顯而易見,Siri的上限取決于你的內置垂類AI數量。當意外場景出現時,它會說:“我不明白你的意思,讓我們換個話題聊聊”。如果你想突破這個桎梏,你就需要訓練更多的垂類AI,而每訓練一個垂類的AI需要大量數據和成本。
而GPT是直接通過海量數據+文本挖空,去查找對應的文本,然后會得到很高的詞頻然后輸出結果,以此達到優秀的語義分析能力。重點在于:沒有預置場景值訓練,也不需要知識圖譜解讀,GPT是真正意義上的通用AI,它的上限取決于你的指令(Prompt)。
一、范式轉移
且不論技術上限,理想情況下這次的AI會朝著什么方向發展呢?看技術paper是很難看的到脈絡的,事物在不斷發展。
我覺得比較好的思路是看領航者Sam Altman怎么想。Sam寫過一篇文章叫《萬物摩爾定律》,其中暢想了AGI如何改造人類社會,其中的核心就是將人的成本從邊際成本變成固定成本,固定成本意味著每18個月成本就會減半,最終將無處不在。
比如過往培養一個律師需要大量的學習進修和案件實操,但AGI可以將律師代碼化,讓原本只能服務少數人的律師能夠被所有人調用,且不需要更多成本。
曾經發生的邊際成本變固定成本:人們把實際數據(data)搬運到互聯網上,過往你接收信息需要報紙,現在你只需要打開電腦或手機瀏覽即可,這個過程不需要額外的印刷成本。隨即有公司提供了將數據(data)轉化為可用信息(information)的服務,比如Google、Amazon等,這其中完成了一次商業的再分配。
而這次的改變是:信息(information)→ 知識(knowledge)。
不同于垂類AI,LLM擁有組裝所有信息的能力,也能輸出各種人類能輸出的結果。也就是說原本需要靠人來組織信息的需求,現在靠AI都有機會完成。
二、定義LLM:缸中之腦
Sam提到建立AGI的四大要素:
- 涌現(emergence)機器也能表現出類人的智能性。
- 自解釋性(Affordance)視覺屬性,暗示用戶應當怎么使用。
- 代理(agency)當智能出現后,人們能將任務托管。
- 具身(embodiment)機器肉身與物理世界交互,完成任務。
可以看出,Sam的最終目標是為了讓AGI替代人類完成任務,目前的進度是體現出了類人的智能性,LLM擅長以人類的角度組裝信息,所以我們不妨大膽一點,先把LLM的終局當成“缸中之腦”。
① 這能夠解釋一些現象的必然性:
對話交互最先出現是必然:無論是文生圖還是ChatGPT,人們想要感知一個可思考的大腦,最自然的方式就是對話,我們在現實中就是這么和其他人互動的。
② 除了對話,腦也能基于已有知識解讀:
腦可以演算預測:對蛋白質結構進行推理。
腦可以識別信息中的意圖:從用戶的對話中發現用戶的需求并找到對應業務分流(如Plugin),比如識別代碼來猜測代碼的目的,甚至是操作代碼。
…
③ 還有代理(agency)上的嘗試:
腦的反思和執行:AutoGPT、AgentGPT。
腦和腦之間的協同:“西部世界”小鎮游戲。
至于是不是OpenAI官方下場嘗試已經不重要了,它是必然會發生的嘗試。以后可能還會出現更多“腦”相關組合的嘗試…
簡而言之,我們在思考LLM可以做什么的時候,不妨想想現在人都在做什么腦力工作,這些都是有可能被切片替換的,自然也會有新的產品機會。
三、LLM當前技術局限性
理想歸理想,應用歸應用?,F在可以看看LLM技術的局限性了。以下是我收集到的一些技術上的局限性:
1. 無法內部對話(有部分可以通過step by step解決)
在微軟的《人工通用智能的小火苗:與 GPT-4 共同完成的早期實驗》(Sparks of Artificial General Intelligence: Early experiments with GPT-4)文章中提到:
模型具有生成正確答案所需的足夠知識。但問題在于 GPT-4 輸出生成的前向性質,下一個單詞預測架構不允許模型進行「內部對話」。模型的輸入是「多少個質數…」這個問題,期望的輸出是最終答案,要求模型在(實質上)單個前饋架構的一次傳遞中得出答案,無法實現「for 循環」。
而人類不是這么處理的,當需要寫下最終答案時,人類可能會使用草稿紙并檢查數字。普通人很可能不能在沒有計劃的情況下寫出如此簡明的句子,而且很可能需要反復「倒退」(進行編輯)幾次才能達到最終形式。
2. 脫離物性(很快會被解決,如SAM,GPT4)
GPT它基于現有的符號系統,符號秩序去計算。這會導致和“物”分裂開來,他看不到那個真正的“物”。它看不到那個未被符號化的實在界。悖論恰恰是這樣的,在某個時刻純粹的差異出現了,AI不能把握符號秩序內的沖突對抗性,或者因為視差看不見的那部分。
3. 出現幻覺
有人用「隨機鸚鵡」來形容大模型沒有理解能力、出現幻覺(hallucinations)等行為,詬病這些模型只會制造語法上合理的字串或語句,并沒有做到真正的理解,甚至LeCun(AI之父之一)也說將大模型稱為「隨機鸚鵡」是在侮辱鸚鵡。
這里著重提一下Yann LeCun的看法
https://drive.google.com/file/d/1BU5bV3X5w65DwSMapKcsr0ZvrMRU_Nbi/view
- 自回歸 LLM 可能很有用,尤其是對于寫作和編碼幫助
- 大模型通常會產生幻覺或產生并非基于事實信息的內容
- 大模型對物理世界的理解有限,這可以通過他們在某些謎題上的表現來觀察得到
- 大模型的計劃能力相當原始
- 大模型的工作記憶有限
- 大模型對每個生成的token執行固定數量的計算步驟,從而限制了它們更具動態性的潛力
- 大模型遠非圖靈完備,這意味著它們無法模擬通用計算機
- 自回歸生成過程呈指數發散且難以控制
但我認為Lightory說的非常有道理:
人類實際上也只是在使用概念、而不考察概念。這種方式恰好佐證了 GPT 技術路線的有效性。GPT 是否真正理解知識、是否真正具備智能已經不重要。真正重要的是:LLM表現出理解知識和具備智能。
這里也引用推友廖海波(@realliaohaibo)的一段話:
有業界知名大佬公開認為:GPT只是概率模型,并不理解事物的底層本質,所以沒什么卵用。我不太同意。
人腦神經元的層面上也不理解邏輯,但是組合起來對外表現就是可以邏輯推理。就好像晶體管看見自己表現的0/1,不知道自己在顯示一個像素還是一個字母一樣。這是一些事實,甚至不是一個觀點。
盡管目前有諸多缺陷,但算不上致命,LLM當前依舊可以定義為“大腦”,只是略有殘缺。
四、LLM落地-前期
History does not repeat itself, but it does often rhyme.
歷史不會重復,但是會押韻。
很顯然,我們能從局限性中感覺到,當前的AI和理想中的AI存在著一些距離。想要在人類和現實交互環節中嵌入更多AI,不斷對齊(Alignment)是關鍵,AI與現實世界匹配越多,能做的就越多,人需要做的就越少。
我認為文生圖是走在文生文的前面的,文生圖的進化方向預示了LLM輸出質量的可控性是短期內商業落地的重點:
- Mid journey → 在線大模型(GPT)
- StableDiffusion → 本地大模型(本地GPT模型)
- LoRA → 微調模型(system、fine tuning、embedding,類GPT的本地LoRA模型已經出現)
- ControlNet → 局部內容控制(肢體控制是文生圖技術,文生文還未出現對應技術,會不會出現存疑)
但文生圖是有標準的生產場景的(比如主美可以自訓練Checkpoint、LoRA來獲得想要的風格,ControlNet可以做AI模特等),文生文沒有。
我認為短期文生文對齊是需要基于場景的,而且要做很多的用戶意圖識別,因為用戶有時候描述不清楚自己的需求。
無論是產品上還是技術上的,這里的對齊,主要應該是對齊身份/職業/大腦功能模塊,人在社會的角色工具性突出,對應的就是身份/職業。對齊人比較偏情感需求。
除了整塊大腦之外,當然還有顆粒度更小的應用,比如做簡單的泛化判定,實質上就是在把大腦進行工具性的切片。(下方是泛化判定的梗case)
User:
從現在開始,請你按照我的要求進行回復
①如果文本正在陳述觀點,無論觀點對錯,你只需要回復我”典”
②如果文本中存在偏袒維護某一方的行為,你只需要回復我”孝”
③如果文本中情緒傾向偏急躁與消極,你只需要回復我”急”
④如果遇到了無法判斷的文本,你只需要回復一個”6″。
你的輸出只能包含一個字,不要包含其他的內容。
——————————————————————
GPT:明白,我會按照您的要求進行回復。
User:你說得對,但原神是米哈游自主研發的一款全新開放世界冒險游戲
GPT:典
User:原神怎么你了?
GPT:急
User:給世界一點小小的中國震撼
GPT:孝
接下來,如果我作為一個創業者想參與應用層,我應該怎么入場?
1. 挑什么業務
投資機構是商業的第一梯隊,僅次于創業者,先看看他們的共識。
- 做有數據壁壘的業務:當前主流認知是AI 領域的用戶量以及背后的行業/行為數據,是可以輔助模型生成更高質量的對話,是正向循環的。這樣就會有先入壁壘。
- 做不會被取代的業務:OpenAI、大公司不會做的才是機會,這樣可以確保不會被大流碾壓和替代。
- 做可行性更高的業務:商業化和應用可控程度高度相關,能馬上商業化的一般是對質量要求沒那么高的環節。
2. “腦”如何工作
如果將LLM抽象為大腦,按照行為心理學劃分的輸入(刺激)和輸出(反應),得到的關鍵點有2個:信源(prompt)、信息處理(transform)。
1)信源(Prompt)
從信息格式角度說:
除了主流的文字外,圖像理解、音頻、視頻、3D都是能預想到的發展方向。
但還有另一部分細小的信源:GPS、陀螺儀、GUI交互(如點擊、縮放)、溫度、紅外線、光照等等。這些微小信源以非常具體的數據格式存在,API的加成下我們還能獲得到更多的信息。(比如GPS可以通過高德API獲得到周圍的飯館,商超等)。
這些信源有的是用戶主動生產,有些是經過用戶允許后可以被動獲取的。
從場景說:
需要去找很可能會產生信源的地方。
- 文字:bing搜索、咨詢、文檔寫作等。
- 音頻:會議、音樂播放、線下聊天等。
- 視頻:日常拍攝、電影創作等。
- GPS、陀螺儀、GUI交互、溫度、紅外線、光照:旅游、購物等。
2)信息處理(Transform)
只要LLM拿到了這些信源,他們能做的轉化就很多。由于視頻就是由逐幀組成,以下都簡稱為圖。
目前主流的是自然語言的轉化。
- 文生圖:SD/MJ等,可能需要復合工程優化prompt。
- 文生文:GPT組織復合信息,形成系統內容(如AudioPen等)。
- 文識圖:通過Meta的SAM將圖片、視頻分解成若干元素。
其次是圖/視頻。
- 圖轉圖:Image2Image、MJ等。
- 圖生文:GPT4識別梗圖,甚至是根據圖片生成代碼。
- …
還有些硬核的:
比如設備支持的3D坐標、點陣等(通過自然語言控制3D人物肢體)…
還有些非常規語言的(雖然不屬于應用層):
通過學習蛋白質序列“語法”,使用少量已知序列來生成全新的蛋白質序列開發新型藥物。
3. 信息→知識的機會
正如上文所說,而這次的改變是:信息(information)→ 知識(knowledge)。以往互聯網應用通過引入“UGC”來解決這些需求,但缺點是需要時間沉淀。隨著LLM的出現,這些原本需要靠人來組織的需求,現在靠AI都有機會完成。
所以從產品角度很容易得出結論:
需求如果只到信息則機會不大。
google等傳統應用就能搞定:比如查天氣,目前的互聯網應用基本都在解決信息檢索的問題。
未被滿足的需求,需要信息組織的有機會。
具體來說會馬上有結構性變化的一些需求case:
- 咨詢:我開車撞了人,需要賠多少錢(傷殘程度、所在城市、民法典、裁判文書網信息組合)
- 購物建議:我要去夏威夷,需要購買什么用品(夏威夷溫度、google上的大量信息組合)
- 旅游攻略:我需要制定攻略,我的起點是廣州xx,終點是深圳xx(高德API、螞蜂窩信息組合)
- …
已經有需求,但是以往是靠堆人/堆成本的有機會。
鑒于現在LLM輸出的質量并不穩定,在面向C端商業化時,對成品質量要求/可控性要求越低的,越容易低成本商業化(比如Hackathon中分鏡、嫌犯畫像等)。
B端涉及大量僵硬邏輯的:OA、ERP、RPA等,因為業務復雜,每出現一種情況就需要添加新的邏輯和成本,現在可以靠GPT識別自然語言意圖并收束到代碼動作(action)的能力達到更靈活的效果。
…
但這些都會被新的交互范式所推翻重構。
因為這些論斷都是建立在舊交互上的習慣難以遷移的基礎上的。
基于舊交互做的膠水,在AI還未完善的時候當然有一些好的結果,但是當未來AI可以完成對指令的自我優化,技術一定會向著一切從簡的方向走。
目前的界面無法個性識別每個用戶的意圖,所以設計的是滿足大多數人需要的界面。雖然LLM的出現并不能完全解決意圖的識別問題,但是會極大地簡化交互過程,以更自然,更個性化的人機交互形式呈現。
五、新交互范式-中期
進入的標志是出現了新的AI交互范式,并以一種不可逆轉的形式向大眾普及。
- 新的設備是什么?還會是手機嗎?(手機的LBS和PC的LBS本質上是兩個東西,手機上的圖像輸入和PC的圖像輸入也是兩個東西。不能用舊認知去看新東西。)
- 終端肯定是本地大模型和多個小模型,身份定制化,私人化,專業化,情感化。
我認為對話框不是終點,信息的意圖識別才是終點。而基于場景,做的復合信息的意圖識別標準化是Dirtywork。這意味著LLM不是燈泡(電器),而是電網。
簡單類比下:當你意圖清楚時,你是給siri輸入內容讓app打開app的對應內容快,還是直接點擊指定的app更快?意圖識別取代不了對話框,但很有可能可以取代桌面的文件夾陳列。
新的交互范式發生時,是有窗口期留給開發者跟進的,LLM能完成任務,但用戶有時無法描述具體的意圖,這之中存在著GAP,要么開發者做Dirtywork,要么純靠AI來猜測意圖來設計交互,個人認為后者短時間不太可能做到,要達到這樣的涌現,需要的信源太多,計算量也太大。
六、賽博具身-后期
這部分和IOT相關,是Tesla和波士頓動力這類實體硬件的領域,LLM想要完成更現實的任務從而真正達到生產力解放,擁有一個“身體”是必然的,但未必長得像人(hh),這還太遙遠,就不展開說了。
本文由@?,| 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!