關于多模態AI的三點產品視角反思
多模態AI技術被認為是AI發展的下一個重要里程碑,具有無限潛力。本文將探討多模態AI在需求定位、技術路徑和產品設計方面的關鍵問題,并提出相關思考和建議。
最近《后GPT時代,多模態是最大的機會》一文中,行業前輩王老師提到,多模態AI的上下游任務與技術路線之間,會有排列組合游戲,處于爆發的早期……是大模型科研與工程領域最好的彎道超車機會。
關于多模態,我個人應該是業內最早關注到的從業者之一(至少6年前)。本文,將從需求定位、技術路徑、產品設計三方面、來分享一些AI產品經理視角的反思。
引子:六年前的“多模態”還相對模糊(PPT+專利+demo)
在2017年4月的200頁PPT《人工智能產品經理的新起點》中,我提及過“多模態”,如下面2張圖:
在2017年10月的120頁PPT《產品視角下,現階段的AI如何落地》中,也分享過Andrei Cheremskoy提出的“組合矩陣”方法,能系統性研究深度學習的應用機會。
同樣在2017年,我寫了專利“多模態虛擬機器人的內容生成的方法和系統”。
甚至在2016年4月,我還在兒童機器人上,做過“中英文混合對話”+“多模態交互”的最初級demo。(可能是當年技術條件下的最佳demo效果了,最近在星球里分享了當時的演示視頻,對于多模態,我個人是認可這個大方向的;下面,僅是想從產品視角,分享些不同的認知,供大家綜合參考。
一、需求定位:如何規避“拿著錘子找釘子”的風險?
正面看,很容易覺得排列組合的機會點太多了,容易有過于“理所應當”的風險。此時,可能更需要從產品/需求視角出發,看看咱們到底有哪些非共識的行業know-how。
最近,我分享的《大模型時代,產品經理的什么能力會成為稀缺(1)》一文中提到:
這一波AI 2.0,一定不是簡單的ChatGPT化、CUI化。而是需要先把業務吃透,再看可以如何借用AI、對話式交互的能力來解決問題。
就像移動互聯網時代,不是把web內容簡單搬到手機app上。
現在,也不是智能汽車那種簡單的“所見即可說”,全部用語音操控的方式實現一遍。
作為產品經理,一開口,一定不要僅僅是what層面的“可以做什么”。
作為產品經理,一開口,就要說場景、用戶、需求、細節、你有什么特別的洞察等等這些。
沒有why和how支撐的what,沒有意義。
這背后,更實戰的干貨認知,是我在《AI創業公司的妄念:招個AI產品經理來想idea》中分享的這幾段話:
老板/部門負責人們,以為自己需要能提供好點子(idea)的產品經理,但其實真正需要補齊的,是“垂直領域內的需求認知”。
為什么呢?因為假設“碰巧”想到了好的點子(方向和需求定位),但如果沒有深度的行業認知,老板(和其他人)也根本不知道如何認知評估這個idea是否靠譜、以及為什么。
即使公司愿意投入一定資源去做MVP,仍然95%的概率會因為搞不清楚事情的關鍵點、最核心的指標是啥,而錯過機會——淺嘗輒止的把項目砍掉,直到1、2年后再后悔沒有持續投入。
大家可以回顧下自己所在公司/項目,是否經歷過這種事?
所以,產品經理是需要有行業know-how(垂直領域內的需求認知),在“某個需求點是真實存在還是偽需求”這種問題上,直接給團隊答案的,讓大家少走彎路,以及在關鍵決策場合,還能夠扛住老板的壓力、堅持自己的判斷。
前面《后GPT時代,多模態是最大的機會》原文中提到,“普通用戶的想象力是無窮無盡的。只要有更好的表達方式和更簡單的工具,用戶就一定能再次創造數字內容的新風潮?!久茉谟?,目前的技術工具無法滿足用戶旺盛的創造需求……普通用戶很難效法?!?/p>
從產品認知看,我個人對此是存疑的。因為對于大多數普通用戶,可能并沒有那么大的“創意/想象力”能力,也沒有那么強的需求迫切度去“發揮創意”。
結果視角,也許會存在“涌現出想象力效果”的情況,但是,原因不一定是“工具”,還可能是因為“用戶+AI工具+社區”,類似Midjourney那樣。
真正有更大、更明確需求的,是“有私域知識庫的個人IP”。
在《我看到的AIGC落地機會(3)_IP知識庫+ChatGPT》中,我有提到:
從產品角度看,似乎大家都容易想到這個點;從技術角度看,有技術同行說,技術不是門檻,數據才是。
我想說的是,數據是核心壁壘之一,但這事成敗因素,更在于“對IP內容生意的know-how”。
我做AI產品經理社群馬上6年了,直到最近大半年,我才開始明白,IP能力和專業(內容)能力,其實是2個不同維度的東西。這個世界里,專業牛人非常多,但能基于內容賺到錢的專業牛人并不多;很多粉絲量很大的IP/自媒體,其實并沒有那么賺錢。
原文中,結合自身6年IP社群運營經驗教訓,我最終想到了3個貌似講得通的產品/商業定位。
想做這個方向的技術或產品同行估計不少,但如果沒有這方面的親身體驗,可能會走一些彎路。
二、技術路徑:需要繼續把模型(和數據)變大?
原文提到:“將這種智能范式擴展到三維、四維的時空范圍,復雜度的增長是指數級別的。因此,在視頻、3D、動畫序列等較文、圖更復雜的多模態領域,技術迭代并收斂到一個大一統方法的時間周期可能會相當長,三至五年只是我的保守估計。”
對這點,好像也有點存疑。不僅因為
1. 現在已經是大煉鋼鐵的狀況了,資源耗損巨大,再加碼的話,不對勁。
2. 本來很多從業者就認為,“小樣本”學習,才是真正智能的屬性之一。
3. 本來很多人認為“多模態”是必須的,但OpenAI的工作和認知告訴我們,在文本層面“預測下一個字符”,“壓縮效率”就約等于/等效于“泛化效率”。甚至可以說,在“心”的層面,文本/圖像/視頻本身就是“全息/等效”的。
而且,公開報道中有過相關的細節:
1、OpenAI首席科學家Ilya Sutskever:訓練模型一定會在某個時刻,用完所有 tokens,到那時,就需要其他方法來訓練模型,而不是更多數據……我(Ilya)對多模態性的必要性的看法:它并非必須,但絕對有用。這是一個值得追求的好方向,我只是不認為應該將它們分得如此明確。
2、OpenA聯合創始人Greg Brockman:一般以為問題在于訓練數據太少,但我們有時突然意識到,原來問題出在基本假設上(從第一性原理出發)。
當然,原文中作者也提到,“也許必須采用新算法設計來解決復雜度爆炸的問題?;蛘?,因為模態間知識遷移的可能性,讓AI更加深入理解訓練數據豐富的低維度文、圖信息,一定可以幫助AI更快地從高維度信息中學習知識?!?/p>
三、產品設計:有沒有新的認知或方法論?
AI 2.0時代,一定會有新的產品設計思路或想法,比如《AI產品方法論之“由用戶來完成AI產品設計的最后一公里”》。
對于多模態,目前業內還沒有沉淀可供參考。
我也只是曾經有個相關的靈感點:在特殊場景下,任何單一模態disable了,整體還可以繼續交互——類比4個引擎的飛機,壞了一個,還可以繼續飛!
專欄作家
hanniman,微信公眾號:hanniman,人人都是產品經理專欄作家,前圖靈機器人-人才戰略官/AI產品經理,前騰訊產品經理,10年AI經驗,13年互聯網背景;作品有《AI產品經理的實操手冊》(AI產品經理大本營的4年1000篇干貨合輯)、200頁PPT《人工智能產品經理的新起點》。
本文原創發布于人人都是產品經理,未經許可,不得轉載。
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!