99国产精品欧美一区二区三区,精品国产一区二区三区免费

中文字幕无码av不卡一区,亚洲综合AV永久无码精品一区二区,黑人巨大白妞出浆,黄色高清无码免费看,久久久久免费精品国产,久久无码人妻丰满熟妇区毛片,欧美日韩国产综合草草,久久福利网站,亚洲一区二区三区中文字幕在线,av国内精品久久久久影院

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

被高估的Pika，被低估的多模態(tài)AI

甲子光年

2023-12-12

0 評論 1881 瀏覽 2 收藏

18 分鐘

最近，多模態(tài) AI 成為了大模型圈的關(guān)鍵詞之一，在最近一些產(chǎn)品如 Pika 1.0、谷歌 Gemini 的表現(xiàn)中可以看到，多模態(tài) AI 正在為 AI 應(yīng)用帶來更多可能性。怎么理解多模態(tài) AI 給我們帶來的想象力？產(chǎn)品如Pika 1.0 的表現(xiàn)又如何？一起來看看本文的解讀。

多模態(tài) AI 正處于爆發(fā)前夜。

從 GPT-4V 的“驚艷亮相”，到 AI 視頻生成工具 Pika 1.0 的“火爆出圈”，再到谷歌 Gemini 的“全面領(lǐng)先”，多模態(tài) AI 都是其中的關(guān)鍵詞。

盡管 Pika 1.0 的宣傳視頻被一些用戶認為是“炒作”，亦或谷歌承認 Gemini 的演示視頻“經(jīng)過剪輯”，但不能否認，它們豐富了人們對多模態(tài) AI 的想象力。

“之前很多公司都在卷文本大模型，GPT-4V 的出現(xiàn)代表多模態(tài)大模型可落地，毫無疑問明年大家都會卷多模態(tài)AI，原因很簡單，因為 OpenAI 說明這條路是能夠走得通?！蔽⒉┬录夹g(shù)研發(fā)負責人、AI 首席科學(xué)家張俊林說。

在行業(yè)主語為“落地”的當下，多模態(tài) AI 正走向場景化、實用化、商業(yè)化。例如，在醫(yī)療領(lǐng)域可以通過結(jié)合圖像、錄音和病歷文本，提供更準確的診斷和治療方案；在交通領(lǐng)域，結(jié)合圖像和傳感器數(shù)據(jù)，帶來更智能、更安全的自動駕駛體驗；在教育領(lǐng)域，將文本、聲音、視頻相結(jié)合，呈現(xiàn)更具互動性的教育內(nèi)容。

但是業(yè)界一直在提多模態(tài)的概念，遠沒有近期幾個現(xiàn)象級產(chǎn)品的演示那么直觀：多模態(tài)不僅可以為 AI 應(yīng)用帶來更多可能性，還是實現(xiàn)通用人工智能的重要路徑。

一、Pika：實力還是炒作？

最近的 AI 圈的飯局上，大家聊到多模態(tài) AI ，往往都會提到一家硅谷的初創(chuàng)公司—— Pika Labs。

公司初創(chuàng)團隊只有 4 個人，創(chuàng)始人兼 CEO 郭文景有“女學(xué)霸”“斯坦福退學(xué)創(chuàng)業(yè)”“上市公司創(chuàng)始人女兒”等個人標簽； Pika 三輪融資已籌款 5500 萬美元，估值在 2-3 億美元之間；投資者包括 Quora 創(chuàng)始人兼CEO Adam D’angelo 、 OpenAI 科學(xué)家 Andrej Karpathy、Hugging Face 聯(lián)合創(chuàng)始人兼CEO Clem Delangue、YC 合伙人 Daniel Gross 等人。

這些都加起來，可以說 Pika 的爆火是在發(fā)展過程中，講了一個技術(shù)、商業(yè)、資本、用戶都感興趣的故事，而且趕上了一個好的時機。

“今年6月份之后，AI生成圖片的投資變得比較保守，很多投資人會更關(guān)注 AI 生成視頻?！睆氖?AI 生成視頻研究的浦林（化名）告訴「甲子光年」，自有 AIGC 概念開始，無論是 AI 生成圖片還是 AI 生成視頻都很熱，但是基于技術(shù)的發(fā)展程度，業(yè)內(nèi)預(yù)計今年年底，AI 生成視頻會有一個不錯的 demo 出現(xiàn)。“這個 demo 足夠吸引很多的流量，甚至出圈，有這樣的信心，那投資的邏輯就能走下去了?？梢哉f， Pika 占到一個很好的時間點?！?/strong>

Pika 1.0 推出的當天，科技圈大佬們紛紛為其站臺。

自然語言處理領(lǐng)域著名學(xué)者 Christopher Manning 稱贊 Pika 的兩位創(chuàng)始人郭文景和孟晨琳推動了高質(zhì)量視頻的快速發(fā)展；OpenAI 科學(xué)家 Andrej Karpathy 在社交平臺上轉(zhuǎn)發(fā)了 Pika 1.0 的演示內(nèi)容并表示：“每個人都能成為多模態(tài)夢想的導(dǎo)演，就像《盜夢空間》中的建筑師一樣?！?/p>

Pika 1.0 火爆出圈，離不開一段官方宣傳視頻。視頻中，用戶只要輸入“馬斯克穿著太空服，3D 動畫”，就生成了一段視頻。

Pika 1.0 官方宣傳視頻中其它演示也可以用“驚艷”來形容，視頻發(fā)布后，已經(jīng)有媒體迫不及待地稱“AI 生成視頻的 ChatGPT 時刻即將達來”。

但是，Pika 真的如宣傳視頻上所展現(xiàn)的那么“驚艷”嗎？

今年 7 月，Pika Labs 就在 Discord 推出服務(wù)器，短短幾個月時間內(nèi)收獲了 50 萬用戶。不過，想使用最新的 Pika 1.0 ，在官網(wǎng)可能還需一段時間的排隊。但在 Discord 上，許多用戶已經(jīng)曬出了測試視頻。

目前，Pika 1.0 還只能生成 3 秒展示視頻。在社群中，用戶 A 輸入提示詞： A dragon fly in sky（一條龍在天上飛）。這個表達是比較清晰明確的，但輸出的視頻結(jié)果卻和龍毫不相關(guān)，更像一個克蘇魯生物。

而用戶 B 輸入了更為細致的提示詞：female priest – dnd character – in battle pose – character select default animation – camera zoom in – motion 1（女性牧師 – 龍與地下城角色 – 戰(zhàn)斗姿勢 – 角色選擇默認動畫 – 攝像頭放大 – 動作1）。

這次 Pika 1.0 輸出的視頻結(jié)果大體相符要求，但細節(jié)依然有明顯缺陷，角色的手部構(gòu)圖“慘不忍睹”。不過，“AI 不會數(shù)數(shù)”是存在已久的問題，并非 Pika 獨有的“瑕疵”。

但也不乏效果驚艷的案例，比如用戶 C 提供了圖片并輸入提示詞：stranded medieval ship, violent sea, rain, clifs, slow motion, -motion 2 -gs22 -camera pan right Image: 1 Attachment（擱淺的中世紀船只、洶涌的海浪、雨水、懸崖、慢動作、動作2 、gs22 -攝像機向右平移、圖像：附件1），生成的視頻效果較為精美。

AI 教育者 Chase Lean 在試用了 Pika 1.0 后難掩激動之情，他在社交媒體上直言這是他“使用過的最好的 AI 視頻生成器”。

浦林一直在關(guān)注Pika及相關(guān)產(chǎn)品，從demo和實際使用感受來說，Pika 1.0 已經(jīng)屬于“行業(yè)領(lǐng)先水平”。

對于AI生成視頻工具，最為簡單的評判標準就是“生成的內(nèi)容是否真實”。在技術(shù)上，Pika 在單幀畫面擬真程度、美學(xué)質(zhì)量以及視頻的動作感上表現(xiàn)出色，在文生視頻、圖生視頻的能力和運鏡上也有不錯的能力展示。除算法外，社區(qū)活躍度也被認為是初創(chuàng)公司核心競爭力的一部分，包括維護 Discord 社區(qū)等。目前，Pika 的社區(qū)活躍度位列業(yè)內(nèi)前茅。

在圖像和視頻生成方面，業(yè)內(nèi)主流技術(shù)路線為Diffusion Model（擴散模型）。不過Pika聯(lián)合創(chuàng)始人孟晨琳在接受采訪時透露：“Pika 也不能完全算 Diffusion Model，我們開發(fā)了很多新東西，是一種新的模型?！?/p>
不過在浦林看來，Pika 與其它AI生成視頻工具（如 Runway ）“在技術(shù)上沒有本質(zhì)差別”，一些自媒體對 Pika 和 Runway 的對比分析“純粹是經(jīng)驗歸納”。

這也就會帶來一個問題，長期關(guān)注AI領(lǐng)域的投資人辰逸（化名）向「甲子光年」表達了他的擔憂：“Diffusion Model 不是智能的。它主要根據(jù)過去圖像的經(jīng)驗擬合出符合人類審美的圖像，并不具備理解語言和智能思考的能力。而當我們在使用 ChatGPT 時，會有在和真人對話的感覺，雖然這個「人」的智商可能忽高忽低?！?/p>
辰逸認為，盡管Pika爆火離不開產(chǎn)品實力，但“炒作”成分更多些。

“就像炒土豆絲，每個人使用的廚具、調(diào)味料等可能大不相同，但原材料歸根結(jié)底都是土豆?！背揭荼扔鞯?，“理解語言的根本問題并沒有解決，圖像學(xué)還缺少一個飛躍的時刻。”

而在回答“AI 視頻生成什么時候會迎來 GPT 時刻”的問題時，Pika團隊還是比較清醒的，孟晨琳認為，目前視頻生成處于類似 GPT-2 的時期，“很可能在未來一年內(nèi)有一個顯著的提升”。

Pika 的能力在某種程度上被高估了，但 Pika 帶來的破圈效果是從業(yè)者樂于見到的。浦林五年前就進入了 AI 生成視頻領(lǐng)域，最近這半年是他覺得這個領(lǐng)域“最火”的一段時間，盡管他也覺得 Pika “在宣傳上比較用力”，但是從專業(yè)角度分析，他相信 4 個人的團隊做出 Pika 是“沒問題的”。

二、爭奪AI視頻生成高地

從技術(shù)視角來看，有業(yè)內(nèi)學(xué)者認為，相對于文本、代碼和圖片生成，文生視頻（Text-to-Video）是 AIGC 的“高地”，因為這個領(lǐng)域存在著算力需求大、高質(zhì)量數(shù)據(jù)集短缺、可控性較差等挑戰(zhàn)。

浦林認為，AI視頻生成領(lǐng)域還有一個難題，即生產(chǎn)和研究之間存在的差距。

研究者往往難在第一時間將研究成果應(yīng)用于實際，因為不同的視頻制作者，比如電影、動畫、短劇的制作者，有著不同的制作流程，而研究中可能只涉及一種特定的生產(chǎn)方式，比如文本到視頻。

浦林近期也在產(chǎn)業(yè)中調(diào)研，通過和電影制片方的交流不斷優(yōu)化自己的研究方向。“解決難題的關(guān)鍵在于開發(fā)的工具能否真正滿足視頻制作者的需求，并與其實際工作流程相契合。”浦林告訴「甲子光年」，“當你的研究越靠近生產(chǎn)的時候，它會產(chǎn)生更大的經(jīng)濟價值?！?/strong>

商湯科技數(shù)字文娛事業(yè)部副總裁李星冶表示，多模態(tài) AI 中門檻比較高的就是文生視頻，“現(xiàn)在一些廣告視頻的制作，只要錄入文本就能生成視頻，當然目前效率還沒有那么高，視頻像素可以達到 4K 或者 8K，但是動畫效果還比較簡單?！?/p>
AI 視頻生成領(lǐng)域，賽道也愈發(fā)擁擠起來。盡管 Pika 備受矚目，但接下來它仍需面對不斷增多的競爭。

Runway 推出了動態(tài)筆刷新功能 Motion Brush，用戶只需在圖片上輕輕一劃，即可將其轉(zhuǎn)化為動態(tài)視頻。另外，Runway 還與電影制作公司展開了緊密合作。

Stability AI公司發(fā)布了其 Stable Video Diffusion 視頻模型，用戶可根據(jù)需要調(diào)整各種參數(shù)，如迭代步數(shù)、重繪幅度等，以協(xié)助創(chuàng)作者精確掌控畫面生成過程，包括風格、姿勢和線條等特征。

除此之外，現(xiàn)象級文生圖工具 Midjourney 也正在著手開發(fā)視頻功能；Meta 也推出了兩項基于人工智能的視頻編輯新功能。

而在開源方面，AnimateDiff、MAKEAVIDEO、MagicAnimate等也在布局 AI 視頻生成賽道。

三、多模態(tài)AI的想象

對于投資人來說，多模態(tài)AI也是今年下半年的關(guān)注焦點。

長期關(guān)注AI領(lǐng)域投資的心資本合伙人吳炳見認為，大語言模型只是AI版圖的一部分，基礎(chǔ)模型的第一性原理是“predict next token（預(yù)測下一個詞）”，這個原理有可能帶來其它模型。

“如果未來 Transformer或者另外一套算法能夠準確預(yù)測下一幀，那么視頻模型就出來，就有機會解鎖下一個抖音級別的內(nèi)容平臺；如果能準確預(yù)測下一串動作序列，那么具身智能模型就出來了，就解鎖通用機器人了；如果能準確預(yù)測下一個蛋白質(zhì)序列，那么蛋白質(zhì)模型就出來了，新藥研發(fā)又可以邁進一大步了；如果能準確預(yù)測下一個像素，那么3D模型就出來了，就解鎖元宇宙的構(gòu)建了。”吳炳見說。

在吳炳見看來，待版圖完全解鎖后，就會有多個基礎(chǔ)模型，而很多方向的邊際成本會趨近于零，不斷解鎖新的應(yīng)用層的機會。

國內(nèi)的 AI 廠商也在加強對多模態(tài) AI 的投入。昆侖萬維在海外進行了 AI 多模態(tài)場景探索，其中包括了AI游戲（Club Koala），之前已經(jīng)在德國科隆游戲展上亮相，預(yù)計將于明年上半年進行測試。“這里不僅包括了常見的對話，通過大模型賦能的 AI NPC，也包括 3D 生成等 AIGC 技術(shù)，尤其是在 AI 3D 生成方面，我們做得比較領(lǐng)先?！崩鋈f維董事長兼 CEO 方漢介紹。

「甲子光年」還關(guān)注到一些技術(shù)大佬入局。例如，清華大學(xué)計算機系 Bosch AI 教授、清華大學(xué)人工智能研究院副院長朱軍創(chuàng)立的生數(shù)科技，專注于多模態(tài)層面，致力于打造可控的多模態(tài)通用大模型；前字節(jié)跳動前視覺技術(shù)負責人、AI Lab 總監(jiān)王長虎創(chuàng)立了愛詩科技，聚焦于生成式 AI 的視覺多模態(tài)算法平臺。

盡管多模態(tài)大模型使AI能夠根據(jù)圖像內(nèi)容推理復(fù)雜問題，但仍無法像視覺感知系統(tǒng)那樣在圖像上精確定位指令對應(yīng)的目標區(qū)域。因此，香港中文大學(xué)賈佳亞團隊提出LISA（Large Language Instructed Segmentation Assistant）多模態(tài)大模型。LISA通過引入一個<SEG>標記來擴展初始大型模型的詞匯表，并采用Embedding-as-Mask（嵌入作為掩碼）的范式賦予解釋多模態(tài)大型模型分割功能，最終展現(xiàn)出強大的零樣本泛化能力。

LISA技術(shù)方案概述，圖片來源：受訪者提供

在垂直應(yīng)用場景上，云知聲通過醫(yī)療知識增強的山海大模型北京友誼醫(yī)院打造的門診病歷生成系統(tǒng)，可以在不改變醫(yī)生問診方式情況下，通過醫(yī)生與患者的對話錄音，抽取關(guān)鍵問診信息并生成病歷，將醫(yī)生從病歷撰寫工作中解放出來，把更多時間留給患者。

谷歌近期重磅推出的 Gemini 也顯示了多模態(tài)模型在各應(yīng)用場景中的潛在價值。如何真正打通物理世界和數(shù)字世界之間的屏障，關(guān)鍵在于有效處理多模態(tài) AI 能力。用底層的感知能力衍生出操作，從而實現(xiàn)與物理世界最自然的交互方式。

在多模態(tài) AI 爆發(fā)之前，不要溫和地走進這個良夜。

*應(yīng)受訪對象要求，文中浦林、辰逸為化名

*參考資料：

專訪Pika Labs創(chuàng)始人：探索視頻生成的GPT時刻，海外獨角獸

LISA：通過大語言模型進行推理分割，香港中文大學(xué)賈佳亞團隊

作者：蘇霍伊；編輯：王博

原文標題：被高估的Pika，被低估的多模態(tài)AI｜甲子光年

來源公眾號：甲子光年（ID：jazzyear），立足中國科技創(chuàng)新前沿陣地，動態(tài)跟蹤頭部科技企業(yè)發(fā)展和傳統(tǒng)產(chǎn)業(yè)技術(shù)升級案例。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @甲子光年授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于CC0協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

Pika 多模態(tài)AI 視頻生成

海報

甲子光年

29篇作品 101051總閱讀量

為你推薦

加碼本地生活、成為“萬能入口”，抖音完成了百度曾經(jīng)的夢想？

05-111499 瀏覽

我花了1萬塊給貓過年：六菜一湯、專人陪護、智能喂養(yǎng)

01-312196 瀏覽

企業(yè)架構(gòu)2——企業(yè)架構(gòu)概述

07-202246 瀏覽

薅美團羊毛，買會員是最差的選擇

07-283628 瀏覽

AI產(chǎn)品經(jīng)理工作指南

09-256973 瀏覽

評論

評論請登錄

目前還沒評論，等你發(fā)揮！

為你推薦

決策：產(chǎn)品經(jīng)理的取舍之道

06-308331 瀏覽

我用低代碼平臺，搭建了一套管理系統(tǒng)（含需求分析過程）

10-174884 瀏覽

如何寫出有效的文案，刺激用戶購買

11-132944 瀏覽

快訊
查看更多

熱門文章

大語言模型：LLM的高階應(yīng)用「指令工程」

11-05

產(chǎn)品新人系列（一）｜PRD宣講，應(yīng)該關(guān)心什么問題

11-04

淺談如何設(shè)計給高層決策者的數(shù)據(jù)看板

11-07

原型交互說明怎么寫？

11-01

讓轉(zhuǎn)化率提升10倍的海報技巧

11-04

并非所有的產(chǎn)品設(shè)計都是為了賣得更好？

11-08

文章導(dǎo)航

一、Pika：實力還是炒作？

二、爭奪AI視頻生成高地

三、多模態(tài)AI的想象

關(guān)于
人人都是產(chǎn)品經(jīng)理（woshipm.com）是以產(chǎn)品經(jīng)理、運營為核心的學(xué)習(xí)、交流、分享平臺，集媒體、培訓(xùn)、社群為一體，全方位服務(wù)產(chǎn)品人和運營人，成立12年舉辦在線講座1000+期，線下分享會500+場，產(chǎn)品經(jīng)理大會、運營大會50+場，覆蓋北上廣深杭成都等20個城市，在行業(yè)有較高的影響力和知名度。平臺聚集了眾多BAT美團京東滴滴360小米網(wǎng)易等知名互聯(lián)網(wǎng)公司產(chǎn)品總監(jiān)和運營總監(jiān)，他們在這里與你一起成長。

合作伙伴

鏈接

隱私政策

投稿須知

意見反饋

幫助中心

公眾號

視頻號

友情鏈接

PM265

產(chǎn)品經(jīng)理導(dǎo)航

起點課堂

豬八戒網(wǎng)

人才熱線

伙伴云表格

網(wǎng)易易盾

個推

友盟+

糧倉

創(chuàng)業(yè)邦

每日報告

鳥哥筆記

慕課網(wǎng)

旗下品牌: 起點課堂 | 運營派 | 糧倉企微管家
?2010-2024 - 人人都是產(chǎn)品經(jīng)理 - 粵ICP備14037330號-粵公網(wǎng)安備 44030502001309號
 廣播電視節(jié)目制作經(jīng)營許可證（粵）字第03109號增值電信業(yè)務(wù)經(jīng)營許可證粵B2-20190788 版權(quán)所有 ? 深圳聚力創(chuàng)想信息科技有限公司

被高估的Pika，被低估的多模態(tài)AI

一、Pika：實力還是炒作？

二、爭奪AI視頻生成高地

三、多模態(tài)AI的想象

一、Pika：實力還是炒作？

二、爭奪AI視頻生成高地

三、多模態(tài)AI的想象