99久久免费国产精品四虎,最新无码国产在线播放

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

微軟寫了份GPT-4V說明書：提示詞demo示例一應(yīng)俱全

量子位

2023-10-07

0 評(píng)論 1585 瀏覽 5 收藏

16 分鐘

大家對(duì)于多模態(tài)王炸大模型GPT-4V的相關(guān)知識(shí)了解嗎？又了解多少呢？下邊這篇文章的內(nèi)容的相關(guān)知識(shí)大家可以看一看哦！

多模態(tài)王炸大模型GPT-4V，166頁“說明書”重磅發(fā)布！而且還是微軟團(tuán)隊(duì)出品。

什么樣的論文，能寫出166頁？

不僅詳細(xì)測(cè)評(píng)了GPT-4V在十大任務(wù)上的表現(xiàn)，從基礎(chǔ)的圖像識(shí)別、到復(fù)雜的邏輯推理都有展示；

還傳授了一整套多模態(tài)大模型提示詞使用技巧——

手把手教你從0到1學(xué)會(huì)寫提示詞，回答專業(yè)程度一看就懂，屬實(shí)是把GPT-4V的使用門檻打到不存在了。

值得一提的是，這篇論文的作者也是“全華班”，7名作者全部是華人，領(lǐng)銜的是一位在微軟工作了17年的女性首席研究經(jīng)理。

在166頁報(bào)告發(fā)布前，他們還參與了OpenAI最新DALL·E 3的研究，對(duì)這個(gè)領(lǐng)域了解頗深。

相比OpenAI的18頁GPT-4V論文，這篇166頁“食用指南”一發(fā)布，立刻被奉為GPT-4V用戶必讀之物：

有網(wǎng)友感慨：這哪里是論文，這簡(jiǎn)直快成一本166頁的小書了。

還有網(wǎng)友看完已經(jīng)感到慌了：

不要只看GPT-4V的回答細(xì)節(jié)，我真的對(duì)AI展現(xiàn)出來的潛在能力感到害怕。

所以，微軟這篇“論文”究竟講了啥，又展現(xiàn)出了GPT-4V的哪些“潛力”？

一、微軟166頁報(bào)告講了啥？

這篇論文鉆研GPT-4V的方法，核心就靠一個(gè)字——“試”。

微軟研究員們?cè)O(shè)計(jì)了涵蓋多個(gè)領(lǐng)域的一系列輸入，將它們喂給GPT-4V，并觀察和記錄GPT-4V的輸出。

隨后，他們對(duì)GPT-4V完成各類任務(wù)的能力進(jìn)行評(píng)估，還給出了使用GPT-4V的新提示詞技巧，具體包括4大方面：

1. GPT-4V的用法

5種使用方式：輸入圖像（images）、子圖像（sub-images）、文本（texts）、場(chǎng)景文本（scene texts）和視覺指針（visual pointers）。

3種支持的能力：指令遵循（instruction following）、思維鏈（chain-of-thoughts）、上下文少樣本學(xué)習(xí)（in-context few-shot learning）。

例如這是基于思維鏈變更提問方式后，GPT-4V展現(xiàn)出的指令遵循能力：

2. GPT-4V在10大任務(wù)中的表現(xiàn)

開放世界視覺理解（open-world visual understanding）、視覺描述（visual description）、多模態(tài)知識(shí)（multimodal knowledge）、常識(shí)（commonsense）、場(chǎng)景文本理解（scene text understandin）、文檔推理（document reasoning）、寫代碼（coding）、時(shí)間推理（temporal reasonin）、抽象推理（abstract reasoning）、情感理解（emotion understanding）

其中就包括這種，需要一些智商才能做出來的“圖像推理題”：

3. 類GPT-4V多模態(tài)大模型的提示詞技巧

提出了一種新的多模態(tài)提示詞技巧“視覺參考提示”（visual referring prompting），可以通過直接編輯輸入圖像來指示感興趣的任務(wù)，并結(jié)合其他提示詞技巧使用。

4. 多模態(tài)大模型的研究;落地潛力

預(yù)測(cè)了多模態(tài)學(xué)習(xí)研究人員應(yīng)該關(guān)注的2類領(lǐng)域，包括落地（潛在應(yīng)用場(chǎng)景）和研究方向。

例如這是研究人員發(fā)現(xiàn)的GPT-4V可用場(chǎng)景之一——故障檢測(cè)：

但無論是新的提示詞技巧、還是GPT-4V的應(yīng)用場(chǎng)景，大伙兒最關(guān)注的還是GPT-4V的真正實(shí)力。

所以，這份“說明書”隨后用了150多頁來展示各種demo，詳細(xì)劇透了GPT-4V在面對(duì)不同回答時(shí)展現(xiàn)出的能力。

一起來看看GPT-4V如今的多模態(tài)能力進(jìn)化到哪一步了。

二、精通專業(yè)領(lǐng)域圖像，還能現(xiàn)學(xué)知識(shí)

1. 圖像識(shí)別

最基礎(chǔ)的識(shí)別自然是不在話下，比如科技、體育界以及娛樂圈的各路名人：

而且不僅能看出這些人是誰，還能解讀他們正在做什么，比如下圖中老黃正在介紹英偉達(dá)新推出的顯卡產(chǎn)品。

除了人物，地標(biāo)建筑對(duì)于GPT-4V來說同樣是小菜一碟，不僅能判斷名稱和所在地，還能給出詳細(xì)的介紹。

△左：紐約時(shí)代廣場(chǎng)，右：京都金閣寺

不過越是有名的人和地點(diǎn)，判斷起來也就越容易，所以要難度更大的圖才能展現(xiàn)GPT-4V的能力。

比如醫(yī)學(xué)影像，針對(duì)下面這張肺部CT，GPT-4V給出了這樣的結(jié)論：

雙肺多個(gè)區(qū)域存在實(shí)變和磨玻璃混濁，肺部可能存在感染或炎癥。右肺上葉也可能有腫塊或結(jié)節(jié)。

甚至不告訴GPT-4V影像的種類和位置，它自己也能判斷。

這張圖中，GPT-4V成功識(shí)別出了這是一張腦部的核磁共振（MRI）影像。

同時(shí)，GPT-4V還發(fā)現(xiàn)存在大量積液，認(rèn)為很可能是高級(jí)別腦膠質(zhì)瘤。

經(jīng)過專業(yè)人士判斷，GPT-4V給出的結(jié)論完全正確。

除了這些“正經(jīng)”的內(nèi)容之外，當(dāng)代人類社會(huì)的“非物質(zhì)文化遺產(chǎn)”表情包也被GPT-4V給拿捏了。

△機(jī)器翻譯，僅供參考

不僅是解讀表情包中的梗，真實(shí)世界中人類的表情所表達(dá)的情感也能被GPT-4看穿。

除了這些真·圖像之外，文本識(shí)別也是機(jī)器視覺中的一項(xiàng)重要任務(wù)。

這方面，GPT-4V除了可以識(shí)別拉丁文字拼寫的語言之外，中文、日文、希臘文等其他文字也都認(rèn)識(shí)。

甚至是手寫的數(shù)學(xué)公式：

2. 圖像推理

前面展示的DEMO，無論多么專業(yè)或多么難懂，都還停留在識(shí)別的范疇，但這只是GPT-4V技能的冰山一角。

除了看懂圖片中的內(nèi)容，GPT-4V還具有一定的推理能力。

簡(jiǎn)單一些的，GPT-4V可以發(fā)現(xiàn)兩張圖中的不同（雖然還有些錯(cuò)誤）。

下面的一組圖中，王冠和蝴蝶結(jié)的區(qū)別都被GPT-4V發(fā)現(xiàn)了。

如果加大難度，GPT-4V還能解決IQ測(cè)試當(dāng)中的圖形問題。

上面的這三道題中的特征或邏輯關(guān)系都還比較簡(jiǎn)單，但接下來就要上難度了：

當(dāng)然難度不是在于圖形本身，注意圖中的第4條文字說明，原題目中圖形的排列方式不是圖中展示的樣子。

3. 圖片標(biāo)注

除了用文本回答各種問題，GPT-4V還可以在圖片中執(zhí)行一系列操作。

比如我們手里有一張四位AI巨頭的合影，要GPT-4V框出其中的人物并標(biāo)注他們的姓名和簡(jiǎn)介。

GPT-4V先是用文本回答了這些問題，緊接著便給出了處理之后的圖片：

4. 動(dòng)態(tài)內(nèi)容分析

除了這些靜態(tài)內(nèi)容，GPT-4V還能做動(dòng)態(tài)分析，不過不是直接喂給模型一段視頻。

下面的五張圖是從一段制作壽司的教程視頻中截取的，GPT-4V的任務(wù)是（在理解內(nèi)容的基礎(chǔ)上）推測(cè)這些圖片出現(xiàn)的順序。

而針對(duì)同一系列的圖片，可能會(huì)有不同的理解方式，這是GPT-4V會(huì)結(jié)合文本提示進(jìn)行判斷。

比如下面的一組圖中，人的動(dòng)作究竟是開門還是關(guān)門，會(huì)導(dǎo)致排序結(jié)果截然相反。

當(dāng)然，通過多張圖片中人物狀態(tài)的變化，還可以推測(cè)出他們正在做的事情。

甚至是預(yù)測(cè)接下來會(huì)發(fā)生什么：

5. “現(xiàn)場(chǎng)學(xué)習(xí)”

GPT-4V不僅視覺本領(lǐng)強(qiáng)，關(guān)鍵是還能現(xiàn)學(xué)現(xiàn)賣。

還是舉個(gè)例子，讓GPT-4V讀汽車儀表盤，一開始得出的答案是錯(cuò)誤的：

緊接著把方法用文字交給GPT-4V，但這是的答案依然不對(duì)：

然后又把例子展示給GPT-4V，答案倒是有樣學(xué)樣，可惜數(shù)字是胡編亂造出來的。

只有一個(gè)例子的確是有點(diǎn)少，不過隨著樣本數(shù)量的提高（其實(shí)只多了一個(gè)），終于功夫不負(fù)有心人，GPT-4V給出了正確答案。

GPT-4V的效果就展示這么多，當(dāng)然它還支持更多的領(lǐng)域和任務(wù)，這里無法一一展示，感興趣的話可以閱讀原始報(bào)告。

那么，GPT-4V這些神器的效果背后，是怎樣的一個(gè)團(tuán)隊(duì)呢？

三、清華校友領(lǐng)銜

這篇論文的作者一共有7位，均為華人，其中6位是核心作者。

項(xiàng)目領(lǐng)銜作者Lijuan Wang，是微軟云計(jì)算與AI首席研究經(jīng)理。

她本科畢業(yè)于華中科技大學(xué)，在中國(guó)清華大學(xué)獲得博士學(xué)位，于2006年加入微軟亞洲研究院，并于2016年加入位于雷德蒙德的微軟研究院。

她的研究領(lǐng)域是基于多模態(tài)感知智能的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)，具體又包括視覺語言模型預(yù)訓(xùn)練、圖像字幕生成、目標(biāo)檢測(cè)等AI技術(shù)。

作者：克雷西蕭簫

來源公眾號(hào)：量子位（ID：QbitAI），追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @量子位授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

量子位

追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

64篇作品 174780總閱讀量

交換式旅游：旅行住到陌生人家里去，現(xiàn)在年輕人旅游玩這么大？

07-112247 瀏覽

工單系統(tǒng)——深度解析高效的功能架構(gòu)（中）

04-1111611 瀏覽

阿里的AI有點(diǎn)“笨”，但是他們能成事兒！

08-233581 瀏覽

從0到1，讀懂商業(yè)應(yīng)用開發(fā)平臺(tái)

11-243562 瀏覽

入手充電運(yùn)營(yíng)平臺(tái)（國(guó)內(nèi)）建設(shè)：聊聊不同客戶的業(yè)務(wù)訴求

10-103659 瀏覽

評(píng)論

目前還沒評(píng)論，等你發(fā)揮！

協(xié)同辦公產(chǎn)品設(shè)計(jì)，看這一篇就夠了（2）｜實(shí)時(shí)協(xié)同產(chǎn)品的特性

02-206708 瀏覽
【圖解權(quán)限】系統(tǒng)權(quán)限是如何生效的？

05-236314 瀏覽
手把手教你寫好一份【解決方案】

07-059582 瀏覽