AV人摸人人人澡人人超碰小说 ,日本成人在线二区

中文字幕无码av不卡一区,亚洲综合AV永久无码精品一区二区,黑人巨大白妞出浆,黄色高清无码免费看,久久久久免费精品国产,久久无码人妻丰满熟妇区毛片,欧美日韩国产综合草草,久久福利网站,亚洲一区二区三区中文字幕在线,av国内精品久久久久影院

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

谷歌Gemini扳回一局！多模態(tài)能力和GPT-4V不分伯仲｜港中文128頁(yè)全面測(cè)評(píng)報(bào)告

量子位

2023-12-22

0 評(píng)論 4435 瀏覽 2 收藏

16 分鐘

在Gemini開(kāi)放API后，有機(jī)構(gòu)完成了相應(yīng)的能力評(píng)測(cè)，發(fā)現(xiàn)Gemini-Pro的感知和認(rèn)知綜合表現(xiàn)都相當(dāng)不錯(cuò)。具體怎么理解？這篇文章里，作者針對(duì)報(bào)告結(jié)果做了梳理，一起來(lái)看看吧。

谷歌扳回一局！

在Gemini開(kāi)放API不到一周的時(shí)間，港中文等機(jī)構(gòu)就完成評(píng)測(cè)，聯(lián)合發(fā)布了多達(dá)128頁(yè)的報(bào)告，結(jié)果顯示：

在37個(gè)視覺(jué)理解任務(wù)上，Gemini-Pro表現(xiàn)出了和GPT-4V相當(dāng)?shù)哪芰?/strong>。

在多模態(tài)專有基準(zhǔn)MME上，Gemini-Pro的感知和認(rèn)知綜合表現(xiàn)則直接獲得了1933.4的高分，超越GPT-4V（1926.6）。

此前，CMU測(cè)評(píng)發(fā)現(xiàn)Gemini-Pro的綜合能力居然和GPT-3.5差不多。

現(xiàn)在，在多模態(tài)這個(gè)一大主推的賣點(diǎn)上，Gemini-Pro可算是扳回一局。

那么具體如何？

測(cè)評(píng)報(bào)告一共128頁(yè)，咱們就挑重點(diǎn)來(lái)看。

一、Gemini-Pro的首份多模態(tài)能力報(bào)告來(lái)了

這份測(cè)評(píng)主要是對(duì)Gemini-Pro的視覺(jué)理解能力進(jìn)行評(píng)估。

一共涵蓋基礎(chǔ)感知、高級(jí)認(rèn)知、挑戰(zhàn)性視覺(jué)任務(wù)和各種專家能力四大領(lǐng)域，在37個(gè)細(xì)分任務(wù)項(xiàng)上進(jìn)行定性比較。

定量評(píng)估則在專為多模態(tài)大語(yǔ)言模型專門(mén)設(shè)計(jì)的評(píng)測(cè)基準(zhǔn)MME上展開(kāi)。

首先來(lái)看定量測(cè)試結(jié)果。

二、MME上綜合表現(xiàn)比GPT-4V強(qiáng)

MME基準(zhǔn)包含兩大類任務(wù)。

一個(gè)是感知，涵蓋目標(biāo)存在性判斷、物體計(jì)數(shù)、位置關(guān)系、顏色判斷、OCR識(shí)別、海報(bào)識(shí)別、名人識(shí)別、場(chǎng)景識(shí)別、地標(biāo)識(shí)別和藝術(shù)品識(shí)別等。

一個(gè)是認(rèn)知，涵蓋常識(shí)推理、數(shù)值計(jì)算、文本翻譯和代碼推理等。

結(jié)果如下：

可以看到Gemini-Pro和GPT-4V可謂“各有所長(zhǎng)”。

而計(jì)分顯示，Gemini-Pro的總分為1933.4，比GPT-4V（1926.6）要高那么一點(diǎn)點(diǎn)。

具體來(lái)看：

Gemini-Pro在文本翻譯、顏色/地標(biāo)/人物識(shí)別、OCR等任務(wù)中表現(xiàn)突出；

GPT-4V在名人識(shí)別任務(wù)上的得分為0，主要是因?yàn)榫芙^回答名人相關(guān)的問(wèn)題；

無(wú)論是Gemini還是GPT-4V在位置識(shí)別任務(wù)上表現(xiàn)都不佳，表明他們對(duì)空間位置信息不敏感；

開(kāi)源模型SPHINX在感知任務(wù)上與GPT-4V以及Gemini平齊甚至更優(yōu)，但認(rèn)知和兩者有較大差距。

下面就是四大項(xiàng)任務(wù)上的定性結(jié)果了。

1. 基礎(chǔ)感知

感知能力直接影響模型在高階任務(wù)中的能力，因?yàn)樗鼪Q定了模型獲取和處理原始視覺(jué)輸入的準(zhǔn)確性和有效性。

報(bào)告中分別測(cè)試了模型的對(duì)象級(jí)感知能力、場(chǎng)景級(jí)感知能力和基于知識(shí)的感知能力。

具體一共10個(gè)細(xì)分任務(wù)：

鑒于篇幅有限，我們?cè)诖酥徽故酒渲?個(gè)：

1）空間關(guān)系

都不分左右。但GPT-4V可以通過(guò)上下文少樣本學(xué)習(xí)這項(xiàng)任務(wù)，然后做出正確回答。

2）物體計(jì)數(shù)

簡(jiǎn)單樣例整體還OK，但復(fù)雜一點(diǎn)的全軍覆沒(méi)。不過(guò)在數(shù)NBA籃球運(yùn)動(dòng)員時(shí)，Gemini-Pro的答案已經(jīng)相當(dāng)接近了（正確為42個(gè)）。

3）視覺(jué)錯(cuò)覺(jué)

左側(cè)樣例中，兩個(gè)梨實(shí)際上具有相同的亮度。Gemini Pro正確識(shí)別，而GPT-4V和SPHNIX被欺騙。

4）場(chǎng)景理解

模型都能夠描繪場(chǎng)景中的關(guān)鍵視覺(jué)元素。相比之下，GPT-4V顯示出優(yōu)越的性能，描述更加詳細(xì)，并且幻覺(jué)的實(shí)例也更少。

5）視頻場(chǎng)景理解

從視頻中抽取三個(gè)時(shí)刻的關(guān)鍵幀，Gemini Pro能夠?qū)⒉煌瑤男畔⒄铣梢粋€(gè)連貫的場(chǎng)景描述。

而GPT-4V只是逐幀描述圖像的內(nèi)容。相比之下，SPHNIX的描述并沒(méi)有表現(xiàn)出對(duì)圖像序列的全面理解。

2. 高級(jí)認(rèn)知

這類任務(wù)需要模型進(jìn)行深入的推理、解決問(wèn)題和決策。

在此，報(bào)告中分別測(cè)試了模型的富含文本的視覺(jué)推理能力、抽象視覺(jué)推理能力、解決科學(xué)問(wèn)題能力、情感分析能力、智力游戲能力。具體包括13項(xiàng)細(xì)分任務(wù)，同樣限于篇幅我們只展示其中幾項(xiàng)。

1）代碼生成

將結(jié)構(gòu)化視覺(jué)內(nèi)容轉(zhuǎn)換為相應(yīng)的代碼是多模態(tài)大模型的一項(xiàng)重要技能，在此分別測(cè)試了模型識(shí)別公式生成LaTex代碼和識(shí)別網(wǎng)頁(yè)生成HTML代碼的能力。

Gemini Pro和GPT-4V在公式識(shí)別上表現(xiàn)出更好的結(jié)果，但仍然會(huì)錯(cuò)誤識(shí)別一些小字符或符號(hào)。

三個(gè)模型的識(shí)別網(wǎng)頁(yè)生成相應(yīng)HTML代碼的能力仍然存在很大的改進(jìn)空間。

2）抽象視覺(jué)刺激

對(duì)抽象視覺(jué)刺激和符號(hào)的理解和推理是人類智能的一項(xiàng)基本能力。GPT-4V展示了最好的抽象性能，提供了對(duì)象如何由形狀組成的詳細(xì)描述。Gemini Pro能識(shí)別一些簡(jiǎn)單的抽象模式。

3）圖像情感分析

模型都可以很好地描繪視圖，并提供其中可能的情感。GPT-4V觀察是中立的，強(qiáng)調(diào)情緒是主觀的，同時(shí)給出了更全面的分析。Gemini Pro傾向于直接輸出情感偏好。

4）情感調(diào)節(jié)輸出

情感調(diào)節(jié)輸出是讓多模態(tài)大模型描述以預(yù)定義情感為條件的視覺(jué)上下文。

雖然Gemini Pro和GPT-4V能夠正確地將相應(yīng)的情感注入到生成的文本中，但它們都遇到了幻覺(jué)問(wèn)題。

5）數(shù)獨(dú)游戲

如果僅以圖像作為輸入，盡管Gemini Pro嘗試在輸出矩陣內(nèi)提供答案，但無(wú)法正確識(shí)別空白位置，而GPT-4V和SPHNIX則無(wú)法進(jìn)行第一步光學(xué)字符識(shí)別。此外，給定相應(yīng)的文本輸入，Gemini Pro和GPT-4V都可以給出正確的答案。

3. 挑戰(zhàn)性視覺(jué)任務(wù)

評(píng)估多模態(tài)大模型在超出標(biāo)準(zhǔn)視覺(jué)問(wèn)答范圍的各種具有挑戰(zhàn)性的視覺(jué)任務(wù)中的性能。

需要模型具有深厚的視覺(jué)感知和理解能力，評(píng)估這類表現(xiàn)將有助于深入了解模型在多領(lǐng)域應(yīng)用的可行性。

報(bào)告中分別測(cè)試了模型在圖像視覺(jué)任務(wù)和時(shí)序視覺(jué)任務(wù)中的性能。具體包括以下7個(gè)細(xì)分任務(wù)：

在此我們展示3個(gè)。

1）指稱表達(dá)式理解

Gemini Pro和GPT-4V都能夠識(shí)別指稱對(duì)象的大致位置，但它們很難提供精確的坐標(biāo)和框大小。而SPHNIX展示了提供引用對(duì)象的準(zhǔn)確位置和大小的能力。

2）目標(biāo)跟蹤

Gemini Pro和GPT-4V都能夠描繪出要跟蹤的目標(biāo)的細(xì)節(jié)，但它們隨后兩幀圖像中提供了錯(cuò)誤的邊界框。

3）視覺(jué)故事生成

任務(wù)要求模型完全理解圖像中的信息，并在生成的故事中對(duì)其進(jìn)行邏輯組織。

Gemini Pro和SPHNIX提供了連貫的故事，但卻和沒(méi)有十分貼近漫畫(huà)劇情。

GPT-4V為每個(gè)插圖提供了精確的描述，卻未能根據(jù)任務(wù)要求將它們編織成一個(gè)有凝聚力的故事。

4. 各種專家能力

專家能力衡量多模態(tài)大模型將其學(xué)到的知識(shí)和技能應(yīng)用于不同專業(yè)領(lǐng)域的泛化能力。除了上述的感知和認(rèn)知任務(wù)外，多模態(tài)大模型在專門(mén)和獨(dú)特場(chǎng)景下的魯棒性通常具有更實(shí)際的參考意義。也是7個(gè)細(xì)分任務(wù)：

在此我們同樣展示3個(gè)：

1）缺陷檢測(cè)

缺陷檢測(cè)需要高精度和對(duì)細(xì)節(jié)的關(guān)注。對(duì)于缺陷明顯的圖像，模型都可以提供正確答案，其中GPT-4V輸出更詳細(xì)的原因和描述。

對(duì)于下圖中的螺紋損壞的樣例，Gemini Pro給出了過(guò)于籠統(tǒng)的答案，SPHNIX錯(cuò)誤地描述了外觀，而GPT-4V給出了標(biāo)準(zhǔn)答案。

2）經(jīng)濟(jì)分析

報(bào)告展示了兩個(gè)用于回答問(wèn)題的股價(jià)走勢(shì)圖。Gemini Pro擅長(zhǎng)專家級(jí)金融知識(shí)，能夠給出正確答案。GPT-4V由于安全風(fēng)險(xiǎn)而沒(méi)有給出明確答案。SPHNIX由于缺乏相關(guān)訓(xùn)練數(shù)據(jù)無(wú)法理解此類問(wèn)題。

3）機(jī)器人運(yùn)動(dòng)規(guī)劃

機(jī)器人規(guī)劃要求機(jī)器人能夠確定如何在給定情況下采取行動(dòng)以實(shí)現(xiàn)特定目標(biāo)。

Gemini Pro和GPT-4V都可以提供有條理且詳細(xì)的步驟，并且GPT-4V似乎比Gemini Pro給出了更合理的決定，例如電池的安裝順序，但SPHNIX無(wú)法完成手機(jī)的組裝，說(shuō)明其泛化能力有限。

三、總結(jié)評(píng)價(jià)：都是“半斤八兩”

鑒于其卓越的多模態(tài)推理能力，Gemini確實(shí)是GPT-4V的有力挑戰(zhàn)者。

在大多數(shù)情況下，與GPT-4V相比，Gemini的回答準(zhǔn)確性具有競(jìng)爭(zhēng)力，并展示了不同的回答風(fēng)格和偏好。

GPT-4V傾向于生成對(duì)感知任務(wù)更詳細(xì)的描述，并為認(rèn)知任務(wù)提供深入的分析和逐步的中間推理，而Gemini更喜歡對(duì)答案提供直接而簡(jiǎn)潔的回應(yīng)，這有助于用戶快速找到相關(guān)信息。

不過(guò)，兩個(gè)模型也存在一定的共性問(wèn)題，比如空間感知能力不強(qiáng)，復(fù)雜OCR和抽象視覺(jué)理解不理想，推理過(guò)程可能存在不自洽結(jié)果，對(duì)提示設(shè)計(jì)的魯棒性不足……在很多情況下仍然陷入困境。

所以，從現(xiàn)階段成果來(lái)看，兩者都點(diǎn)“半斤八兩”的意思。

作者最后的結(jié)論就是：

大模型的多模態(tài)能力總的來(lái)說(shuō)都還有很長(zhǎng)的路要走。

具體往哪走？

三個(gè)方面：視覺(jué)表示編碼（細(xì)粒度外觀、空間關(guān)系感知）、多模態(tài)對(duì)齊（減輕幻覺(jué)、OCR準(zhǔn)確性）以及模型推理能力（定量處理、邏輯一致性）。

關(guān)于Gemini Pro與GPT-4V、SPHNIX的更多評(píng)估比較，請(qǐng)查看原論文。

鏈接：

[1]https://arxiv.org/pdf/2312.12436.pdf

[2]https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

為我投票

我在參加人人都是產(chǎn)品經(jīng)理2023年度評(píng)選，希望喜歡我的文章的朋友都能來(lái)支持我一下~

點(diǎn)擊下方鏈接進(jìn)入我的個(gè)人參選頁(yè)面，點(diǎn)擊紅心即可為我投票。

每人每天最多可投30票，投票即可獲得抽獎(jiǎng)機(jī)會(huì)，抽取書(shū)籍、人人都是產(chǎn)品經(jīng)理紀(jì)念周邊&起點(diǎn)課堂會(huì)員等好禮哦！

投票傳送門(mén)：https://996.pm/MndEQ

作者：happy

來(lái)源公眾號(hào)：量子位（ID：QbitAI），追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @量子位授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

Gemini GPT-4V 多模態(tài)能力大模型

海報(bào)

量子位

追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

64篇作品 174780總閱讀量

為你推薦

凌晨重磅！ChatGPT開(kāi)啟聯(lián)網(wǎng)，AI迎來(lái)AppStore時(shí)刻，應(yīng)用體驗(yàn)將被徹底顛覆

03-246306 瀏覽

抖音、微信“攻”，美團(tuán)、餓了么“守”，外賣江湖戰(zhàn)火升級(jí)

07-164774 瀏覽

支付寶的搖擺與堅(jiān)定

12-054066 瀏覽

設(shè)計(jì)復(fù)盤(pán)｜排序如何設(shè)計(jì)？

08-288257 瀏覽

如何寫(xiě)一份「不壞」的需求文檔？

02-2615798 瀏覽

評(píng)論

評(píng)論請(qǐng)登錄

目前還沒(méi)評(píng)論，等你發(fā)揮！

為你推薦

如果4.9分餐廳欺騙了你

12-263222 瀏覽

落地為王，「大模型」走出發(fā)布會(huì)

04-211985 瀏覽

年輕人沉迷的“貓鼠游戲”，養(yǎng)活了誰(shuí)？

10-272066 瀏覽

快訊
查看更多

熱門(mén)文章

AI產(chǎn)品觀察：雇一個(gè)免費(fèi)的AI助理幫你整理文件—Riffo

11-06

講透全域營(yíng)銷系列之消費(fèi)者心理鏈路

11-05

一文搞懂什么是戰(zhàn) 略

11-06

如何用AARRR模型實(shí)現(xiàn)高效用戶分層運(yùn)營(yíng)？

11-01

以史為鏡，AI時(shí)代有哪些發(fā)展機(jī)遇（2/3）：人工智能當(dāng)前的發(fā)展機(jī)遇

11-08

淺析高級(jí)B 端數(shù)字化產(chǎn)品經(jīng)理引導(dǎo)甲方客戶需求的思路

11-05

文章導(dǎo)航

一、Gemini-Pro的首份多模態(tài)能力報(bào)告來(lái)了

二、MME上綜合表現(xiàn)比GPT-4V強(qiáng)

三、總結(jié)評(píng)價(jià)：都是“半斤八兩”

關(guān)于
人人都是產(chǎn)品經(jīng)理（woshipm.com）是以產(chǎn)品經(jīng)理、運(yùn)營(yíng)為核心的學(xué)習(xí)、交流、分享平臺(tái)，集媒體、培訓(xùn)、社群為一體，全方位服務(wù)產(chǎn)品人和運(yùn)營(yíng)人，成立12年舉辦在線講座1000+期，線下分享會(huì)500+場(chǎng)，產(chǎn)品經(jīng)理大會(huì)、運(yùn)營(yíng)大會(huì)50+場(chǎng)，覆蓋北上廣深杭成都等20個(gè)城市，在行業(yè)有較高的影響力和知名度。平臺(tái)聚集了眾多BAT美團(tuán)京東滴滴360小米網(wǎng)易等知名互聯(lián)網(wǎng)公司產(chǎn)品總監(jiān)和運(yùn)營(yíng)總監(jiān)，他們?cè)谶@里與你一起成長(zhǎng)。

合作伙伴

鏈接

隱私政策

投稿須知

意見(jiàn)反饋

幫助中心

公眾號(hào)

視頻號(hào)

友情鏈接

PM265

產(chǎn)品經(jīng)理導(dǎo)航

起點(diǎn)課堂

豬八戒網(wǎng)

人才熱線

伙伴云表格

網(wǎng)易易盾

個(gè)推

友盟+

糧倉(cāng)

創(chuàng)業(yè)邦

每日?qǐng)?bào)告

鳥(niǎo)哥筆記

慕課網(wǎng)

旗下品牌: 起點(diǎn)課堂 | 運(yùn)營(yíng)派 | 糧倉(cāng)企微管家
?2010-2024 - 人人都是產(chǎn)品經(jīng)理 - 粵ICP備14037330號(hào)-粵公網(wǎng)安備 44030502001309號(hào)
廣播電視節(jié)目制作經(jīng)營(yíng)許可證（粵）字第03109號(hào) 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證粵B2-20190788 版權(quán)所有 ? 深圳聚力創(chuàng)想信息科技有限公司

谷歌Gemini扳回一局！多模態(tài)能力和GPT-4V不分伯仲｜港中文128頁(yè)全面測(cè)評(píng)報(bào)告

一、Gemini-Pro的首份多模態(tài)能力報(bào)告來(lái)了

二、MME上綜合表現(xiàn)比GPT-4V強(qiáng)

1. 基礎(chǔ)感知

2. 高級(jí)認(rèn)知

3. 挑戰(zhàn)性視覺(jué)任務(wù)

4. 各種專家能力

三、總結(jié)評(píng)價(jià)：都是“半斤八兩”

為我投票

谷歌Gemini扳回一局！多模態(tài)能力和GPT-4V不分伯仲｜港中文128頁(yè)全面測(cè)評(píng)報(bào)告

二、MME上綜合表現(xiàn)比GPT-4V強(qiáng)

三、總結(jié)評(píng)價(jià)：都是“半斤八兩”