解讀 ChatGPT-4V 多模態能力

0 評論 1943 瀏覽 3 收藏 6 分鐘

下面是筆者整理分享的一篇解讀關于 ChatGPT-4V 多模態能力的文章,其中包括物體檢測、人臉識別、文本識別、識別復雜驗證碼能力等的知識,大家可以進來了解了解。

今天 OpenAI 發布重大更新,支持多模態語音和圖像,模型叫 GPT-4V。

用一句話總結:ChatGPT 由「一個完美的詞語接龍工具」,現在升級能看懂你發的圖片,聽懂你的聲音,還能說話了!

千萬不要想,這個更新沒新東西,有人已經拿它開始賺錢了!

Spotify 推出一個名為”Voice Translation for podcasts”的 AI 工具,可以將播客翻譯成其他語言,并保持原始發言人的聲音風格。

好像比同聲翻譯還厲害了點(目前接口還沒有對外開放)。

對于開發者來說,研發成本大幅度降低。是不是可訓練一個可以說話的小助理了?

講點實用,那這個更新,我們可以用來干什么?

我就基于官方的更新說明,逐個分析給大家。

一、GPT-4V說明

1. 物體檢測

檢測和識別圖像中的常見物體,如汽車、動物、家居用品等。

這個能干啥?

官方給了一個例子:比如“如何調整自行車座椅高度”。

不知道怎么調整,手機拍下發給 ChatGPT,它來告訴你。不知道用什么工具,把你手邊能用的工具拍下來給GPT,它告訴你選哪種更合適。

就像在現實世界中,身邊有個專家,手把手教你怎么解決問題。

這個能力是可以工業化的,因為ChatGPT是可以調用外部接口。

ChatGPT 能看到圖像,并且可以通過接口,調用工具來處理一些復雜的事務。比如機器人等。

2. 人臉識別

可以識別圖像中的人臉,并能根據面部特征,識別性別、年齡和種族屬性。其面部分析能力是在 FairFace 和 LFW 等數據集上進行測量的。

那接下來是不是可以識別抑郁癥等疾?。?/p>

雖然官方重點聲明了 “目前在科學研究和醫療用途中性能不可靠”。

但未嘗不是一個突破點。

3. 文本識別

有字符識別 (OCR) 功能,可以檢測圖像中的打印或手寫文本,并將其轉錄為可讀文本。

這相當于對現在的圖片轉文字功能,能力進行了升級,不僅僅有識別能力,還能推理并修正錯誤的信息,對開發者來說利好。

目前我認識的朋友,就有這個需求,一下子就解決了他的問題。

4. 識別復雜驗證碼能力

能通過視覺推理,來識別基于文本和圖像的驗證碼,這表明 GPT 有高級的解謎能力!

可能會暴力破解一些驗證碼工具,或者在科研領域,會有一些意想不到的效果。

5. 地理定位

可根據圖中的風景,識別出是在哪個城市。

二、GPT-4V 視覺推理不足的地方

官方重點聲明了“目前在科學研究和醫療用途中性能不可靠”。

總結一下:GPT-4V 在空間的識別上,能力不足。

1. 復雜圖像

該模型難以準確解釋復雜的科學圖表、醫學掃描或具有多個重疊文本組件的圖像。它沒有上下文細節,不能有效地提供服務。

2. 空間關系

模型很難理解圖像中,物品的精確空間布局和位置。它無法正確傳達物品之間的相對位置。

3. 重疊

當圖像中的物品嚴重重疊時,GPT-4V 有時無法區分一個物品結束位置和下一個對象的開始位置。它會將不同的對象混合在一起。

4. 背景/前景

模型并不總是準確地感知圖像的前景和背景中的對象。它可能會錯誤地描述對象關系。

5. 遮擋

當圖像中某些對象被其他對象部分遮擋或遮擋時,GPT-4V 可能無法識別被遮擋的對象或錯過它們與周圍對象的關系。

6. 小細節

模型經常會錯過或誤解非常小的物體、文本或圖像中的復雜細節,從而導致錯誤的關系描述。

7. 下文推理

GPT-4V 缺乏強大的視覺推理能力,來深入分析圖像的上下文,并描述對象之間的隱式關系。

8. 置信度

模型可能會錯誤地描述對象關系,與圖像內容不符。

最后,GPT-4V(ision)的訓練完成于2022年,我們和Open的差距,看來不止3個月??!

加油啊,國內的大模型廠家!

本文由@產品淺談 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!