馬斯克新作!Grok-1.5V多模態模型震撼發布:數字與物理世界完美融合
馬斯克xAI的多模態模型Grok-1.5V橫空出世了!不僅多項基準測試超越GPT-4V,而且看懂梗圖寫Python代碼也都不在話下。并且,為了評估模型對于真實世界的空間理解,xAI此次還推出了新基準RealWorldQA。
馬斯克的第一代多模態模型Grok-1.5V,終于來了!
Grok 1.5V,號稱是能連接數字世界和物理世界。
除了文本功能,它還能處理文檔、圖標、屏幕截圖和照片之類的各種視覺信息。
很快,所有早期測試者和所有Grok用戶就能用上Grok 1.5V了。
英偉達高級科學家Jim Fan發現了Grok-1.5V的「最大亮點」:在他看來,Grok-1.5V最令人感興趣的,就是解決自動駕駛邊緣案例的潛力。
如果使用語言進行「思維鏈」,幫助汽車分解復雜場景,用規則和反事實進行推理,解釋其決策,Grok-1.5V就能將像素->動作映射提升為像素->語言->動作。
由此,特斯拉FSD V13就很有可能會理解語言Token!
特斯拉的優勢是,具有高度成熟的數據管線,因此,就不難用高質量的人類解釋痕跡來標記大量邊緣案例,在多模態FSD推理上,微調Grok的表現就很有可能會遠勝于GPT-4V和Gemini。
你可能會說,以前Wayve的LINGO-1不是也有類似的想法么?但別忘了,特斯拉正在旋轉的,是一個無與倫比的數據飛輪,規模遠超以前。
馬斯克也適時地出現在了留言區,進一步解釋道——
有兩種數據源可以無限擴展,合成數據和真實世界視頻。前者存在一個真偽的問題,而后者則不存在。
有網友表示,好家伙,這聽起來是通往AGI最可行的路徑了!具有顯式語言推理的多模態模型,始終如一地推斷世界模型。
一、模型能力
在xAI的官網上,對于Grok-1.5V是這樣介紹的。
它可以和GPT-4V、Claude 3 Sonnet、Claude 3 Opus等這些最頂尖的多模態模型對打。
無論是多學科推理,還是文檔理解、科學圖表、表格、截圖和照片等多個領域,Grok-1.5V都和它們有的一拼。
尤其令人驚喜的,是它在理解物理世界時表現出的卓越能力。
在RealWorldQA基準測試中,沒有思維鏈提示、零樣本設置的情況下,用以下數據集對Grok進行評估,可以看到Grok的表現比同類模型更好。
下面7個具有代表性的例子,更說明了Grok 1.5V在不同場景中的良好表現。
1. 根據圖表編寫代碼
下圖給出了一個簡單的猜謎游戲的流程圖,Grok可以根據流程圖具體內容,使用python代碼實現該流程。
用戶:
你能把它翻譯成Python代碼嗎?
Grok:
當然!這張流程圖描述了一個簡單的猜謎游戲,其中計算機生成一個隨機數,而用戶需要猜出它是什么。下面是表示流程圖中邏輯的Python代碼:
import random
def guess_number(): # Generate a random number between 1 and 10
target = random.randint(1, 10)
while True:
guess = int(input(“Guess a number between 1 and 10: “))
if guess == target:
print(“You won!”)
break
else:
print(“Wrong guess, try again!”)
if __name__ == “__main__”:
guess_number()
這段代碼將運行流程圖中描述的猜謎游戲。在用戶猜出正確數字之前,系統會一直提示用戶輸入猜測的數字。
2. 計算卡路里
根據食品的營養配料表,Grok可以知道該食品一份份量是3片、含有60卡路里的熱量,由此計算出,用戶給出5片該食品的卡路里總數是100。
用戶:
5片含有多少卡路里?
Grok:
如果一份包含3片,總熱量為60卡路里,那么5片的熱量大約是100卡路里。
首先,確定每片的熱量:60卡路里÷3片=20卡路里/片。
接著,將每片的熱量乘以片數:20卡路里x5片=100卡路里。
3. 從繪畫到睡前故事
Grok可以根據畫作的內容,講述一個簡短的睡前故事。
比如下面這個隨筆涂鴉:
用戶:
這是我兒子畫的,你能根據他的畫講一個睡前小故事嗎?
Grok:
很久很久以前,在一個充滿冒險與奇跡的土地上,生活著一個勇敢的小男孩,名叫Timmy。他與家人住在一個溫暖的小屋里,最喜歡的事情就是探索周圍的世界。
在一個陽光明媚的日子里,Timmy決定去附近的森林探險。他準備了自己最愛的零食、一只指南針和一本信賴的筆記本,用來記錄他即將見到的所有奇妙事物。
深入森林后,Timmy發現了一條在陽光照耀下閃閃發光的神奇河流。河流的迷人景致讓他決定做一只小紙船,把它放在水面上,作為對森林精靈的一份特別的問候。
Timmy小心翼翼地折好紙船,并在上面畫了一個笑臉,寄托了他對森林精靈的喜愛和祝福。隨后,他輕輕地把紙船放在河流中,目送它隨水漂流而去。
夕陽西下,Timmy知道該回家了。他回想起在森林中度過的這一天,知道這段美好的記憶將永遠伴隨著他。
回到家,Timmy向家人講述了他的冒險,家人聽后都感到非常高興,并相信他未來定會經歷更多精彩的冒險。
于是,帶著滿心的愛與夢想,Timmy慢慢進入了夢鄉,期待在他的想象世界里探索新的冒險。
4. 看懂梗圖
下面這張梗圖,左邊是初創公司,右邊是大公司,講的是什么意思呢?
小編第一眼是沒看懂??赐闓rok的解釋,才恍然大悟。
用戶:
我不是很理解這幅圖,請解釋一下。
Grok:
這幅圖幽默地展示了初創企業和大公司在工作方式上的差異。
在左側的「初創企業」里,一群人齊心協力挖掘一個深洞,每個人都在積極地參與。
而在右側的「大公司」里,只有一人在挖洞,其他人只是在旁邊看著。
這幅圖的幽默之處在于夸大了兩種組織形態的不同。
初創企業通常會讓每個人都直接參與到核心任務中,而大公司則可能因為其龐大的結構和官僚體制,使得團隊成員無法接觸到項目的每一個細節。
5. 將表格轉換為CSV
Grok可以將表格內容轉換成CSV格式。
用戶:
請將這個表轉換為CSV格式。
Grok:
圖像中的表格可以轉換成CSV格式,如下所示:
medal,name,sport,event,date
21 gold,El Amin Chentouf,Athletics,Men’s marathon – T13,11 September
31 gold,Mohamed Amguoun,Athletics,Men’s 400m – T13,15 September
41 gold,Azeddine Nouiri,Athletics,Men’s shot put – T34,15 September
52 silver,Mahdi Afri,Athletics,Men’s 400m – T12,9 September
62 silver,El Amin Chentouf,Athletics,Men’s 5000m – T13,15 September
73 bronze,Mahdi Afri,Athletics,Men’s 200m – T12,17 September
83 bronze,Mohamed Lahna,Paratriathlon,Men’s PT2,10 September
請注意,CSV格式不支持樣式或格式化,因此信息以純文本格式顯示。
6. 地板上的腐爛木頭,都能給出建議
地板上的木材腐爛了怎么辦?
照片拍給Grok,它可以幫我們判斷腐爛情況,還能給出合理的處理建議。
用戶:
我地板上的螺絲周圍出現了這些洞。是腐爛了嗎?我應該更換木板嗎?
Grok:
這些木板似乎已經開始腐爛。從螺絲周圍出現的孔洞可以看出,這是木材腐爛的典型跡象。
為了確保地板的安全并延長使用的壽命,建議你更換那些已經受損的木板。這樣做可以避免地板進一步的損害,并保持其結構的穩固。
如果你不知道如何更換木板,可以尋求專業地板建造商或承包商的幫助。他們會對損害的程度進行評估,并為你提供關于地板維護的專業建議。
7. 解決編碼問題
編碼問題,Grok-1.5V也是不在話下。
用戶:
你能寫出解決這個問題的Python代碼嗎?
Grok:
def find_triplets(nums):
result = []
nums.sort()
for i in range(len(nums) – 2):
if i > 0 and nums[i] == nums[i – 1]:
continue
target = -nums[i]
left = i + 1
right = len(nums) – 1
while left < right:
if nums[left] + nums[right] == target:
result.append([-target, nums[left], nums[right]])
left += 1
right -= 1
while left < right and nums[left] == nums[left – 1]:
left += 1
while left < right and nums[right] == nums[right + 1]:
right -= 1
elif nums[left] + nums[right] < target:
left += 1
else:
right -= 1
return result
二、對現實世界的理解
開發有用的現實世界AI助手,提高模型對物理世界的理解是至關重要的。
為了實現這一目標,研究團隊還推出了一個新的基準——RealWorldQA。
該基準可以用于評估多模態模型對于基本現實世界空間的理解能力。
雖然當前基準中的許多示例對人類來說理解比較容易,但對于前沿模型來說還是具有一定的挑戰性。
最初發布的RealWorldQA包含700多張圖片,每張圖片都有一個問題和易于驗證的答案。
例如,如果我們問它:圖片中的披薩刀和剪刀哪個物體更大?
Grok給出的答案是:它們的大小差不多。
從當前車道可以去哪里?A.左轉 B.直走 C.左轉直行 D.右轉
Grok會選A。
從轎車前方的攝像頭來看,是否有足夠的空間繞過前面的灰色轎車?
Grok給出的答案是:是。
從這個圖片來看,恐龍是朝向哪個方向?
Grok回答:東。
除了其他真實世界的圖像外,該數據集還包括從車輛上拍攝的匿名圖像。
研究團隊將該數據集進行了開源,并希望隨著多模態模型的改進而不斷擴展該數據集。
最后,xAI官網總結道,憑著提高多模態理解和生成能力,它們將逐漸逼近構建能夠理解宇宙的有益AGI。
而接下來幾個月里,估計我們還會看見圖像、音頻、視頻等多模態上,這兩項能力的重大改進。
參考資料:
https://x.ai/blog/grok-1.5v
https://twitter.com/DrJimFan/status/1779558822543229221
編輯:編輯部
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。
本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
不僅在多項基準測試中超越了GPT-4V,還展示了在理解和連接數字與物理世界方面的驚人潛力。Grok-1.5V的能力,從編寫代碼到理解梗圖,再到解決實際問題